Технологія аналізу olap. Створення olap-додатки

Метою курсової роботи є вивчення технології OLAP, поняття її реалізації та структури.

У сучасному світі комп'ютерні мережі та обчислювальні системи дозволяють аналізувати та обробляти великі масиви даних.

Великий обсяг інформації дуже ускладнює пошук рішень, але дає можливість отримати набагато точніше розрахунки та аналіз. Для вирішення такої проблеми існує цілий клас інформаційних систем, які виконують аналіз. Такі системи називають системами підтримки ухвалення рішень (СППР) (DSS, Decision Support System).

Для виконання аналізу СППР має накопичувати інформацію, володіючи засобами її введення та зберігання. Усього можна виділити три основні завдання, які вирішуються в СППР:

· ввід данних;

· збереження даних;

· Аналіз даних.

Введення даних у СППР здійснюється автоматично від датчиків, що характеризують стан середовища або процесу, або людиною-оператором.

Якщо введення даних здійснюється автоматично від датчиків, дані накопичуються за сигналом готовності, що виникає при появі інформації або шляхом циклічного опитування. Якщо ж введення здійснюється людиною, то вони повинні надавати користувачам зручні засоби для введення даних, які перевіряють їх на правильність введення, а також виконувати необхідні обчислення.

При введенні даних одночасно кількома операторами, необхідно вирішувати проблеми модифікації та паралельного доступу тих самих даних.

СППР надає аналітику дані у вигляді звітів, таблиць, графіків вивчення та аналізу, саме тому такі системи забезпечують виконання функції підтримки прийняття рішень.

У підсистемах введення даних, званих OLTP (On-linetransactionprocessing), реалізується операційна обробка даних. Для реалізації використовують стандартні системи управління БД (СУБД).

Підсистема аналізу може бути побудована на основі:

· Підсистеми інформаційно-пошукового аналізу на базі реляційних СУБД та статичних запитів з використанням мови SQL;

· Підсистеми оперативного аналізу. Для реалізації таких підсистем використовується технологія оперативної аналітичної обробки даних OLAP, яка використовує концепцію багатовимірного представлення даних;

· Підсистеми інтелектуального аналізу. Ця підсистема реалізує методи та алгоритми DataMining.

З точки зору користувача, OLAP-системи представляють засоби гнучкого перегляду інформації в різних зрізах, автоматичного отримання даних, агрегованих даних, виконання аналітичних операцій згортки, деталізації, порівняння в часі. Завдяки цьому OLAP-системи є рішенням з великими перевагами в галузі підготовки даних для всіх видів бізнес-звітності, що передбачають подання даних у різних розрізах та різних рівнях ієрархії, таких як звітів з продажу, різних форм бюджетів та інших. OLAP-системи має великі плюси подібного уявлення та інших формах аналізу даних, зокрема прогнозування.

1.2 Визначення OLAP -систем

Технологія комплексного багатовимірного аналізу даних одержала назву OLAP. OLAP – це ключовий компонент організації ХД.

OLAP-функціональність може бути реалізована різними способами як найпростішими, такими як аналіз даних в офісних додатках, так і більш складними - розподіленими аналітичними системами, заснованими на серверних продуктах.

OLAP (On-LineAnalyticalProcessing) – технологія оперативної аналітичної обробки даних, що використовує засоби та методи для збору, зберігання та аналізу багатовимірних даних та цілей підтримки процесів прийняття рішень.

Основне призначення OLAP-систем – підтримка аналітичної діяльності, довільних запитів користувачів-аналітиків. Метою OLAP-аналізу є перевірка гіпотез, що виникають.

OLAP-звіт відрізняється від звичайного тим, що ви самі визначаєте параметри, за якими хочете отримати інформацію. У системі iiko такі звіти можуть бути побудовані для аналізу будь-яких даних. Наприклад, про суми виручки, популярні страви, ефективність роботи співробітників, витрати товарів і т.д.

Якщо торгове підприємство входить у мережу, управління якої ведеться за допомогою iikoChain, то OLAP-звіти можуть бути централізовано налаштовані в Chain і потім репліковані в RMS. Редагування та видалення таких «централізованих» OLAP-звітів в окремих торгових підприємствах неможливе.

При реплікації звіти iikoRMS замінюються аналогічними за назвою «централізованими» звітами, завантаженими з iikoChain.

У системі існує два види OLAP-звітів:

  • OLAP Звіт з продажудля аналізу будь-якої інформації, що проходить за пробитими чеками. Що означають параметри звіту та як вони розраховуються, див. статтю Поля OLAP-звіту з продажу .
  • OLAP Звіт з проводокдля аналізу інформації щодо зареєстрованих проводок. Проведення – це відображення будь-якої операції, яка викликала рух коштів за внутрішніми рахунками системи.

Наприклад, у звіті про продаж можна переглянути інформацію про кількість реалізованих страв та кількість гостей, які купували їх щодня, але для того, щоб подивитися, як списувалися інгредієнти проданих страв, необхідно використовувати Звіт з проводок. Це пов'язано з тим, що для системи продаж – це окрім отриманих від гостя грошей списання зі складу товарів, що є інгредієнтами страв. Кожне таке списання – це окреме проведення.

Дані звіти розміщені у пункті меню Звіти. Крім того, OLAP Звіт з продажу можна побудувати зі списку касових змін. Для цього у пункті меню Роздрібні продажі Касові змінипозначте галочками зміни, що цікавлять, і в меню Діївиберіть пункт Створити новий OLAP-звіт.

В OLAP-Звіті з продажу вже надано звіти для аналізу сум виручки. Щоб побудувати один із цих звітів, потрібно просто вибрати його назву в полі Формат звіту.

Щоб додати новий звіт:

  1. Перетягніть параметри в область даних.
  2. Натисніть кнопку Зберегти як.
  3. Введіть назву та виберіть тип звіту:
  • "Для всіх користувачів" – звіт доступний усім користувачам.
  • "Тільки для мене" - звіт доступний тільки творцю.
  1. Натисніть кнопку Зберегти.

Користувач із правом «Редагувати спільні OLAP-звіти» ( B_ESOR) може створювати та редагувати всі звіти, у тому числі доступні для всіх користувачів.

Якщо права «Редагувати спільні OLAP-звіти» ( B_ESOR) У користувача немає, то він може створювати та зберігати тільки особисті звіти. Загальні йому доступні лише для читання та редагування без збереження змін

Показники, які можна додати до звіту, розміщуються у лівій частині в алфавітному порядку. Під назвою кожного з них вказано групу, в яку цей показник входить.

Для побудови звіту перетягніть параметри, що цікавлять, в області рядків, колонок або даних таблиці. Область, в якій ви можете розмістити параметр, підсвічуватиметься синім.

Для полегшення пошуку потрібного показника введіть назву в пошуковий рядок:

Усі параметри розбиті на групи. Кнопка під назвою групи підсвічується синім кольором. Якщо натиснути на неї, тим самим знявши підсвічування, то кнопки з параметрами, що належать до цієї групи, зникнуть зі списку. Наприклад, якщо при побудові певного звіту вас не цікавить інформація про те, в якому з місць обслуговування (відділень) було оформлено позицію та на якій касі було закрито замовлення, то можна приховати параметри групи «Організація».

В якості додаткового відбору дані звіту можуть бути обмежені одним або декількома значеннями параметра, що цікавить. Для цього:


Значення параметрів можна відбирати певним чином, використовуючи для цього тип фільтрації:

  • Включає: у звіті будуть представлені дані лише за значеннями, зазначеними у фільтрі галочками. Значення, яких не було в списку в момент налаштування фільтра, надалі до звіту не потраплять (наприклад, якщо з'явилися нові страви, то у звіті з продажу вони не відображатимуться).
  • Виключаючий: у звіті будуть представлені дані по всіх значеннях, крім тих, які позначені галочками в даному фільтрі. Щоб вибрати цей тип, натисніть кнопку Включає, в результаті на ній зміниться напис і застосовується тип фільтра Виключаючий.

Показники, до яких застосовані фільтри, виділяються темним кольором і розміщуються на початку списку, якщо не були додані в область рядків, стовпчиків або даних таблиці.

Якщо ви будуєте або перебудовуєте звіт, що містить багато даних, рекомендується знімати галочку з поля АвтооновленняТак це може сильно збільшити час формування звіту. Якщо галочка в цьому полі стоїть, то в реальному часі відстежуються всі зміни даних, представлених у звіті, і негайно відображаються в ньому.

Інформацію з продажу та проводок, зареєстрованих у iiko, ви також можете отримати через Інтернет за допомогою

Мета доповіді

У цій доповіді йтиметься про одну з категорій інтелектуальних технологій, які є зручним аналітичним інструментом – OLAP-технологіями.

Мета доповіді: розкрити та висвітлити 2 питання: 1) поняття OLAP та їх прикладне значення у фінансовому управлінні; 2) реалізація OLAP-функціональності у програмних рішеннях: відмінності, можливості, переваги, недоліки.

Відразу хочу відзначити, що OLAP – це універсальний інструмент, який може бути використаний у будь-якій прикладній галузі, а не лише у фінансах (як це може бути зрозуміло з назви доповіді), що потребує аналізу даних різними методами.

Управління фінансами

Управління фінансами - область, в якій як ні в якій іншій важливий аналіз. Будь-яке фінансово-управлінське рішення виникає як результат певних аналітичних процедур. Сьогодні управління фінансами набуває значної ролі для успішного функціонування підприємства. Незважаючи на те, що фінансовий менеджмент є допоміжним процесом на підприємстві, він потребує особливої ​​уваги, оскільки помилкові фінансово-управлінські рішення можуть призвести до великих втрат.

Управління фінансами спрямоване на забезпечення підприємства фінансовими ресурсами у необхідних обсягах, у потрібний час та у потрібному місці з метою отримання максимального ефекту від їх використання шляхом оптимального розподілу.

Мабуть, важко визначити рівень максимальної ефективності використання ресурсів, але в будь-якому випадку,

Фінансовий директор завжди повинен знати:

  • скільки фінансових ресурсів є?
  • звідки надходитимуть кошти та в яких обсягах?
  • куди вкладати ефективніше і чому?
  • і в які моменти часу все це потрібно робити?
  • скільки потрібно забезпечення нормальної діяльності підприємства?

Щоб отримувати обґрунтовані відповіді на ці питання необхідно мати, аналізувати та знати як аналізувати досить велику кількість показників діяльності. Крім того, ФУ охоплює величезну кількість областей: аналіз грошових потоків (руху коштів), аналіз активів та пасивів, аналіз прибутковості, маржинальний аналіз, аналіз рентабельності, асортиментний аналіз.

Знання

Тому ключовим фактором ефективності процесу управління фінансами є наявність знань:

  • Особисті знання у предметній галузі (можна сказати теоретико-методологічні), включаючи досвід, інтуїцію фінансиста/фінансового директора
  • Загальні (корпоративні) знання або систематизована інформація про факти здійснення фінансових операцій на підприємстві (тобто інформація про минулий, сучасний та майбутній стан підприємства, представлена ​​в різних показниках та вимірах)

Якщо перше лежить у сфері дій цього фінансиста (або директора з персоналу, який наймав цього працівника), то друге має цілеспрямовано створюватись на підприємстві спільними зусиллями працівників фінансових та інформаційних служб.

Що є зараз

Однак зараз на підприємствах типова парадоксальна ситуація: інформація є, її дуже багато, надто багато. Але вона перебуває у хаотичному стані: неструктурована, неузгоджена, розрізнена, не завжди достовірна та часто помилкова, її практично неможливо знайти та отримати. Проводиться тривала і найчастіше марна генерація гір фінансової звітності, яка незручна фінансового аналізу, важка сприйняття, оскільки створюється задля внутрішнього управління, а надання зовнішнім контролюючим органам.

За результатами дослідження, проведеного фірмою ReutersСеред 1300 міжнародних менеджерів, 38% опитаних стверджують, що витрачають багато часу, намагаючись знайти потрібну інформацію. Виходить, що висококваліфікований фахівець витрачає високооплачуване час не так на аналіз даних, але в збір, пошук і систематизацію необхідної цього аналізу інформації. У той же час менеджери зазнають важкого завантаження даними, які часто не мають жодного відношення до справи, що знову-таки знижує ефективність їх роботи. Причина такої ситуації: надлишок інформації та брак знань.

Що треба робити

Інформація має перетворюватися на знання. Для сучасного бізнесу цінна інформація, її систематичне придбання, синтез, обмін, використання – це свого роду валюта, але для того, щоб її отримувати, необхідно керувати інформацією, як будь-яким бізнес-процесом.

Ключем до управління інформацією є доставка необхідної інформації у належному вигляді зацікавленим особам у межах організації у конкретний час. Мета такого управління полягає в тому, щоб допомогти людям краще працювати разом, використовуючи зростаючі обсяги інформації.

Інформаційні технології в даному випадку виступають засобом, за допомогою якого можна було б систематизувати інформацію на підприємстві, надати певним користувачам до неї доступ і дати їм інструментальні засоби для перетворення цієї інформації на знання.

Базові поняття OLAP-технологій

OLAP-технології (від англ. On-Line Analytical Processing) - це назва не конкретного продукту, а цілої технології оперативного аналізу багатовимірних даних, накопичених у сховищі. Для того, щоб зрозуміти сутність OLAP, необхідно розглянути традиційний процес отримання інформації для прийняття рішень.

Традиційна система підтримки прийняття рішень

Тут, звичайно, теж може бути багато варіантів: повний інформаційний хаос або найбільш типова ситуація, коли на підприємстві існують оперативні системи, за допомогою яких реєструються факти здійснення певних операцій та їх зберігання в базах даних. Для отримання даних з баз для аналітичних цілей побудована система запитів певних вибірок даних.

Але такий спосіб підтримки прийняття рішень позбавлений гнучкості та має багато недоліків:

  • використовується дуже мала кількість даних, які можуть бути корисними для прийняття рішень
  • іноді створюються складні багатосторінкові звіти, у тому числі реально використовуються 1-2 рядки (інше – про всяк випадок) – інформаційне навантаження
  • повільна реакція процесу на зміни: якщо необхідне нове подання даних, запит має бути формально описаний і закодований програмістом, тільки потім виконаний. Час очікування: годинник, дні. А можливе рішення необхідне зараз, негайно. Адже після отримання нової інформації, виникне нове питання (уточнююче)

Якщо звіти по запитах подаються в одновимірному форматі, то проблеми бізнесу зазвичай багатовимірні та багатогранні. Якщо потрібно отримати ясну картину бізнесу компанії, необхідно аналізувати дані в різних розрізах.

Багато компаній створюють прекрасні реляційні бази даних, ідеально розклавши по поличках гори інформації, яка не використовується, яка сама по собі не забезпечує ні швидкої, ні достатньо грамотної реакції на ринкові події. ТАК – реляційні БД були, є і будуть найбільш підходящою технологією для зберігання корпоративних даних. Йдеться не про нову технологію БД, а, швидше, про інструментальні засоби аналізу, що доповнюють функції існуючих СУБД і досить гнучкі, щоб передбачити та автоматизувати різні види інтелектуального аналізу, притаманні OLAP.

Розуміння OLAP

Що надає OLAP?

  • Розвинені інструменти доступу до даних сховища
  • Динамічне інтерактивне маніпулювання даними (обертання, консолідації або деталізації)
  • Наочне візуальне відображення даних
  • Швидкість – аналіз здійснюється у реальному режимі часу
  • Багатовимірне подання даних - одночасний аналіз низки показників з кількох вимірів

Для отримання ефекту від використання OLAP-технологій необхідно: 1) розуміти сутність самих технологій та їх можливості; 2) чітко визначитися, які процеси необхідно аналізувати, якими показниками вони будуть характеризуватись і в яких вимірах їх доцільно бачити, тобто створити модель аналізу.

Базові поняття, якими оперують OLAP-технології, такі:

Багатовимірність

Для розуміння багатовимірності даних, спочатку слід подати таблицю, що відображає, наприклад, виконання витрат підприємства з економічних елементів та бізнес-одиницям.

Ці дані представлені у двох вимірах:

  • стаття
  • бізнес-одиниця

Ця таблиця не інформативна, оскільки показує продаж за один якийсь проміжок часу. Для різних часових періодів, аналітикам доведеться зіставляти кілька таблиць (за кожен період часу):

На малюнку видно 3-й вимір, Час, на додаток до перших двох. (Стаття, бізнес-одиниця)

Інший спосіб показати багатовимірні дані - це уявити їх у формі куба:

OLAP-куби дозволяють аналітикам отримувати дані на різних зрізах для отримання відповідей на питання, які ставить бізнес:

  • Які витрати у яких бізнес-одиницях критичні?
  • Як змінюються витрати бізнес-одиниць у часі?
  • Як змінюються статті витрат у часі?

Відповіді на такі питання необхідні для прийняття управлінських рішень: про скорочення певних статей витрат, вплив на їхню структуру, виявлення причин змін витрат у часі, відхилень від плану та їх ліквідація – оптимізація їхньої структури.

У цьому прикладі розглянуто лише 3 виміри. Важко зобразити більше 3-х вимірів, але це працює так само, як і у випадку з трьома вимірами.

Зазвичай OLAP-додатки дозволяють отримувати дані по 3 і більше вимірів, наприклад, можна додати ще один вимір – План-Факт, Категорія витрат: прямі, непрямі, Замовлення, Місяці. Додаткові вимірювання дозволяють отримувати більше аналітичних зрізів та забезпечують відповіді на питання з кількома умовами.

Ієрархічність

OLAP також дозволяє аналітикам організовувати кожен вимір у вигляді ієрархії, що складається з груп та підгруп та підсумкових значень, що відображають показник по всій організації – найбільш логічний спосіб аналізувати бізнес.

Наприклад, витрати доцільно згрупувати ієрархічно:

OLAP дозволяє аналітикам отримати дані загальному зведеному показнику (на самому верхньому рівні), а потім деталізувати до нижнього та наступного за ним рівня, і таким чином відкрити точну причину зміни показника.

Дозволяючи аналітикам використовувати кілька вимірів у кубі даних, з можливістю ієрархічно побудованих вимірів, OLAP дозволяє отримати картину бізнесу, яка не стиснута структурою інформаційного сховища.

Зміна напрямів аналізу у кубі (обертання даних)

Як правило, оперують поняттями: вимірювання, задані в стовпцях, рядках (їх може бути кілька), інші формують зрізи, зміст таблиці формують розмірності (продажу, витрати, кошти)

Як правило, OLAP дозволяють змінювати орієнтацію вимірювань куба, тим самим представляючи дані в різних уявленнях.

Відображення даних куба залежить від:

  • орієнтації вимірів: які виміри задані у рядках, стовпцях, зрізах;
  • груп показників, виділених у рядках, стовпцях, зрізах.
  • Зміна вимірювань лежить у діях користувача.

Таким чином, OLAP дозволяє проводити різні види аналізу та розуміти їх взаємозв'язки їх результатів.

  • Аналіз відхилень – аналіз виконання плану, що доповнюється факторним аналізом причин відхилень шляхом деталізації показників.
  • Аналіз залежностей: OLAP дозволяє виявляти різні залежності між різними змінами, наприклад при видаленні з асортименту пива протягом перших двох місяців виявилося падіння продажів вобли.
  • Зіставлення (порівняльний аналіз). Порівняння результатів зміни показника у часі, для заданої групи товарів, у різних регіонах та інших.
  • Аналіз динаміки дозволяє виявити певні тенденції зміни показників у часі.

Оперативність: можна сказати, що в основу OLAP покладено закони психології: можливість обробки інформаційних запитів у реальному часі - в темпі процесу аналітичного осмислення даних користувачем.

Якщо з реляційної бази даних можна вважати близько 200 записів на секунду і записати 20, то хороший OLAP-сервер, використовуючи розрахункові рядки та стовпці, може консолідувати 20 000-30 000 осередків (еквівалентно одному запису в реляційній базі даних) за секунду.

Наочність: Слід підкреслити, що OLAP надає розвинені засоби графічного представлення даних кінцевому користувачеві. Людський мозок здатний сприймати та аналізувати інформацію, яка представлена ​​у вигляді геометричних образів, в обсязі на кілька порядків більшому, ніж інформацію, представлену в алфавітно-цифровому вигляді. приклад: Нехай Вам потрібно знайти знайоме обличчя на одній із ста фотографій Я вважаю, що цей процес займе у Вас не більше хвилини. А тепер уявіть собі, що замість фотографій Вам запропонують сто словесних описів тих самих осіб. Думаю, що Вам взагалі не вдасться вирішити запропоноване завдання.

Простота: Головною особливістю цих технологій є те, що вони орієнтовані на використання не фахівцем у галузі інформаційних технологій, не експертом-статистиком, а професіоналом у прикладній галузі – менеджером кредитного відділу, менеджером бюджетного відділу, нарешті, директором. Вони призначені для спілкування аналітика із проблемою, а не з комп'ютером.

Незважаючи на великі можливості OLAP (крім того, ідея порівняно давня – 60-ті роки) реальне застосування практично не зустрічається на наших підприємствах. Чому?

  • відсутня інформація або не зрозумілі можливості
  • звичка мислити двовимірно
  • ціновий бар'єр
  • надмірна технологічність статей, присвячених OLAP: відлякують незвичні терміни – OLAP, «розкопка та зрізи даних», «нерегламентовані запити», «виявлення суттєвих кореляцій»

Наш підхід та західний до застосування OLAP

Крім того, ми також маємо специфічне розуміння прикладної корисності OLAP навіть при розумінні його технологічних можливостей.

Наші та російські автори різних матеріалів, присвячених OLAP, висловлюють таку думку щодо корисності OLAP: більшість сприймає OLAP як такий інструмент, який дозволяє розгортати та згортати дані просто та зручно, здійснюючи маніпуляції, які приходять аналітику в голову в процесі аналізу. Чим більше «зрізів» та «розрізів» даних аналітик бачить, тим більше у нього ідей, які, у свою чергу, для перевірки вимагають нових і нових «зрізів». Це не правильно.

В основі західного розуміння корисності OLAP лежить методологічна модель аналізу, яку необхідно закласти під час проектування OLAP-рішень. Аналітик не повинен грати з OLAP-кубом і безцільно змінювати його вимірювання та рівні деталізації, орієнтацію даних, графічне відображення даних (а це дійсно займає!), а чітко розуміти, які уявлення йому потрібні, в якій послідовності та навіщо (звичайно, елементи відкриттів» тут можуть бути, але це не основний елемент корисності OLAP).

Прикладне використання OLAP

  • Бюджет
  • Рух грошових коштів

Одна з найблагодатніших галузей застосування OLAP-технологій. Недаремно жодна сучасна система бюджетування не вважається завершеною без наявності у її складі OLAP-інструментарію для аналізу бюджету. Більшість бюджетних звітів легко будуються з урахуванням OLAP-систем. При цьому звіти відповідають дуже широку гаму питань: аналіз структури витрат і доходів, порівняння витрат за певними статтями в різних підрозділів, аналіз динаміки і тенденцій витрат на певні статті, аналіз собівартості та прибутку.

OLAP дозволить аналізувати приходи та відтоки коштів у розрізі бізнес-операцій, контрагентів, валют та часу з метою їх оптимізації потоків.

  • Фінансова та управлінська звітність (з аналітикою, яка необхідна керівництву)
  • Маркетинг
  • Balanced Scorecard
  • Аналіз прибутковості

За наявності відповідних даних можна знайти різну програму OLAP-технології.

OLAP -продукти

У цьому розділі мова йде про OLAP як про програмне рішення.

Загальні вимоги до OLAP-продуктів

Є багато шляхів реалізації OLAP додатків, то жодна конкретна технологія не повинна бути обов'язковою, або навіть рекомендованою. За різних умов і обставин один підхід може бути кращим за інший. Техніка реалізації включає багато різних патентованих ідей, якими так пишаються постачальники: різновиди архітектури клієнт-сервер, аналіз часових рядів, об'єктна орієнтація, оптимізація зберігання даних, паралельні процеси і т. д. Але ці технології не можуть бути частиною визначення OLAP.

Є характеристики, які мають дотримуватися у всіх OLAP-продуктах (якщо це OLAP-продукт), у яких і полягає ідеал технології. Це 5 ключових визначень, які характеризують OLAP (так званий тест FASMI): Швидкий Аналіз Розділеної Багатомірної інформації.

  • Швидкий(FAST) – означає, що система має забезпечувати видачу більшості відповідей користувачам у межах приблизно п'яти секунд. Навіть якщо система попередить, що процес триватиме суттєво довше, користувачі можуть відволіктися і втратити думку, при цьому якість аналізу страждає. Таку швидкість не просто досягти з великою кількістю даних, особливо, якщо потрібні спеціальні обчислення «на льоту». Постачальники вдаються до широкого розмаїття методів, щоб досягти цієї мети, включаючи спеціалізовані форми зберігання даних, великі попередні обчислення, або ж посилюючи апаратні вимоги. Однак повністю оптимізованих рішень на сьогоднішній день немає. На перший погляд може здаватися дивним, що при отриманні звіту за хвилину, на який нещодавно були потрібні дні, користувач дуже швидко починає нудьгувати під час очікувань, і проект виявляється набагато менш успішним, ніж у разі миттєвої відповіді, навіть ціною менш детального аналізу.
  • Розділяєтьсяозначає, що система дає можливість виконувати всі вимоги захисту даних та реалізовувати розподілений та одночасний доступ до даних для різних рівнів користувачів. Система має бути здатна обробити численні зміни даних своєчасним, безпечним способом. Це головна слабкість багатьох OLAP продуктів, які мають тенденцію припускати, що у всіх додатках OLAP потрібне лише читання, і надають спрощені засоби захисту.
  • Багатовимірною- Ключова вимога. Якби необхідно було визначити OLAP одним словом, вибрали б його. Система має забезпечити багатовимірне концептуальне подання даних, включаючи повну підтримку для ієрархій та множинних ієрархій, оскільки це визначає найбільш логічний спосіб аналізувати бізнес. Мінімальна кількість вимірювань, які мають бути оброблені, не встановлюється, оскільки це також залежить від програми, і більшість продуктів OLAP має достатню кількість вимірювань для тих ринків, на які вони націлені. І знову ж таки ми не визначаємо, яка основна технологія бази даних повинна використовуватися, якщо користувач отримує дійсно багатовимірне концептуальне подання інформації. Ця особливість - серцевина OLAP
  • Інформація.Необхідна інформація має бути отримана там, де вона необхідна, незалежно від її обсягу та місця зберігання. Однак багато залежить від програми. Потужність різних продуктів вимірюється в термінах того, скільки вхідних даних вони можуть обробляти, але не скільки гігабайт можуть зберігати. Потужність продуктів дуже різна - найбільші OLAP продукти можуть оперувати принаймні в тисячу разів великою кількістю даних у порівнянні з найменшими. З цього приводу слід враховувати багато факторів, включаючи дублювання даних, необхідну оперативну пам'ять, використання дискового простору, експлуатаційні показники, інтеграцію з інформаційними сховищами тощо.
  • Аналізозначає, що система може справлятися з будь-яким логічним та статистичним аналізом, характерним для даної програми, та забезпечує його збереження у вигляді, доступному для кінцевого користувача. Користувач повинен мати можливість задавати нові спеціальні обчислення як частину аналізу без програмування. Тобто всі необхідні функціональні можливості аналізу повинні забезпечуватись інтуїтивним способом для кінцевих користувачів. Кошти аналізу можуть включати певні процедури, типу аналізу часових рядів, розподілу витрат, валютних переказів, пошуку цілей та інших. Такі можливості широко відрізняються серед продуктів, залежно від цільової орієнтації.

Іншими словами, ці 5 ключових визначень – це цілі, на досягнення яких орієнтовані OLAP-продукти.

Технологічні аспекти OLAP

OLAP система включає певні компоненти. Існують різні схеми їхньої роботи, які той чи інший продукт може реалізувати.

Компоненти OLAP-систем (з чого складається OLAP-система?)

Як правило, OLAP-система включає наступні компоненти:

  • Джерело даних
    Джерело, з якого беруться дані для аналізу (сховище даних, база даних оперативних облікових систем, набір таблиць, комбінації перерахованого).
  • OLAP-сервер
    Дані з джерела переносяться або копіюються на OLAP-сервер, де вони систематизуються і готуються для швидшого після формування відповідей на запити.
  • OLAP-клієнт
    Інтерфейс користувача до OLAP-сервера, в якому оперує користувач

Слід зазначити, що не всі компоненти є обов'язковими. Існують настільні OLAP-системи, що дозволяють аналізувати дані, що зберігаються безпосередньо на комп'ютері користувача, і не потребують сервера OLAP.

Проте який елемент обов'язковий це джерело даних: наявність даних – це важливе питання. Якщо вони є, у будь-якому вигляді, як Excel-таблиця, у базі даних облікової системи, у вигляді структурованих звітів філій ІТ-фахівець зможе інтегрувати з OLAP-системою безпосередньо або з проміжним перетворенням. Для цього OLAP системи мають спеціальні інструменти. Якщо цих даних немає, або вони мають недостатню повноту та якість, OLAP не допоможе. Тобто OLAP – це лише надбудова над даними, а якщо їх немає, вони стають марною річчю.

Більшість даних для OLAP-програм виникають в інших системах. Однак, у деяких програмах (наприклад, для планування або бюджетування), дані можуть створюватися безпосередньо в програмах OLAP. Коли дані надходять з інших програм, зазвичай необхідно, щоб дані зберігалися в окремій, дублюючій формі для OLAP-додатка. Тому доцільно створювати сховища даних.

Слід зазначити, що термін "OLAP" нерозривно пов'язаний з терміном "сховище даних" (Data Warehouse). Сховище даних - це предметно-орієнтоване, прив'язане до часу і збори даних, що незмінюються, для підтримки процесу прийняття керуючих рішень. Дані до сховища потрапляють з оперативних систем (OLTP-систем), призначених для автоматизації бізнес-процесів, сховище може поповнюватися з допомогою зовнішніх джерел, наприклад статистичних звітів.

Незважаючи на те, що вони містять свідомо надмірну інформацію, яка і так є в базах або файлах оперативних систем, сховища даних необхідні тому, що:

  • розрізненість даних, зберігання їх у форматах різних СУБД;
  • підвищується продуктивність отримання даних
  • якщо на підприємстві всі дані зберігаються на центральному сервері БД (що буває вкрай рідко), аналітик напевно не розбереться в їх складних, часом заплутаних структурах
  • складні аналітичні запити до оперативної інформації гальмують поточну роботу компанії, надовго блокуючи таблиці та захоплюючи ресурси сервера
  • можливість здійснити очищення та узгодження даних
  • аналізувати дані оперативних систем безпосередньо неможливо або дуже важко;

Завдання сховища - надати «сировину» для аналізу в одному місці та у простій, зрозумілій структурі. Тобто концепція Сховищ Даних - це концепція аналізу даних, скоріш це концепція підготовки даних для аналізу. Вона передбачає реалізацію єдиного інтегрованого джерела даних.

OLAP-продукти: архітектури

При використанні OLAP-продуктів важливими є 2 питання: як і де зберігатиі оброблятидані. Залежно від цього, як реалізуються 2 цих процесу розрізняють архітектури OLAP. Існує 3 способи зберігання даних для OLAP та 3 способи обробки цих даних. Багато виробників пропонують кілька варіантів, деякі намагаються довести, що їхній підхід – єдиний найрозумніший. Це, звісно, ​​абсурд. Однак зовсім небагато продуктів можуть оперувати більш, ніж в одному режимі якісно.

Варіанти зберігання даних OLAP

Зберігання в даному контексті означає зміст даних у стані, що постійно оновлюється.

  • Реляційні бази даних: це типовий вибір, якщо підприємстві облікові даних зберігаються в РБД. У більшості випадків дані слід зберігати в денормалізованій структурі (найприйнятніша схема «зірка»). Нормалізована база даних не прийнятна через дуже низьку продуктивність виконання запитів при формуванні агрегованих величин для OLAP (часто підсумкові дані зберігаються в агрегованих таблицях).
  • Файли баз даних на клієнтському комп'ютері (кіоски або вітрини даних): ці дані можуть заздалегідь розповсюджуватися або створюватися за запитами клієнтських комп'ютерів.

Багатомірні бази даних: припускають, що дані зберігаються у багатовимірній базі даних на сервері. Вона може включати дані, витягнуті та підсумовані з інших систем і реляційних баз даних, файлів кінцевих користувачів та ін. У більшості випадків, багатовимірні бази даних зберігаються на диску, але деякі продукти дозволяють використовувати і оперативну пам'ять, обчислюючи найчастіше використовувані дані на льоту ». Дуже у малій кількості продуктів, заснованих на багатовимірних базах даних, можливе множинне редагування даних, багато продуктів дозволяють одиночну зміну, але множинне читання даних, тоді як інші обмежуються лише читанням.

Ці три місця зберігання даних мають різні можливості за обсягами зберігання, і вони розташовані в порядку, що знижується за можливостями. Вони також мають різні характеристики продуктивності при реалізації запитів: реляційні бази даних працюють набагато повільніше, ніж останні два варіанти.

Варіанти обробки OLAP-даних

Існує 3 тих же варіанти обробки даних:

  • Використання SQL: цей варіант звичайно використовується при зберіганні даних в РБД. Однак SQL не дозволяє здійснювати багатовимірні обчислення одним запитом, тому потрібно написання складних SQL-запитів для того, щоб досягти не більше ніж звичайну багатовимірну функціональність. Однак це не зупиняє розробників спроб. У більшості випадків вони виконують обмежену кількість відповідних обчислень на SQL з результатами, які можна отримати і при багатовимірній обробці даних або з клієнтської машини. Можливе також використання оперативної пам'яті, яка може зберігати дані, використовуючи більш ніж один запит: це кардинально покращило відгук.
  • Багатовимірна обробка на клієнті: клієнтський OLAP-продукт здійснює обчислення самостійно, але така обробка доступна лише в тому випадку, якщо користувачі мають відносно потужні ПК.

Багатовимірна обробка на сервері: це популярне місце для здійснення багатовимірних обчислень у клієнт-серверних OLAP-додатках, що використовується у багатьох продуктах. Продуктивність зазвичай висока, тому що більшість обчислень вже виконано. Однак це потребує великого дискового простору.

Матриця OLAP-архітектур

Відповідно шляхом поєднань варіантів зберігання/обробка можна отримати матрицю архітектур OLAP-систем. Відповідно, теоретично може існувати 9 поєднань цих способів. Однак, оскільки 3 з них позбавлені здорового глузду, то насправді існує лише 6 варіантів зберігання та обробки OLAP-даних.

Варіанти зберігання багатовимірних
даних

Варіанти
багатовимірної
обробки даних

Реляційна база даних

Серверна багатовимірна база даних

Клієнтський комп'ютер

Cartesis Magnitude

Багатовимірна серверна обробка

Crystal Holos (ROLAP mode)

IBM DB2 OLAP Server

CA EUREKA:Strategy

Informix MetaCube

Speedware Media/MR

Microsoft Analysis Services

Oracle Express (ROLAP mode)

Pilot Analysis Server

Applix iTM1

Crystal Holos

Comshare Decision

Hyperion Essbase

Oracle Express

Speedware Media/M

Microsoft Analysis Services

PowerPlay Enterprise Server

Pilot Analysis Server

Applix iTM1

Багатовимірна обробка на клієнтському комп'ютері

Oracle Discoverer

Informix MetaCube

Dimensional Insight

Hyperion Enterprise

Cognos PowerPlay

Personal Express

iTM1 Perspectives

Оскільки саме зберігання визначає обробку, то прийнято групувати за варіантами зберігання, тобто:

  • ROLAP-продукти у секторах 1, 2, 3
  • Настільний OLAP – в секторі 6

MOLAP-продукти – у секторах 4 та 5

HOLAP-продукти (дозволяють як багатовимірний, так і реляційний варіант зберігання даних) – у 2 та 4 (виділені курсивом)

Категорії OLAP-продуктів

Існує понад 40 OLAP-постачальників, хоча всіх їх не можна вважати конкурентами, тому що вони можливості їх дуже відрізняються і, фактично, працюють вони в різних ринкових сегментах. Вони можуть бути згруповані в 4 важливі категорії, в основі відмінності яких лежать поняття: функціональність складна - функціональність проста, продуктивність - дискове простір. Зручно зобразити категорії у вигляді квадрата, оскільки це чітко показує взаємозв'язку з-поміж них. Відмінна риса кожної з категорій представлена ​​з його боку, а подібності коїться з іншими – на сусідніх сторонах, отже, категорії на протилежних сторонах – принципово хороші.

Особливості

Переваги

Недоліки

Представники

Прикладний OLAP

Закінчені додатки, з багатою функціональністю. Майже всі вимагають багатовимірної бази даних, хоча деякі працюють і з реляційною. Багато з цієї категорії додатків спеціалізовані, наприклад, продаж, провадження, банківська справа, бюджетування, фінансова консолідація, аналіз продажів

Можливість інтеграції з різними програмами

Високий рівень функціональності

Високий рівень гнучкості та масштабованості

Складність програми (необхідність навчання користувача)

Висока вартість

Hyperion Solutions

Crystal Decisions

Information Builders

В основі продукту лежить нереляційна структура даних, що забезпечує багатовимірне зберігання, обробку та подання даних. Дані у процесі аналізу вибираються виключно з багатовимірної структури. Незважаючи на високий рівень відкритості, постачальники схиляють покупців купувати їхній же інструментарій

Висока продуктивність (швидкі обчислення сумарних показників та різні багатовимірні перетворення за будь-яким із вимірювань). Середній час відповіді на нерегламентований аналітичний запит при використанні багатовимірної БД зазвичай на 1-2 порядки менше, ніж у разі РБД

Високий рівень відкритості: велика кількість продуктів, з якими можлива інтеграція

Легко справляються із завданнями включення до інформаційної моделі різноманітних вбудованих функцій, проведення користувачем спеціалізованого аналізу тощо.

Необхідність великого дискового простору для зберігання даних (через надмірність даних, що зберігаються). Це вкрай неефективне використання пам'яті - за рахунок денормалізації та попередньо виконаної агрегації обсяг даних у багатовимірній базі відповідає у 2.5-100 разів меншому обсягу вихідних деталізованих даних. У будь-якому випадку MOLAP не дозволяє працювати з великими базами даних. Реальна межа - база об'ємом 10-25 гігабайт

Потенційна можливість «вибуху» бази даних – несподіване, різке, непропорційне зростання її обсягів

Відсутність гнучкості за необхідності модифікації структур даних. Будь-яка зміна у структурі вимірювань майже завжди потребує повної перебудови гіперкубу.

Для багатовимірних БД, в даний час відсутні єдині стандарти на інтерфейс, мови опису та маніпулювання даними

Hyperion (Essbase)

DOLAP (Desktop OLAP)

Клієнтські OLAP-продукти, які досить легко впровадити та вимагають низьких витрат у розрахунку на одне місце

Йдеться про таку аналітичну обробку, де гіперкуби малі, розмірність їх невелика, потреби скромні, і для такої аналітичної обробки достатньо персональної машини на робочому столі.

Мета виробників цього ринку - автоматизація сотень і тисяч робочих місць, але користувачі повинні робити досить простий аналіз. Покупців часто орієнтують купувати більше робочих місць, ніж це потрібно

Хороша інтеграція з базами даних: багатовимірними, реляційними

Можливість здійснення комплексних покупок, що знижує вартість проектів впровадження

Простота використання програм

Дуже обмежена функціональність (не порівняти у цьому плані зі спеціалізованими продуктами)

Дуже обмежена потужність (малі обсяги даних, невелика кількість вимірювань)

Cognos (PowerPlay)

Business Objects

Crystal Decisions

Це найменший сектор ринку.

Детальні дані залишаються там, де вони були спочатку - у реляційній БД; деякі агрегати зберігаються у тій же БД у спеціально створених службових таблицях

Чи здатні працювати з дуже великими обсягами даних (економічне зберігання)

Передбачають розрахований на багато користувачів режим роботи, в тому числі і в режимі редагування, а не тільки читання

Більш високий рівень захисту даних та гарні можливості розмежування прав доступу

Можливе часте внесення змін до структури вимірювань (не вимагають фізичної реорганізації БД)

Низька продуктивність значно програють за швидкістю відгуку багатовимірним (відгук на складні запити вимірюється в хвилинах або навіть годинах, ніж у секундах). Це зручніші будівельники звітів, ніж інтерактивні аналітичні інструменти

Складність продуктів. Вимагають значних витрат на обслуговування спеціалістами з інформаційних технологій. Для забезпечення продуктивності, порівнянної з MOLAP, реляційні системи вимагають ретельного опрацювання схеми бази даних та налаштування індексів, тобто великих зусиль з боку адміністраторів БД

Дорогі для впровадження

Обмеження SQL залишаються реальністю, що не дозволяє реалізувати в РСУБД багато вбудованих функцій, що легко забезпечуються в системах, заснованих на багатовимірному поданні даних.

Information Advantage

Informix (MetaCube)

Слід зазначити, що споживачі гібридних продуктів, які дозволяють вибирати режим ROLAP та MOLAP, таких як Microsoft Analysis Services, OracleExpress, Crystal Holos, IBM DB2 OLAPServer, майже завжди вибирають режим MOLAP.

Кожна з представлених категорій має свої сильні та слабкі сторони, немає єдино оптимального вибору. Вибір впливає на 3 важливі аспекти: 1) продуктивність; 2) дисковий простір для зберігання даних; 3) можливості, функціональність та особливо на масштабованість OLAP-рішення. При цьому необхідно враховувати обсяги даних, потужність техніки, потреби користувачів і шукати компроміс між швидкодією і надмірністю дискового простору, зайнятого базою даних, простою і багатофункціональністю.

Класифікація Сховищ Даних відповідно до обсягу цільової БД

Недоліки OLAP

Як і будь-яка технологія OLAP також має свої недоліки: високі вимоги до апаратного забезпечення, підготовки та знань адміністративного персоналу та кінцевих користувачів, високі витрати на реалізацію проекту впровадження (як грошові, так і тимчасові, інтелектуальні).

Вибір OLAP-продукту

Правильно вибрати OLAP продукт складно, але дуже важливо, якщо ви хочете, щоб проект не провалився.

Як видно, відмінності продуктів лежать у багатьох сферах: функціональних, архітектурних, технічних. Деякі продукти дуже обмежені у налаштуваннях. Деякі створені для спеціалізованих предметних галузей: маркетинг, продаж, фінанси. Є продукти для загальних цілей, у яких не закладено прикладне використання, які мають бути досить гнучкими. Як правило, такі продукти дешевші, ніж спеціалізовані, але тут більше витрати на впровадження. Спектр OLAP-продуктів дуже широкий - від найпростіших засобів побудови зведених таблиць та діаграм, що входять до складу офісних продуктів, до засобів аналізу даних та пошуку закономірностей, вартість яких становить десятки тисяч доларів.

Як і в будь-якій іншій галузі, у сфері OLAP не може існувати однозначних рекомендацій щодо вибору інструментальних засобів. Можна лише загострити увагу на низці ключових моментів та зіставити запропоновані можливості програмного забезпечення з потребами організації. Важливо одне: не обдумавши добре те, як ви збираєтеся використовувати OLAP-інструменти, ви ризикуєте нажити собі сильний «головний біль».

У процесі вибору необхідно розглянути 2 питання:

  • оцінити потреби та можливості підприємства
  • оцінити пропозицію, що існує на ринку, важливі також і тенденції розвитку

Потім усе це зіставити і, власне, зробити вибір.

Оцінка потреб

Не можна зробити раціональний вибір продукту без розуміння того, навіщо він використовуватиметься. Багато компаній хочуть отримати "найкращий виріб" без чіткого розуміння, як воно має використовуватися.

Для того, щоб проект був успішно реалізований, фінансовий директор повинен як мінімум грамотно сформулювати перед керівником та спеціалістами служби автоматизації свої побажання та вимоги. Безліч проблем виникає через недостатню підготовленість та поінформованість для вибору OLAP, фахівці з ІТ та кінцеві користувачі відчувають труднощі спілкування вже тільки тому, що маніпулюють при розмові різними поняттями та термінами і висувають суперечливі переваги. Потрібна узгодженість у цілі в рамках компанії.

Деякі фактори стали очевидними після ознайомлення з оглядом категорій OLAP-продуктів, а саме:

Технічні аспекти

  • Джерела даних: корпоративне сховище даних, OLTP-система, табличні файли, реляційні бази даних. Можливість ув'язування OLAP-інструментарію з усіма СУБД, що використовуються в організації. Як показує практика, інтеграція різнорідних продуктів у стійко діючу систему - одне з найважливіших питань, та її вирішення часом може бути пов'язані з великими проблемами. Необхідно розібратися, наскільки легко і надійно можна інтегрувати кошти OLAP з існуючими в організації СУБД. Важливо також оцінити можливості інтеграції не тільки з джерелами даних, але й з іншими додатками, які, можливо, знадобиться експортувати дані: електронна пошта, офісні програми
  • Мінливість даних, що враховуються
  • Платформа сервера: NT, Unix, AS/400, Linux - але не слід наполягати, щоб задані специфікацією OLAP продукти виконувалися на сумнівних або вмираючих платформах, які Ви все ще використовуєте
  • Стандарти клієнтської частини та браузера
  • Розгортається архітектура: локальна мережа та модемний зв'язок PC, високошвидкісний клієнт/сервер, intranet, extranet, Internet
  • Міжнародні особливості: багатовалютна підтримка, багатомовні операції, колективне використання даних, локалізація, ліцензування, оновлення Windows

Обсяги вхідної інформації, які є та які з'являться у майбутньому

Користувачі

  • Сферу застосування: аналіз продажів/маркетингу, складання бюджету/планування, аналіз показників діяльності, аналіз бухгалтерських звітів, якісний аналіз, фінансовий стан, формування аналітичних матеріалів (звітів)
  • Число користувачів та їх розміщення, вимоги до поділу прав доступу до даних та функцій, секретність (конфіденційність) інформації
  • Вигляд користувача: вище керівництво, фінанси, маркетинг, HR, продаж, виробництво і т.д.
  • Досвід користувача. Рівень кваліфікації користувача. Розглянути питання проведення навчання. Дуже важливо, щоб клієнтська OLAP-додаток була такою, щоб користувачі відчували себе впевнено та могли ефективно її використовувати.

Ключові особливості: потреба у зворотному записі даних, розподілені обчислення, складні валютні перетворення, потреби у друку звітів, інтерфейс електронної таблиці, складність логіки програми, необхідна розмірність, типи аналізу: статистичний, пошук мети, аналіз «що якщо»

Впровадження

  • Хто займатиметься впровадженням та експлуатацією: зовнішні консультанти, внутрішня служба ІТ або кінцеві користувачі
  • Бюджет: програмне забезпечення, апаратні засоби, послуги, передачі даних. Пам'ятайте, що оплата ліцензій OLAP-продукту – це лише невелика частина загальної вартості проекту. Впровадження та апаратні витрати можуть бути більшими, ніж плата за ліцензію, а тривала підтримка, експлуатація та витрати адміністрації майже напевно значно більші. І якщо Ви прийняли неправильне рішення купівлі невідповідного продукту тільки тому, що воно дешевше, остаточно Ви можете мати вищу загальну вартість проекту через вищі витрати на обслуговування, адміністрацію та/або апаратні витрати при тому, що ймовірно, Ви отримаєте нижчий рівень ділових вигод. При прикидці загальних витрат не забудьте з'ясувати такі питання: Наскільки широкий вибір джерел для впровадження, навчання та підтримки? Чи потенційний загальний фонд (службовців, підрядників, консультантів) схильний до зростання чи скорочення? Наскільки широко можна використовувати свій виробничий професійний досвід?

Незважаючи на те, що вартість аналітичних систем навіть сьогодні залишається досить високою, а методології та технології реалізації таких систем знаходяться ще на стадії їх становлення, вже сьогодні економічний ефект, що забезпечується ними, істотно перевищує ефект від традиційних оперативних систем.

Ефект від правильної організації, стратегічного та оперативного планування розвитку бізнесу важко заздалегідь оцінити у цифрах, але очевидно, що він у десятки і навіть сотні разів може перевершити витрати на реалізацію таких систем. Однак не слід і помилятися. Ефект забезпечує не сама система, а люди з нею працюють. Тому не зовсім коректні декларації на кшталт: «система Сховищ Даних та OLAP-технологій допомагатиме менеджеру приймати правильні рішення». Сучасні аналітичні системи є системами штучного інтелекту і вони можуть ні допомогти, ні перешкодити у прийнятті рішення. Їхня мета своєчасно забезпечити менеджера всією інформацією необхідною для прийняття рішення у зручному вигляді. А яка інформація буде запитана і яке рішення буде прийнято на її основі, залежить тільки від конкретної людини, яка її використовує.

Залишається сказати тільки одне, ці системи можуть допомогти вирішити багато бізнес-проблеми і можуть мати позитивний ефект, що далеко йде. Залишається тільки чекати, хто першим усвідомлює переваги цього підходу і виявиться попереду інших.

Настільні OLAP-програми та OLAP-компоненти

Класифікація OLAP - програм

Спочатку повторимо загальновідоме визначення OLAP. OLAP (On Line Analytical Processing) – процес оперативного аналізу – це клас програмного забезпечення, що надає користувачеві можливість миттєво, в режимі реального часу отримувати відповіді на довільні аналітичні запити.

Так склалося, що не будь-які програми, які швидко виконують довільні запити, розрахунки та видають користувачеві дані у зрозумілому йому вигляді прийнято вважати OLAP-засобом. До класу OLAP відносять лише ті програми, які як зовнішній інтерфейс надають користувачеві багатовимірну керовану таблицю. Ця таблиця дозволяє користувачеві змінювати місцями колонки і рядки, закривати і розкривати - описові колонки, задавати умови фільтрації і при цьому вона автоматично обчислює проміжні групи даних і остаточні підсумки - цифровим колонкам. Невід'ємною частиною OLAP-аналізу є графічне відображення даних.

Програми, що реалізують цю методику, поділяються на такі категорії:

  1. OLAP-сервер або MOLAP-багатомірна СУБД. Це машина обчислень та багатовимірна база даних, до якої звертаються клієнтські програми з командами на отримання даних та виконання обчислень. У MOLAP зберігаються - набори даних, фактів та вимірювань, із заздалегідь обчисленими агрегатами.
  2. MOLAP-компонент. Це інструмент програміста, за допомогою якого розробляються клієнтські програми, які отримують обчислені кубів від OLAP-сервера за якимось інтерфейсом, наприклад OLE DB for OLAP корпорації Microsoft.
  3. ROLAP-компонент. Це також інструмент програміста. На відміну від візуальної OLAP-компоненти, вона містить власну OLAP-машину для перетворення реляційних даних або багатовимірної матриці в багатовимірні куби. Іншими словами, ця програма на запит користувача в оперативній пам'яті обчислює агрегати і сама їх відображає на екрані.
  4. ROLAP-сервер. Щодо нового класу програмного забезпечення. На відміну від OLAP-сервера немає у своєму складі багатовимірної бази даних, а перетворює дані реляційної СУБД на багатовимірні куби на запит багатьох клієнтських додатків.
  5. OLAP програма. Це закінчене рішення, що містить у своєму складі OLAP-компоненту, засоби опису довільних запитів (Ad-hoc query) та інтерфейс доступу до баз даних. У свою чергу, такі програми можна розбити на дві групи: MOLAP- і ROLAP-програми.

OLAP-компоненти

Будь-яке кінцеве рішення містить OLAP-компоненту, який є інтерфейсом користувача. Ці компоненти схожі один на одного. Їх візуальна частина складається з елементів керування та елементів відображення даних. Як правило, це таблиця, в полях якої містяться дані, а колонки та рядки є елементами керування.

Переважна більшість постачальників OLAP, які у світі налічується близько 140, не продають свої компоненти. Нам відомо лише три компоненти, які можна купити для власної розробки. Це Decision Cube компанії Inprise у складі компіляторів Delphi та C++ Builder, Pivot Table корпорації Microsoft у складі MS Office та Dynamic Cube компанії Data Dynamic, що спеціалізується на розробці OLAP-компонент.

Decision Cubeкомпанії Inprise постачається як VCL-компонент. За нашою класифікацією належить до ROLAP-компонентів, тобто містить у своєму складі OLAP-машину і призначений лише для роботи з реляційними СУБД чи локальними таблицями. Він відрізняється дуже скромними можливостями. Наприклад, у ньому не можна відкрити один елемент виміру, або встановити фільтр за декількома вимірами, відобразити кілька фактів одночасно. Продуктивність компонентів невисока. Межою є близько 4000 записів при 5 вимірах. Компонент відображає в таблиці одночасно лише один факт. Неприємною особливістю є наявність у вихідних текстах кількох помилок, у результаті лише висококваліфіковані програмісти після виправлення цих помилок можуть використовувати компоненту у розробках. До переваг можна віднести простоту застосування та освоєння компоненти. При правильному використанні та невеликих обсягах даних продукти на базі цієї компоненти можуть виявитися корисними та прийнятними для швидкодії.

Pivot Tableкорпорації Microsoft поставляється у двох варіантах: як складова MS Excel і як Web-компонента. Web-компонента (ActiveX) може бути використана як у браузері, так і власному додатку Windows. Pivot Table є одночасно і MOLAP-і ROLAP-компонентою. За протоколом OLE DB for OLAP він може взаємодіяти з багатовимірною СУБД MS OLAP Server, або іншими 70 багатовимірними СУБД, розробники яких підтримали цей протокол. За протоколом OLE DB Pivot Table може отримувати дані від реляційної СУБД та виконувати обчислення кубів у пам'яті. І, звичайно, дані можуть бути отримані із заданої області таблиці MS Excel. У цьому випадку його продуктивність не відрізняється від продуктивності Decision Cube. Компонент відображає в таблиці одночасно лише один факт. Однак інструментарій компоненти ширші, ніж у Decision Cube – реалізована довільна фільтрація та розкриття одного елемента вимірювання. Основним призначенням компоненти є створення інтерфейсів до OLAP-сервера у рамках концепції Business Intelligent корпорації Microsoft.

Dynamic Cubeкомпанії Data Dynamic є класичною ROLAP-компонентою. Він постачається як VCL для програмістів Delphi та C++ Builder і як COM для прихильників компонентної моделі. OLAP-машина компоненти дуже потужна. Вона легко обробляє десятки і трохи повільніше навіть сотні тисяч записів. Існує множинна фільтрація, відкриття елемента одного виміру, деякі додаткові функції. Компонент дозволяє відображати в таблиці одночасно кілька фактів. Однак ця компонента є досить дорогою, особливо вражає її вартість для професійних розробників.

Всі три описані вище компоненти в порівнянні з готовими продуктами багатьох постачальників мають дуже скупу функціональність, що обмежується класичними функціями OLAP: drill down, move, rotate та ін. Таких як і навіть кнопками, що виконують популярні аналітичні завдання, наприклад класичний маркетинговий аналіз 20/80.

Настільні OLAP-програми

Ще недавно постачальники OLAP-серверів продавали свої продукти за такими цінами, що їхні покупці мали бути багатими як арабські шейхи. Так, придбання Oracle Express обійшлося б у $100 000 за робочі місця двох аналітиків та двох адміністраторів. Але навіть після виходу на ринок компанії Microsoft, яка обрушила ціни, надавши OLAP-сервер безкоштовно у складі MS SQL Server, створення Сховищ даних або вітрин даних залишається серйозним заходом, що вимагає залучення професійного розробника, адміністрування в процесі експлуатації та інших витрат.

Тому на ринку з'явився особливий клас продуктів – DOLAP (Desktop OLAP) – настільний OLAP. Це програма, яка встановлюється кожен персональний комп'ютер. Вона не вимагає сервера, має "нульове адміністрування". Програма дозволяє користувачеві налаштуватись на існуючі у нього бази даних; як правило, при цьому створюється словник, який приховує фізичну структуру даних за її предметним описом, зрозумілим фахівцю. Після цього програма виконує довільні запити і їх відображає в OLAP-таблиці. У цій таблиці, у свою чергу, користувач може маніпулювати даними та отримувати на екрані або папері сотні різних звітів.

За способом отримання даних такі програми можна поділити на локальні та корпоративні:

  • Локальні маніпулюють даними таблиці MS Excel або невеликі бази даних типу Access, DBF, Paradox.
  • Корпоративні DOLAP мають доступ до SQL-серверів або багатовимірних баз даних і, таким чином, також поділяються на дві категорії.

Корпоративні DOLAP, призначені для аналізу даних SQL-серверів, дозволяють аналізувати вже наявні в корпорації дані, що зберігаються в OLTP-системах. Однак другим їх призначенням може бути швидке та дешеве створення Сховищ або вітрин даних, коли програмістам організації потрібно лише створити сукупність таблиць типу "зірка" та процедури завантаження даних. Найбільш трудомістка частина роботи - розробка інтерфейсів з численними варіантами запитів користувача, інтерфейсів і звітів стає непотрібною. Це буквально за кілька годин реалізується у DOLAP-програмі. Освоєння такої програми кінцевим користувачем вимагає 30 хвилин.

DOLAP програми поставляються самими розробниками баз даних, багатовимірних та реляційних. Це SAS Corporate Reporter, що є майже еталонним за зручністю та красою продуктом, Oracle Discovery, комплекс програм MS Pivot Services та Pivot Table та інші. Ці продукти, крім програм Microsoft, коштують дорого. Так SAS Corporate Reporter коштуватиме $2000 на одного користувача.

Велика група програм поставляється в рамках компанії "OLAP у маси", яку проводить корпорація Microsoft. Ці програми призначені для роботи із MS OLAP Services. Як правило, вони є покращеними варіантами Pivot Table та призначені для використання в рамках MS Office або Web. Це Matryx, Knosys і т.д.

Завдяки простоті, дешевизні та величезній ефективності цей клас продуктів набув величезної популярності на Заході. Великі корпорації будують свої Сховища із розподіленим доступом на основі таких програм.

OLAP-продукти компанії "Intersoft Lab"

Контур Стандарт

Основним продуктом компанії Intersoft Lab є велика інформаційно-управлінська система Контур Корпорація, побудована за принципами Сховища даних. Однак у процесі спілкування з клієнтами компанії усвідомила, що далеко не всі готові на інвестиції та організаційні заходи, пов'язані із побудовою серйозного сховища даних. Першим кроком на цьому шляху для багатьох банків та підприємств міг би стати OLAP-аналіз даних із наявних OLTP-систем та власних аналітичних баз даних.

Для цього було створено DOLAP-продукт "Контур Стандарт".

Контур Стандарт 1.0 Перша версія системи належала до класу локальних DOLAP. Засоби програми дозволяли організувати прямий доступ до dbf- та paradox-файлів. Крім того, до складу дистрибутивного пакета входив мігратор даних, який допомагав зібрати в локальні таблиці дані з систем, що є в організації.

Контур Стандарт 2.0 Надалі, для розширення потужності продукту в системі "Контур Стандарт" 2.0 був забезпечений і доступ до довільних SQL-серверів на рівні таблиць і, що не зустрічається в аналогах закордонних, що зберігаються процедур. Це перетворило програму на корпоративну інформаційно-аналітичну систему. Окремо було реалізовано інтерфейс до системи "Контур Корпорація".

Одночасно для зручності адміністрування програму було поділено на дві редакції. Редакція "Developer" дозволяє IT-фахівцеві описати джерела даних та вибірки. При цьому створюються семантичні словники, які приховують від кінцевого користувача фізичний шар та перекладають дані мовою предметної області. Редакція "Run-Time" дозволяє аналізувати дані та випускати звіти. Основним способом маніпуляції даними є OLAP-компонента, яка дозволяє без програмування та спеціальних навичок створювати необхідні звіти. Одночасно було створено нові види зручних аналітичних інструментів, які формально є OLAP-таблицами, але є OLAP-засобами за духом, тобто. реалізують on-line аналіз, але в іншій формі подання даних.

У перших двох версіях застосовувалась ROLAP-компонента Decision Cube компанії Inprise. Однак її невисока потужність та функціональна спрощеність стримувала застосування програми у банках та організаціях для аналізу великих обсягів даних. Тому було ухвалено рішення про її заміну. Маркетинговий аналіз та ревізія інтелектуальних та виробничих потужностей самої компанії привели до рішення про створення власної OLAP-компоненти. В результаті розробки компоненти, яку назвали Contour Cube, з'явилася наступна версія програми - "Контур Стандарт" 3.0, яка дозволяє обробляти вибірки даних до мільйона записів і має розширену аналітичну функціональність.

Contour Cube

Компонента Contour Cube компанії Intersoft Lab є представником ROLAP-компонент. Вона складається з OLAP-машини, інтерфейсу доступу до даних, що знаходяться в SQL-серверах та інших джерелах, та візуальної частини.

Компонент буде реалізовано в декількох версіях для різних застосувань.

Версія VCLдля використання у середовищах Delphi та C++ Builder компанії Inprise. У цьому випадку дані поставляються через стандартний Data Set цих компіляторів. Доступ до джерел забезпечується як за допомогою BDE, так і ADO, що підтримується в останніх версіях цих середовищ.

Версія COMпризначена для розробників Visual Basic, Visual С++ і т.д. Вона забезпечує доступ до даних за допомогою ADO. У майбутніх версіях буде підтриманий доступ до OLAP-серверів через інтерфейс OLE DB for OLAP.

Версія ActiveXє Web-компонентою для створення аналітичних Інтернет-інтерфейсів у стилі, запропонованому Microsoft.

Версія DHTMLскладається з сервера та DHTML-сторінок. Вона призначена для створення аналітичних Інтернет-інтерфейсів в середовищі UNIX, а також для ринку мобільних Інтернет-пристроїв, що бурхливо розвивається.

Основними перевагами компоненти є:

  • Обробка великих обсягів даних.
  • Мінімальні вимоги до пам'яті
  • Розширена функціональність.

Високі характеристики компонентів досягнуто за рахунок унікальної математичної моделі, створеної фахівцями компанії.

Створення безлічі версій компоненти стало можливим завдяки її багатошаровій архітектурі. Прошарок OLAP Engine є відносно незалежною частиною компоненти. Він реалізований як крос-платформна бібліотека, що має API для різних верств візуалізації. Цей API має функції завантаження даних, обчислення зрізів багатовимірного куба і виконання аналітичних і сервісних функцій. Сам шар OLAP Engine складається з машини обчислень та абстрактного багатовимірного Сховища даних, яке може зберігатися як файл для передачі іншим користувачам або тривалого використання.

Обробка великих обсягів даних

Тести на персональному комп'ютері з процесором Intel Celeron 400 та оперативною пам'яттю 64 Мб дали такі результати. Завантаження 60 000 записів з 6 вимірами займає 5 секунд; подальші маніпуляції, такі як повний поворот таблиці, drill down та drill up виконуються за десяті частки секунди.

Це найкращі по порядку величини (sic!) результати відомих нам OLAP-компонент. Так, Decision Cube та Pivot Table (без використання OLAP Services) вимагають десятки секунд для завантаження та повороту таблиці об'ємом у 4000 записів та 6-ма вимірами. Швидкість роботи Dynamic Cube нижча, ніж у Contour Cube, у середньому на 30% на середніх обсягах даних та в рази на граничних обсягах.

Таким чином, у багатьох випадках завдяки своїй потужності компонент робить необов'язковим використання OLAP-сервера. Це значно спрощує процеси впровадження та адміністрування корпоративної системи.

Мінімальні вимоги до пам'яті

У момент роботи з даними компонента займає найменший обсяг оперативної пам'яті, порівняно з однокласниками. Так, при завантаженні 40 000 записів Contour Cube споживає 7 МБ, Decision Cube 15 МБ.

Розширена функціональність

У компоненті об'єднані функції найкращих OLAP-компонентів:

  • Множинний фільтр за вимірами.
  • Генерація як стандартних часових періодів ("Рік", "Квартал", "Місяць", "Декада", "Тиждень", etc.), так і задаються користувачем ("Фінансовий рік", "Сезон", "Час доби") по виміру типу "дата".
  • Сортування за вимірами.
  • Сортування за фактами
  • Відкриття одного значення виміру (гілки).
  • Автоматичне керування діаграмою.
  • Ручне налаштування діаграми.
  • Безліч фактів.
  • Безліч стандартних алгоритмів агрегації фактів.
  • Алгоритм агрегації "Залишок рахунку".

Унікальна властивість компонента - алгоритм агрегації "Залишок рахунку". У зв'язку з тим, що в основному OLAP-компоненти призначаються для аналізу продажів та інших видів аналізу, що підсумовують, вони агрегують за часом і залишки рахунків. Це є помилкою – залишок рахунку за квартал не є сумою залишків рахунку за день, а є залишком за останній день кварталу. Реалізація цього алгоритму дозволяє використовувати компонент для аналізу балансів і робить її корисною не тільки для економістів і маркетологів, але і для бухгалтерів.

Для того щоб при використанні компоненти за мінімальний час створювалися потужні закінчені продукти, в неї вбудований набір аналітичних функцій, що часто зустрічаються в реальній роботі. Кожна з цих функцій реалізована як кнопка в панелі інструментів візуальної частини компоненти. Ось перелік цих функцій:

  • Видалити нульові колонки, видалити нульові рядки, видалити нульові колонки та рядки. Застосовується для стиснення розріджених таблиць.
  • Повний поворот. При цьому колонки та рядки таблиці змінюються місцями. Застосовується для поліпшення сприйняття таблиць аналітиком, для вибору кращої друкованої форми.
  • Фільтр за фактом. Дозволяє задати абсолютні граничні значення факту чи кількість найбільших чи найменших елементів. Є одним із інструментів факторного аналізу.
  • Кластерний аналіз Розбиття даних на задану кількість груп за граничними значеннями факту. Наприклад, розбиття клієнтів на великих, середніх та дрібних за обсягами отриманих від них доходів.
  • 80/20. Популярний на Заході різновид кластерного аналізу у маркетингу. Приклад застосування: показати 20% клієнтів, які приносять 80% прибутку.
  • Ранжування. Генерація нового виміру "місце у списку" за значенням заданого факту та сортування за ним. Корисно для аналізу виборчих компаній, порівняння банків, підприємств, філій за заданим показником.
  • Відображення одночасно кількох статистичних результатів, таких як середнє, середньоквадратичне відхилення і т.д. Ця функція сподобається професіоналам, особливо в галузі фінансового, фондового аналізу.
  • Вивантаження у формати MS Excel, MS Word, HTML. Дозволяють продовжити аналіз звичними засобами MS Excel, створити звіт довільної форми, опублікувати звіт до Інтернету.

У зв'язку з неможливістю захисту авторських прав у Росії на програмні продукти, фізичний захист яких принципово не реалізується, компонента як комерційний продукт поставлятиметься тільки на Західний ринок. Однак російські споживачі можуть скористатися її перевагами для розвитку власного бізнесу в продуктах Контур Стандарт і Контур Корпорація.

Після того, як дані отримані, очищені, приведені до єдиного виду та поміщені в сховище, їх необхідно аналізувати. Для цього використовується технологія OLAP.

Дванадцять визначальних принципів OLAP було сформульовано 1993 року Е.Ф.Коддом, " винахідником " реляційних баз даних. OLAP – це OnLine Analytical Processing, тобто оперативний аналіз даних. Пізніше визначення Кодда було перероблено на так званий тест FASMI (Fast Analysis of Shared Multidimensional Information - швидкий аналіз багатовимірної інформації, що розділяється), який вимагає, щоб OLAP-додаток надавав наступні можливості швидкого аналізу роздільної багатовимірної інформації: висока швидкість; аналіз; поділ доступу; багатовимірність; робота з інформацією.

Висока швидкість. Аналіз повинен проводитися однаково швидко з усіх аспектів інформації. У цьому допустимий час відгуку становить трохи більше 5 секунд.

Аналіз. Повинна існувати можливість проводити основні типи числового та статистичного аналізу - зумовленого розробником додатка або довільно визначуваного користувачем.

Поділ доступу.Доступ до даних повинен бути розрахованим на багато користувачів, при цьому повинен контролюватись доступ до конфіденційної інформації.

Багатовимірність. Основна найбільш істотна характеристика OLAP.

Робота із інформацією.Додаток повинен мати можливість звертатися до будь-якої потрібної інформації, незалежно від її обсягу та місця зберігання.

Багатовимірне уявлення. OLAP надає організаціям максимально зручні та швидкі засоби доступу, перегляду та аналізу ділової інформації. Що найважливіше – OLAP забезпечує користувача природною, інтуїтивно зрозумілою моделлю даних, організуючи їх у вигляді багатовимірних кубів (Cubes). Осями (dimensions) багатовимірної системи координат є основні атрибути аналізованого бізнес-процесу. Наприклад, процесу продажу це може бути категорія товару, регіон, тип покупця. Практично завжди як один із вимірів використовується час. Усередині куба знаходяться дані, що кількісно характеризують процес, - так звані заходи (Measures). Це може бути обсяги продажів у штуках чи грошах, залишки складі, витрати тощо. Користувач, який аналізує інформацію, може "нарізати" куб за різними напрямками, отримувати зведені (наприклад, за роками) або, навпаки, детальні (по тижнях) дані та здійснювати інші операції, необхідні йому для аналізу.

Зберігання даних OLAP . У першу чергу потрібно сказати про те, що оскільки аналітик завжди оперує деякими сумарними (а не детальними) даними, в базах даних OLAP практично завжди зберігаються поряд з детальними даними і так звані агрегати, тобто заздалегідь обчислені сумарні показники. Прикладами агрегатів може бути сумарний обсяг продажу протягом року чи середній залишок товару складі. Зберігання заздалегідь обчислених агрегатів – це основний спосіб підвищення швидкості виконання OLAP-запитів.


Однак побудова агрегатів може призвести до значного збільшення обсягу бази даних.

Іншою проблемою зберігання OLAP-даних є розрідженість багатовимірних даних. Наприклад, якщо у 2000 році продажів у деякому регіоні не було, то на перетині відповідних вимірів куба не буде жодного значення. Якщо OLAP-сервер буде зберігати в такому випадку деяке відсутнє значення, то при значній розрідженості даних кількість порожніх осередків (вимагають місця для зберігання) може у багато разів перевищити кількість заповнених, і в результаті загальний обсяг невиправдано зросте. Рішення, запропоновані при цьому компанією Microsoft, наводяться нижче.

Різновиди OLAP. Для зберігання даних OLAP можна використовувати:

Спеціальні багатовимірні СУБД (OLAP-сервери). У цьому випадку говорять про MOLAP (Multidimensional OLAP). При виконанні складних запитів, що аналізують дані у різних вимірах, багатовимірні СУБД забезпечують більшу продуктивність, ніж реляційні. При цьому швидкість виконання запиту не залежить від того, за яким виміром проводиться зріз багатовимірного куба.

Традиційні реляційні СУБД ROLAP (Relational OLAP). Застосування спеціальних структур даних - схеми "зірки" (star) і "сніжинки" (snowflake), а також зберігання обчислених агрегатів уможливлюють багатовимірний аналіз реляційних даних. Реляційні СУБД історично звичніші, і в них зроблено значні інвестиції, тому поки що ROLAP більш поширений.

Комбінований варіант - HOLAP (Hybrid OLAP), що поєднує і той і інший вид СУБД Одним з варіантів поєднання двох типів СУБД є зберігання агрегатів у багатовимірній СУБД, а детальних даних (що мають найбільший обсяг) – у реляційній.

Компанія Microsoft пропонує такі засоби OLAP-аналізу:

У комплект Microsoft SQL Server 7.0 входить повнофункціональний сервер OLAP - SQL Server OLAP Services. Сервер, природно, призначений обслуговування запитів клієнтів, а цього потрібно якийсь протокол взаємодії і мову запитів. Наприклад, для взаємодії клієнта з серверною реляційною СУБД – SQL Server – використовуються протоколи ODBC або OLE DB та мова запитів SQL. Для доступу до OLAP-сервера компанією Microsoft було розроблено протокол OLE DB for OLAP та мову запитів до багатовимірних даних - MDX (MultiDimensional eXpression). Аналогічно тому, як спрощення і зручності над OLE DB розроблений шар об'єктів ADO (ActiveX Data Objects), над OLE DB for OLAP побудований ADO MD (MultiDimensional ADO).

Засоби аналізу даних у Microsoft Office 2000. Microsoft Excel 2000 містить новий механізм зведених таблиць – OLAP PivotTable, який замінив собою однойменний механізм попередніх версій. Поряд із колишніми можливостями аналізу реляційних даних, механізм PivotTable тепер включає можливості аналізу OLAP-даних, тобто виступає як OLAP-клієнт. Як сервер може використовуватися Microsoft SQL Server 7.0, а також будь-який продукт, який підтримує інтерфейс OLE DB for OLAP. Механізм зведених таблиць Excel у повному обсязі підтримує можливості, що надаються сервісом PivotTable Services (PTS), описаним вище. Таким чином, аналізовані OLAP-дані можуть бути як у локальних кубах, і на OLAP-сервері.

Microsoft Office 2000 містить також набір ActiveX-компонентів, які називаються Office 2000 Web Components, які дозволяють організувати аналіз OLAP-даних засобами перегляду Web. До них відносяться такі чотири компоненти:

Spreadsheet- реалізує обмежену функціональність листа Excel.

PivotTable- "близнюк" зведених таблиць Excel; може працювати з даними OLAP Services.

Chart- дозволяє будувати діаграми, що базуються як на реляційних, так і на OLAP-даних.

Data Source- Службовий компонент для прив'язки інших компонентів до джерела даних.

Під час роботи з OLAP-даними Web Components звертаються до PivotTable Services.

5.5. ТЕХНОЛОГІЯ АНАЛІЗУ «DATA MINING»

Поява технології Data Mining пов'язана з необхідністю отримувати знання із накопичених інформаційними системами різнорідних даних. Виникло поняття, яке російською стали називати «видобуток», «витяг» знань. За кордоном утвердився термін "Data Mining".

Методи математичної статистики, що широко використовувалися раніше, виявилися корисними головним чином для перевірки заздалегідь сформульованих гіпотез (verification-driven data mining) і для «грубого» розвідувального аналізу, що становить основу оперативної аналітичної обробки даних (online analytical processing – OLAP).

Ключова перевага "Data Mining"проти попередніми методами – можливість автоматичного породження гіпотез про взаємозв'язок між різними параметрами чи компонентами даних. Робота аналітика під час роботи з традиційним пакетом обробки даних зводиться фактично до перевірки чи уточнення однієї-двох породжених ним самим гіпотез. У тих випадках, коли початкових припущень немає, а обсяг даних значний, існуючі системи втрачають працездатність і перетворюються на пожирачі часу аналітика.

Ще одна важлива особливість систем Data Mining – можливість обробки багатовимірних запитів та пошуку багатовимірних залежностей. Унікальна також здатність систем data mining автоматично виявляти виняткові ситуації, тобто. елементи даних, що "випадають" із загальних закономірностей.

Виділяють п'ять стандартних типів закономірностей, що дозволяють виявляти методи Data Mining

асоціація

послідовність

класифікація

кластеризація

прогнозування

Пошук шаблонів проводиться методами, не обмеженими рамками апріорних припущень про структуру вибірки та вид розподілів значень аналізованих показників. Приклади завдань такого пошуку під час використання Data Mining наведено у таблиці 1.

Таблиця 1 – Порівняння формулювань задач при використанні методів OLAP та Data Mining