Комп'ютерний аналіз даних. Аналіз даних: Конспект лекцій

Навчальний посібник

ББК 22.172я73

Рецензенти:

Мартишенко С.М.

Комп'ютерний аналіз даних:

Навчальний посібник. - Владивосток: Вид-во ВГУЕС, 2010. - 80 с.

Складено відповідно до навчальної програми з дисципліни «Комп'ютерний аналіз даних» та вимог державного стандарту Росії. Призначена для студентів спеціальностей 0618000 Математичні методи економіки та 351400 «Прикладна інформатика економіки». Містить теоретичний матеріал з дисципліни, завдання до практичних занять та вказівки до їх виконання.

Затверджено на засіданні кафедри Математики та моделювання 19.10.08***, протокол № 18***

економіки та сервісу, 2010

Вступ

Для сучасної науки та більшості напрямів практичної діяльності зараз характерний статистичний підхід. Закономірності економіки лише загалом зможуть вважатися детерміністичними, за більш детальному дослідженні виявляється, що вони мають типово випадковий характер.

У посібнику розглядаються теоретичні та практичні питання аналізу статистичних даних. Комп'ютерний аналіз даних слід як вивчення методик практичного застосування теоретичних методів математичної статистики. Прикладний характер дисципліни, що вивчається, підкреслюється орієнтацією її на застосування конкретного програмного продукту EXCEL.

Соціально-економічні процеси та явища залежать від великої кількості параметрів, що характеризують їх, що обумовлює труднощі, пов'язані з виявленням структури взаємозв'язків цих параметрів. У таких ситуаціях, коли рішення приймається з урахуванням аналізу стохастичної, неповної інформації необхідно застосування методів статистичного аналізу даних.

Методи аналізу даних дозволяють обґрунтовано вибрати серед безлічі можливих імовірнісно-статистичних моделей таку, що найкраще відповідає вихідним статистичним даним, що характеризує реальну поведінку досліджуваної сукупності об'єктів, оцінити надійність і точність висновків, зроблених на підставі великого статистичного матеріалу.

У посібнику розглядається сукупність глибоко формалізованих статистичних методів, що базуються на поданні вихідної інформації в багатовимірному геометричному просторі і дозволяють визначати неявні (латентні), але об'єктивно існуючі закономірності в організаційній структурі та тенденції розвитку соціально-економічних процесів і явищ, що вивчаються.

Основним завданням посібника є навчання студентів теоретичним основ найбільш поширених методів статистичного аналізу даних та розвитку навичок застосування стандартних програмних засобів, в яких реалізовані процедури статистичного аналізу даних.

Для успішного вивчення матеріалу, викладеного у посібнику, студенту необхідні знання з основних розділів «Вищої математики» та «Математична статистика». Необхідні знання таких основних понять як: види випадкових величин, характеристики випадкових величин, основні закони розподілу випадкових величин, способи оцінки вибіркових характеристик, основи статистичного висновку з використанням статистичних критеріїв та перевірки гіпотез, лінійна та нелінійна регресії.

У ході вивчення матеріалу, викладеного у посібнику, студент має формуватися уявлення про конкретні практичні ситуації, в яких необхідне використання методів статистичного аналізу.

В результаті роботи з посібником та виконання практичних завдань студенту необхідно досягти певного рівня знань у галузі комп'ютерного аналізу даних. Необхідний рівень знань складається із трьох пунктів.

1. освоїти:

Концепцію та технології сучасного аналізу даних на комп'ютері;

принципи роботи програмних засобів, призначених для статистичного аналізу даних;

Принципи роботи сучасних візуальних методів аналізу даних та використання їх для статистичного висновку та формулювання гіпотез про структуру даних.

2. Виробити вміння самостійного вирішення завдань щодо вибору методів аналізу у практичних ситуаціях;

3. отримати навички застосування програмних систем; призначені для статистичного аналізу даних, а також тестування програмних модулів на модельних даних.

англ. analysis, data; ньому. Данийаналіз. Етап емпіричного соціол. дослідження, в ході якого за допомогою змістовних міркувань і математико-статист. методів з урахуванням первинної інформації розкриваються зв'язку досліджуваних змінних.

Відмінне визначення

Неповне визначення ↓

АНАЛІЗ ДАНИХ

1. Сукупність дій, здійснюваних дослідником у процесі вивчення отриманих тим чи іншим чином даних з формування певних уявлень про характер явища, описуваного цими даними. У процесі А.Д. дослідник найчастіше намагається скоротити їх кількість, прагнучи втратити при цьому якнайменше корисної інформації, потенційно в них закладеної. Робиться це зазвичай за допомогою математич. методів. З використанням математич. статистики, напр., скорочення кількості даних досягається за рахунок двох взаємно доповнюють один одного принципів: вибіркового методу та згортки інформації. Перший з них декларує відмову від усієї сукупності даних на користь спеціально організованої їх частини - вибірки (див.), а другий замінює всю вибірку кількома числами - її характеристиками Такими можуть бути, напр., середнє арифметич. і дисперсія, рівняння регресії, рез-ти застосування факторного аналізу, методів класифікації і т. д. Для отримання подібних характеристик дані піддаються деяким впливам: вони або обробляються, або досліджуються, або аналізуються. Тому процес " згортки " даних називається як їх аналізом, а й їх обробкою, дослідженням. 2. Процес вивчення статистич. даних (тобто. аналіз цих даних у сенсі п. 1) за допомогою математич. методів, що не передбачають імовірнісної моделі цікавого дослідника явища (зокрема, що не спираються на припущення про імовірнісну природу вихідних даних, про статистичні моделі породження даних). Розвиток теорії та практики статистич. обробки даних йде у двох паралельних напрямках. Одне з них представлено методами, що передбачають можливість імовірнісної інтерпретації даних та отриманих у результаті обробки статистич. висновків, використання ймовірнісних моделей для побудови та вибору найкращих методів статистич. обробки. Ці методи зазвичай називають імовірнісно-статистичними. Вони припускають адекватну реальності певну ймовірнісну модель досліджуваного з допомогою явища. У припущенні цієї адекватності одержувані з допомогою таких методів висновки грунтуватимуться суворо доведених математич. рез-тах, що дають можливість також встановлювати точність згаданих висновків (див. Оцінювання статистичне, Перевірка статистичних гіпотез). Др. напрямок представлений методами А.д., що не передбачають ймовірнісних моделей явищ, що вивчаються. Суворих математич. методів обробки статистич. даних за допомогою такого роду методів поки що не існує. Вони не ґрунтуються на строго доведених математиках. рез-тах і, як наслідок, не дають можливості встановлювати точність одержуваних з їх допомогою висновків. Застосування методів А.Д. найчастіше ґрунтується на наступній схемі. Що підлягають статистич. обробці вихідні дані не можуть інтерпретуватися як вибірка з генеральної сукупності і, отже, використання ймовірнісних моделей при побудові та виборі найкращих методів статистич. обробки та наступна ймовірнісна інтерпретація статистич. висновків виявляються неправомірними. З безлічі методів, що реалізують поставлену мету статистич. обробки даних, як к-рой може виступати класифікація об'єктів, знаходження латентних факторів і т. д. (див. Статистика математич. і Аналіз багатовимірний статистич.), найкращий метод зазвичай вибирається за допомогою оптимізації деякого задається з евристич., змістовних міркувань критерію (функціоналу) якості методу. Природно, що у своїй проблема обгрунтованості одержуваних з допомогою методів А.д. висновків потребує особливої уваги. Тут особливо гострою є необхідність виділення "точок дотику змісту задачі і математич. формалізму (див. Адекватність математич. методу, п. 1). адекватність реальності передбачуваної методом імовірнісної моделі досліджуваного явища, тим більше, якщо в подібній ситуації соціолог має підстави сумніватися в такій адекватності. ортодоксальної математики не є достатньо обґрунтованими, то є сенс використовувати ці методи лише на попередньому етапі аналізу для уточнення уявлень дослідника про досліджуване явище, коригування понятійного апарату, формулювання гіпотез і т. д. Однак з цим положенням, що висувається рядом авторів як незаперечне, у багатьох ситуаціях важко погодитись. Методи А.Д. можуть і засобом отримання фундаментального знання, виявлення невідомих раніше закономірностей, якщо перейти новий рівень розуміння самого математич. формалізму: вважати, що адекватним розв'язуваним завданням є не к.-л. окремий метод (при цьому не відіграє ролі, мається на увазі імовірнісно-статистич. метод або метод А.д.), а ціла сукупність таких методів, що застосовуються відповідно до певних методологіч. принципами (див. п. 4). Виділення класу методів аналізу даних у цьому сенсі обумовлено потребами цілого ряду наук, у т. ч. і соціології. У цих науках, з одного боку, велика потреба аналізу статистичних. даних, з другого - традиційні припущення, що у основі вероятностно-статистич. Методи, розроблені спеціально для вирішення такого роду завдань, часто не виконуються. Однак невиконання імовірнісно-статистич. посилок не є єдиною причиною відсутності "законної" можливості використання імовірнісно-статистич. апарату у соціології. Др. не менш поширеною причиною непридатності тих чи інших методів є їх неадекватність щодо типу шкал, що використовуються (див. Адекватність математич. методу, п. 2). Так, неадекватним є застосування традиційних математико-статистич. методів до даних, отриманих за порядковими шкалами, що часто робиться на практиці. Метод, використовуваний для шкал, щодо типу яких він не адекватний, також може бути віднесений до області А.д. 3. О.Д. - прикладна статистика, яка розуміється як наук. дисципліна, що розробляє та систематизує поняття, прийоми, математич. методи та моделі, призначені для організації збору (мається на увазі лише визначення способу відбору підлягають статистич. обстеженню одиниць з усієї досліджуваної сукупності), стандартного запису, систематизації та обробки (в т. ч. за допомогою ЕОМ) статистич. даних з метою їх зручного подання, інтерпретації та отримання наук. та практич. висновків. 4. Такі процедури отримання "згортки" інформації (див. п.1), які не допускають формального алгоритміч. підходу. Таке розуміння терміна "А.д." відповідає новому напрямку досліджень, що опинився в центрі уваги багатьох статистиків та фахівців з переробки даних. Застосування будь-якого математика. Методу вивчення будь-якого явища означає використання формальної моделі цього явища - певної системи передумов і постулатів. Специфіка соціологіч. (і не тільки социологич.) завдань проявляється, зокрема, у цьому, що з більшості відомих математико-статистич. Методи перевірки адекватності цих передумов і постулатів, спроможності відповідної моделі є досить проблематичною справою. А.Д. пропонує "затіяти гру" з передумовами: варіювати їх і розглядати наслідки такого варіювання. Так, можна спочатку дивитися на дані як на числа (детермінована модель), а потім - як на випадкові величини (стохастична модель) і вибирати таку відповідь, який краще гармонують з вимогами конкретної задачі. Таке ставлення до передумов А.д., зведене в принцип, назвемо першим. Другий принцип А.Д. - системний підхід. А.Д. шукає різн. прийоми для найбільш повного використання ендогенної інформації (тобто даних, що описують об'єкт, що вивчається), але разом з тим він постійно націлений на максимальне використання екзогенної інформації (т. е. даних, що описують "довкілля" об'єкта). Системний підхід пред'являє дослідникам підвищені вимоги, оскільки він має принципово міждисциплінарний характер. Третім принципом О.Д. можна вважати відмову від тієї т.зр., що дослідження має початок і поклала край. Аналіз – спосіб існування даних. Готовність до постійного повернення до тих самих даних - важлива нова особливість процесу застосування математики для отримання нового знання. У безперервному процесі аналізу передбачаються розриви, що дозволяють витягувати накопичену інформацію та приймати рішення, пов'язані з управлінням обробкою даних та їх подальшим аналізом. Формальні операції перемежовуються з неформальними процедурами ухвалення рішення. З появою нових експериментальних даних виникають нові ідеї, підходи, методи, уточнюється розуміння процесів, що відбуваються і т. д. А.д. зводить воєдино спочатку як би не пов'язані один з одним елементи, підкоривши їх єдиному механізму розв'язання задачі, відкривши тим самим дорогу новому погляду на можливості збирання, аналізу та інтерпретації цих різниць. природи. У соціології нагальна потреба використання А.д. обумовлюється не тільки складністю перевірки передумов, закладених у відповідних (для вирішення відповідних завдань) методах. Навпаки, відомо багато таких придатних для соціології методів, яким відповідають порівняно слабкі передумови. Такими є, напр., багато методів пошуку взаємодій (див.), зокрема. такий, як аналіз детермінаційний (див.), які взагалі мало припускають ніякої моделі реальності, не спираються ні на які причини. Проте потреба в А.Д. залишається, оскільки у соціолога дуже часто відсутня та апріорна соціологія. модель досліджуваного явища (див. Адекватність математич. методу, п.1), формування якої є необхідною для однозначного вибору математич. формалізму (та й взагалі для проведення дослідження, починаючи з формулювання гіпотез та розробки анкети). Творча реалізація принципів А.Д. дозволяє поповнити цей недолік. (Див. також: Комплексне використання математич. методів.). Як одна з головних цілей розробки алгоритмів А.д. у сенсі п. 2 і принципів комплексного використання серії алгоритмів у сенсі п. 4 деякі автори (Дж.У.Тьюкі) висувають такий "охоплення" змісту вихідних даних значного обсягу, який дозволяє прийти до уявлень (переважно візуальним), легко доступним для розуміння користувача (див. інтерпретація рез-тов застосування математич. методу). Тьюкі Дж.У. Аналіз даних, обчислення на ЕОМ та математика// Сучасні проблеми математики. М., 1977; Міркін Б.Г. Аналіз якісних ознак та структур. М., 1980; Тьюкі Дж.У. Аналіз результатів спостережень: розвідувальний аналіз. М., 1981; Мостеллер Ф., Тьюкі Дж.У. Аналіз даних та регресія. М., 1982; Єлісєєва І.І., Рукавишніков В.О. Логіка прикладного статистичного аналізу. М., 1982; Айвазян С.А., Єнюков І.С., Мешалкін Н.Д. Прикладна статистика М., 1983; Діде Е. та ін. Методи аналізу даних. М., 1985; Дрейпер Н., Сміт Р. Прикладний регресійний аналіз. Т.2. М., 1987; Толстова Ю.М. Логіка математичного аналізу соціологічних даних. М., 1991; Benzecri JP. Lanalyse des donnees. Vol. 1. La taxonomie. Vol. 2. Lanalyse des correspon-dances. Dunod, 1973; Statistical data analysis. Providence, Rhode Island: American Mathematical Society, 1983; Фелінгера А.Ф. Статистичні алгоритми соціологічних досліджень. Новосибірськ, 1985; Тюрін Ю.М., Макаров А.А. Аналіз даних на комп'ютері. М., 1995. Андре-єнков В.Г. Аналіз та інтерпретація емпіричних даних//Соціологія. Основи загальної теорії (за ред. Осипова Г.В., Москвичева Л.М.). М., 1996; див. також літ. до ст. Комплексне використання математич. методів. Ю.М. Толстова

Механізм аналізу даних та прогнозування надає користувачам (економістам, аналітикам тощо) можливість здійснювати пошук неочевидних закономірностей у даних, накопичених в інформаційній базі. Цей механізм дозволяє:

здійснювати пошук закономірностей у вихідних даних інформаційної бази;
керувати параметрами виконуваного аналізу як програмно, і інтерактивно;
здійснювати програмний доступ до результатів аналізу;
автоматично виводити результат аналізу у табличний документ;
створювати моделі прогнозу, дозволяють автоматично прогнозувати наступні події чи значення деяких характеристик нових об'єктів.

Механізм аналізу даних є набір взаємодіючих один з одним об'єктів вбудованої мови, що дозволяє розробнику використовувати його складові в довільній комбінації в будь-якому прикладному рішенні. Вбудовані об'єкти дозволяють легко організувати інтерактивне налаштування параметрів аналізу користувачем, а також дозволяють виводити результат аналізу у зручній для відображення формі в табличний документ.

Механізм дозволяє працювати як із даними, отриманими з інформаційної бази, так і з даними, отриманими із зовнішнього джерела, попередньо завантаженими в таблицю значень або табличний документ:

Застосовуючи до вихідним даним один із видів аналізу, можна отримати результат аналізу. Результат аналізу є якоюсь модель поведінки даних. Результат аналізу може бути відображений у підсумковому документі або збережений для подальшого використання.

Подальше використання результату аналізу полягає в тому, що на його основі може бути створена модель прогнозу, що дозволяє прогнозувати поведінку нових даних відповідно до наявної моделі.

Наприклад, можна проаналізувати, які товари купуються разом (в одній накладній) та зберегти цей результат аналізу у базі даних. Надалі, при створенні чергової накладної:

на підставі збереженого результату аналізу можна побудувати модель прогнозу, подати їй "на вхід" нові дані, що містяться в цій накладній, та "на виході" отримати прогноз, - список товарів, які контрагент Петров Б.С. також, швидше за все, придбає, якщо їх йому запропонувати:

У механізмі аналізу даних та прогнозування реалізовано кілька типів аналізу даних:

Реалізовані типи аналізу

Загальна статистика

Є механізмом для збору інформації про дані, що знаходяться в досліджуваній вибірці. Цей тип аналізу призначений попереднього дослідження аналізованого джерела даних.

Аналіз показує ряд показників числових і безперервних полів. При виведенні звіту до табличного документа заповнюються кругові діаграми для відображення складу полів.

Пошук асоціацій

Даний тип аналізу здійснює пошук часто зустрічаються разом груп об'єктів або значень характеристик, а також здійснює пошук правил асоціацій. Пошук асоціацій може використовуватися, наприклад, для визначення товарів, що часто купуються разом, або послуг:

Цей тип аналізу може працювати з ієрархічними даними, що дозволяє, наприклад, знаходити правила як для конкретних товарів, але й їх груп. Важливою особливістю цього аналізу є можливість працювати як з об'єктним джерелом даних, в якому кожна колонка містить деяку характеристику об'єкта, так і з подієвим джерелом, де характеристики об'єкта розташовуються в одній колонці.

Для полегшення сприйняття результату передбачено механізм відсікання надлишкових правил.

Пошук послідовностей

Тип аналізу пошук послідовностей дозволяє виявляти у джерелі даних послідовні ланцюжки подій. Наприклад, це може бути ланцюжок товарів чи послуг, які часто послідовно купують клієнти:

Цей тип аналізу дозволяє здійснювати пошук ієрархії, що дозволяє відстежувати як послідовності конкретних подій, а й послідовності батьківських груп.

Набір параметрів аналізу дозволяє фахівцю обмежувати часові відстані між елементами послідовностей, що шукаються, а також регулювати точність одержуваних результатів.

Кластерний аналіз

Кластерний аналіз дозволяє розділити вихідний набір досліджуваних об'єктів на групи об'єктів, таким чином, щоб кожен об'єкт був більш схожий з об'єктами своєї групи, ніж з об'єктами інших груп. Аналізуючи надалі отримані групи, які називають кластерами, можна визначити, чим характеризується та чи інша група, прийняти рішення про методи роботи з об'єктами різних груп. Наприклад, за допомогою кластерного аналізу можна розділити клієнтів, з якими працює компанія, на групи, щоб застосовувати різні стратегії при роботі з ними:

За допомогою параметрів кластерного аналізу аналітик може налаштувати алгоритм, яким буде проводитися розбиття, а також може динамічно змінювати склад характеристик, що враховуються при аналізі, налаштовувати для них вагові коефіцієнти.

Результат кластеризації може бути виведений у дендрограму – спеціальний об'єкт, призначений для відображення послідовних зв'язків між об'єктами.

Дерево рішень

Тип аналізу дерево рішень дозволяє побудувати ієрархічну структуру правил, що класифікують, представлену у вигляді дерева.

Для побудови дерева рішень необхідно вибрати цільовий атрибут, за яким будуватиметься класифікатор та ряд вхідних атрибутів, які будуть використовуватись для створення правил. Цільовий атрибут може містити, наприклад, інформацію про те, чи клієнт перейшов до іншого постачальника послуг, чи вдала була угода, чи якісно була виконана робота і т.д. Вхідними атрибутами, наприклад, можуть бути вік співробітника, стаж його роботи, матеріальний стан клієнта, кількість співробітників у компанії тощо.

Результат роботи аналізу представляється у вигляді дерева, кожен вузол якого містить певну умову. Для ухвалення рішення, до якого класу слід віднести якийсь новий об'єкт, необхідно, відповідаючи на запитання у вузлах, пройти ланцюжок від кореня до листа дерева, переходячи до дочірніх вузлів у разі ствердної відповіді та до сусіднього вузла у разі негативного.

Набір параметрів аналізу дозволяє регулювати точність отриманого дерева:

Моделі прогнозу

Моделі прогнозу, створювані механізмом, є спеціальні об'єкти, що створюються з результату аналізу даних, і дозволяють надалі автоматично виконувати прогноз нових даних.

Наприклад, модель прогнозу пошуку асоціацій, побудована при аналізі покупок клієнтів, може бути використана при роботі з клієнтом, що здійснює покупку, для того, щоб запропонувати йому товари, які він з певним ступенем ймовірності придбає разом з обраними ним товарами.

Використання механізму аналізу даних у прикладних рішеннях

Для ознайомлення розробників прикладних рішень з механізмом аналізу даних на диску «Інформаційно-технологічний супровід» (ІТС) розміщено демонстраційну інформаційну базу. До її складу входить універсальна обробка "Консоль аналізу даних", яка дозволяє виконувати аналіз даних у будь-якому прикладному рішенні, без доопрацювання конфігурації.

Вступ

Цей випуск є другим із серії випусків, в яких викладається курс «Математичне моделювання геологічних об'єктів», що супроводжується навчально-методичними рекомендаціями, контрольними питаннями та коментарями. У цьому випуску першочергова увага приділяється аналізу даних як самостійної наукової дисципліни та у його поєднанні з прикладною статистикою. Викладається, звісно, не «весь» аналіз даних, лише окремі його фрагменти, необхідних розуміння курсу загалом. Наведено мінімально необхідні відомості про прикладну статистику.

Математичне моделювання геологічних об'єктів тісно пов'язане з аналізом даних як самостійною науковою дисципліною, так і прикладною статистикою.

Як аналіз даних, математичне моделювання та прикладна статистика спільно використовуються при вирішенні конкретних геологічних завдань і, зокрема, при створенні моделей геологічних об'єктів? Зазвичай створення моделі геологічного об'єкта розбивається на ряд підзадач, що утворюють єдину блок-схему з послідовним і паралельним рухом інформації, що обробляється від вихідних процедур до кінцевого результату - синтезу моделі.

Рішення кожної з таких підзадач зводиться або до побудови та аналізу деякої приватної моделі, або до пошуку стохастичної залежності між деякими параметрами, або до вирішення тієї чи іншої типової задачі аналізу даних тощо. В останньому випадку вибирається алгоритм, що задовольняє вимоги, що пред'являються вихідною інформацією. Вимоги ці можуть мати як суто формальний характер (наприклад, наявність у таблиці різнотипних ознак унеможливлює застосування деяких алгоритмів), так і являти собою «важко» уявлення, що формалізуються, про систему досліджуваних об'єктів, якими теж не слід нехтувати.

В даний час не існує універсального формально-математичного способу для вибору відповідного алгоритму. Тому при виборі алгоритму поряд з перевіркою його формально-математичної придатності рекомендується орієнтуватися і на його відносну простоту і змістовну інтерпретованість математичного апарату, що використовується в конкретному завданні, досвід застосування алгоритму при вирішенні аналогічних завдань.

Розпізнавання образів

Основні підзадачі

Основними підзавданнями завдання розпізнавання є:

1 ) створення вихідного списку ознак;

2 ) вибір класів об'єктів;

3 ) підготовка таблиці (таблиць) навчання;

4 ) вибір сімейства вирішальних правил;

5 ) пошук оптимального (щодо деякого критерію чи критеріїв) вирішального правила у цьому сімействі;

6 ) підготовка описів проб;

7 ) Розпізнавання проб.

На етапах 1 -3 проводиться вибір та експлікаціяознак (див. посібник Красавчикова, 2008) та складання бази даних.

При створенні вихідного переліку ознак можуть бути реалізовані два підходи:

А) всебічний опис об'єктів, характерне для ситуацій, коли дослідник не знає, з яких ознак повинен бути складений остаточний список (інформативна система ознак), за яким проводитиметься розпізнавання проб. Тому він відбирає такі ознаки, які, в принципі, можутьмістити корисну інформацію (хоча, на перший погляд, їхній зв'язок із розв'язуваним завданням може бути і не очевидна),і належить у виборі інформативної системи ознак алгоритм і реалізує його програму.

Б) опис об'єктів, заснований на певній геологічній моделі, на яку список ознак заздалегідь відомий.

При виборі класів об'єктів виходять не лише з постановки завдання (наприклад, розбракувати локальні підняття на перспективні та безперспективні за результатами інтерпретації даних сейсморозвідки), а й ґрунтуються на геологічному сенсі та досвіді вирішення аналогічних завдань. Можливо, доведеться проводити декомпозиціюзадачі та здійснювати поетапне рішення в рамках послідовно-паралельної блок-схеми кілька завдань розпізнавання.

При підготовці таблиці (таблиць) навчання слід, по-можливості, уникати появи характеристичних ознак, заміряних у шкалі найменувань (номінальних) з числом значень, що приймаються ними, перевищує два, оскільки вони різко обмежують вибір алгоритму розпізнавання. Вони можуть містити дуже істотну інформацію, але краще, щоб вони не входили до списку характерних ознак. Зазвичай за значеннями таких ознак формуються класи.

Вибір сімейства вирішальних правил не є формальною процедурою. Однак при цьому виборі є і формальні вимоги. Наприклад, якщо серед ознак є номінальні або рангові, то можна використовувати лише алгоритми, які здатні працювати з інформацією, представленою в якісних шкалах.

Одним із головних критеріїв вибору вирішального правила є його «простота». Практика показала, що перевагу слід надавати більш простим вирішальним правилам. Якщо серед «простих» вирішальних правил (причому доступних досліднику в програмній реалізації) не вдається знайти здатного впоратися з поставленим завданням (або, у випадку ( а), радикально скоротити розмірність опису), то переходять до складніших і т.д.

Формалізувати поняття простоти не так просто! У математичній логіці та теорії алгоритмів є цілий напрямок, пов'язаний з формалізацією та вивченням простоти математичних конструкцій, але знайомство з цією тематикою не входить до завдання курсу. Тому ставитимемося до цієї проблематики як інтуїтивно ясною. Очевидно, прикладом найпростіших вирішальних правил можуть бути лінійні (див. нижче). Якщо є два лінійні вирішальні правила, то більш простим, очевидно, є те, що використовує меншу кількість ознак.

В разі ( а) при виборі сімейства вирішальних правил слід звертати особливу увагу на здатність радикального скорочення розмірності опису.

Після вибору сімейства проводиться пошук вирішальної функції та відповідного правила, які в цій родині мають «найкращою якістю»по відношенню до матеріалу навчання та іспиту.

Для оцінки якості вирішального правила використовуються функціонали на кшталтнижченаведеного:

Δ(F,λ,ε)=p 1 M 1 + p 2 M 2 +p 3 M 3 + p 4 M 4 ,

де для матеріалу навчання та іспиту

M 1 - Число помилково розпізнаних об'єктів першого класу;

M 2 - Число помилково розпізнаних об'єктів другого класу;

M 3 - Число відмов для об'єктів першого класу;

M 4 - Число відмов для об'єктів другого класу.

Коефіцієнти p j , j = 1, ..., 4, - "Штрафи" за помилку відповідного типу. Чим менше значення Δ(F,λ,ε) (при фіксованих списках об'єктів навчання та іспиту), тим вища якість вирішального правила.

Після того, як для всіх об'єктів навчання та іспиту обчислені значення вирішальної функції, що керують параметрами алгоритму λ, можуть бути обрані оптимальним чином, тобто. так, щоб функціонал якості вирішального правила досягав мінімуму:

Δ(F,λ * ,ε *)=min Δ(F,λ,ε),

де мінімум береться за всімаλ, ε і ε>0.

В разі ( а) Ще одним (і не менш важливим) критерієм якості є різко скорочення числа ознак, що використовуються у розпізнаванні, порівняно з вихідним списком. Це пов'язано з тим, що

Невелика кількість ознак зменшує вплив «інформаційних шумів», що робить розпізнавання більш надійним;

Скорочується час для підготовки описів проб. Так, при розпізнаванні у вузлах сіток зменшується кількість карт, які доводиться будувати;

З'являється можливість змістовно проінтерпретувати вирішальне правило тощо.

Опис проб проводиться у разі ознаками, які у оптимальному вирішальному правилі. В разі ( а) це особливо важливо, тому що, зокрема, суттєво скорочується час на підготовку описів.

Приклади алгоритмів розпізнавання

На цей час опубліковано сотні методів розпізнавання. Вони об'єднуються у сімейства. Найчастіше, ці сімейства описуються як вирішальних функцій (чи правил) з невизначеними параметрами. Усталеної загальновизнаної класифікації сімейств алгоритмів розпізнавання немає. Тому обмежимося коротким описом кількох сімейств алгоритмів, які показали ефективність при вирішенні прикладних геологічних завдань, особливо у геології нафти й газу.

Для докладного ознайомлення із застосуванням методів розпізнавання в геології нафти та газу відсилаємо читача до публікацій 60-80 років минулого століття, коли їхнє використання при вирішенні завдань прогнозно-пошукового профілю було масовим. Методи розпізнавання застосовувалися, зокрема, під час вирішення завдань прогнозу гігантських нафтових родовищ, продуктивності локальних піднять, фазового стану УВ покладах та інших. (розпізнавання образів…, 1971; Роздільна прогнозування…, 1978, Прогноз родовищ …, 1981 та інших.).

4.3.1. Байєсовські вирішальні правила

Ці вирішальні правила докладно охарактеризовані у навчальному посібнику Дьоміна (2005), куди ми й надсилаємо читача. Для глибшого ознайомлення з додатками байєсівської теорії прийняття рішень у геології нафти та газу рекомендуємо звернутися до монографії (Прогноз родовищ…, 1981).

4.3.2. Комбінаторно-логічні методи розпізнавання

Застосування цих методів розглянемо з прикладу однієї конкретної схеми розпізнавання, заснованої на апараті дискретної математики та математичної логіки.

Нехай спочатку для простоти викладу всі ознаки X 1 ... X n - бінарні. Згідно з Журавльовим (1978) назвемо довільну сукупність W наборів ознак виду w=(X j (1) ,…,X j (k)), де k=1,…,n, системою опорних множин, W=(w 1 , w 2 ,…, w N ), та її елементи w r – опорними множинами.

Нехай w W, w = (X j (1), ..., X j (L)), S k - рядок таблиці, Q p - рядок таблиці. Рядки S k і Q p розрізняються за набором ознак w, якщо знайдеться ознака X j (r), що входить у w такою, що X j (r) (S k)¹X j (r) (Q p). В іншому випадку говоритимемо, що вони не відрізняються.

Визначення 1.Набір ознак wÎW голосуєза віднесення рядка S до першого класу, якщо у таблиці T 1знайдеться рядок S k , такий, що з набору w рядки S і S k не відрізняються; w голосуєза віднесення рядка S до другого класу, якщо у таблиці T 2знайдеться рядок Q p , такий, що набору w рядки S і Q p не відрізняються.

при Г 1 (S) > Q p) та Г 2 (S) ≤ Г 2 (S i) об'єкт S відноситься до класу K 1;

при Г 2 (S) > S i) та Г 1 (S) ≤ Г 1 (Q p) об'єкт S відноситься до класу K 2;

в інших випадках S не розпізнається.

Сенс цього вирішального правила у тому, що з віднесення проби S до класу K j , де j=1,2, вона має одержати

Ця схема є одним із найпростіших варіантів голосування по системі опорних множин. Алгоритм є реалізацію так званого «принципу часткової прецедентності» (Журавльов, 1978), у якому висновок про належність об'єкта до класу виноситься з урахуванням аналізу збігів фрагментів його описи з відповідними фрагментами описів об'єктів цього. Збіг фрагментів описів об'єкта навчання та проби є частковим прецедентом.

Приклад системи опорної множини: тестова конструкція. Її основою є поняття тесту та тупикового тесту, запропоновані С.В. Яблонським як математичний апарат діагностики технічних пристроїв (Журавльов, 1978).

Визначення 2.Набір стовпцівw називається тестомдля пари таблиць T 1 , T 2 якщо щодо нього немає збігів між рядками S i і Q p , де

Визначення 3.Тест називається тупиковим,якщо з нього не можна видалити жодного стовпця без того, щоб він перестав бути тестом.

Дмитрієв, Журавльов, Кренделєв (1966) скористалися апаратом тупикових тестів для створення алгоритмів класифікації предметів та явищ.

У геології нафти та газу комбінаторно-логічні методи вперше були застосовані при вирішенні завдань прогнозу гігантських нафтових родовищ (Розпізнавання образів…, 1971), де було використано тестову конструкцію. Під керівництвом А.А. Трофімука тестовий підхід застосований також і до вирішення інших найважливіших прогнозних завдань геології нафти та газу (Роздільна прогнозування ..., 1978 та ін). Ряд зроблених А.А. Трофімуком прогнозів, які не знайшли підтримки в момент опублікування, надалі блискуче підтвердилися.

Константиновим, Корольовою, Кудрявцевим (1976) на представницькому фактичному матеріалі за прогнозом рудоносності було підтверджено ефективність алгоритмів тестового підходу проти іншими алгоритмами розпізнавання, які застосовувалися на вирішення завдань рудопрогнозу.

У геології нафти та газу інші системи опорних множин не застосовувалися.

Якщо в таблицях зустрічаються ознаки, заміряні в кількісних шкалах, то для них використовуються порогові заходи помітності значень (див. Красавчиков, 2009).

4.3.1. Лінійні методи

Лінійні методи стали застосовуватися для вирішення завдань розпізнавання образів одними з перших (див. Ту, Гонсалес, 1978) у середині минулого століття.

Нехай F(u 1 ,…,u n)=a 1 u 1 + a 2 u 2 + … +a n u n – лінійна функція n змінних u 1 ,…,u n . Методи відшукання лінійних вирішальних функцій та правил прийнято називати лінійними. Загальний вид лінійних вирішальних правил може бути заданий таким чином:

при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≥λ+ε об'єкт S відноситься до До 1;

при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≤λ-ε об'єкт S відноситься до До 2;

при λ-ε

Нехай,. Для перевірки існування лінійного вирішального правила достатньо переконатися у існуванні розв'язання системи лінійних нерівностей для будь-якого ε>0:

де j=1,…,n, i=1,…,m(1), k=m(1)+1,…,m c невідомими y 1 ,…,y n (потрібними значеннями коефіцієнтів a j) і λ. Для перевірки існування розв'язання систем лінійних нерівностей використовуються обчислювальні методи лінійної алгебри; ця перевірка є "не надто складною", а програмне забезпечення міститься в загальнопоширених пакетах. Якщо рішення існує, воно або єдино, або їх нескінченно багато.

Існують численні методи знаходження лінійних вирішальних правил, що реалізують різні додаткові вимоги (типу максимізації ε, скорочення розмірності опису та ін.).

Геометрична інтерпретація лінійного вирішального правила ось у чому. Нехай всі ознаки виміряні в кількісних шкалах і E n – n-мірний евклідовий простір. Гіперплощина a 1 x 1+a 2 x 2 +…+a n x n = λ ділить E n на дві частини таким чином, що в кожній з них знаходяться точки лише одного із класів. Такі гіперплощини називаються роздільними.

Ситуація помітно ускладнюється, якщо роздільної гіперплощини немає і необхідно знайти гиперплоскость, мінімізуючу функціонал якості розпізнавання. З обчислювальної точки зору це завдання є набагато складнішим.

Лінійні методи розпізнавання використовувалися протягом ряду років для прогнозу продуктивності локальних піднять та уточнення меж природних резервуарів УВ у нижньо-середньоюрських відкладах Західного Сибіру (Каштанов, Соколов, 1976, Красавчиков, 2007).

Упорядкування

На практиці замість відшукання вирішальної функції, що задовольняє ланцюжку нерівностей (1), часто достатньо отримати «хорошу» кореляцію впорядкування щодо зменшення значень функції F з упорядкуванням на матеріалі навчання. Це має важливе значення, оскільки вирішальної функції, на яку виконуються нерівності (1), у класах «простих» функцій (типу лінійних тощо.) може не існувати. Для наближеного вирішення цього завдання можна використовувати математичний апарат множинної лінійної регресії, реалізований у програмному продукті Statistica for Windows.

Нехай наближене рішення F шукається у класі лінійних функцій,

F(u 1 ,u 2 ,…,u n)= a 1 u 1 + a 2 u 2 +…+ a n u n + b,

де a 1 ,…,a n, b- Коефіцієнти при змінних і вільний член відповідно, Ψ - деяка монотонна функція, визначена на безлічі значень цільової ознаки (наприклад, логарифм, див. Пояснення в розділі 10). Тоді, вирішуючи задачу множинної лінійної регресії виду:

знайти a 1 ,…, a n, b, при яких функціонал

досягає мінімуму,

ми отримуємо наближене рішення задачі упорядкування через апроксимацію певної монотонної функції від цільової ознаки. Оскільки функція Ψ монотонна, можна, використовуючи коефіцієнт Спірмена, оцінити достовірність зв'язку між рішенням регресійної задачі та значеннями цільової ознаки X n+1. Значення r sє природним показником якості наближеного розв'язання задачі упорядкування.

Можна показати, що для пошуку точного рішення F у класі лінійних вирішальних функцій достатньо вирішити систему m-1 нестрогих лінійних нерівностей c n невідомими p 1 ,…,p n:

, i=1,…,m-1, (3)

де n - Число ознак, e> 0 - мала позитивна константа. У цьому, як бачити, різниці X j (S i) - X j (S i +1)=H ij є відомими величинами. Назад, із існування розв'язання системи лінійних нерівностей (3) випливає існування розв'язання системи нерівностей (2). Проте, як зазначалося, у класі лінійних вирішальних функцій рішення може й існувати.

Програмне забезпечення для вирішення систем нестрогих лінійних нерівностей відсутнє у пакеті Statistica. Однак воно, в принципі, є досить поширеним і міститься у програмних продуктах, призначених для вирішення задач обчислювальної алгебри.

Кластер-аналіз

Існує велика кількість методів та алгоритмів кластеру аналізу. Серед них виділяються дві великі групи, до яких належать більшість опублікованих алгоритмів. Це ієрархічні алгоритми, що породжують деревоподібні класифікації об'єктів, та алгоритми, що породжують розбиття (угруповання).

Ієрархічні алгоритми

Серед ієрархічних алгоритмів можна виділити два основні класи – агломеративні та дивізимні. Це покрокові алгоритми. Агломеративні алгоритми починають з того, що кожен об'єкт є окремим кластером, а закінчують тим, що всі кластери поєднуються в один об'єкт. На кожному кроці проводиться об'єднання двох найбільш близьких у певному сенсі кластерів. Близькість між кластерами задається «відстанню» або мірою близькості. Під «відстанню» у разі розуміється неотрицательная симетрична функція. Приклади таких функцій будуть розглянуті нижче. У дивізимних методах, навпаки, на першому кроці всі об'єкти утворюють один кластер, на останньому - кожен об'єкт представляє окремий кластер.

6.1.1. Агломеративні алгоритми

Розглянемо агломеративні методи, які у пакеті Statistica for Windows. Для цього спочатку визначимо функції, за допомогою яких оцінюються відстані між кінцевими підмножинами метричного простору M.

Нехай безліч описів об'єктів S=(S 1 ,…,S m ) ознаками X 1 (S),…,X n (S) міститься в евклідовому просторі E n , так що для будь-якої пари об'єктів S i , S j Sвизначено метрику (відстань) ρ ij = ρ(S i ,S j) і можна скласти симетричну матрицю відстаней R=(ρ ij) m m . Наведемо приклади функцій двох змінних, значення яких грають у кластер-аналізі роль відстаней між підмножинами, що не перетинаються, хоча, формально, ці функції не є метриками. Нехай A l , A q Ì Sнемає загальних елементів, A l ÇA q = Æ. Тоді:

а) ρ lq дорівнює відстані між двома найближчими об'єктами множин A l , A q;.

б) ρ lq дорівнює відстані між найдальшими об'єктами множин A l , A q ;

в) ρ lq дорівнює відстані між центрами ваги множин A l , A q (точок із середніми

значеннями всіх показників);

г) ρ lq дорівнює середній арифметичній відстані між об'єктами множин A l , A q ;

д) ρ lq дорівнює відстані між точками з медіанними значеннями ознак для багато-

ств A l , A q ;

е) ρ lq дорівнює сумі відстаней між елементами множин A l , A q .

ж) ρ lq дорівнює так званій «статистичній відстані» (Дюран, Оделл, 1977) між

множинами A l , A q:

Тут – вектори середніх значень ознак для підмножин A l, A q, T- Знак транспонування. Таким чином, «статистичну відстань» між підмножинами A l , A q є квадратом відстані між векторами середніх значень ознак (центрами тяжіння) з коефіцієнтом m l m q /(ml + m q).

В ієрархічних агломеративних алгоритмах, заснованих на обчисленні «відстаней» між підмножинами A l , A q виду (а-ж) та подібних до них, на першому кроці кожен об'єкт вважається окремим кластером. На наступному кроці об'єднуються два найближчих об'єкти, які утворюють новий клас, визначаються «відстань» від цього класу до решти всіх об'єктів. Матриця відстаней, відповідно, змінюється з урахуванням результатів кластеризації, включаючи зменшення її розмірності. На р-му кроці для кластерів і матриці відстаней попереднього кроку R p -1 повторюється та сама процедура, поки всі об'єкти не об'єднаються в один кластер. На відміну від R 1 =R, при p>1 елементами R p є не відстані між об'єктами, а відстань між кластерами.

Якщо відразу кілька об'єктів (або кластерів) мають мінімальну «відстань», то можливі дві стратегії: вибрати одну випадкову пару або об'єднати всі пари. Перший спосіб є класичним; іноді в літературі його називають висхідною ієрархічною класифікацією. Другий спосіб використовується набагато рідше.

Метод, заснований на обчисленні «статистичної відстані» (див. п. (ж) вище) називається методом Уорда (Мандель, 1988) на ім'я фахівця, що його запропонував. Назви інших методів визначаються відстанню, що використовується в них.

Результати роботи всіх ієрархічних агломеративних процедур зазвичай оформлюються у вигляді так званої дендрограми(див. рис. 1), в якій по горизонталі показані номери об'єктів, а по вертикалі – значення міжкластерних відстаней ρ lq , за яких відбулося об'єднання двох кластерів.

6.1.2. Дивізимні алгоритми

Цей клас алгоритмів кластер-аналізу опишемо з прикладу «Швидкого дивизимного комбінаційного алгоритму», запропонованого Chaudhuri (Мандель, 1988). Проведені в ІНГГ експерименти показали його високу ефективність при вирішенні завдання кластеризації розрізів по товщинах горизонтів, що їх складають, на основі інформації, що міститься в сітках товщин. Обробка інформації по середній юрі південного сходу ЗСП показала, що він швидко і розумно кластеризує величезні масиви даних, представлених сіточними моделями. Іншими алгоритмами кластеризувати ці масиви, що складаються часом з мільйона з лишком об'єктів, охарактеризованих більш ніж 10 ознаками, часто неможливо або вкрай важко. Алгоритм Chaudhuri (Чаудурі) у програмному продукті Statistica for Windows не представлений.

Цей алгоритм для стислості називатимемо також алгоритмом гіперкубів. Наведемо його короткий опис.

Гіперкуб, в якому містяться всі точки (визначається розмахами варіації ознак), розбивається на першому кроці кожної осі перпендикулярною їй площиною на 2 n«кубика», де n-Кількість ознак. на j -м кроці кожен із цих кубиків також розбивається, т. е. виходить 2 n j гіперкубу. Якщо в отриманому кубі є хоч один об'єкт, він вважається заповненим, якщо ні – пустим. Кластером тут називається максимально велика зв'язкова область, в якій будь-які два об'єкти з'єднані непустими клітинами (тобто компонента зв'язності графа, вершинами якого є об'єкти, і дві вершини в якому з'єднані ребром якщо і якщо вони або знаходяться в одній клітці або вміщають їх клітини мають спільну межу, нехай навіть складається з однієї точки).

У міру збільшення j кількість кластерів зростає, тобто. алгоритм має дивізимний характер. Він належить до найшвидших ієрархічних алгоритмів, не вимагає попереднього нормування показників, зберігання та перерахунку матриці відстаней, може працювати у вихідному просторі. Ці та деякі інші особливості відносять його до найбільш кращих алгоритмів для побудови ієрархічних класифікацій у разі великих баз даних.

Розділ 2

1. Вирішальна функція у розпізнаванні образів – це відображення, що переводить набір значень різнотипних ознак X 1 (S),…,X n (S) число. Це число – значення вирішальної функції F на об'єкті S. Вирішальне правило у розпізнаванні образів – це висловлювання, що містить значення вирішальної функції і параметрів і, з урахуванням цих значень, або відносить пробу одного з класів, або відмовляється від розпізнавання.

2. Сформулюйте поняття вирішальної функції стосовно завдання упорядкування.

3. Чи може цільова ознака стосовно сформульованої в розділі 2 версії завдання упорядкування бути а) логічною; б) номінальним?

4. Чому на початкових етапах розвитку кластер – аналізу його (на противагу розпізнаванню образів) називали «навчанням без вчителя»?

5. Залежність між ознаками може бути представлена як у вигляді, дозволеному щодо тієї чи іншої ознаки, наприклад, X j ≈ f(X i ,X k ,…,X l), так і без такого дозволу. Наприклад, (ln(X j)) 2 + ln(X j +X k) -1 ≈0.

6. Сформулюйте завдання розпізнавання як завдання заповнення одиничного пропуску.

7. Сформулюйте завдання заповнення одиничного пропуску в бінарній чи номінальній ознакі як завдання розпізнавання.

Розділ 3

1. У яких випадках і чому для оцінки зв'язку між кількісними ознаками раціонально використовувати ранговий коефіцієнт Спірмена?

2. Чи завжди множинна лінійна регресія точно вирішуватиме завдання впорядкування?

3. Чи можна застосовувати лінійну регресійну модель з розділу 3, якщо Y-рангова ознака?

4. Чи можна застосовувати лінійну регресійну модель з розділу 3, якщо Y-номінальна ознака?

5. Чи можна застосовувати лінійну регресійну модель розділу 3, якщо хоча б одна ознака зі списку X 1 ,…, X n – рангова чи номінальна?

6. Чи можна без попереднього нормування ознак зіставляти ваги, з якими вони входять до рівняння регресії, з метою їхнього впорядкування впливу на значення прогнозованого показника?

7. Що таке b у розділі «Множинна лінійна регресія» пакета Statistica for Windows? Як величини b j можуть бути використані при порівнянні характеристичних ознак щодо їх впливу на значення залежної (цільової) ознаки?

Розділ 4

1. У чому полягає експлікація на етапі формування списку вихідних ознак?

2. Як штрафи за помилки та відмови дозволяють регулювати оцінку якості розпізнавання?

3. Яке з двох лінійних вирішальних правил, що мають однакову оцінку якості розпізнавання, краще: використовує 5 ознак або 7?

4. Якщо метод розпізнавання використовується для уточнення кордонів (по латералі) геологічного об'єкта в осадовій товщі, то певний відсоток відмов або навіть помилок у вузлах сітки може і не вплинути на прогнозоване розташування його кордону. В результаті вирішення завдання розпізнавання образів для вузлів сітки на належність локальної ділянки (центром якого є вузол) до об'єкта, що моделюється, з'являється попередня версія кордону. Зазвичай, у результаті аналізу отриманої версії, геологічна ситуація, загалом, стає зрозумілою, отже дослідник вже може «самостійно» провести кордон об'єкта.

5. В результаті розв'язання задач розпізнавання з використанням ознак, розрахованих за сітками реперних геофізичних поверхонь та даними глибокого буріння (розбивки за стратиграфічними рівнями, товщиною горизонтів тощо), в ІНГГ СО РАН було уточнено межі (по латералі) основних стратиграфічних горизонтів у нижньому -Середньоюрських відкладах Західного Сибіру, що, у свою чергу, дозволило уточнити оцінки ресурсів УВ юри ряду великих регіонів.

6. Читаючи роботи з застосування методів розпізнавання в геології нафти і газу, слід мати на увазі, що, як правило, дослідник спирається на свій досвід вирішення аналогічних завдань та літературних даних; при цьому використовує не «найкраще» програмне забезпечення, а те, яке має і вміє користуватися.

7. Досвід вирішення численних практичних завдань у галузі моделювання геологічних об'єктів у шаруватій товщі дозволяє сформулювати нижченаведені вимоги до алгоритмів та програмного забезпечення розпізнавання образів стосовно моделювання регіональних, зональних та локальних об'єктів в осадовому басейні:

- "вміти" працювати з ознаками, заданими на сітках;

- відшукувати прості та легко інтерпретовані вирішальні правила;

- забезпечувати ефективне зниження розмірності опису n;

- працювати із залежними та різнотипними ознаками;

- враховувати складний характер поділу класів (по латералі).

Розділ 5

Множинний лінійний регресійний аналіз призначений для відшукання лінійної залежності ознаки Y від ознак X 1 ... X n

Y≈ a 1 X 1 +…+ a n X n + b= L (X 1, ..., X n). (4)

У задачі впорядкування потрібно вирішити більш загальне завдання: знайти залежність F, яка розставляє об'єкти навчання в порядку за зменшенням значень цільової ознаки X n +1 . При цьому може виявитися так, що значення функції F у об'єктів навчання та проб не співпадатимуть зі значеннями цільової ознаки.

Рішення лінійної регресійної задачі щодо знаходження мінімуму функціоналу (4) може не призвести до знаходження прийнятної апроксимації розв'язання задачі упорядкування. Однак, можна спробувати провести перетворення цільової ознаки X n +1 монотонною функцією Ψ таким чином, щоб для Ψ(X n +1) методом найменших квадратів можна було отримати апроксимацію. Оскільки Ψ монотонна, це дає вирішення завдання впорядкування.

"Універсального" способу вибору Ψ, швидше за все, не існує. Однак можна навести деякі практичні рекомендації щодо його підбору.

Монотонна функція Ψ зазвичай використовується в тому випадку, коли «звичайний» коефіцієнт парної кореляції r(Демін, 2005, с. 42-44) між значеннями цільової ознаки X n +1 і відповідними значеннями, розрахованими за рівнянням множинної лінійної регресії, «малий». При цьому змістовні міркування дозволяють припускати, що впорядкувати об'єкти за спаданням цільової ознаки X n +1 за значеннями X 1 ..., X n все-таки можна. Найчастіше множинна лінійна регресія з «вдало підібраним» Ψ успішно застосовується, коли розподіл значень у послідовності X n +1 (S m), X n +1 (S m -1), …, X n +1 (S 1) має яскраво виражений нелінійний характер, який можна порівняти, наприклад, з експонентою. Функція Ψ зазвичай вибирається таким чином, щоб, по можливості, усунути різку нелінійність. Логарифм – типовий приклад подібної функції, неодноразово використаний у подібних ситуаціях під час вирішення практичних завдань

Розділ 6

1.Нехай A l = ((0,1), (2,0), (2,3)), A q = ((5,1), (6,2), (8,3), (9 ,5), (10,7)). Розрахуйте відстані (а – ж).

2. Вважаючи S= A l ÈA q розв'яжіть задачу кластеризації сукупності об'єктів S методом Чоударі

3. На локальному рівні для окремої площі або скупчення площ (малої зони) кластер-аналіз успішно застосовується при кореляції диз'юнктивних порушень за даними 3D-сейсморозвідки (Кашик та ін, 2004).

Досвід застосування кластер-аналізу на регіональному і зональному рівні показав, що ці методи можуть давати корисну інформацію про історію розвитку товщ, що вивчаються, і тектонічні процеси, типи геологічних розрізів, їх поширення по латералі, зонах розвитку колекторів в них, нафтогазоносності. Однак для цього, як з'ясувалося, потрібні досить «густі» регулярні сітки товщин відкладень, тому головний фактор, який стримує його застосування при регіональних та зональних побудовах (у разі «великих» територій), – необхідність зберігання та перерахунків матриці відстаней для всієї сукупності об'єктів.

Якщо виходити з оцінки трудомісткості обчислень , то на локальному рівні, за винятком обробки даних 3D-cейсморозвідки, Цілком можна використовувати практично будь-які алгоритми кластер-аналізу. При регіональних та зональних побудовах з використанням сіткових моделей (у разі «великих» територій), а також при обробці даних 3D-сейсморозвідки (навіть на рівні окремої площі або «малої зони»), доцільно вибирати алгоритм, що не вимагає перерахунку матриці відстаней, наприклад , метод Чоударі

4. Зазначимо, загалом, підхід, що дозволяє ефективно використовувати кластер-аналіз даних буріння при прогнозних побудовах. Нехай, наприклад, аналізуються дані щодо будь-якого регіонального або зонального резервуару УВ. З деякого вихідного списку ознак (що включає результати випробувань свердловин та його координати) проводиться кластеризація об'єктів.

Федеральне агентство зв'язку Федеральна державна освітня бюджетна установа вищої професійної освіти «Поволзький державний університет телекомунікацій та інформатики» ___________________________________________________ Кафедра інформаційних систем і технологій КОНСПЕКТ ЛЕКЦІЙ З НАВЧАЛЬНОЇ ДИСЦИПЛІНИ «АНАЛІЗ ДАНИХ» за спеціальністю (напрямок підготовки) 2013 УДК 004.02:004.6 Салмін О.О. Аналіз даних. Конспект лекцій. - Самара.: ФГОБУ ВПО «ПГУТІ», 2013. - 111 с. Розглядаються питання щодо аналізу даних. Наводяться деякі з основних методик аналізу даних, такі як: регресійний аналіз, кореляція, дисперсійний аналіз та ін. Відбито питання інтелектуального аналізу даних, за допомогою якого можна виявити раніше невідомі, нетривіальні закономірності в даних. Рецензент: Тарасов В.М. – д.т.н., професор, зав. кафедрою «Програмного забезпечення та управління в технічних системах» ПГУТІ Федеральна державна освітня бюджетна установа вищої професійної освіти «Поволзький державний університет телекомунікацій та інформатики» © Салмін А.А., 2013 2 Зміст конспекту лекцій ЗАПРОВАДЖЕННЯ 1.1. Робота з даними 7 1.2. Етапи вирішення задачі аналізу даних та їх взаємозв'язку 9 2. РОЗПОДІЛ МОЖЛИВОСТЕЙ 18 2.1.Вірогідність 18 2.2.Розподіл ймовірностей 20 2.3.Випадкові змінні та випадкові вибірки даних 23 2.4.Норм2. стику висновків 30 3.1.Довірчі інтервали 30 3.2.Перевірка гіпотез 32 3.2.1. Типи помилок 33 3.2.2. Області прийняття та неприйняття 34 3.2.3. t-розподіл 35 3.3. Застосування непараметричного тесту для парних даних 39 4. АНАЛІЗ ТАБЛИЧНИХ ДАНИХ 43 4.1. Зведені таблиці 43 4.2. Обчислення очікуваної кількості спостережень 46 4.3. Статистика хі-квадрат Пірсона 48 5. ОСНОВИ РЕГРЕСІЙНОГО АНАЛІЗУ 51 5.1. Поняття «регресія» 51 5.2. Простий лінійний взаємозв'язок 52 5.2.1. Рівняння регресії 52 5.2.2. Підганяння лінії регресії 54 5.2.3. Інтерпретація параметрів регресії 57 5.3. Перевірка моделі регресії 59 3 6. КОРЕЛЯЦІЯ 63 6.1. Поняття «кореляції» 63 6.2. Матриця кореляції 65 6.3. Матриця точкових діаграм кореляцій 66 7. АПАРАТ МНОЖИННОЇ РЕГРЕСІЇ 69 7.1. Рівняння множинної регресії 69 7.2. Перевірка припущень регресії 73 7. 3. Покрокова регресія 75 7.4. Логістична регресія 76 7.5. Нелінійна регресія 77 8. ДИСПЕРСІЙНИЙ АНАЛІЗ 78 8.1. Однофакторний дисперсійний аналіз 78 8.2. Однофакторний дисперсійний аналіз та аналіз регресії 84 8.2. Двофакторний дисперсійний аналіз 86 9. КОГНІТИВНИЙ АНАЛІЗ. ГРАФИ 92 9.1. Когнітивний аналіз 92 9.2. Методика когнітивного аналізу складних ситуацій 93 9.3. Регресійно-когнітивний аналіз 96 10. ІНТЕЛЕКТУАЛЬНИЙ АНАЛІЗ ДАНИХ 99 10.1. Системи аналітичної обробки даних 99 10.1.1. CRM – технологія 99 10.1.2. ERP – системи 102 10.1.3. OLAP – технологія 103 10.2. Інтелектуальний аналіз даних (Data Mining) 105 10.2.1. Етапи дослідження даних за допомогою методів Data Mining 105 10.2.2. Типи закономірностей 106 10.2.3. Методи Data Mining 107 4 ВСТУП Пропонований конспект лекцій з дисципліни «Аналіз даних» забезпечує підготовку студентів до ефективного використання сучасних комп'ютерних засобів аналізу даних. Пропонуються основні теми, присвячені формуванню теоретичних та практичних навичок роботи з пакетами прикладних програм для вирішення завдань аналізу та інтерпретації даних для створення прогнозів ситуації та прийняття управлінських рішень. У рамках конспекту лекцій з дисципліни розглядаються різні способи створення, форматування, описи базових принципів роботи з таблицями даних з метою їхнього подальшого аналізу за допомогою статистичних та математичних методів. Таким чином, у майбутніх фахівців здійснюється формування основ теоретичних знань та практичних навичок роботи в галузі аналізу даних та прийняття управлінських рішень. Слід також відзначити той факт, що як програмне забезпечення для засвоєння курсу пропонується використовувати продукт MS Excel, який має в своєму розпорядженні достатні засоби аналізу даних, такі як: пакет аналізу, загальними статистичними функціями майстра функцій і т.д. Крім того, пропонується додатково використовувати модуль StatPlus, що підключається. Дисципліна «Аналіз даних» базується на знанні предметів «Інформаційні технології», «Електронні 5 таблиці», «Вірогідність та статистика», що вивчаються в освітніх закладах вищої освіти. Елементи курсу «Аналіз даних» використовуються щодо курсів «Моделювання систем», «Проектування інформаційних систем», «Надійність інформаційних систем». Завдання матеріалу даного конспекту лекцій у тому, щоб: - надати студентам загальні відомості про принципи обробки та аналізу даних з метою отримання з них нових відомостей; - показати методи, засоби та технології аналізу даних; - показати з прикладу регресійного аналізу принцип отримання нових знань з даних. Знання та навички, отримані в результаті вивчення даної дисципліни, можуть бути застосовані: 1. під час аналізу даних з метою отримання статистичної інформації або прогнозу ситуації; 2. для інтерпретації одержаних результатів у ході аналізу; 3. при формулюванні технічного завдання під час створення ІВ силами професійних розробників. 6 1. ВСТУП В «АНАЛІЗ ДАНИХ» 1.1. Робота з даними Дані – це факти, події, повідомлення, що сприймаються людиною, вимірювані характеристики, реєстровані сигнали. Специфіка даних у тому, що вони, з одного боку, існують незалежно від спостерігача, а з іншого – стають власне «даними» лише тоді, коли існує цілеспрямовано суб'єкт, що їх збирає. У результаті: дані повинні бути тією підставою, на якій зводяться всі висновки, висновки та рішення. Вони вторинні стосовно мети дослідження та предметної області, але первинні стосовно методів їх обробки та аналізу, які витягують з даних лише ту інформацію, яка потенційно доступна в рамках відібраного матеріалу. Дані виходять у результаті вимірів. Під виміром розуміється присвоєння символів зразкам відповідно до певного правила. Ці символи можуть бути літерними або числовими. Числові символи також можуть представляти категорії або бути числовими. Розрізняють 4 типи шкал вимірів: 1) Шкала найменувань. Ця шкала використовується лише для класифікації. Кожному класу даних присвоюється своє позначення те щоб позначення різних класів не збігалися. Наприклад, класифікація людей за статтю М та Ж (1 та 2, 10 та 100) або категорія так/ні. Причому арифметичні операції немає сенсу для шкал найменувань. Для цієї шкали 7 центром вимірювання є мода (часто повторюваний елемент). 2) Порядкова шкала. Ця шкала дозволяє не лише розбивати дані на класи, а й упорядкувати самі класи. Кожному класу присвоюється різні позначення те щоб порядок позначень відповідав порядку класів. Якщо нумеруємо класи, то класи перебувають у числовому порядку; якщо позначаємо класи із засобів букв, то класи перебувають у алфавітному порядку. Наприклад, необхідно ідентифікувати індивідууми за трьома соціально-економічними категоріями – низький, середній, високий: 1 – низький, 2 – середній, 3 – високий; чи X – низький, Y – середній, Z – високий. Використовуються будь-які позначення цифр або літер. Арифметичні операції для цієї шкали також не мають сенсу. 3) Інтервальна шкала. Ця шкала дозволяє як класифікувати і впорядковувати дані, а й кількісно оцінювати різницю між класами. Для проведення таких порівнянь необхідно ввести одиницю виміру та довільний початок відліку (нуль-пункт). Наприклад, температура в градусах Фаренгейту належить інтервальній шкалі, де 0F є початком, 1F – одиницею виміру. 4) Шкала відносин. Ця шкала відрізняється від інтервальної шкали лише тим, що в ній задано абсолютний початок відліку. Тобто. у цій шкалі можна визначити, у скільки разів один вимір перевершує інший. Наприклад: зростання людини в дюймах належить шкалі відносин, у якій 0 дюймів є фіксований початок відліку, а 1 дюйм – одиниця виміру. 8 Крім того, спостереження поділяються на: дискретні та безперервні. Іменовані та порядкові дані завжди дискретні, а інтервальні та відносні можуть бути як дискретними, так і безперервними. Наприклад, безперервні: стрілянина по мішені (будь-який результат), температура (інтервальна шкала); дискретні: гральна кістка (1, 2, 3 …6), монета (орел/решка), число телефонних викликів за годину (шкала відносин) (рис. 1.1). Мал. 1.1. Дискретні та безперервні дані 1.2. Етапи розв'язання задачі аналізу даних та їх взаємозв'язку Аналіз даних – це сукупність методів та засобів вилучення з організованих даних інформації для прийняття рішень. Основні етапи розв'язання задачі аналізу даних показані у лівій частині рис. 1.2. У правій частині кожен із них розбитий більш дрібні стадії. 9 Етап 1 1.1. Визначення мети Постанов-дослідження задачі 1.2. Визначення складу даних 1.3. Збір даних 1.4. Вибір засобів аналізу даних 1.5. Формалізація даних Етап 2 2.1. Введення даних на згадку Введення ЕОМ даних у 2.2. Робота з архівом даних обробки 2.3. Формування завдання обробки Етап 3 3.1. Визначення якісно-простих характеристик них даних аналіз 3.2. Візуалізація даних 3.3. Аналіз структури даних Етап 4 4.1. Вибір моделі даних Кількість- 4.2. Виконання обробки даних Етап 5 5.1. Аналіз результатів Інтерпрет 5.2. Прийняття розв'язування результатів Мал. 1.2. Етапи аналізу даних Постановка задачі (є визначальним етапом, від якого залежить весь хід аналізу) починається зі стадії формулювання мети всього 10