Навчальний посібник
ББК 22.172я73
Рецензенти:
Мартишенко С.М.
Комп'ютерний аналіз даних:
Навчальний посібник. - Владивосток: Вид-во ВГУЕС, 2010. - 80 с.
Складено відповідно до навчальної програми з дисципліни «Комп'ютерний аналіз даних» та вимог державного стандарту Росії. Призначена для студентів спеціальностей 0618000 Математичні методи економіки та 351400 «Прикладна інформатика економіки». Містить теоретичний матеріал з дисципліни, завдання до практичних занять та вказівки до їх виконання.
Затверджено на засіданні кафедри Математики та моделювання 19.10.08***, протокол № 18***
© Видавництво Владивостоцького державного університету
економіки та сервісу, 2010
Вступ
Для сучасної науки та більшості напрямів практичної діяльності зараз характерний статистичний підхід. Закономірності економіки лише загалом зможуть вважатися детерміністичними, за більш детальному дослідженні виявляється, що вони мають типово випадковий характер.
У посібнику розглядаються теоретичні та практичні питання аналізу статистичних даних. Комп'ютерний аналіз даних слід як вивчення методик практичного застосування теоретичних методів математичної статистики. Прикладний характер дисципліни, що вивчається, підкреслюється орієнтацією її на застосування конкретного програмного продукту EXCEL.
Соціально-економічні процеси та явища залежать від великої кількості параметрів, що характеризують їх, що обумовлює труднощі, пов'язані з виявленням структури взаємозв'язків цих параметрів. У таких ситуаціях, коли рішення приймається з урахуванням аналізу стохастичної, неповної інформації необхідно застосування методів статистичного аналізу даних.
Методи аналізу даних дозволяють обґрунтовано вибрати серед безлічі можливих імовірнісно-статистичних моделей таку, що найкраще відповідає вихідним статистичним даним, що характеризує реальну поведінку досліджуваної сукупності об'єктів, оцінити надійність і точність висновків, зроблених на підставі великого статистичного матеріалу.
У посібнику розглядається сукупність глибоко формалізованих статистичних методів, що базуються на поданні вихідної інформації в багатовимірному геометричному просторі і дозволяють визначати неявні (латентні), але об'єктивно існуючі закономірності в організаційній структурі та тенденції розвитку соціально-економічних процесів і явищ, що вивчаються.
Основним завданням посібника є навчання студентів теоретичним основ найбільш поширених методів статистичного аналізу даних та розвитку навичок застосування стандартних програмних засобів, в яких реалізовані процедури статистичного аналізу даних.
Для успішного вивчення матеріалу, викладеного у посібнику, студенту необхідні знання з основних розділів «Вищої математики» та «Математична статистика». Необхідні знання таких основних понять як: види випадкових величин, характеристики випадкових величин, основні закони розподілу випадкових величин, способи оцінки вибіркових характеристик, основи статистичного висновку з використанням статистичних критеріїв та перевірки гіпотез, лінійна та нелінійна регресії.
У ході вивчення матеріалу, викладеного у посібнику, студент має формуватися уявлення про конкретні практичні ситуації, в яких необхідне використання методів статистичного аналізу.
В результаті роботи з посібником та виконання практичних завдань студенту необхідно досягти певного рівня знань у галузі комп'ютерного аналізу даних. Необхідний рівень знань складається із трьох пунктів.
1. освоїти:
Концепцію та технології сучасного аналізу даних на комп'ютері;
принципи роботи програмних засобів, призначених для статистичного аналізу даних;
Принципи роботи сучасних візуальних методів аналізу даних та використання їх для статистичного висновку та формулювання гіпотез про структуру даних.
2. Виробити вміння самостійного вирішення завдань щодо вибору методів аналізу у практичних ситуаціях;
3. отримати навички застосування програмних систем; призначені для статистичного аналізу даних, а також тестування програмних модулів на модельних даних.
англ. analysis, data; ньому. Данийаналіз. Етап емпіричного соціол. дослідження, в ході якого за допомогою змістовних міркувань і математико-статист. методів з урахуванням первинної інформації розкриваються зв'язку досліджуваних змінних.
Відмінне визначення
Неповне визначення ↓
АНАЛІЗ ДАНИХ
1. Сукупність дій, здійснюваних дослідником у процесі вивчення отриманих тим чи іншим чином даних з формування певних уявлень про характер явища, описуваного цими даними. У процесі А.Д. дослідник найчастіше намагається скоротити їх кількість, прагнучи втратити при цьому якнайменше корисної інформації, потенційно в них закладеної. Робиться це зазвичай за допомогою математич. методів. З використанням математич. статистики, напр., скорочення кількості даних досягається за рахунок двох взаємно доповнюють один одного принципів: вибіркового методу та згортки інформації. Перший з них декларує відмову від усієї сукупності даних на користь спеціально організованої їх частини - вибірки (див.), а другий замінює всю вибірку кількома числами - її характеристиками Такими можуть бути, напр., середнє арифметич. і дисперсія, рівняння регресії, рез-ти застосування факторного аналізу, методів класифікації і т. д. Для отримання подібних характеристик дані піддаються деяким впливам: вони або обробляються, або досліджуються, або аналізуються. Тому процес " згортки " даних називається як їх аналізом, а й їх обробкою, дослідженням. 2. Процес вивчення статистич. даних (тобто. аналіз цих даних у сенсі п. 1) за допомогою математич. методів, що не передбачають імовірнісної моделі цікавого дослідника явища (зокрема, що не спираються на припущення про імовірнісну природу вихідних даних, про статистичні моделі породження даних). Розвиток теорії та практики статистич. обробки даних йде у двох паралельних напрямках. Одне з них представлено методами, що передбачають можливість імовірнісної інтерпретації даних та отриманих у результаті обробки статистич. висновків, використання ймовірнісних моделей для побудови та вибору найкращих методів статистич. обробки. Ці методи зазвичай називають імовірнісно-статистичними. Вони припускають адекватну реальності певну ймовірнісну модель досліджуваного з допомогою явища. У припущенні цієї адекватності одержувані з допомогою таких методів висновки грунтуватимуться суворо доведених математич. рез-тах, що дають можливість також встановлювати точність згаданих висновків (див. Оцінювання статистичне, Перевірка статистичних гіпотез). Др. напрямок представлений методами А.д., що не передбачають ймовірнісних моделей явищ, що вивчаються. Суворих математич. методів обробки статистич. даних за допомогою такого роду методів поки що не існує. Вони не ґрунтуються на строго доведених математиках. рез-тах і, як наслідок, не дають можливості встановлювати точність одержуваних з їх допомогою висновків. Застосування методів А.Д. найчастіше ґрунтується на наступній схемі. Що підлягають статистич. обробці вихідні дані не можуть інтерпретуватися як вибірка з генеральної сукупності і, отже, використання ймовірнісних моделей при побудові та виборі найкращих методів статистич. обробки та наступна ймовірнісна інтерпретація статистич. висновків виявляються неправомірними. З безлічі методів, що реалізують поставлену мету статистич. обробки даних, як к-рой може виступати класифікація об'єктів, знаходження латентних факторів і т. д. (див. Статистика математич. і Аналіз багатовимірний статистич.), найкращий метод зазвичай вибирається за допомогою оптимізації деякого задається з евристич., змістовних міркувань критерію (функціоналу) якості методу. Природно, що у своїй проблема обгрунтованості одержуваних з допомогою методів А.д. висновків потребує особливої уваги. Тут особливо гострою є необхідність виділення "точок дотику змісту задачі і математич. формалізму (див. Адекватність математич. методу, п. 1). адекватність реальності передбачуваної методом імовірнісної моделі досліджуваного явища, тим більше, якщо в подібній ситуації соціолог має підстави сумніватися в такій адекватності. ортодоксальної математики не є достатньо обґрунтованими, то є сенс використовувати ці методи лише на попередньому етапі аналізу для уточнення уявлень дослідника про досліджуване явище, коригування понятійного апарату, формулювання гіпотез і т. д. Однак з цим положенням, що висувається рядом авторів як незаперечне, у багатьох ситуаціях важко погодитись. Методи А.Д. можуть і засобом отримання фундаментального знання, виявлення невідомих раніше закономірностей, якщо перейти новий рівень розуміння самого математич. формалізму: вважати, що адекватним розв'язуваним завданням є не к.-л. окремий метод (при цьому не відіграє ролі, мається на увазі імовірнісно-статистич. метод або метод А.д.), а ціла сукупність таких методів, що застосовуються відповідно до певних методологіч. принципами (див. п. 4). Виділення класу методів аналізу даних у цьому сенсі обумовлено потребами цілого ряду наук, у т. ч. і соціології. У цих науках, з одного боку, велика потреба аналізу статистичних. даних, з другого - традиційні припущення, що у основі вероятностно-статистич. Методи, розроблені спеціально для вирішення такого роду завдань, часто не виконуються. Однак невиконання імовірнісно-статистич. посилок не є єдиною причиною відсутності "законної" можливості використання імовірнісно-статистич. апарату у соціології. Др. не менш поширеною причиною непридатності тих чи інших методів є їх неадекватність щодо типу шкал, що використовуються (див. Адекватність математич. методу, п. 2). Так, неадекватним є застосування традиційних математико-статистич. методів до даних, отриманих за порядковими шкалами, що часто робиться на практиці. Метод, використовуваний для шкал, щодо типу яких він не адекватний, також може бути віднесений до області А.д. 3. О.Д. - прикладна статистика, яка розуміється як наук. дисципліна, що розробляє та систематизує поняття, прийоми, математич. методи та моделі, призначені для організації збору (мається на увазі лише визначення способу відбору підлягають статистич. обстеженню одиниць з усієї досліджуваної сукупності), стандартного запису, систематизації та обробки (в т. ч. за допомогою ЕОМ) статистич. даних з метою їх зручного подання, інтерпретації та отримання наук. та практич. висновків. 4. Такі процедури отримання "згортки" інформації (див. п.1), які не допускають формального алгоритміч. підходу. Таке розуміння терміна "А.д." відповідає новому напрямку досліджень, що опинився в центрі уваги багатьох статистиків та фахівців з переробки даних. Застосування будь-якого математика. Методу вивчення будь-якого явища означає використання формальної моделі цього явища - певної системи передумов і постулатів. Специфіка соціологіч. (і не тільки социологич.) завдань проявляється, зокрема, у цьому, що з більшості відомих математико-статистич. Методи перевірки адекватності цих передумов і постулатів, спроможності відповідної моделі є досить проблематичною справою. А.Д. пропонує "затіяти гру" з передумовами: варіювати їх і розглядати наслідки такого варіювання. Так, можна спочатку дивитися на дані як на числа (детермінована модель), а потім - як на випадкові величини (стохастична модель) і вибирати таку відповідь, який краще гармонують з вимогами конкретної задачі. Таке ставлення до передумов А.д., зведене в принцип, назвемо першим. Другий принцип А.Д. - системний підхід. А.Д. шукає різн. прийоми для найбільш повного використання ендогенної інформації (тобто даних, що описують об'єкт, що вивчається), але разом з тим він постійно націлений на максимальне використання екзогенної інформації (т. е. даних, що описують "довкілля" об'єкта). Системний підхід пред'являє дослідникам підвищені вимоги, оскільки він має принципово міждисциплінарний характер. Третім принципом О.Д. можна вважати відмову від тієї т.зр., що дослідження має початок і поклала край. Аналіз – спосіб існування даних. Готовність до постійного повернення до тих самих даних - важлива нова особливість процесу застосування математики для отримання нового знання. У безперервному процесі аналізу передбачаються розриви, що дозволяють витягувати накопичену інформацію та приймати рішення, пов'язані з управлінням обробкою даних та їх подальшим аналізом. Формальні операції перемежовуються з неформальними процедурами ухвалення рішення. З появою нових експериментальних даних виникають нові ідеї, підходи, методи, уточнюється розуміння процесів, що відбуваються і т. д. А.д. зводить воєдино спочатку як би не пов'язані один з одним елементи, підкоривши їх єдиному механізму розв'язання задачі, відкривши тим самим дорогу новому погляду на можливості збирання, аналізу та інтерпретації цих різниць. природи. У соціології нагальна потреба використання А.д. обумовлюється не тільки складністю перевірки передумов, закладених у відповідних (для вирішення відповідних завдань) методах. Навпаки, відомо багато таких придатних для соціології методів, яким відповідають порівняно слабкі передумови. Такими є, напр., багато методів пошуку взаємодій (див.), зокрема. такий, як аналіз детермінаційний (див.), які взагалі мало припускають ніякої моделі реальності, не спираються ні на які причини. Проте потреба в А.Д. залишається, оскільки у соціолога дуже часто відсутня та апріорна соціологія. модель досліджуваного явища (див. Адекватність математич. методу, п.1), формування якої є необхідною для однозначного вибору математич. формалізму (та й взагалі для проведення дослідження, починаючи з формулювання гіпотез та розробки анкети). Творча реалізація принципів А.Д. дозволяє поповнити цей недолік. (Див. також: Комплексне використання математич. методів.). Як одна з головних цілей розробки алгоритмів А.д. у сенсі п. 2 і принципів комплексного використання серії алгоритмів у сенсі п. 4 деякі автори (Дж.У.Тьюкі) висувають такий "охоплення" змісту вихідних даних значного обсягу, який дозволяє прийти до уявлень (переважно візуальним), легко доступним для розуміння користувача (див. інтерпретація рез-тов застосування математич. методу). Тьюкі Дж.У. Аналіз даних, обчислення на ЕОМ та математика// Сучасні проблеми математики. М., 1977; Міркін Б.Г. Аналіз якісних ознак та структур. М., 1980; Тьюкі Дж.У. Аналіз результатів спостережень: розвідувальний аналіз. М., 1981; Мостеллер Ф., Тьюкі Дж.У. Аналіз даних та регресія. М., 1982; Єлісєєва І.І., Рукавишніков В.О. Логіка прикладного статистичного аналізу. М., 1982; Айвазян С.А., Єнюков І.С., Мешалкін Н.Д. Прикладна статистика М., 1983; Діде Е. та ін. Методи аналізу даних. М., 1985; Дрейпер Н., Сміт Р. Прикладний регресійний аналіз. Т.2. М., 1987; Толстова Ю.М. Логіка математичного аналізу соціологічних даних. М., 1991; Benzecri JP. Lanalyse des donnees. Vol. 1. La taxonomie. Vol. 2. Lanalyse des correspon-dances. Dunod, 1973; Statistical data analysis. Providence, Rhode Island: American Mathematical Society, 1983; Фелінгера А.Ф. Статистичні алгоритми соціологічних досліджень. Новосибірськ, 1985; Тюрін Ю.М., Макаров А.А. Аналіз даних на комп'ютері. М., 1995. Андре-єнков В.Г. Аналіз та інтерпретація емпіричних даних//Соціологія. Основи загальної теорії (за ред. Осипова Г.В., Москвичева Л.М.). М., 1996; див. також літ. до ст. Комплексне використання математич. методів. Ю.М. Толстова
Механізм аналізу даних та прогнозування надає користувачам (економістам, аналітикам тощо) можливість здійснювати пошук неочевидних закономірностей у даних, накопичених в інформаційній базі. Цей механізм дозволяє:
- здійснювати пошук закономірностей у вихідних даних інформаційної бази;
- керувати параметрами виконуваного аналізу як програмно, і інтерактивно;
- здійснювати програмний доступ до результатів аналізу;
- автоматично виводити результат аналізу у табличний документ;
- створювати моделі прогнозу, дозволяють автоматично прогнозувати наступні події чи значення деяких характеристик нових об'єктів.
Механізм аналізу даних є набір взаємодіючих один з одним об'єктів вбудованої мови, що дозволяє розробнику використовувати його складові в довільній комбінації в будь-якому прикладному рішенні. Вбудовані об'єкти дозволяють легко організувати інтерактивне налаштування параметрів аналізу користувачем, а також дозволяють виводити результат аналізу у зручній для відображення формі в табличний документ.
Механізм дозволяє працювати як із даними, отриманими з інформаційної бази, так і з даними, отриманими із зовнішнього джерела, попередньо завантаженими в таблицю значень або табличний документ:
Застосовуючи до вихідним даним один із видів аналізу, можна отримати результат аналізу. Результат аналізу є якоюсь модель поведінки даних. Результат аналізу може бути відображений у підсумковому документі або збережений для подальшого використання.
Подальше використання результату аналізу полягає в тому, що на його основі може бути створена модель прогнозу, що дозволяє прогнозувати поведінку нових даних відповідно до наявної моделі.
Наприклад, можна проаналізувати, які товари купуються разом (в одній накладній) та зберегти цей результат аналізу у базі даних. Надалі, при створенні чергової накладної:
на підставі збереженого результату аналізу можна побудувати модель прогнозу, подати їй "на вхід" нові дані, що містяться в цій накладній, та "на виході" отримати прогноз, - список товарів, які контрагент Петров Б.С. також, швидше за все, придбає, якщо їх йому запропонувати:
У механізмі аналізу даних та прогнозування реалізовано кілька типів аналізу даних:
Реалізовані типи аналізу
Загальна статистика
Є механізмом для збору інформації про дані, що знаходяться в досліджуваній вибірці. Цей тип аналізу призначений попереднього дослідження аналізованого джерела даних.
Аналіз показує ряд показників числових і безперервних полів. При виведенні звіту до табличного документа заповнюються кругові діаграми для відображення складу полів.
Пошук асоціацій
Даний тип аналізу здійснює пошук часто зустрічаються разом груп об'єктів або значень характеристик, а також здійснює пошук правил асоціацій. Пошук асоціацій може використовуватися, наприклад, для визначення товарів, що часто купуються разом, або послуг:
Цей тип аналізу може працювати з ієрархічними даними, що дозволяє, наприклад, знаходити правила як для конкретних товарів, але й їх груп. Важливою особливістю цього аналізу є можливість працювати як з об'єктним джерелом даних, в якому кожна колонка містить деяку характеристику об'єкта, так і з подієвим джерелом, де характеристики об'єкта розташовуються в одній колонці.
Для полегшення сприйняття результату передбачено механізм відсікання надлишкових правил.
Пошук послідовностей
Тип аналізу пошук послідовностей дозволяє виявляти у джерелі даних послідовні ланцюжки подій. Наприклад, це може бути ланцюжок товарів чи послуг, які часто послідовно купують клієнти:
Цей тип аналізу дозволяє здійснювати пошук ієрархії, що дозволяє відстежувати як послідовності конкретних подій, а й послідовності батьківських груп.
Набір параметрів аналізу дозволяє фахівцю обмежувати часові відстані між елементами послідовностей, що шукаються, а також регулювати точність одержуваних результатів.
Кластерний аналіз
Кластерний аналіз дозволяє розділити вихідний набір досліджуваних об'єктів на групи об'єктів, таким чином, щоб кожен об'єкт був більш схожий з об'єктами своєї групи, ніж з об'єктами інших груп. Аналізуючи надалі отримані групи, які називають кластерами, можна визначити, чим характеризується та чи інша група, прийняти рішення про методи роботи з об'єктами різних груп. Наприклад, за допомогою кластерного аналізу можна розділити клієнтів, з якими працює компанія, на групи, щоб застосовувати різні стратегії при роботі з ними:
За допомогою параметрів кластерного аналізу аналітик може налаштувати алгоритм, яким буде проводитися розбиття, а також може динамічно змінювати склад характеристик, що враховуються при аналізі, налаштовувати для них вагові коефіцієнти.
Результат кластеризації може бути виведений у дендрограму – спеціальний об'єкт, призначений для відображення послідовних зв'язків між об'єктами.
Дерево рішень
Тип аналізу дерево рішень дозволяє побудувати ієрархічну структуру правил, що класифікують, представлену у вигляді дерева.
Для побудови дерева рішень необхідно вибрати цільовий атрибут, за яким будуватиметься класифікатор та ряд вхідних атрибутів, які будуть використовуватись для створення правил. Цільовий атрибут може містити, наприклад, інформацію про те, чи клієнт перейшов до іншого постачальника послуг, чи вдала була угода, чи якісно була виконана робота і т.д. Вхідними атрибутами, наприклад, можуть бути вік співробітника, стаж його роботи, матеріальний стан клієнта, кількість співробітників у компанії тощо.
Результат роботи аналізу представляється у вигляді дерева, кожен вузол якого містить певну умову. Для ухвалення рішення, до якого класу слід віднести якийсь новий об'єкт, необхідно, відповідаючи на запитання у вузлах, пройти ланцюжок від кореня до листа дерева, переходячи до дочірніх вузлів у разі ствердної відповіді та до сусіднього вузла у разі негативного.
Набір параметрів аналізу дозволяє регулювати точність отриманого дерева:
Моделі прогнозу
Моделі прогнозу, створювані механізмом, є спеціальні об'єкти, що створюються з результату аналізу даних, і дозволяють надалі автоматично виконувати прогноз нових даних.
Наприклад, модель прогнозу пошуку асоціацій, побудована при аналізі покупок клієнтів, може бути використана при роботі з клієнтом, що здійснює покупку, для того, щоб запропонувати йому товари, які він з певним ступенем ймовірності придбає разом з обраними ним товарами.
Використання механізму аналізу даних у прикладних рішеннях
Для ознайомлення розробників прикладних рішень з механізмом аналізу даних на диску «Інформаційно-технологічний супровід» (ІТС) розміщено демонстраційну інформаційну базу. До її складу входить універсальна обробка "Консоль аналізу даних", яка дозволяє виконувати аналіз даних у будь-якому прикладному рішенні, без доопрацювання конфігурації.
Вступ
Цей випуск є другим із серії випусків, в яких викладається курс «Математичне моделювання геологічних об'єктів», що супроводжується навчально-методичними рекомендаціями, контрольними питаннями та коментарями. У цьому випуску першочергова увага приділяється аналізу даних як самостійної наукової дисципліни та у його поєднанні з прикладною статистикою. Викладається, звісно, не «весь» аналіз даних, лише окремі його фрагменти, необхідних розуміння курсу загалом. Наведено мінімально необхідні відомості про прикладну статистику.
Математичне моделювання геологічних об'єктів тісно пов'язане з аналізом даних як самостійною науковою дисципліною, так і прикладною статистикою.
Як аналіз даних, математичне моделювання та прикладна статистика спільно використовуються при вирішенні конкретних геологічних завдань і, зокрема, при створенні моделей геологічних об'єктів? Зазвичай створення моделі геологічного об'єкта розбивається на ряд підзадач, що утворюють єдину блок-схему з послідовним і паралельним рухом інформації, що обробляється від вихідних процедур до кінцевого результату - синтезу моделі.
Рішення кожної з таких підзадач зводиться або до побудови та аналізу деякої приватної моделі, або до пошуку стохастичної залежності між деякими параметрами, або до вирішення тієї чи іншої типової задачі аналізу даних тощо. В останньому випадку вибирається алгоритм, що задовольняє вимоги, що пред'являються вихідною інформацією. Вимоги ці можуть мати як суто формальний характер (наприклад, наявність у таблиці різнотипних ознак унеможливлює застосування деяких алгоритмів), так і являти собою «важко» уявлення, що формалізуються, про систему досліджуваних об'єктів, якими теж не слід нехтувати.
В даний час не існує універсального формально-математичного способу для вибору відповідного алгоритму. Тому при виборі алгоритму поряд з перевіркою його формально-математичної придатності рекомендується орієнтуватися і на його відносну простоту і змістовну інтерпретованість математичного апарату, що використовується в конкретному завданні, досвід застосування алгоритму при вирішенні аналогічних завдань.
Розпізнавання образів
Основні підзадачі
Основними підзавданнями завдання розпізнавання є:
1 ) створення вихідного списку ознак;
2 ) вибір класів об'єктів;
3 ) підготовка таблиці (таблиць) навчання;
4 ) вибір сімейства вирішальних правил;
5 ) пошук оптимального (щодо деякого критерію чи критеріїв) вирішального правила у цьому сімействі;
6 ) підготовка описів проб;
7 ) Розпізнавання проб.
На етапах 1 -3 проводиться вибір та експлікаціяознак (див. посібник Красавчикова, 2008) та складання бази даних.
При створенні вихідного переліку ознак можуть бути реалізовані два підходи:
А) всебічний опис об'єктів, характерне для ситуацій, коли дослідник не знає, з яких ознак повинен бути складений остаточний список (інформативна система ознак), за яким проводитиметься розпізнавання проб. Тому він відбирає такі ознаки, які, в принципі, можутьмістити корисну інформацію (хоча, на перший погляд, їхній зв'язок із розв'язуваним завданням може бути і не очевидна),і належить у виборі інформативної системи ознак алгоритм і реалізує його програму.
Б) опис об'єктів, заснований на певній геологічній моделі, на яку список ознак заздалегідь відомий.
При виборі класів об'єктів виходять не лише з постановки завдання (наприклад, розбракувати локальні підняття на перспективні та безперспективні за результатами інтерпретації даних сейсморозвідки), а й ґрунтуються на геологічному сенсі та досвіді вирішення аналогічних завдань. Можливо, доведеться проводити декомпозиціюзадачі та здійснювати поетапне рішення в рамках послідовно-паралельної блок-схеми кілька завдань розпізнавання.
При підготовці таблиці (таблиць) навчання слід, по-можливості, уникати появи характеристичних ознак, заміряних у шкалі найменувань (номінальних) з числом значень, що приймаються ними, перевищує два, оскільки вони різко обмежують вибір алгоритму розпізнавання. Вони можуть містити дуже істотну інформацію, але краще, щоб вони не входили до списку характерних ознак. Зазвичай за значеннями таких ознак формуються класи.
Вибір сімейства вирішальних правил не є формальною процедурою. Однак при цьому виборі є і формальні вимоги. Наприклад, якщо серед ознак є номінальні або рангові, то можна використовувати лише алгоритми, які здатні працювати з інформацією, представленою в якісних шкалах.
Одним із головних критеріїв вибору вирішального правила є його «простота». Практика показала, що перевагу слід надавати більш простим вирішальним правилам. Якщо серед «простих» вирішальних правил (причому доступних досліднику в програмній реалізації) не вдається знайти здатного впоратися з поставленим завданням (або, у випадку ( а), радикально скоротити розмірність опису), то переходять до складніших і т.д.
Формалізувати поняття простоти не так просто! У математичній логіці та теорії алгоритмів є цілий напрямок, пов'язаний з формалізацією та вивченням простоти математичних конструкцій, але знайомство з цією тематикою не входить до завдання курсу. Тому ставитимемося до цієї проблематики як інтуїтивно ясною. Очевидно, прикладом найпростіших вирішальних правил можуть бути лінійні (див. нижче). Якщо є два лінійні вирішальні правила, то більш простим, очевидно, є те, що використовує меншу кількість ознак.
В разі ( а) при виборі сімейства вирішальних правил слід звертати особливу увагу на здатність радикального скорочення розмірності опису.
Після вибору сімейства проводиться пошук вирішальної функції та відповідного правила, які в цій родині мають «найкращою якістю»по відношенню до матеріалу навчання та іспиту.
Для оцінки якості вирішального правила використовуються функціонали на кшталтнижченаведеного:
Δ(F,λ,ε)=p 1 M 1 + p 2 M 2 +p 3 M 3 + p 4 M 4 ,
де для матеріалу навчання та іспиту
M 1 - Число помилково розпізнаних об'єктів першого класу;
M 2 - Число помилково розпізнаних об'єктів другого класу;
M 3 - Число відмов для об'єктів першого класу;
M 4 - Число відмов для об'єктів другого класу.
Коефіцієнти p j , j = 1, ..., 4, - "Штрафи" за помилку відповідного типу. Чим менше значення Δ(F,λ,ε) (при фіксованих списках об'єктів навчання та іспиту), тим вища якість вирішального правила.
Після того, як для всіх об'єктів навчання та іспиту обчислені значення вирішальної функції, що керують параметрами алгоритму λ, можуть бути обрані оптимальним чином, тобто. так, щоб функціонал якості вирішального правила досягав мінімуму:
Δ(F,λ * ,ε *)=min Δ(F,λ,ε),
де мінімум береться за всімаλ, ε і ε>0.
В разі ( а) Ще одним (і не менш важливим) критерієм якості є різко скорочення числа ознак, що використовуються у розпізнаванні, порівняно з вихідним списком. Це пов'язано з тим, що
Невелика кількість ознак зменшує вплив «інформаційних шумів», що робить розпізнавання більш надійним;
Скорочується час для підготовки описів проб. Так, при розпізнаванні у вузлах сіток зменшується кількість карт, які доводиться будувати;
З'являється можливість змістовно проінтерпретувати вирішальне правило тощо.
Опис проб проводиться у разі ознаками, які у оптимальному вирішальному правилі. В разі ( а) це особливо важливо, тому що, зокрема, суттєво скорочується час на підготовку описів.
Приклади алгоритмів розпізнавання
На цей час опубліковано сотні методів розпізнавання. Вони об'єднуються у сімейства. Найчастіше, ці сімейства описуються як вирішальних функцій (чи правил) з невизначеними параметрами. Усталеної загальновизнаної класифікації сімейств алгоритмів розпізнавання немає. Тому обмежимося коротким описом кількох сімейств алгоритмів, які показали ефективність при вирішенні прикладних геологічних завдань, особливо у геології нафти й газу.
Для докладного ознайомлення із застосуванням методів розпізнавання в геології нафти та газу відсилаємо читача до публікацій 60-80 років минулого століття, коли їхнє використання при вирішенні завдань прогнозно-пошукового профілю було масовим. Методи розпізнавання застосовувалися, зокрема, під час вирішення завдань прогнозу гігантських нафтових родовищ, продуктивності локальних піднять, фазового стану УВ покладах та інших. (розпізнавання образів…, 1971; Роздільна прогнозування…, 1978, Прогноз родовищ …, 1981 та інших.).
4.3.1. Байєсовські вирішальні правила
Ці вирішальні правила докладно охарактеризовані у навчальному посібнику Дьоміна (2005), куди ми й надсилаємо читача. Для глибшого ознайомлення з додатками байєсівської теорії прийняття рішень у геології нафти та газу рекомендуємо звернутися до монографії (Прогноз родовищ…, 1981).
4.3.2. Комбінаторно-логічні методи розпізнавання
Застосування цих методів розглянемо з прикладу однієї конкретної схеми розпізнавання, заснованої на апараті дискретної математики та математичної логіки.
Нехай спочатку для простоти викладу всі ознаки X 1 ... X n - бінарні. Згідно з Журавльовим (1978) назвемо довільну сукупність W наборів ознак виду w=(X j (1) ,…,X j (k)), де k=1,…,n, системою опорних множин, W=(w 1 , w 2 ,…, w N ), та її елементи w r – опорними множинами.
Нехай w W, w = (X j (1), ..., X j (L)), S k - рядок таблиці, Q p - рядок таблиці. Рядки S k і Q p розрізняються за набором ознак w, якщо знайдеться ознака X j (r), що входить у w такою, що X j (r) (S k)¹X j (r) (Q p). В іншому випадку говоритимемо, що вони не відрізняються.
Визначення 1.Набір ознак wÎW голосуєза віднесення рядка S до першого класу, якщо у таблиці T 1знайдеться рядок S k , такий, що з набору w рядки S і S k не відрізняються; w голосуєза віднесення рядка S до другого класу, якщо у таблиці T 2знайдеться рядок Q p , такий, що набору w рядки S і Q p не відрізняються.
при Г 1 (S) > Q p) та Г 2 (S) ≤ Г 2 (S i) об'єкт S відноситься до класу K 1;
при Г 2 (S) > S i) та Г 1 (S) ≤ Г 1 (Q p) об'єкт S відноситься до класу K 2;
в інших випадках S не розпізнається.
Сенс цього вирішального правила у тому, що з віднесення проби S до класу K j , де j=1,2, вона має одержати
Ця схема є одним із найпростіших варіантів голосування по системі опорних множин. Алгоритм є реалізацію так званого «принципу часткової прецедентності» (Журавльов, 1978), у якому висновок про належність об'єкта до класу виноситься з урахуванням аналізу збігів фрагментів його описи з відповідними фрагментами описів об'єктів цього. Збіг фрагментів описів об'єкта навчання та проби є частковим прецедентом.
Приклад системи опорної множини: тестова конструкція. Її основою є поняття тесту та тупикового тесту, запропоновані С.В. Яблонським як математичний апарат діагностики технічних пристроїв (Журавльов, 1978).
Визначення 2.Набір стовпцівw називається тестомдля пари таблиць T 1 , T 2 якщо щодо нього немає збігів між рядками S i і Q p , де
Визначення 3.Тест називається тупиковим,якщо з нього не можна видалити жодного стовпця без того, щоб він перестав бути тестом.
Дмитрієв, Журавльов, Кренделєв (1966) скористалися апаратом тупикових тестів для створення алгоритмів класифікації предметів та явищ.
У геології нафти та газу комбінаторно-логічні методи вперше були застосовані при вирішенні завдань прогнозу гігантських нафтових родовищ (Розпізнавання образів…, 1971), де було використано тестову конструкцію. Під керівництвом А.А. Трофімука тестовий підхід застосований також і до вирішення інших найважливіших прогнозних завдань геології нафти та газу (Роздільна прогнозування ..., 1978 та ін). Ряд зроблених А.А. Трофімуком прогнозів, які не знайшли підтримки в момент опублікування, надалі блискуче підтвердилися.
Константиновим, Корольовою, Кудрявцевим (1976) на представницькому фактичному матеріалі за прогнозом рудоносності було підтверджено ефективність алгоритмів тестового підходу проти іншими алгоритмами розпізнавання, які застосовувалися на вирішення завдань рудопрогнозу.
У геології нафти та газу інші системи опорних множин не застосовувалися.
Якщо в таблицях зустрічаються ознаки, заміряні в кількісних шкалах, то для них використовуються порогові заходи помітності значень (див. Красавчиков, 2009).
4.3.1. Лінійні методи
Лінійні методи стали застосовуватися для вирішення завдань розпізнавання образів одними з перших (див. Ту, Гонсалес, 1978) у середині минулого століття.
Нехай F(u 1 ,…,u n)=a 1 u 1 + a 2 u 2 + … +a n u n – лінійна функція n змінних u 1 ,…,u n . Методи відшукання лінійних вирішальних функцій та правил прийнято називати лінійними. Загальний вид лінійних вирішальних правил може бути заданий таким чином:
при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≥λ+ε об'єкт S відноситься до До 1;
при a 1 X 1 (S) + a 2 X 2 (S) + … +a n X n (S)≤λ-ε об'єкт S відноситься до До 2;