Інтелектуальні технології Text Mining. Технологія ефективного аналізу текстових даних: Видобуток знань

Стаття Дмитра ЛандеВидобуток знань - одна з перших прочитаних мною статей про Text Mining - яка була опублікована в журналі CHIP у жовтні 2003 р.

Сирі неструктуровані дані становлять щонайменше 90% інформації, з якою мають справу користувачі. Знайти в таких даних щось цінне можна лише за допомогою спеціалізованих технологій.

Електронна інформація відіграє все більшу роль у всіх сферах життя сучасного суспільства. В інформаційних сховищах, розподілених у всьому світі, зібрані терабайти текстових даних. Розвиток інформаційних ресурсів Інтернет багаторазово посилило проблему інформаційного навантаження.

Дослідницька служба Cyveillance повідомила, що ще в 2001 році загальна кількість сторінок в Інтернеті перевищила 4 мільярди. Середній розмір Web-сторінки – 10 КБ, середньостатистична сторінка містить 23 внутрішніх посилань, 5.6 - зовнішніх та 14-15 зображень. Якщо до цього додати масиви неструктурованих документів у корпоративних фалових системах та базах даних, то легко бачити, чому багато організацій зацікавлені у технологіях автоматизованого аналізу та класифікації інформації, представленої на природною мовою. Адже за існуючими оцінками, неструктуровані дані – головним чином текст – становлять не менше 90% інформації, з якою мають справу фірми та організації. І лише 10% посідає структуровані дані, завантажені в реляційні СУБД.

"Люди шукатимуть те, що вони знають, звертаючись до документальних репозитарій. Проте вони взагалі не будуть або просто не зможуть висловити запитом те, чого вони не знають, навіть маючи доступ до зборів документів", - зауважив Джим Нісбет, віце-президент компанії Semio яка є одним з провідних виробників систем видобутку даних. "Вигляд ефективного аналізу тексту - Text Mining- використовуючи обчислювальні потужності повинен виявити відносини, які можуть призводити до видобутку нових знань користувачем.

Технологія ефективного аналізу тексту Text Miningздатна виступити у ролі репетитора, який, проштудувавши весь курс, викладає лише найбільш ключову та значну інформацію. Таким чином, користувачеві нема чого самому "просіювати" величезну кількість не структурованої інформації. Розроблені на основі статистичного та лінгвістичного аналізу, а також штучного інтелекту, технології Text Miningякраз і призначені для проведення смислового аналізу, забезпечення навігації та пошуку у неструктурованих текстах. Застосовуючи побудовані на основі системи, користувачі зможуть отримати нову цінну інформацію- Знання.

Відокремлюючи зерна від полови.

Нещодавно ЦРУ опублікувало "План стратегічних інвестицій аналізу розвідспільноти" (Strategic Investment Plan for Intelligence Community Analysis). У плані розвідники визнають, що не використали повністю можливості відкритих джерел, і тепер робота з ними має стати. найвищим пріоритетомдля інвестицій". Тепер у ЦРУ резонно вважають, що брати інформацію з відкритих джерел безпечніше та дешевше, ніж користуватися розвідданими. Технологія глибинного аналізу тексту - Text Mining- це той інструментарій, який дозволяє аналізувати великі обсяги інформації у пошуках тенденцій, шаблонів і взаємозв'язків, здатних допомогти у прийнятті стратегічних рішень. Крім того, Text Mining- це новий видпошуку, який на відміну від традиційних підходів не тільки знаходить списки документів, формально релевантних запитів, Але й допомагає відповісти на запитання: "Допоможи мені зрозуміти сенс, розібратися з цією проблематикою". Клод Фогель, один із засновників та головний технолог компанії Semio, пояснює: "Використовуючи аналогію з бібліотекою, технологія Text Miningподібна до відкриття книги перед читачем з накресленою необхідною інформацією. Порівняйте це з видачею читачеві стосу документів і книг, в яких десь міститься інформація, потрібна читачеві, проте знайти її буде непросто". Процес осмисленого пошуку є далеко не тривіальним, часто в колекції документів присутній лише натяк на необхідну інформацію. Необхідні потужні інтелектуальні можливості, щоб знайти те, що потрібно У назві технології слово "mining" (видобуток руди) виступає як метафора знаходження глибоко "заритої" інформації.

Слід зазначити, що технології глибинного аналізу тексту історично передувала технологія видобутку даних (Data Mining), методологія та підходи якої широко використовуються й у методах Text Mining. Для видобутку текстів цілком справедливим є визначення, дане для видобутку даних одним з провідних світових експертів Григорієм П'ятецьким-Шапіро з GTE Labs: "Процес виявлення в сирих даних раніше невідомих нетривіальних практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень у різних сферах людської діяльності. " Як і більшість когнітивних технологій - Text Mining- це алгоритмічне виявлення раніше не відомих зв'язків та кореляцій у вже наявних текстових даних.

Оформившись у середині 90-х років ХХ століття як напрямок аналізу неструктурованих текстів, технологія Text Miningвідразу ж взяла на озброєння методи класичного видобутку даних, такі як класифікація чи кластеризація. У Text Miningз'явилися і додаткові можливості, такі як автоматичне реферування текстів та виділення понять, феноменів, фактів. Можливості сучасних систем Text Miningможуть застосовуватися при керуванні знаннями для виявлення шаблонів у тексті, для автоматичного "виштовхування" або розміщення інформації по профілях, що цікавлять користувачів, створювати огляди документів. Технології Text MiningКрім того, властива об'єктивність - відсутня суб'єктивізм, властивий людині-аналітику.

Важливий компонент технології Text Miningпов'язаний із вилученням з тексту його характерних елементів або властивостей, які можуть використовуватися як метадані документа, ключові слова, анотації. Інша важливе завданняполягає у віднесенні документа до деяких категорій із заданої схеми їх систематизації. Text Miningтакож забезпечує новий рівеньсемантичного пошуку документів

Основи технології Text Mining

Відповідно до вже сформованої методології до основних елементів Text Miningвідносяться сумаризація (summarization), виділення феноменів, понять (feature extraction), кластеризація (clustering), класифікація (classification), відповідь на запити (question answering), тематичне індексування (thematic indexing) та пошук за ключовими словами (keyword searching). Також у деяких випадках набір доповнюють засоби підтримки та створення таксономії (oftaxonomies) та тезаурусів (thesauri).

Олександр Лінден, директор компанії Gartner Research, виділив чотири основні види додатків технологій Text Mining:

Класифікація тексту, у якій використовуються статистичні кореляції для побудови правил розміщення документів у визначені категорії. Кластеризація, що базується на ознаках документів, що використовує лінгвістичні та математичні методи без використання визначених категорій. Результат - таксономія чи візуальна карта, що забезпечує ефективне охоплення великих обсягів даних. Семантичні мережі чи аналіз зв'язків, які визначають появу дескрипторів ( ключових фраз) у документі для забезпечення навігації. Вилучення фактів призначене для отримання деяких фактів із тексту з метою покращення класифікації, пошуку та кластеризації.

Так склалося, що найчастіше зустрічається в Text MiningЗавдання – це класифікація – віднесення об'єктів бази даних до заздалегідь визначених категорій. Фактично завдання класифікації – це класичне завдання розпізнавання, де за навчальною вибіркою система відносить новий об'єктдо тієї чи іншої категорії. Особливість системи Text Miningполягає в тому, що кількість об'єктів та їх атрибутів може бути дуже великою; тому мають бути передбачені інтелектуальні механізми оптимізації процесу класифікації. У існуючих сьогодні системах класифікація застосовується, наприклад, у таких завданнях: угруповання документів у intranet-мережах та на Web-сайтах, розміщення документів у певні папки, сортування повідомлень електронної пошти, виборче розповсюдження новин передплатникам

Друге завдання – кластеризація – виділення компактних підгруп об'єктів з близькими властивостями. Система повинна самостійно знайти ознаки та розділити об'єкти за підгрупами. Вона, зазвичай, передує задачі класифікації, оскільки дозволяє визначити групи об'єктів. Розрізняють два основні типи кластеризації - ієрархічну та бінарну. Ієрархічна кластеризація полягає у побудові дерева кластерів, у кожному з яких розміщується невелика група документів. Приклад утиліти двійкової кластеризації наведено на сервері IBM за адресою http://www.software.ibm.com/data/iminer/fortext. Двійкова кластеризація забезпечує угруповання та перегляд документальних кластерів за посиланнями подібності. В один кластер поміщаються найближчі за своїми властивостями документи. У процесі кластеризації будується базис посилань від документа до документа, заснований на терезах і спільному вживанні ключових слів, що визначаються. Кластеризація сьогодні застосовується при реферуванні великих документальних масивів, визначення взаємопов'язаних груп документів, спрощення процесу перегляду при пошуку необхідної інформації, знаходження унікальних документів із колекції, виявлення дублікатів або дуже близьких до змісту документів.

Можна назвати ще кілька завдань технології Text Miningнаприклад, прогнозування, яке полягає в тому, щоб передбачити за значеннями одних ознак об'єкта значення інших.

Ще одне завдання – знаходження винятків, тобто пошук об'єктів, які своїми характеристиками сильно виділяються із загальної маси. Для цього спочатку з'ясовуються середні параметри об'єктів, а потім досліджуються об'єкти, параметри яких найбільше відрізняються від середніх значень. Як відомо, пошук винятків широко застосовується, наприклад, у роботі спецслужб. Подібний аналіз часто проводиться після класифікації для того, щоб з'ясувати, наскільки остання була точна.

Дещо окремо від завдання кластеризації стоїть завдання пошуку пов'язаних ознак (полів, понять) окремих документів. Від передбачення це завдання відрізняється тим, що заздалегідь не відомо, за якими ознаками реалізується взаємозв'язок; Мета саме в тому і полягає, щоб знайти зв'язки ознак. Це завдання подібне до кластеризації, але не по безлічі документів, а по безлічі властивих їм ознак.

І нарешті, для обробки та інтерпретації результатів Text Miningвелике значення має візуалізація. Візуалізація даних має на увазі обробку структурованих числових даних, проте вона також є ключовою ланкою при поданні схем неструктурованих текстових документів. Зокрема, сучасні системи класу Text Miningможуть здійснювати аналіз великих масивів документів і формувати предметні покажчики понять і тем, висвітлених цих документах. Візуалізація зазвичай використовується як представлення контенту всього масиву документів, а також для реалізації навігаційного механізму, який може застосовуватися при дослідженні документів та їх класів.

Реалізації систем

В даний час багато провідних виробників програмного забезпечення пропонують свої продукти та рішення в області Text mining. Як правило - це системи, що масштабуються, в яких реалізовані різні математичні та лінгвістичні алгоритми аналізу текстових даних. Вони мають розвинуті графічні інтерфейси, багаті можливості візуалізації та маніпулювання з даними, надають доступ до різним джереламданих, що функціонують в архітектурі клієнт-сервер. Ось кілька прикладів таких систем:

Intelligent Miner for Text (IBM)
TextAnalyst, WebAnalyst (Мегап'ютер Інтеллідженс)
Text Miner (SAS)
SemioMap (Semio Corp.)
Oracle Text (Oracle)
Knowledge Server (Autonomy)
Galaktika-ZOOM (корпорація "Галактика")
InfoStream (Інформаційний центр "ЕЛВІСТІ")

Нижче ми розглянемо деякі з цих систем докладніше.

Intelligent Miner for Text

Продукт фірми IBM Intelligent Miner for Text є набір окремих утиліт, що запускаються з командного рядка або скриптів незалежно один від одного. Ця система є одним із найкращих інструментів глибинного аналізу текстів. Система містить такі основні утиліти (Tools) для побудови програм управління знаннями:

Language Identification Tool - утиліта визначення мови - для автоматичного визначення мови, якою складено документ.

Categorisation Tool – утиліта класифікації – автоматичного віднесення тексту до деякої категорії (вхідною інформацією на навчальній фазі роботи цього інструменту може бути результат роботи наступної утиліти – Clusterisation Tool).

Clusterisation Tool - утиліта кластеризації - розбиття великої множини документів на групи за близькістю стилю, форми, різних частотних характеристикключових слів, що виявляються.

Feature Extraction Tool – утиліта визначення нового – виявлення у документі нових ключових слів (власні імена, назви, скорочення) на основі аналізу заданого заздалегідь словника.

Annotation Tool - утиліта "виявлення сенсу" текстів та складання рефератів - анотацій до вихідних текстів.

IBM Intelligent Miner for Text поєднує потужну сукупність інструментів, що базуються в основному на механізмах пошуку інформації (information retrieval), що є специфікою всього продукту. Система включає ряд базових компонентів, які мають самостійне значення поза межами технології "видобування текстів" - це інформаційно-пошукова система Text Search Engine, утиліта сканування Web-простору Web crawler, Net Question Solution - рішення для пошуку в локальному Web-сайті або на декількох intranet/Internet-серверах, Java Sample GUI - набір інтерфейсів Java Beans для адміністрування та організації пошуку на основі Text Search Engine.

Intelligent Miner for Text як продукт IBM включений в комплекс "Information Integrator for Content" для СУБД DB2 як засіб Information Mining ("глибинного аналізу інформації").

Вартість продуктів різних рівнів сімейства Intelligent Miner складає від 18 до 75 тисяч доларів.

TextAnalyst

Російська компанія Мегап'ютер Інтеллідженс, відома своєю системою PolyAnalyst класу Data Mining, розробила також систему TextAnalyst (http://www.megaputer.com/products/ta/index.php3), яка вирішує такі завдання Text Mining: створення семантичної мережі великого тексту, підготовка резюме тексту, пошук за текстом та автоматична класифікація та кластеризація текстів. Побудова семантичної мережі - це пошук ключових понять тексту та встановлення взаємовідносин між ними. За такою мережею можна зрозуміти, про що йдеться в тексті, а й здійснити контекстну навігацію. Підготовка резюме - це виділення у тексті речень, у яких найчастіше зустрічаються значущі цього тексту слова. У 80% випадків цього цілком достатньо отримання уявлення про текст. Для пошуку інформації в системі передбачено використання запитів природною мовою. На запит будується унікальна семантична мережа, яка при взаємодії з мережею документа дозволяє виділити потрібні фрагменти тексту. Кластеризація та класифікація проводяться стандартними методами видобутку даних.

Система Text-Analyst, розглядає Text Miningяк окремий математичний апарат, який розробники програмного забезпечення можуть вбудовувати у свої продукти, не спираючись на платформи інформаційно-пошукових систем або СУБД. Основна платформа для застосування системи – MS Windows 9x/2000/NT. Існує плагін TextAnalyst для браузера Microsoft Internet Explorer.

WebAnalyst

Система WebAnalyst (http://www.megaputer.com/products/wa/index.php3) - також продукт "Мегап'ютер Інтеллідженс" -є інтелектуальним масштабованим клієнтом/серверним рішенням для компаній, які бажають максимізувати ефект аналізу даних у Web-середовищі. Сервер WebAnalyst функціонує як експертна система збирання інформації та управління контентом Web-сайту. Модулі WebAnalyst вирішують три завдання: збір максимальної кількості інформації про відвідувачів сайту та запитуваних ними ресурсів; дослідження зібраних даних та генерація персоналізованого, на основі результатів досліджень, контенту. Вирішення цих завдань у сукупності має на думку розробників системи призвести до максимізації кількості нових відвідувачів Web-сайту та утримання вже наявних, а отже, збільшення популярності ресурсу. WebAnalyst і здатний інтегрувати можливості Text Miningбезпосередньо на веб-сайт організації. Це дозволяє запропонувати індивідуалізований, автоматизований та цільовий маркетинг, автоматичний пошук та реалізацію перехресного продажута розширити набір даних, що настроюються користувачем. По суті WebAnalyst є інтелектуальний серверелектронної комерції.

Технічна платформа - та сама, що й у TextAnalyst.

Text Miner

Американська компанія SAS Institute випустила систему SAS Text Miner для порівняння певних граматичних та словесних рядів у письмовій мові. Text Miner – дуже універсальна, оскільки може працювати з текстовими документами різних форматів – у базах даних, файлових системах і навіть у Web.

Text Miner забезпечує логічну обробку тексту серед потужного пакету SAS Enterprise Miner. Це дозволяє користувачам збагачувати процес аналізу даних, інтегруючи неструктуровану текстову інформаціюз існуючими структурованими даними - такими, як вік, дохід та характер купівельного попиту. Text Miner.

Приклад успішного застосування логічних можливостей Text Miner демонструє компанія Compaq Computer Corp., яка в даний час тестує Text Miner, аналізуючи більше 2,5 гігабайт текстових документів, отриманих електронною поштою та зібраних представниками компанії. Раніше обробити такі дані було практично неможливо

Програма Text Miner дозволяє визначати, наскільки правдивим є той чи інший текстовий документ. Виявлення брехні в документах здійснюється шляхом аналізу тексту та виявлення змін стилю письма, які можуть виникати при спробі спотворити чи приховати інформацію. Для пошуку таких змін використовується принцип, що полягає у пошуку аномалій та трендів серед записів баз даних без з'ясування їхнього сенсу. При цьому Text Miner включений великий набір документів різного ступеня правдивості, чия структура приймається як шаблонів. Кожен документ, що "проганяється" на детекторі брехні аналізується і порівнюється з цими стандартами, після чого програма надає документу той чи інший індекс правдивості. Особливо корисною програма може стати в організаціях, які одержують великий обсяг електронної кореспонденції, а також у правоохоронних органівдля аналізу показань нарівні з детекторами брехні, чия дія ґрунтується на спостереженні за емоційним станом людини.

Цікавим є приклад застосування Text Miner у медицині: в одній з американських національних охорони здоров'я було зібрано понад 10 тис. лікарських записів про захворювання серця, зібрані з клінік по всій країні. Аналізуючи ці дані за допомогою Text Miner, фахівці виявили деякі адміністративні порушення у звітності, а також змогли визначити взаємозв'язок між серцево-судинними захворюваннями та іншими недугами, які не були визначені традиційними методами.

Разом з тим компанія SAS зазначає, що випустить свій продукт Text Miner в основному для привернення уваги бізнес-інтелігенції.

SemioMap

SemioMap - це продукт компанії Entrieva, створений 1996 р. вченим-семіотиком Клодом Фогелем (Claude Vogel). У травні 1998 р. продукт був випущений як промисловий комплекс SemioMap 2.0 – перша система Text Miningпрацює в архітектурі клієнт-сервер. Система SemioMap і двох основних компонент - сервера SemioMap і клієнта SemioMap. Робота системи протікає у три фази:

Індексування; сервер SemioMap автоматично читає масиви неструктурованого тексту, витягує ключові фрази (поняття) та створює з них індекс;
кластеризація понять; сервер SemioMap виявляє зв'язок між витягнутими фразами і будує їх, з урахуванням спільної встречаемости, лексичну мережу ( " понятійну карту " );
Графічне відображення та навігація; візуалізація карт зв'язків, яка забезпечує швидку навігацію за ключовими фразами та зв'язками між ними, а також можливість швидкого звернення до конкретних документів.

SemioMap підтримує розбиття матеріалу за папками, створення окремої бази даних для кожної папки. Зв'язки між поняттями, які виявляє SemioMap, базуються на спільній зустрічності фраз в абзацах вихідного текстового масиву.

Центральним блоком SemioMap є лексичний екстрактор - програма, яка отримує фрази з текстової сукупності і виявляє спільну зустрічальність цих фраз (їх взаємні зв'язки). Лексичний екстрактор базується на патентованій технології SEMIOLEX. Вона реалізує ідеї обчислювальної семіотики, науки про знаки у мовній комунікації, розробленої Клодом Фогелем.

InterMedia Text, Oracle Text

Засоби Text Mining, Починаючи з Text Server у складі СУБД Oracle 7.3.3 і картриджа interMedia Text в Oracle8i, є невід'ємною частиною продуктів Oracle. У Oracle9i ці кошти розвинулися і отримали нову назву – Oracle Text – програмний комплекс, інтегрований у СУБД, що дозволяє ефективно працювати із запитами, що належать до неструктурованих текстів. При цьому обробка тексту поєднується з можливостями, наданими користувачеві для роботи з реляційними базами даних. Зокрема, при написанні програм для обробки тексту стало можливим використовувати SQL.

Основним завданням, на вирішення якого націлені кошти Oracle Text, є завдання пошуку документів за їх змістом - слів або фраз, які при необхідності комбінуються з використанням булевих операцій. Результати пошуку ранжуються за релевантністю, з урахуванням частоти слів запиту в знайдених документах. Для підвищення повноти пошуку Oracle Text надає низку засобів розширення пошукового запиту, Серед яких можна виділити три групи. По-перше, це розширення слів запиту всіма морфологічними формами, що реалізується залученням знань про морфологію мови. По-друге, Oracle Text допускає розширення слів запиту близькими за змістом словами за рахунок підключення тезаурусу - семантичного словника, а також розширення запиту словами, близькими за написанням та звучанням - нечіткий пошук і пошук співзвучних слів. Нечіткий пошук доцільно застосовувати при пошуку слів з друкарськими помилками, а також у тих випадках, коли виникають сумніви в правильному написанні- прізвища, назви організації тощо.

Система Oracle Text забезпечує проведення тематичного аналізу текстів на англійською. Під час обробки текст кожного документа піддається процедурам лінгвістичного та статистичного аналізу, внаслідок чого визначаються його ключові теми та будуються тематичні резюме, а також загальне резюме – реферат.

Всі ці засоби можуть використовуватися спільно, що підтримується мовою запитів у поєднанні з традиційним синтаксисом SQL і PL/SQL для пошуку документів. Oracle Text надає можливість працювати з сучасними реляційними СУБД у контексті складного багатоцільового пошуку та аналізу текстових даних.

Можливості обробки текстової інформації російською в Oracle Text досить обмежені. Для вирішення цієї проблеми компанією Гарант-Парк-Інтернет було розроблено модуль Russian Context Optimizer (RCO), призначений для спільного використання з interMedia Text (або Oracle Text). Крім підтримки російськомовної морфології, RCO включає засоби нечіткого пошуку, тематичного аналізу та реферування документів.

Autonomy Knowledge Server

Архітектура системи компанії Autonomy, відомої своїми розробками в галузі статистичного контент-аналізу, поєднує інтелектуальний парсинг за шаблонами зі складними методами контекстного аналізу та отримання сенсу для вирішення завдань автоматичної класифікації та організації перехресних посилань. Основна перевага системи Autonomy – потужні інтелектуальні алгоритми, що базуються на статистичній обробці. Ці алгоритми базуються на інформаційній теорії Клода Шаннона, Байєсових ймовірностях та нейронних мережах.

Концепція адаптивного моделювання (APCM) дозволяє системі Autonomy ідентифікувати шаблони в тексті документа і автоматично визначати подібні шаблони в багатьох інших документах.

Важливий момент у системі Autonomy Knowledge Server – це можливість аналізу тектів та ідентифікації ключових концепцій у межах документів шляхом аналізу кореляції частот та відносин термінів із змістом тексту. Компонета системи Autonomy - Agentware використовує унікальну технологію аналізу шаблонів (нелінійна адаптивна цифрова обробка сигналу) для вилучення з документів сенсу та визначення характеристик тексту. APCM дозволяє ідентифікувати унікальні "сигнатури" змісту тексту, а також створювати агентів концепцій, за допомогою яких шукаються подібні за змістом записи на Web-сайтах, новинах, архівах електронної пошти та інших документах. Оскільки система не базується на визначених ключових словах, вона може працювати з будь-якими мовами.

Ядро системи агентів Autonomy - це механізм динамічного міркування (DRE), що ґрунтується на технології обробки шаблонів, в якій використовуються методи нейронних мереж, що отримали стартовий розвиток у батьківській компанії Автономії, Neurodynamics. У DRE використовується концепція адаптивного моделювання для реалізації чотирьох головних функцій: виявлення концепції, створення агента, навчання агента і стандартний пошук тексту. DRE сприймає запити природною мовою, або терміни, пов'язані булевими операторами, та повертає список документів, впорядкованих за релевантністю запиту. Цей механізм є основою всіх продуктів системи агентів Autonomy. Опис сервера знань (Knowledge Server) компанії Autonomy наведено за адресою http://www.autonomy.com/tech/whitepaper.pdf.

Galaktika-ZOOM

Система Galaktika-ZOOM – продукт російської корпорації "Галактика". Основне призначення системи - інтелектуальний пошук за ключовими словами з урахуванням морфології російської та англійської мов, а також формування інформаційних масивів за конкретними аспектами. При цьому обсяги інформації можуть сягати сотень гігабайт. Саме орієнтація на великі інформаційні об'єкти – повідомлення та статті ЗМІ, галузевий друк, нормативну документацію, ділове листування та матеріали внутрішнього документообігу підприємства, інформацію з Інтернету. При цьому система надає певний інструментарій для аналізу об'єктивних смислових зв'язків відібраних даних та формування "образу" проблеми. багатовимірної моделів інформаційному потоці у формі ранжованого списку значних слів, що вживаються разом із темою проблеми. Велику увагу в системі приділено виявленню тенденцій динаміки розвитку проблеми, що вивчається. Система містить конвертори найпоширеніших форматів: простий текст, RTF, DOC, HTML. Galaktika-ZOOM функціонує серед ОС Windows 2000.

InfoStream

Охоплення, узагальнення великих динамічних інформаційних масивів, що безперервно генеруються в мережі, зажадало якісно нових підходів. Виникла необхідність створення методів моніторингу інформаційних ресурсів, які тісно пов'язані з методологією контент-аналізу - контент-моніторингу. Для отримання якісних та кількісних зрізів такий моніторинг повинен проводитись постійно протягом не визначеного заздалегідь часу. Для вирішення цього завдання в Україні Інформаційний центр"ЕЛВІСТІ" розроблено технологію InfoStream™. Програмно-технологічні засоби InfoStream включають три основні складові:

центр збору та обробки інформації;
центр організації інтерактивного доступу до баз даних;
центр контент-моніторингу.

Ядром механізму обробки контенту InfoStream є повнотекстова інформаційно-пошукова система InfoReS. Технологія дозволяє створювати повнотекстові базиданих і здійснювати пошук інформації, формувати тематичні інформаційні канали, автоматично рубкувати інформацію, формувати дайджести, таблиці взаємозв'язків понять (щодо їх у мережевих публікаціях), гістограми розподілу вагових значень окремих понять, і навіть динаміки їх встречаемости за часом. Технологія InfoStream дозволяє обробляти дані у форматах MS WORD (DOC, RTF), PDF та всіх текстових форматів (простий текст, HTML, XML). Системи на основі InfoStream зараз функціонують на платформах таких ОС: FreeBDS, Linux, Solaris.

Зазирнемо у майбутнє

Нещодавно Центральне Розвідувальне Управління США представило широкій публіці свої технології "видобучення даних", використовувані для пошуку інформації в текстах, радіо- і телепередачах. вилучення текстових даних" ("Text Data Mining"), що використовуються для пошуку значної інформації у величезній масі документів і в радіо-і телепередачах різними мовами. Пошук ведеться як за систематизованими, так і за випадковими джерелами, причому об'єктами пошуку є тексти в друкованих виданнях та цифровому вигляді, графічні зображення, аудіоінформація 35 мовами. Для відсіювання аудіоінформації використовується методика "Oasis", яка розпізнає мову та перетворює її на текст. При цьому технологія дозволяє відокремлювати чоловічі голосивід жіночих, а також голоси, що належать різним людямі записувати їх у вигляді діалогів. Методика "Oasis" дозволяє виділяти з аудіопотоку лише ті голоси або ту конкретну інформацію, яка закладена в налаштуваннях пошуку.

Інша комп'ютерна технологіяпід назвою Fluent дозволяє підрозділам ЦРУ шукати інформацію у текстових документах. Ця технологія передбачає пошук за ключовими словами, причому вводиться слово або поєднання англійською мовою, яке відразу перекладається на цілий ряд інших мов, і знайдена інформація з бази даних різними мовами надходить досліднику після автоматичного перекладу. Ще одна програма, Text Data Mining, дозволяє автоматично створювати предметні покажчики для текстових документів, а також отримувати дані щодо частоти вживання тих чи інших слів у документах. Ці технології ЦРУ використовує сьогодні у відстеженні незаконних фінансових операцій та наркотрафіку.

Названими вище технологіями займається відділ Advanced Information Technology (AIT) Директорату науки та технології ЦРУ. "Ми розвиваємося не так швидко, щоб встигнути за стрімким зростанням інформаційних потоків, що стікаються сюди щодня, - сказав директор AIT Ларрі Ферчайлд (Larry Fairchild) - Ми повинні забезпечувати співробітників технологією, яка допоможе їм впоратися з гігантськими обсягами даних, що оперативно обробляються".

У плані професійного використання інструментів Text MiningЦРУ – далеко не монополіст. За прогнозами аналітичної компанії IDC, попит на подібні програмизначно зросте протягом найближчих 4-5 років. Так, до 2005 року очікується підвищення прибутків від такого програмного забезпечення з $540 млн. (у 2002 році) до півтора мільярда доларів. Такі можливості, як експрес-аналіз знайденої інформації, інформаційна розвідка (видобуток розрізненої прямої та непрямої інформації з деякої проблеми), формування та ведення тематичних досьє з можливістю виявлення тенденцій та взаємозв'язків персон, подій, процесів вже використовуються рядом великих підприємств і напевно будуть затребувані у надалі.

До 2006 року такі програми стануть домінуючими при аналізі інформації від клієнтів у компаніях будь-якого рівня, будь то телефонні центри підтримки, інтернет-агентства або аналітичні агентства, стверджує експерт Алессандро Занасі (Alessandro Zanasi), раніше співробітник META Group. Кадрові відділи будуть використовувати програми класу text mining для пошуку резюме, що підходять за складною сіткою показників. А маркетингові підрозділи знайдуть застосування таким програмам як аналізаторів ситуації на ринку, що відстежують тенденції, становище конкурентів та інші показники на основі інформації та різних джерел - новинних стрічок, звітів про НДР, оглядів, патентів.

Web Miningможна перекласти як "видобуток даних у Web". Web Intelligence або Web Інтелект готовий "відкрити новий розділ" у стрімкому розвитку електронного бізнесу. Здатність визначати інтереси та переваги кожного відвідувача, спостерігаючи за його поведінкою, є серйозною та критичною перевагою конкурентної боротьби на ринку електронної комерції.

Системи Web Mining можуть відповісти на багато питань, наприклад, хто з відвідувачів є потенційним клієнтом Web-магазину, яка група клієнтів Web-магазину приносить найбільший дохід, які інтереси певного відвідувача чи групи відвідувачів.

Технологія Web Mining охоплює методи, які можуть на основі даних сайту виявити нові, раніше невідомі знання і які надалі можна буде використовувати на практиці. Іншими словами, технологія Web Mining застосовує технологію Data Mining для аналізу неструктурованої, неоднорідної, розподіленої та значної обсягу інформації, що міститься на Web-вузлах.

Згідно таксономії Web Mining, тут можна виділити два основні напрямки: Web Content Mining та Web Usage Mining.

Web Content Miningпередбачає автоматичний пошук та вилучення якісної інформації з різноманітних джерел Інтернету, перевантажених " інформаційним шумомТут також йдеться про різні засоби кластеризації та анотування документів.

У цьому напрямку, у свою чергу, виділяють два підходи: підхід, заснований на агентах, та підхід, заснований на базах даних.

Підхід, заснований на агентах (Agent Based Approach), включає такі системи:

інтелектуальні пошукові агенти (Intelligent Search Agents);
фільтрація інформації/класифікація;
персоніфіковані агенти мережі.

Приклади систем інтелектуальних агентів пошуку:

Harvest (Brown та ін, 1994),
FAQ-Finder (Hammond та ін, 1995),
Information Manifold (Kirk та ін., 1995),
OCCAM (Kwok and Weld, 1996), і ParaSite (Spertus, 1997),
ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
ShopBot (Doorenbos та ін., 1996).

Підхід, заснований на базах даних (Database Approach), включає системи:

багаторівневі бази даних;
системи Web-запитів (Web Query Systems);

Приклади систем web-запитів:

W3QL (Konopnicki та Shmueli, 1995),
WebLog (Lakshmanan та ін, 1996),
Lorel (Quass та ін., 1995),
UnQL (Buneman та ін., 1995 і 1996),
TSIMMIS (Chawathe та ін., 1994).

Другий напрямок Web Usage Miningпередбачає виявлення закономірностей у діях користувача Web-вузла чи його групи.

Аналізується така інформація:

які сторінки переглядав користувач;
яка послідовність перегляду сторінок.

Аналізується також, які групи користувачів можна виділити серед їх загального числа на основі історії перегляду Web-вузла.

Web Usage Mining включає такі складові:

Попередня обробка;
операційна ідентифікація;
інструменти виявлення шаблонів;
інструменти аналізу шаблонів.

При використання Web Mining перед розробниками виникає два типи завдань. Перша стосується збору даних, друга – використання методів персоніфікації. В результаті збору певного обсягу персоніфікованих ретроспективних даних про конкретного клієнта система накопичує певні знання про нього і може рекомендувати йому, наприклад, певні набори товарів або послуг. На основі інформації про всіх відвідувачів сайту Web-система може виявити певні групи відвідувачів і також рекомендувати їм товари або пропонувати товари в розсилках.

Завдання Web Mining згідно можна поділити на такі категорії:

Попередня обробка даних для Web Mining.
Виявлення шаблонів та відкриття знань з використанням асоціативних правил, тимчасових послідовностей, класифікації та кластеризації;
Аналіз здобутого знання.

Text Mining

Text Miningохоплює нові методи для виконання семантичного аналізу текстів, інформаційного пошуку та управління. Синонімом поняття Text Mining є KDT (Knowledge Discovering in Text – пошук або виявлення знань у тексті).

На відміну від технології Data Mining, яка передбачає аналіз впорядкованої деякі структури інформації, технологія Text Mining аналізує великі і надвеликі масиви неструктурованої інформації.

Програми, які реалізують це завдання, мають деяким чином оперувати природною людською мовою і при цьому розуміти семантику тексту, що аналізується. Один із методів, на якому засновані деякі Text Mining системи, - пошук так званого підрядка в рядку.

Call Mining

За словами Енн Беднарц, "видобування дзвінків" може стати популярним інструментом корпоративних інформаційних систем.

Технологія Call Miningпоєднує в собі розпізнавання мови, її аналіз та Data Mining. Її мета – спрощення пошуку в аудіо-архівах, що містять записи переговорів між операторами та клієнтами. За допомогою цієї технології оператори можуть виявляти недоліки у системі обслуговування клієнтів, знаходити можливості збільшення продажів, а також виявляти тенденції у зверненнях клієнтів.

Серед розробників нової технології Call Mining ("видобуток" та аналіз дзвінків) - компанії CallMiner, Nexidia, ScanSoft, Witness Systems. У технології Call Mining розроблено два підходи - на основі перетворення мови в текст та на базі фонетичного аналізу.

Приклад реалізації першого підходу, заснованого на перетворенні мови, є система CallMiner. У процесі Call Mining спочатку використовується система перетворення мови, потім слідує її аналіз, у ході якого залежно від змісту розмов формується статистика телефонних викликів. Отримана інформація зберігається у базі даних, у якій можливий пошук, вилучення та обробка.

Приклад реалізації другого підходу – фонетичного аналізу – продукція компанії Nexidia. У цьому підході мова розбивається на фонеми, які є звуками чи його поєднаннями. Такі елементи утворюють фрагменти, що розпізнаються. При пошуку певних слів та їх поєднань система ідентифікує їх із фонемами.

Аналітики зазначають, що за останні роки інтерес до систем на основі Call Mining значно зріс. Це тим фактом, що менеджери вищої ланки підприємств, які у різних сферах, зокрема. в галузі фінансів, мобільного зв'язку, авіабізнесу, не хочуть витрачати багато часу на прослуховування дзвінків з метою узагальнення інформації або виявлення будь-яких фактів порушень.

За словами Деніела Хонга, аналітика компанії Datamonitor: "Використання цих технологій підвищує оперативність і знижує вартість обробки інформації".

Типова інсталяція продукції від розробника Nexidia обходиться у суму від 100 до 300 тис. дол. Вартість впровадження системи CallMiner щодо перетворення мови та набору аналітичних додатків становить близько 450 тис. дол.

На думку Шоллера, програми Audio Mining і Video Mining знайдуть згодом набагато ширше застосування, наприклад, при індексації навчальних відеофільмів та презентацій у медіабібліотеках компаній. Однак технології Audio Mining і Video Mining знаходяться зараз на рівні становлення, а практичне їх застосування - на початковій стадії.

Сьогодні питання аналізу структурованої інформації у різних прикладних галузях залежно від специфіки завдань вирішено на 90-100%. З погляду технологій це пояснюється дуже просто: сучасні інструменти аналізу дозволяють "бачити" дані, що зберігаються у БД. На ринку широко представлені такі звичні користувачам технології, як OLAP, BI та Data Mining, засновані на популярних методах статистичної обробки, прогнозування та візуалізації.

Цілком протилежна ситуація склалася з аналізом неструктурованих даних, простіше кажучи - тексту, написаного природною людською мовою. Проблеми, пов'язані з автоматизацією цієї області, для більшості користувачів поки що не вирішені. Відразу зазначимо, що, говорячи про аналіз, завжди маємо на увазі пошук відповіді на конкретне питання тієї чи іншої людини.

Наприклад, аналітик із служби нагляду запитує: "Які російські банки є найбільш ризикованими?" У спрощеному вигляді результат повинен бути відсортований за надійністю список банків, що містить оцінки ризиків. У разі коли інформація знаходиться в базі даних, все зрозуміло: налаштували інструмент аналізу на запит до бази, ввели формулу і "попросили" вивести таблицю з сортуванням за ступенем ризику. Але в тому й складність, що, як правило, цієї інформації в базі даних немає. У тій чи іншій формі вона є в Інтернеті та інших джерелах. Але як видобути її з неструктурованих даних, наприклад, зі звітів банків та інших документів, опублікованих у Мережі?

Практично всі користувачі роблять наступне: заходять у пошуковик, наприклад Yandex, вводять запит - і... Отримують тисячі та тисячі посилань... А тепер найцікавіше: закочуємо рукави та клацаємо на посиланнях, переглядаємо текст, виділяємо потрібні фрагменти з назвою банку, відомостями про його послуги, статутний капітал, дохідність, витрати та інші показники, необхідні, згідно з методикою або нашим розумінням, для оцінки ризиків. Отримані дані завантажуємо в MS Excel, застосовуємо формули, малюємо графіки і нарешті милуємося на отриманий чесною та тяжкою працею результат.

Подібних прикладів як у побуті, так і в бізнесі є дуже багато. Поєднує їх одне - рутина, пов'язана з ручним пошуком та видобутком даних. Дуже це все нагадує картину середньовічних копалень: тисячі людей кирками та лопатами вгризаються у неподатливу породу, видобуваючи крихти корисних мінералів. Виходить, що за способом роботи з неструктурованою інформацією ми перебуваємо у Середніх віках. Чи є сьогодні можливість автоматизувати тяжку працю цих "рудокопів"?

Як показує аналіз російської та зарубіжної практики, такі технології є. Спробуємо зрозуміти, чим можуть бути корисні користувачам, і відокремити міфи від реальності.

Наш шлях: пошук, вилучення, аналіз

З наведеного вище спрощеного прикладу видно, що отримання кінцевого результату (відповіді питання) можна умовно розділити втричі фази. Спочатку шукаємо релевантні документи, потім з того, що знайдено, вилучаємо дані та на завершення аналізуємо їх. Відповідно сучасні підходи можна розділити втричі групи за рівнем автоматизації різних фаз зазначеного процесу: пошуку документів, отримання інформації, аналізу.

При цьому підхід, заснований тільки на автоматизації пошуку, практикується в 90% випадків, витяг інформації автоматизовано приблизно в 10% рішень, і лише в окремих випадках подібні системиберуть він аналітичну роботу. Хоча саме інструменти аналізу найбільш зрозумілі кінцевому користувачеві. Причини такого розкладу будуть розглянуті далі.

Застосування пошукових систем

Цей підхід має на увазі наявність на підприємстві пошукової системи, яка використовується як основний засіб у роботі з неструктурованими текстами.

Менеджер чи аналітик вводить ключові слова, обробляє посилання, отримує документ, переглядає зміст, вибирає потрібну інформацію, завантажує їх у програму аналізу чи базу даних, і генерує звіт. Відомо, що продуктивність такої роботи становить від 400 до 1000 статей на добу, залежно від досвідченості аналітика. Це важка праця, порівнянна зі згаданою вище роботою на рудниках. Людина тут зайнята в основному рутинними операціямиа тому не може багато уваги приділити справді інтелектуальній роботі.

Основні переваги такого підходу цілком очевидні: поширеність та загальнодоступність пошукових технологій. Це так зване one-click-рішення, коли ви набрали ключове слово, натиснули на одну кнопку і додайте до цього звичку думати, що з подальшою обробкою інформації, крім людини, ніхто впоратися не може.

Оскільки інструменти пошуку розвиваються вже давно і досягли високої стадії зрілості, вони успішно відповідають на питання, де знаходиться інформація. Їх можна порівняти з компасом, що дозволяє орієнтуватися у світі неструктурованих даних. Користувачі вже встигли настільки звикнути до пошукових систем, що немає необхідності проводити якесь спеціальне навчання.

Однак якщо мова йдепро обробку великих масивів даних, застосування самих лише пошукових систем стає малоефективним, оскільки потребує значних людських ресурсів на етапах "видобування" фактів та його аналізу.

Автоматизація вилучення інформації

Цей підхід передбачає наявність технологічно "просунутого" інструменту, здатного виділяти з тексту необхідні елементи (Text Mining). Його робота полягає в тому, що на вхід подається текст, написаний природною мовою, а на виході користувач отримує запитану інформацію в структурованому вигляді. Структури можуть бути як прості сутності (персони, організації, географічні назви), так і складні (факти, що містять певну подію, її учасників, дату, фінансові параметри тощо). Події бувають різні: події, угоди, суди тощо. Вказаний інструмент дозволяє автоматично збирати результати своєї роботи в колекції даних, які вже придатні для проведення аналізу.

Аналізувати подібні набори даних, безумовно, простіше та швидше, ніж результати роботи пошукача. Однак і тут потрібні зусилля щодо інтеграції засобів Text Mining із джерелами документів, пошуковою системою та аналітичними інструментами. Сьогодні постачальники інструментів Text Mining забезпечують свої продукти можливостями інтеграції з джерелами документів (в основному з Web-ресурсами) та з базами даних через файли у форматі XML. Надається також набір SDK, застосування якого передбачає досить дорогу подальшу розробку. Але основною проблемою використання цих технологій є складність настроювання та підтримки таких інструментів. Це зумовлено специфікою комп'ютерної лінгвістики, що оперує термінами синтаксису, та семантики. Як правило, кінцеві користувачі та розробники далекі від цих матерій, а в результаті можливості таких інструментів використовуються лише на 5-10%.

Тим не менш, користувач вже позбавлений необхідності вручну переглядати тисячі документів і підбирати ключові слова. За це це робить система. З'являються додаткові можливості автоматичної класифікації та зіставлення таких документів. Крім того, програма здатна сама розпізнавати смислові елементи тексту, наприклад факти, події, та передавати їх на подальшу обробку.

Автоматизація аналітичних процедур

У найпростішому випадку в руках кінцевого користувача є такі аналітичні інструменти, як MS Excel та MS Access, у вдосконаленому – BI та Data Mining. В окремих розробках на замовлення реалізуються ті чи інші ноу-хау. Як би там не було, напрошується очевидне рішення: сформувати технологічний ланцюжок пошукача - Text Mining - інструмент аналізу. Інтегрувати елементи зазначеного ланцюжка можна через базу даних. Для автоматизації процесу в ідеалі потрібен якийсь механізм, який запросить інформацію у пошуковика, сам просканує документи, виявить факти, структурує їх, збереже в базі і повідомить про виконане завдання. Тоді аналітик повинен буде лише відкрити звіти та проаналізувати результати.

Text Mining – як це працює?

Text Mining - це набір технологій та методів, призначених для отримання інформації з текстів. Основна мета – дати аналітику можливість працювати з великими обсягами вихідних даних за рахунок автоматизації процесу вилучення потрібної інформації. Назвемо основні технології Text Mining.

1. Information Extraction (витяг інформації):

а) Feature (Entity) Extraction - вилучення слів чи груп слів, які, з погляду користувача, важливі описи змісту документа. Це може бути згадка осіб, організацій, географічних місць, термінів предметної області та інших слів чи словосполучень. Видобувані сутності також можуть бути найбільш значущими словосполученнями, що характеризують документ на його основну тему;

б) Feature (Entity) Association Extraction - складніші з технологічної погляду. Простежуються різноманітні зв'язки між витягнутими сутностями. Наприклад, навіть якщо вибрані суб'єкти згадані в різних документах, але мають якусь загальну характеристику(Час, місце і т. д.), можна з великим ступенем визначеності сказати, чи є між ними якийсь зв'язок чи ні;

в) Relationship, Event and Fact Extraction - найскладніший варіант вилучення інформації (Information Extraction), що включає вилучення сутностей, розпізнавання фактів і подій, а також вилучення інформації з цих фактів. Наприклад, система може зробити висновок, що Іван Петров купив компанію "Пупкін і Ко", навіть якщо текст містить лише непрямі вказівки на цю подію. Пошукова система тут безпорадна, оскільки звичайна людська мова має на увазі дуже багато варіантів викладу. Користуючись лише пошуковцем, ми мали б ідентифікувати цей факт за всіма ключовими словами, які його характеризують. А технологія Text Mining робить це сама, причому відповідно до заданих обмежень відрізняє факти, що стосуються справи, від тих, що ніяк з ними не пов'язані. Наприклад, якщо ми проводимо аналіз угод купівлі-продажу компаній, система здатна віднести до різних категорій факти "Мужик купив пляшку горілки" та "Іван Петров купив компанію "Пупкін і Ко"".

2. Summarization (автоматичне реферування, анотування) – побудова короткого змісту документа за його повним текстом.

3. Categorization (категоризація, класифікація) - віднесення документа або його частини до однієї чи кількох категорій. Категорії можуть визначати "спрямованість" тексту - тематичну, жанрову, емоційну, оцінну.

4. Clusterization - об'єднання документів у групи за принципом їхньої схожості.

Проблеми такого підходу очевидні та пов'язані з багатокомпонентністю рішення. Потрібно інсталювати пошуковик, інструмент вилучення даних з тексту, засоби аналізу, а також зробити всю супутню інтеграцію. Проте видається, що саме цим шляхом рухатимуться постачальники рішень для кінцевих користувачів. Підстав для цього кілька.

1. Інструменти аналізу, зокрема BI та Data Mining, у всьому світі стають стандартом де-факто, і все більше фахівців спирається на них як на основні засоби створення аналітичного середовища. Поряд із комерційними продуктами такого роду розвивається світ відкритих ресурсів (проекти Pentaho та Eclipse), доступних широкій аудиторії користувачів.

2. Технології Text Mining, включаючи засоби інтеграції з джерелами інформації та аналітичними інструментами, також комерціалізуються (їх пропонують такі фірми, як Clarabridge, Nstein Technologies, Attensity).

3. Розвиваються і наукові галузі - комп'ютерна лінгвістика, методи аналізу текстів. З'явилися консультанти, в основну сферу діяльності яких належить вирішення подібних завдань. Залучення цих експертів робить проекти такого роду винятково ефективними.

Щоб не ходити далеко за прикладами...

Наведемо кілька прикладів роботи технологічної зв'язки пошуку – видобутку – аналізу неструктурованої інформації, реалізованих нашою компанією на базі платформи Clarabridge. Зазначимо, що вони ілюструють лише частину можливостей таких інструментів. Функціонал рішення може бути набагато ширшим.

Система, побудована за принципом технологічної зв'язки, дозволяє складати різного роду рейтинги та прогнози на основі інформації, що міститься у відкритих та корпоративних джерелах. Так, при розрахунку рейтингу згадуваності автомобільних брендів у новинах, що публікуються на сайті Yandex, система знайшла посилання, витягла факти, виявила зв'язки між ними, структурувала отриману інформацію та провела її аналіз (див. рис. 1). Оскільки процес автоматизований, користувач одразу отримує готовий інформаційний продукт, що дозволяє судити про те, які позитивні (негативні) якості асоціюються з кожним із представлених брендів та як згодом змінюються думки покупців. Якщо кнопкою миші клацнути на тій чи іншій частині графіка - наприклад, демонструє падіння рейтингу BMW, - система підкаже причини цього падіння (в даному випадку причиною стало відкликання автомобілів з ринку).

брендів в онлайнових джерелах новин

Крім того, технологічні комплекси, подібні до Clarabridge, можуть використовуватися для виявлення "голосу клієнта" або "дихання ринку" - аналізу листування, нотаток call-центрів, новинних статей у ЗМІ та Інтернеті, думок покупців на онлайнових форумах та в блогах. При цьому інформація з неструктурованих документів інтегрується з даними CRM-систем та інших джерел.

Історична довідка

Початком розвитку технології Text Mining можна вважати епоху правління президента США Річарда Ніксона (1969-1974). Тоді було виділено десятки мільйонів доларів на розвиток наукових напрямів, пов'язаних із автоматизацією перекладу. Це відбувалося в епоху холодної війни, коли, зокрема, дуже актуальним було завдання комп'ютерного перекладу з російської мови на англійську найрізноманітніших документів, починаючи з наукових доповідей та закінчуючи технічною документацією. Не дивно, що цей проект мав закритий характер.

У той самий час виникла нова галузь знань - Natural Language Processing (NLP), називалася у Росії комп'ютерної лінгвістикою. У 90-х роках у відкритих джерелах стали з'являтися не лише доповіді з наукових конференцій, а й програмні коди, що дозволило залучити до розробок ширше міжнародне наукове співтовариство. Найбільш активні у цій галузі вчені США, Великобританії, Франції та Німеччини.

У нашій країні розвиток комп'ютерної лінгвістики мало свою специфіку. Вона розвивалася в основному на користь оборонних підприємств та служб безпеки і не була орієнтована на вирішення конкретних бізнес-завдань. Далася взнаки і відсутність в останні роки цільового фінансування цієї галузі. Проте бурхливий розвиток ЗМІ та Інтернету породжує попит як з боку федеральних служб, і з боку комерційних організацій (конкурентна розвідка, наприклад).

Так, для порівняльного аналізу популярності тарифів стільникових операторів, що обговорюються на інтернет-форумах, система проаналізувала понад 20 форумів та блогів, витягла факти відповідно до встановлених класифікаторів та обмежувачів, провела порівняльний аналізта представила дані у зручному для прийняття рішень вигляді (див. рис. 2).

Мал. 2. Тенденції згадуваності тарифів

Аналіз тенденцій обговорюваності різних тарифів дозволяє побачити розвиток їх популярності та причини, що стоять за цим, а також змоделювати та спрогнозувати просування нових тарифів. У цьому ті чи інші показники можна деталізувати рівня вихідного тексту, що дозволяє проводити аудит інформації з метою перевірки достовірності даних і коректності налаштувань системи.

Висновки

В силу інерції мислення масова аудиторія з недовірою відноситься до того, що машина може оперувати поняттями фактів, подій, персон, організацій тощо. В основному саме це змушує нас відмовлятися від технологій Text Mining та завантажувати себе ручною обробкою результатів пошуку. Є, звісно, й об'єктивні труднощі. Методи Text Mining мають бути адаптовані до предметної області, що нерідко потребує тимчасових та інших ресурсів. Деякі типи текстів (наприклад, художня література, професійний та інший сленг) погано піддаються машинній обробці.

Тим часом, технології видобутку інформації з неструктурованих текстів (Text Mining) використовуються на практиці вже сьогодні. Згодом їх застосування лише розширюватиметься, оскільки обсяги доступної та корисної інформації зростають з кожним днем, а потреба в їх аналізі, як і раніше, не задоволена.

Розроблені на основі статистичного та лінгвістичного аналізів, а також методів штучного інтелекту, технології Text Mining призначені для проведення аналізу, забезпечення навігації та пошуку у неструктурованих текстах. Застосовуючи системи класу Text Mining, користувачі набувають нових знань.

Технології Text Mining - Набір методів, призначених для отримання інформації з текстів на основі сучасних ІКТ, що дає можливість виявити закономірності, які можуть спричинити отримання корисної інформації та нових знань користувачами.

Це інструмент, який дає можливість аналізувати великі обсяги інформації у пошуках тенденцій, шаблонів та взаємозв'язків, здатних допомогти у прийнятті стратегічних рішень.

Слід зазначити, що технології аналізу тексту історично передувало створення технології аналізу одержання даних, методологія та підходи якої широко використовуються також у методах Text Mining, наприклад, методи класифікації чи кластеризації. У Text Mining з'явилися нові можливості: автоматичне реферування текстів та виявлення феноменів, тобто понять та фактів. Можливості сучасних систем Text Mining можуть застосовуватися у системах управління знань виявлення шаблонів у тексті, для розподілу інформації з профілям, створення оглядів документів. Text Mining забезпечує новий рівень семантичного пошуку документів.

Важливий компонент технології Text Mining пов'язаний із вилученням з тексту його характерних властивостей, які потім використовують як ключові слова анотації. Інше важливе завдання полягає у віднесенні документа до певних категорій із заданої схеми систематизації. Основна мета Text Mining - на-

дати аналітику можливість працювати з великими обсягами вихідних даних з допомогою автоматизації процесу отримання необхідної інформації.

Основні елементи Text Mining:

1) отримання феноменів - Feature (Entity) Extraction - вилучення слів чи груп слів, які з погляду користувача важливі описи змісту документа. Це можуть бути відомості про персони, організації, географічні місця, терміни або інші словосполучення - Feature (Entity) Association Extraction - складніші набори слів з технологічної точки зору;

2) автоматичне реферування, анотування (Summarization)

Побудова короткого змісту документа з повним текстом;

3) класифікація (Classification), у якій використовуються статистичні кореляції для побудови правил розміщення документів у передбачені категорії;

4) кластеризація (Clustering), що ґрунтується на ознаках документів, використовує лінгвістичні та математичні методи без застосування передбачених категорій;

5) відповіді на запитання (question answering);

6) тематичне індексування;

7) пошук за ключовими словами;

8) побудова семантичної.мережі або аналіз зв'язків (Relationship, Event and Fact Extraction), що визначають появу дескрипторів (ключових фраз) у документі для забезпечення пошуку та навігації. Це найскладніший варіант отримання інформації, що включає добування суті, розпізнавання фактів і подій, а також отримання інформації з цих фактів. Отримання фактів

Це отримання певних фактів із тексту з метою покращення класифікації, пошуку та кластеризації.

Для методів класифікації нині застосовують інтелектуальні механізми оптимізації процесу класифікації. Класифікація застосовується, наприклад, на вирішення таких завдань, як угруповання документів у мережах підприємств, на Web-сайтах, сортування повідомлень електронної пошти.

Кластеризація широко застосовується при реферуванні великих інформаційних масивів або визначенні взаємопов'язаних груп документів, а також для спрощення процесу перегляду при пошуку необхідної інформації, знаходження унікальних документів з колекції, виявлення дублікатів або дуже близьких за змістом документів.

Розрізняють два основні типи кластеризації: ієрархічну та бінарну. Ієрархічна кластеризація полягає у побудові дерева кластерів, у кожному з яких розміщується невелика група документів. Бінарна кластеризація забезпечує угруповання та перегляду документальних кластерів за принципом подібності. В один кластер розміщуються схожі за своїми властивостями документи. У процесі кластеризації будується базис посиланням від документа до документа, що ґрунтується на терезах та спільному використанні ключових слів.

Одне з важливих застосувань Text Mining дозволяє передбачати значення одних ознак об'єктів значення інших. Знаходження винятків (пошук об'єктів, які своїми характеристиками виділяються із загальної картини) – також важливий напрямок досліджень Text Mining.

Завдання пошуку пов'язаних ознак (понять) окремих документів подібне до кластеризації, але виконується за певною сукупністю характерних ознак.

Сучасні системи класу Text Mining можуть здійснювати аналіз великих масивів документів і формувати предметні покажчики понять і тем, висвітлених цих документах.

Починаючи з 60-х років, з появою засобів автоматизації та текстів у електронному вигляді, отримав розвиток контент-аналізу інформації з великими обсягами. Під Data Mining, з погляду контент-аналізу, розуміють механізм виявлення в потоці даних нових знань, таких як моделі, конструкції, асоціації, зміни, аномалії та структурні новоутворення.

Контент-аналіз - це якісно-кількісна, систематична обробка, оцінка та інтерпретація форми та змісту тексту.

В даний час використовується кілька підходів до подання інформації в базах даних для забезпечення подальшого пошуку цієї інформації. Найбільш поширені підходи - булева та векторно-просторова моделі пошуку.

Булева модель базується на теорії множин, і, отже, є моделлю інформаційного пошуку, що базується на математичній логіці. Зараз популярне поєднання булевої з векторно-просторової моделі алгебри подання даних, що забезпечує, з одного боку, швидкий пошук з використанням операторів математичної логіки, а з іншого боку – ранжування документів, що базується на вагах ключових слів.

При використанні булевої моделі база даних включає індекс, що організується у вигляді інвертованого масиву даних, в якому для кожного терму зі словника бази даних міститься список документів, в яких цей терм зустрічається.

В індексі можуть зберігатися також значення частоти входження цього термо в кожному документі, що допомагає сортувати список зі спадання частоти входження.

Більшість відомих інформаційно-пошукових систем та систем класифікації інформації ґрунтуються на використанні векторної моделі опису даних (Vector Space Model). Векторна модель є класичною моделлюалгебри. У рамках цієї моделі документ описується вектором в евклідовому просторі, в якому в кожному документі для терму ставиться у відповідність його ваговий коефіцієнт, який визначається на основі статистичної інформації про його входження в окремому документіабо у документальному масиві. Опис запиту, який відповідає заданій тематиці, також є вектором у тому евклідовому просторі термів. Для результату оцінки близькості запиту та документа використовується скалярний добуток відповідних векторів опису тематики та документа.

Векторно-просторова модель представлення даних автоматично забезпечує системам такі можливості: - обробка великих запитів; проста реалізація режиму пошуку документів, подібних до знайдених; збереження результатів пошуку в інформаційному масиві з подальшим пошуком.

На практиці, однак, найчастіше використовуються комбіновані підходи, в яких поєднано можливості булевої та векторно-просторової моделі та додано оригінальні методи семантичної обробки інформації. Найчастіше в інформаційно-пошукових системах процедура пошуку здійснюється відповідно до булевої моделі, а результати ранжуються за вагами відповідно до моделі векторного простору.

в даний час відомо чимало виробників програмного забезпечення, які пропонують свої продукти та рішення в галузі Text Mining.

Це масштабовані системи, в яких реалізовані різні математичні та лінгвістичні алгоритми аналізу текстових даних та мають дружні графічні інтерфейси, можливості візуалізації та маніпулювання даними, надають доступ до різних джерел даних та функціонують в архітектурі клієнт-сервер. Наприклад, Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp.), Oracle Text (Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, Inf oStream (ElVisti).

Сучасні системи пошуку інформації визначаються, виходячи з двох основних тенденцій: обробки знань та застосування відкритих систем. Саме на перетині цих напрямів виникли агентні технології. Активний розвиток методів та технологій розподіленого штучного інтелекту, досягнення в галузі апаратних та програмних засобів підтримки концепції розділеності та відкритості викликали розвиток мультиагентних систем, у яких програмні агенти спільно вирішують складні завдання в інформаційному просторі.

Здатність програмних агентівавтономно планувати та координувати свої дії, вести переговори з іншими розподіленими додаткамиу складному гетерогенному інформаційному середовищі, гнучко та інтелектуально приймати рішення в динамічно змінюваних та непередбачуваних ситуаціях призводить до того, що агентно-орієнтовані технології стають однією з ключових технологій обробки інформації.

Я не думаю, що відкрию Америку, якщо скажу, що не вся інформація однаково корисна. Іноді для пояснення якогось поняття необхідно написати багато тексту, інколи ж для пояснення найскладніших питань досить подивитися на просту діаграму. Для скорочення надмірності інформації було придумано математичні формули, креслення, умовні позначення, програмний коді т.д. Крім того, важливим є не лише сама інформація, а й її подання. Зрозуміло, що котирування акцій наочно можна продемонструвати за допомогою графіка, а математичні формули опишуть закони Ньютона в більш компактному вигляді.

У процесі розвитку інформаційних технологій, а також систем збирання та зберігання даних - баз даних (databases), сховищ даних (data warehousing), і з недавніх пір, хмарних репозиторіїв, виникла проблема аналізу великих обсягів даних, коли аналітик чи управлінець не в змозі вручну обробити великі масиви даних та прийняти рішення. Зрозуміло, що аналітику необхідно якимось чином подати вихідну інформацію в компактнішому вигляді, з якою може впоратися людський мозок за прийнятний час.

Виділимо кілька рівнів інформації:

вихідні дані (сирі дані, історичні дані або просто дані) – необроблені масиви даних, які отримуються в результаті спостереження за деякою динамічною системоюабо об'єкта та відображають його стан у конкретні моменти часу (наприклад, дані про котирування акцій за минулий рік);
інформація – оброблені дані, які несуть у собі якусь інформаційну цінністьдля користувача; сирі дані, представлені більш компактному вигляді (наприклад, результати пошуку);
знання - несуть у собі якесь ноу-хау, що відображають приховані взаємозв'язки між об'єктами, які не є загальнодоступними (інакше, це буде просто інформація); дані з великою ентропією(або мірою невизначеності).

Розглянемо приклад. Припустимо, ми маємо деякі дані про валютні операції на ринку Forex за певний проміжок часу. Ці дані можуть зберігатися в текстовому вигляді, XML форматі, в базі даних або в бінарному вигляді і власними силами не несуть ніякого корисного смислового навантаження. Далі аналітик завантажує ці дані, наприклад, Excel і будує графік змін, таким чином отримуючи інформацію. Далі він завантажує дані (повністю або частково оброблені в Excel), наприклад, Microsoft SQL Server і за допомогою Analysis Services отримує знання про те, що завтра акції краще продати. Після цього аналітик може використовувати вже отримані знання для нових оцінок, таким чином отримавши Зворотній зв'язокв інформаційному процесі.

Між рівнями немає чітких граней, але така класифікація дозволить нам надалі не заплутатися із термінологією.

Data Mining

Історично склалося, що термін Data Mining має кілька варіантів перекладу (і значень):

вилучення, збирання даних, видобуток даних (ще використовують Information Retrieval або IR);
отримання знань, інтелектуальний аналіз даних (Knowledge Data Discovery або KDD, Business Intelligence).

IR оперує першими двома рівнями інформації, відповідно KDD працює з третім рівнем. Якщо ж говорити про способи реалізації, то перший варіант відноситься до прикладної області, де головною метою є самі дані, другий - до математики та аналітики, де важливо отримати нове знання з великого обсягу наявних даних. Найчастіше вилучення даних (збір) є підготовчим етапомдля отримання знань (аналіз).

Насмілюсь ввести ще один термін для першого пункту - Data Extracting, який використовуватиму надалі.

Завдання, які вирішуються Data Mining:

Класифікація - віднесення вхідного вектора (об'єкта, події, спостереження) одного із заздалегідь відомих класів.
Кластеризація - поділ безлічі вхідних векторів на групи (кластери) за рівнем «схожості» один на одного.
Скорочення опису - для візуалізації даних, спрощення рахунку та інтерпретації, стиснення обсягів інформації, що збирається та зберігається.
Асоціація - пошук зразків, що повторюються. Наприклад, пошук "стійких зв'язків у кошику покупця".
Прогнозування – перебування майбутніх станів об'єкта виходячи з попередніх станів (історичних даних)
Аналіз відхилень - наприклад, виявлення нетипової мережевої активностідозволяє виявити шкідливі програми.
Візуалізація даних.

Information retrieval

Information retrieval використовується для отримання структурованих даних або репрезентативної вибірки меншого розміру. За нашою класифікацією information retrieval оперує даними першого рівня, а в результаті видає інформацію другого рівня.

Самим простим прикладом information retrieval є пошукова система, яка на підставі деяких алгоритмів виводить частину інформації з повного набору документів. Крім того, будь-яка система, яка працює з тестовими даними, метаінформацій або базами даних у той чи інший спосіб використовує інструменти information retrieval. Інструментами можуть бути методи індексації, фільтрації, сортування даних, парсери і т.д.

Text Mining

Інші назви: text data mining, Text Analysis, дуже близьке поняття - concern mining.

Text mining може працювати як із сирими даними, так і з частково обробленими, але на відміну від information retrieval, text mining аналізує текстову інформацію за допомогою математичних методів, що дозволяє отримувати результат з елементами знання.

Завдання, які вирішує text mining: знаходження шаблонів даних, отримання структурованої інформації, побудова ієрархій об'єктів, класифікація та кластеризація даних, визначення тематики або галузі знань, автоматичне реферування документів, завдання автоматичної фільтрації контенту, визначення семантичних зв'язків та інші.

Для вирішення завдань text mining використовують статистичні методи, методи інтерполяції, апроксимації та екстраполяції, нечіткі методи, методи контент-аналізу

Web Mining

Ну і нарешті ми дісталися web mining – набору підходів та технік для вилучення даних з веб-ресурсів.
Оскільки веб-джерела, як правило, не є текстовими даними, то й підходи до процесу отримання даних відрізняються в цьому випадку. Насамперед необхідно пам'ятати, що інформація у вебі зберігається у вигляді спеціальної мови розмітки HTML (хоча є й інші формати – RSS, Atom, SOAP, але про це поговоримо пізніше), веб-сторінки можуть мати додаткову метаінформацію, а також інформацію про структуру (семантиці) документа, кожен веб-документ знаходиться всередині певного домену і до нього можуть застосовуватися правила пошукової оптимізації (SEO).

Це перша стаття з циклу, присвяченого data mining/extracting/web mining. Побажання та аргументована критика приймаються.