Проблеми, що виникають у процесі пошуку. Пошук інформації у комп'ютерних мережах: нові підходи


У загальному випадку здійснюється пошук фрази запиту по сторінках Інтернету, і за допомогою певних критеріїв і алгоритмів результати пошуку ранжуються і видаються користувачу. Найчастіше використовуваними критеріями при ранжируванні в пошукових машинах є:
- Наявність слів із запиту в документі, їх кількість, близькість до початку документа, близькість один до одного;
– наявність слів із запиту у заголовках та підзаголовках документів;
– кількість посилань на цей документ із інших документів;
– «респектабельність» документів, що посилаються.
Як видно з критеріїв ранжирування, реальний критерій релевантності документа - наявність слів із запиту (пошукова фраза) - не так сильно впливає на його ранг у результатах пошуку. Така ситуація веде до зниження якості пошуку, оскільки потенційно корисніші документи неминуче відтісняються своїми «оптимізованими» конкурентами наприкінці списку. Багато хто стикався з тим, що реально корисні ресурси в пошукових системах знаходяться на другій третій сторінці видачі пошукового запиту. Тут проявляється неефективність алгоритмів ранжирування знайдених документів. Це багато в чому зумовлено тим, що пошукові запити в середньому складаються лише з трьох-п'яти слів, тобто просто не вистачає вихідної інформації для ефективного ранжування видачі.

А ось і проблеми при пошуку.

Тут і проявляється не 100% ефективність алгоритмів ранжирування знайдених документів. Звичайно, така ситуація також виникає тому, що пошукові запити користувачів у середньому складаються лише з трьох-п'яти слів. Т. е. така вихідна інформація для пошукових систем занадто мізерна для ефективного ранжування видачі.
Друга проблема полягає в тому, як «така собі» велика кількість інформації переробити (= «переварити», «розглянути», «виділити головне», «відсіяти непотрібне і марне») для конкретного користувача, з урахуванням його потреб, сенсу та теми запиту, його попередній історії пошуку, географічне розташування, його думки про результати пошуку і т.д. Звичайно, пошукові системи в цьому напрямку активно розвиваються, але очевидно, що пошуковій машині далеко до досконалості. Тому що на сьогоднішній день тільки людина може оцінити семантичну корисність, якість, специфіку знайденої інформації тощо.

Альтернативи пошуковим системам

Тому, як альтернатива з'являються послуги, що структурують якось Інтернет для полегшеного пошуку необхідної користувачеві інформації. І на даний момент вже є соціальні закладки, каталоги, торрент-трекери, форуми, спеціалізовані пошукові системи, файлообмінники і т.д. Всі ці сервіси тією чи іншою мірою структурують Інтернет і «зменшують відстань» між користувачем та необхідною йому інформацією (будь-то фільми, музика, книги, відповіді на запитання тощо). І що, найголовніше, «структурують Інтернет» здебільшого самі користувачі.
Ні, тут немає натяку на те, що пошукові системи марні або мало ефективні. Я вважаю, що пошукові системи ідеально підходять для пошуку поверхневої та найпопулярнішої інформації. А для пошуку більш глибокої інформації, зокрема корисних книг, статей, журналів, музики тощо. (мається на увазі з можливістю скачати все це) найбільше підходять вищезгадані ресурси, що «структурують Інтернет».

Як взагалі не заблукати в Інтернеті?


Коротко:
1.Для пошуку поверхневої інформації використовувати пошукові системи, наприклад http://google.com, http://yandex.ru , http://nigma.ru , http://nibbo.com
2.Для пошуку потрібних по темі сайтів використовувати каталоги Інтернету, наприклад,

Здавалося б, немає нічого простішого, ніж знайти потрібні дані у Мережі. Насправді з цим може впоратися навіть той, хто вперше скористався послугами пошукових систем. Однак водночас з ефективністю такого пошуку можна буде серйозно посперечатися. Набагато менше часу можна витратити на пошук інформації в Мережі, маючи необхідні відомості про особливості роботи популярних пошукових систем.

У Світовій Мережі застосовують під час обробки запитів власну машинну логіку. Спираючись на кілька нескладних правил і маючи достатню інформацію про використання популярних пошукових систем, можна значно прискорити процес знаходження необхідної інформації, а найголовніше - в результаті ви отримаєте саме те, що потрібно.

Особливості складання пошукового запиту

Як правильно шукати в Інтернеті потрібну інформацію? Для цього насамперед необхідно знати ефективні прийоми вдалого складання пошукових запитів. Виконання пошуку за єдиним словом зазвичай призводить до видачі результатів у вигляді мільйонів сторінок, більшість з яких абсолютно не належать до справи. Якщо в пошуковому рядку знаходиться від чотирьох до шести значень і більше, кількість результатів автоматично скорочується до кількох тисяч і сотень, інколи ж обмежується лише парою сторінок.

Більш того, пошук в Інтернеті потребує складання грамотних запитів. Чим точніше вказане слово або словосполучення, тим вище ймовірність виявити необхідні дані на першій же сторінці у видачі результатів. Вся справа в тому, що пошукача далеко не завжди вдається виправити помилки орфографії, допущені користувачем, а деякі з них просто упускаються. Адже в окремих випадках точність запиту може виявитися досить принциповою.

Крім іншого, не слід ігнорувати необхідність введення великих букв, якщо запит стосується пошуку людини на прізвище або власних назв. В іншому випадку серед відповідних сторінок в результаті пошуку обов'язково буде присутня достатня маса невідповідних, що опосередковано стосуються запиту даних.

Чому важливо використовувати кілька пошукових систем?

Виконуючи пошук в Інтернеті, дуже важливо застосовувати, як мінімум, два пошукові системи. Адже на отримання результатів при цьому впливатимуть різні способи Те, що не помічає одна пошукова система, обов'язково помітить інша система. Наприклад, використання вітчизняної пошукової системи може перемістити необхідну інформацію на кілька сторінок уперед, і водночас іноземна видасть той самий результат у першій п'ятірці.

Виконання пошуку згідно з синонімами

Що більше шукають в Інтернеті? Зазвичай предметом пошуку користувачів виявляється медіа контент та розваги, зокрема фільми, музика, комп'ютерні ігри. При цьому люди далеко не завжди потребують знаходження конкретного запиту. Часто у результатах видачі необхідно побачити загальну інформацію, різні варіанти одного значення.

Для пошуку такої інформації згідно з вибраним запитом застосовується символ «~», який необхідно розташувати перед запитом у пошуковому рядку. Наприклад, поставивши запит «~найкращі ігри», зрештою можна побачити посилання на сторінки, де не буде присутній жодного збігу з визначенням «кращі». Однак тут виявиться достатньо синонімів до цього визначення.

Як отримати кілька результатів одночасно?

Як шукати інформацію в Інтернеті, щоб одержати одночасно кілька результатів видачі? Для цього використовується поділ пари запитів спеціальним оператором «|», який може розташовуватися як між кількома словами, так і фразами. Наприклад, розділивши таким чином запити "купити автомобіль" та "купити мотоцикл", можна швидко отримати сторінки, що містять обидва варіанти.

Використання переваг розширеного пошуку

Застосування функції розширеного пошуку дозволяє уникнути самостійного формування уточнюючих запитів. Натомість можна скористатися тими варіантами, які пропонує безпосередньо пошукова система.

Більшість пошукових систем знають, що шукати в Інтернеті набагато краще в порівнянні з найбільш просунутими користувачами, оскільки засновують свою роботу на статистиці формування популярних запитів. Тому задаючи пошуковику запит у вигляді шуканого слова, краще відразу конкретизувати його за допомогою функціоналу розширеного пошуку.

Як швидко знайти значення незнайомого поняття?

Що люди шукають у Інтернеті? Нерідко предметом пошуку стають незнайомі користувачеві матеріали, і навіть поняття, у яких потрібно розібратися. Щоб миттєво відшукати значення тих чи інших визначень, достатньо лише розмістити перед запитом «define:».

Перегляд результатів із першого десятка сторінок

Що шукати в Інтернеті? Насамперед звертати увагу слід на перші результати видачі пошукової системи. Адже саме тут зазвичай зустрічаються не тільки відповідні запиту дані, але також результати, знайдені на найбільш популярних серед користувачів сторінках. Як правило, це найшанованіші, перевірені Інтернет портали зі змістом точної інформації, що відповідає запитам користувача.

Уточнення географії даних, що шукаються

Найменш актуальною є необхідність уточнення географії запиту для мешканців столиць та великих міст, проте вона залишається важливою для користувачів з віддалених регіонів. Незважаючи на автоматичне визначення розташування користувача, яке виконується більшістю розвинених пошукових систем, у результатах на перших позиціях обов'язково будуть посилання, пов'язані з великими населеними пунктами. Адже саме в таких місцях сконцентровано основну масу активних користувачів.

Виходячи з вищесказаного, не варто надто сподіватися на те, що пошуковик визначить, з якої точки на карті виходить запит. Натомість краще відразу ж додати до запиту згадку про місце свого перебування.

Не варто забувати і мешканцям столичних областей, що шукати в Інтернеті інформацію подібним чином є найбільш доцільним. Адже потрібні товари чи послуги можуть опинитися за межами міста. Іноді найпростіша згадка конкретного регіону, вулиці або навіть станції метро сприяє швидкому знаходженню необхідних магазинів, компаній або сервісів, які знаходяться ближче до місця перебування користувача.

Говорять, що в Інтернеті є все. Насправді це не так. Матеріали для розміщення в мережі готують живі люди, і тому там можна знайти лише те, що вони вважали за потрібне опублікувати. Втім, річка живиться струмками, і завдяки їхній творчості сьогодні в Інтернеті вже утворилося близько двох мільярдів Web-сторінок. В результаті каталогізація наявних у мережі ресурсів стала серйозною проблемою. Незважаючи на те, що проблемою займаються тисячі організацій, вона не лише не наближається до вирішення, а й стає гострішою. Відсоток каталогізованих ресурсів неухильно падає. Останніми роками це падіння стало катастрофічним. Так, якщо в 1999 році відсоток каталогізованих ресурсів наближався до 40%, то лише за один наступний рік він опустився до 25%.

Висновок простий: простір Web швидше заповнюється, ніж систематизується.

На жаль, у нас немає підстав припускати, що найближчим часом щось може змінитися на краще. У результаті пошук інформації в Інтернеті можна вважати одним із найважчих завдань.

Для пошуку інформації, що вас цікавить, необхідно вказати браузеру адресу Web-сторінки, на якій вона знаходиться. Це найшвидший і найнадійніший вид пошуку. Для швидкого доступу до ресурсу достатньо запустити браузер та набрати адресу сторінки у рядку адреси.

Адреси Web-сторінок наводяться у спеціальних довідниках, друкованих виданнях, звучать в ефірі популярних радіостанцій та з екранів телевізора.

Якщо ви не знаєте адреси, то для пошуку інформації в Інтернеті існують пошукові системи, які містять інформацію про ресурси Інтернету.

Кожна пошукова система – це велика база ключових слів, пов'язаних із Web-сторінками, де вони зустрілися. Для пошуку адреси сервера з інформацією, що вас цікавить, потрібно ввести в поле пошукової системи ключове слово, кілька слів або фразу. Тим самим ви надсилаєте пошуковій системі запит. Результати пошуку видаються у вигляді списку адрес Web-сторінок, на яких зустрілися ці слова.

Як правило, пошукові системи складаються із трьох частин: робота, індексу та програми обробки запиту.

Робот (Spider, Robot або Bot) - це програма, яка відвідує веб-сторінки та зчитує (повністю або частково) їх вміст.

Роботи пошукових систем відрізняються індивідуальною схемою аналізу вмісту веб-сторінки.

Індекс - це сховище даних, у якому зосереджені копії всіх сторінок, відвіданих роботами.

Індекси в кожній пошуковій системі розрізняються за обсягом і способом організації інформації, що зберігається. Бази даних провідних пошукових машин зберігають відомості про десятки мільйонів документів, а обсяги їхнього індексу становлять сотні гігабайт. Індекси періодично оновлюються і доповнюються, тому результати роботи однієї пошукової машини з тим самим запитом можуть відрізнятися, якщо пошук здійснювався у час.

Програма обробки запиту - це програма, яка відповідно до запиту користувача «переглядає» індекс щодо наявності потрібної інформації та повертає посилання на знайдені документи.

Безліч посилань на виході системи розподіляється програмою в порядку зменшення максимального відповідності посилання запиту до найменшої.

У Росії найпоширенішими пошуковими системами є:

  • Рамблера (www.rambler.ru);
  • Яндекс (www.yandex.ru);
  • Мейл (www.mail.ru).

За кордоном пошукових систем набагато більше. Найпопулярнішими є:

  • Alta Vista (www.altavista.com);
  • Fast Search (www.alltheweb.com);
  • Northern Light (www.northernlight.com).

Яндекс є мабуть найкращою пошуковою системою в Інтернеті. Ця база даних містить близько 200 000 серверів та до 30 мільйонів документів, які система переглядає протягом кількох секунд. На прикладі цієї системи покажемо, як здійснюється пошук інформації.

Пошук інформації задається введенням ключового слова у спеціальну рамку та натисканням кнопки «Знайти», праворуч від рамки.

Результати пошуку з'являються протягом кількох секунд, причому ранжовані за значимістю – найважливіші документи розміщуються на початку списку. У цьому ранг знайденого документа визначається тим, де документа є ключове слово (у назві документа важливіше, ніж у будь-якому іншому місці) і числом згадок ключового слова (що більше згадувань, тим ранг вище).

Таким чином, сайти, розташовані на перших місцях у списку, є провідними не з змістовної точки зору, а практично щодо частоти згадування ключового слова. У зв'язку з цим не слід обмежуватися переглядом першого десятка запропонованих пошуковою системою сайтів.

Змістовну частину сайту можна побічно оцінити за коротким його описом, що розміщується пошуковою системою за адресою Сайту. Деякі недобросовісні автори сайтів, щоб підвищити ймовірність появи своєї Web-сторінки на перших місцях Пошукової системи, навмисне включають до документа безглузді повтори ключового слова. Але як тільки пошукова система виявляє такий «забруднений» документ, вона автоматично виключає його зі своєї бази даних.

Навіть ранжований список документів, який пропонує пошукова система у відповідь на ключову фразу або слово, може виявитися практично неоглядним. У зв'язку з цим у Яндекс (як і інших потужних Пошукових Машинах) надано можливість у рамках першого списку, вибрати документи, які точніше відображають мету пошуку, тобто уточнити чи покращити результати пошуку. Наприклад, на ключове слово список із 34 899 Веб-сторінок. Після введення в команду «Шукати в знайденому» список, що уточнює ключове слово, скорочується до 750 сторінок, а після введення в цю команду ще одного уточнюючого слова цей список скорочується до 130 Веб-сторінок.

Пошукові каталоги є систематизованою колекцією (підбіркою) посилань на інші ресурси Інтернету. Посилання організовані у вигляді тематичного рубрикатора, npe представляє собою ієрархічну структуру, переміщаючись якою, можна знайти потрібну інформацію.

Наведемо як приклад структуру пошукового інтернет-каталогу Яндекс.

Це каталог загального призначення, оскільки в ньому представлені посилання на ресурси Інтернету практично за всіма можливими напрямками. У цьому каталозі виділено такі теми:

  • Бізнес та економіка;
  • Суспільство та політика;
  • Наука та освіта;
  • Комп'ютери та зв'язок;
  • Довідники та посилання;
  • Будинок та сім'я;
  • Розваги та відпочинок;
  • Культура та мистецтво.

Кожна темавключає безліч підрозділів , А вони, у свою чергу, містять рубрикиі т.д.

Припустимо, ви готуєте захід до Дня перемоги та хочете знайти в Інтернеті слова відомої військової пісні Булата Окуджави «Ви чуєте, гуркочуть чоботи». Пошук можна організувати так:

Яндекс > Каталог > Культура та мистецтво > Музика > Авторська пісня

Такий спосіб пошуку є досить швидким та ефективним. Наприкінці вам пропонується лише кілька посилань, серед яких є посилання на сайти із піснями відомих бардів. Залишається лише знайти на сайті архів із текстами пісень Б. Окуджави та вибрати в ньому потрібний текст.

Інший приклад. Припустимо, ви збираєтеся придбати мобільний телефон і хочете порівняти характеристики апаратів різних фірм. Пошук міг би вестися за такими рубриками каталогу:.

Яндекс > Каталог > Комп'ютери та зв'язок > Мобільний зв'язок > Мобільні телефони

Отримавши обмежену кількість посилань, можна досить оперативно їх переглянути та вибрати телефон, дослідивши характеристики по фірмам та модифікаціям апаратів.

Більшість пошукових машин мають можливість пошуку за ключовими словами. Це один із найпоширеніших видів пошуку.

Для пошуку за ключовими словами необхідно ввести у спеціальному вікні слово або кілька слів, які потрібно шукати, і натиснути кнопку Знайти.

Пошукова система знайде у своїй базі та покаже документи, що містять ці слова. Таких документів може бути безліч, але багато в даному випадку не обов'язково означає добре.

Проведемо кілька експериментів із будь-якою з пошукових систем. Припустимо, що ми вирішили завести акваріум і нас цікавить будь-яка інформація на цю тему. На перший погляд найпростіше – це пошук за словом «акваріум». Перевіримо це, наприклад, у пошуковій системі Яндекс. Результатом пошуку буде величезна кількість сторінок – величезна кількість посилань. Причому, якщо подивитися уважніше, серед них опиняться сайти, що згадують групу Б. Гребенщикова «Акваріум», торгові центри та неформальні об'єднання з такою самою назвою, та багато іншого, що не має відношення до акваріумних рибок.

Неважко здогадатися, що такий пошук не може задовольнити навіть невибагливого користувача. Занадто багато часу доведеться витратити на те, щоб відібрати серед усіх запропонованих документів ті, що стосуються потрібного нам предмета, і тим більше на те, щоб ознайомитися з їхнім вмістом.

Можна одразу зробити висновок, що вести пошук за одним словом, як правило, недоцільно, адже за одним словом дуже складно визначити тему, якій присвячено документ, веб-сторінку чи сайт. Виняток становлять рідкісні слова та терміни, які практично ніколи не використовуються поза своєю тематичною сферою.

Маючи певний набір найбільш уживаних термінів у потрібній області, можна використовувати розширений пошук. На рис. показано вікно розширеного пошуку у пошуковій системі Яндекс. У цьому режимі можливості мови запитів реалізовані як форми. Подібний сервіс, що включає словникові фільтри, пропонується багатьма пошуковими системами.

Спробуємо уточнити умови пошуку та введемо словосполучення «акваріумні рибки». Кількість посилань зменшиться більш ніж у 20 разів. Цей результат нас влаштовує більше, але все одно серед запропонованих посилань можуть зустрітися, наприклад, російські сувенірні набори сірникових етикеток із зображеннями рибок, колекції заставок для Робочого столу комп'ютера, каталоги акваріумних рибок з фотографіями, магазини акваріумних аксесуарів. Очевидно, що слід продовжити рух у напрямку уточнення умов пошуку.

Для того, щоб зробити пошук більш продуктивним, у всіх пошукових системах існує спеціальний мова формування запитів зі своїм синтаксисом. Ці мови багато в чому схожі. Вивчити їх все досить складно, але будь-яка пошукова машина має довідкову систему, яка дозволить вам освоїти потрібну мову.

Наведемо кілька простих правил формування запиту у пошуковій системі Яндекс.

Ключові слова у запиті слід писати малими (маленькими) літерами.

Це забезпечить пошук усіх ключових слів, а не тільки тих, які починаються з великої літери.

Під час пошуку враховуються всі форми слова за правилами російської мови, незалежно від форми слова у запиті.

Наприклад, якщо у запиті було вказано слово «знаю», то умовою пошуку задовольнятимуть і слова «знаємо», «знаєте» тощо.

Для пошуку стійкого словосполучення слід укласти слова в лапки.

Наприклад, «порцеляновий посуд».

Для пошуку точної словоформі перед словом треба поставити знак оклику.

Наприклад, для пошуку слова "вересень" у родовому відмінку слід написати "!вересня".

Для пошуку всередині однієї пропозиції слова у запиті поділяють пробілом або знаком &

Наприклад, «пригодницький роман» або «пригодницький роман». Декілька набраних у запиті слів, розділених пробілами, означають, що всі вони повинні входити до однієї пропозиції документа, що шукається.

Якщо ви бажаєте, щоб були відібрані лише ті документи, в яких зустрілося кожне слово, вказане в запиті, поставте перед кожним із них знак плюс «+». Якщо ви, навпаки, хочете виключити будь-які слова з результату пошуку, поставте мінус «-» перед цим словом. Знаки «+» і «-» треба писати через пробіл від попереднього і разом із наступним словом.

Наприклад, за запитом "Волга-автомобіль" будуть знайдені документи, в яких є слово "Волга" і немає слова "автомобіль".

При пошуку синонімів або близьких за значенням слів між словами можна встановити вертикальну межу «|».

Наприклад, за запитом «дитина | малюк | немовля» буде знайдено документи з будь-яким із цих слів.

Замість одного слова у запиті можна підставити вираз. Для цього його треба взяти у дужки

Наприклад, «(дитина | малюк | діти | немовля) + (догляд | виховання)».

Знак "~" (тильда) дозволяє знайти документи з пропозицією, що містить перше слово, але не містить друге.

Наприклад, на запит «книги ~ магазин» будуть знайдені всі документи, що містять слово «книги», поряд з яким (у межах пропозиції) немає слова «магазин».

Якщо оператор повторюється один раз (наприклад, & або ~), пошук здійснюється в межах пропозиції. Подвійний оператор (&&,~~) задає пошук у межах документа.

Наприклад, на запит «рак ~~ астрологія» будуть знайдені документи зі словом «рак», які не стосуються астрології.

Повернемося, наприклад, з акваріумними рибками. Після прочитання кількох запропонованих пошуковою системою документів стає зрозуміло, що пошук інформації в Інтернеті слід починати не з вибору акваріумних рибок. Акваріум - складна біологічна система, створення та підтримання якої потребує спеціальних знань, часу та серйозних капіталовкладень.

На підставі отриманої інформації людина, яка здійснює пошук в Інтернеті, може кардинально змінити стратегію подальшого пошуку, прийнявши рішення вивчити спеціальну літературу, що стосується досліджуваного питання.

Для пошуку літератури або повнотекстових документів можливий наступний запит:

«+(акваріум | акваріуміст | акваріумістика) +початківцям +(поради | література) +(стаття | теза | повнотекстовий) -(ціна | магазин | доставка | каталог)».

Після обробки запиту пошуковою машиною результат виявився дуже успішним. Вже перші посилання призводять до шуканих документів.

Тепер можна підсумувати результати пошуку, зробити певні висновки та прийняти рішення про можливі дії:

  • Припинити подальший пошук, оскільки через різні причини вміст акваріума вам не під силу.
  • Прочитати пропоновані статті та приступити до влаштування акваріума.
  • Пошукати матеріали про хом'яків або хвилястих папужок.
  1. Який вид пошуку є найшвидшим та надійнішим?
  2. Де користувач може знайти адреси веб-сторінок?
  3. Яким є основне призначення пошукової системи?
  4. З яких частин складається пошукова система?
  5. Які пошукові системи ви знаєте?
  6. Яка технологія пошуку за рубрикатором пошукової системи?
  7. Яка технологія пошуку за ключовими словами?
  8. Коли в критерії пошуку треба задавати + чи -?
  9. Які критерії пошуку в Яндексі задані наступною фразою:

    (няня|вихователь|гувернантка)++(догляд|виховання|догляд) ?

  10. Що означає подвоєння знака (~~ або ++) для формування складного запиту?

Завдання.

Завдання 1. Пошук за каталогами.

Користуючись каталогом пошукової системи, знайдіть таку інформацію (за вказівкою вчителя):

  1. Текст пісні популярного музичного гурту
  2. Репертуар Маріїнського театру на тиждень
  3. Характеристики останньої моделі мобільного телефону відомої фірми (на ваш вибір)
  4. Рецепт приготування українського борщу з галушками
  5. Довгостроковий прогноз погоди у вашому регіоні (не менш ніж на 10 днів)
  6. Фотографія улюбленого виконавця сучасної пісні
  7. Орієнтовна вартість мультимедійного комп'ютера (прайс)
  8. Інформація про вакансії на посаду секретаря у вашому регіоні чи місті
  9. Гороскоп знака зодіаку на поточний день

За результатами пошуку складіть письмовий звіт у Word: подайте в документі знайдений, скопійований та відформатований матеріал. Подайте звіт вчителю.

Завдання 2. Формування запиту за точною назвою чи цитатою.

Вам відомо точну назву документа, наприклад «Гігієнічні вимоги до персональних електронно-обчислювальних машин та організації роботи». Сформулюйте запит для пошуку повного тексту документа в Інтернеті.

Результат пошуку збережіть у своїй папці. Пред'явіть вчителю.

3. Формування складних запитів.

  • У будь-якій пошуковій системі складіть запит для пошуку інформації про російську лазню. Виключіть пропозиції про послуги, рекламу банного приладдя та іншу рекламу. Зосередьте пошук на вплив російської лазні на організм.
  • Складіть складний запит на пошук інформації щодо догляду за домашніми кішками. Виключіть з пошуку великих кішок (наприклад, левів), а також пропозиції про купівлю, продаж, фотографії для шпалер тощо.
  • Текст запиту та результат пошуку оформіть у Word та подайте вчителю.
Завдання 4. Тематичний пошук.

Усі знані вам способи виконайте пошук в Інтернеті інформації з історії розвитку обчислювальної техніки. Пошук здійснюйте за різними напрямками: історична обстановка, техніка, особистості. Результати пошуку оформіть у вигляді презентації. Використовуйте у презентації багатоступінчастий зміст у вигляді гіперпосилань.

Федотов А.М., Барахнін В.Б. Новосибірський державний університет, Інститут обчислювальних технологій СО РАН
Анотація
Стаття присвячена обговоренню проблем пошуку інформації в сучасному інформаційному середовищі, історичним підходам, технологічним завданням та алгоритмам.

Вступ
Проблема пошуку інформації — одна із вічних проблем людської спільноти. Протягом свого багатотисячолітнього розвитку його представники невпинно перебувають у пошуку того, де є щось: їжі, житла, пасовищ, доріг, скарбів тощо. п. Узагальнюючи завдання пошуку можна сказати, що людство постійно перебуває у пошуку знань, а зокрема, «інформації про те, де лежать скарби». Великий аргентинський письменник Хорхе Луїс Борхев своєму есе «Чотири цикли» писав, що у світовій літературі вічними є чотири теми:
1. Падіння міста.
2. Повернення героя.
3. Пошук.
4. Самопожертва бога.
Неважко помітити, що найчастіше що у літературі, і у реальності є третя тема — пошук, бо четверта тема виходить поза рамки звичайного людського досвіду, а дві перші виявляються лише «хвилини світу фатальні».
З появою нової економічної категорії, якою є інформаційні ресурси, проблема пошуку перекочувала і в цю область. Людство дедалі більше починає використовуватиме пошуку необхідних знань інформаційні ресурси. Щоб вирішити проблему доступу до інформації, людство створило бібліотеки — як універсальну систему зберігання «знань», їх систематизації та каталогізації.
Ситуація кардинально змінюється в міру освоєння (точніше — створення) людської цивілізації простору «інформаційного». Першими островами інформаційного простору цивілізації стали громадські бібліотеки найбільші з яких (Бібліотека Британського музею, Національна бібліотека в Парижі, Бібліотека конгресу США, Російська державна бібліотека та ін) вже до початку ХХ століття мали збори в мільйони томів.
Довгий час одним із потужних інструментів пошуку інформації в книжкових сховищах був безпосередній доступ читачів до книг, коли вони витрачаючи велику особисту пору могли вільно ритися в бібліотеці. Це і зрозуміло, оскільки людину, яка потребує наукової інформації (у знаннях), цікавить насамперед не сама книга як така, а лише деякий її фрагмент, що містить необхідні йому знання. Причому сам він часто не в змозі пояснити, як ці знання можуть бути пов'язані з назвою книги або її автором.
Накопичення книг призвело до парадоксального результату, пов'язаного з відокремленням книжкових сховищ від широкого кола читачів. Універсальний інструмент пошуку знань, що базується на прямому доступі до інформації, став доступним лише обраним. Основна маса спраглих знань стала задовольнятися лише пошуком у каталозі, який у принципі було задовольнити виникаючі інформаційні потреби. Для вирішення проблеми доступу читачів до інформації було здійснено спроби класифікації та систематизації інформації — почали створюватися спеціалізовані книжкові зали, куди джерела інформації відбиралися, виходячи з якихось (не завжди дуже ясних) критеріїв.
З одного боку, як зазначив британський історик і соціолог науки Д. де Солла Прайс, починаючи з середини XVIII століття будь-який досить великий сегмент науки в нормальних умовах зростає експоненційно, тобто будь-які параметри науки, включаючи обсяг накопиченої інформації, за певний проміжок часу подвоюються (закон експоненційного зростання науки). З іншого боку, у зазначений період часу, відбувається збільшення кількості людей, які потребують наукової інформації. Йдеться не лише про науковців (чисельність яких теж підпорядковується закону експонен-ціального зростання), а й про представників багатьох інших професій розумової праці: інженерів, агрономів, лікарів, управлінців тощо.
У міру накопичення книг а, що міститься в них інформації, можливості традиційних методів пошуку: з використанням алфавітного каталогу (пошук книги за відомим ім'ям автора) і систематичного каталогу (пошук книги або класу книг з певного предмета), — перестали задовольняти читачів, насамперед науковців, інформаційні потреби яких у процесі наукового пошуку характеризуються невисокою чіткістю усвідомлення та виразу (див., наприклад, ).
Сучасні інформаційні технології надають досліднику потужний апарат для «маніпулювання даними», а не інформацією. Дані, переведені в електронну форму, набувають нової якості, забезпечуючи їм більш широке поширення та ефективне використання. На перший погляд, може скластися враження, що розвиток інформаційних технологій вже сам собою здатний вивести роботу з науковою інформацією на якісно новий рівень, але, на жаль, це зовсім не так. Сучасні інформаційні технології поки що не можуть надати адекватний апарат для оперування з «інформацією» та інформаційними ресурсами.
Однак самі по собі дані (як набір бітів) не становлять жодної інформаційної цінності без відповідних описів або моделей. Застосування інформаційних технологій має ґрунтуватися на використанні різних моделей (феноменологічних, інформаційних, математичних та ін). Як неодноразово зазначав А. А. Ляпунов (див., наприклад, ): «немає моделі - немає інформації». Для можливості продуктивної роботи потрібні дані, перетворені на «інформацію», подану у вигляді «знань» - «адекватного відображення дійсності у свідомості людини у вигляді уявлень, поняття, суджень теорій».
Існуючу проблему відбору інформації вже дано намагаються вирішити шляхом створення універсальних або спеціалізованих інформаційно-пошукових систем. У результаті випереджального розвитку технологій пошуку порівняно з методиками роботи з семантичною інформацією утворився помітний розрив між технікою роботи з даними (пошуком) та здатністю працювати зі змістом, закладеним у цих даних. Спираючись на інтуїцію, експерти приходять до висновку про порочність нинішньої ситуації, але про якесь серйозне переосмислення проблем вилучення з даних інформації поки що не йдеться.

1 Передісторія
Як бачимо, проблема пошуку — доступу до інформації є однією з серйозних проблем, з якою зіткнулося сучасне «інформаційне суспільство».
Очевидно, що вперше виникла проблема найбільш чітко усвідомила бельгійський соціолог Поль Отле, який наприкінці XIX століття запропонував доповнити науку (library science), яка відала науково-технічною інформацією та традиційне бібліотекознавство абсолютно новим методом, названим ним «Документацією»:
«Мета Документації полягає в тому, щоб зуміти запропонувати документовані відповіді на запити з будь-якого предмета в будь-якій галузі знання: 1) універсальні за змістом; 2) точні та істинні; 3) повні; 4) оперативні; 5) відбивають останні дані; 6) доступні; 7) заздалегідь зібрані та готові до передачі; 8) надані якомога більшій кількості людей» (див. , С. 190, ).
Суть методу Документації полягала в тому, що зміст книги (відчужується від автора) заноситься на картку, причому сукупність карток можна впорядковувати так, щоб при цьому відображалися предметні зв'язки. Поль Отле передбачав революційний розвиток технологій роботи з інформацією, аж до її мультимедійного представлення та віддаленого доступу до банків даних:
«... людське знання дозволить створити обладнання, що діє на відстані, де з'єднаються радіо, рентгенівські промені, кінематограф і мікроскопічна фотографія. Всі предмети Всесвіту, всі предмети, створені Людиною, будуть реєструватися на відстані з моменту їх створення. Тим самим буде створено рух світу світу — його пам'ять, його справжня копія. Будь-яка людина зможе прочитати уривок, спроектований на його особистий екран» (див. с. 16).
Ідеї ​​Поля Отле не були сприйняті тодішніми інформаційним (бібліотечним) співтовариством, зокрема тому, що вони зовсім не були підкріплені технічним забезпеченням: інформаційні працівники та бібліотекарі тієї епохи мали лише друкарські машинки, фотоапарати і карткові каталоги. Поява після Першої світової війни пристроїв обробки перфокарт (точніше, їх найпростішого різновиду — перфокарт з крайовою перфорацією) також не стало принциповим технологічним проривом, оскільки навіть через 40 років, у 1960-і роки, подібні пристрої могли обробляти порівняно невеликі (до 30 тисяч) масиви документів (див.
с. 549).
Проблема наростаючих обсягів інформації, що загрожували захлеснути читачів, продовжувала хвилювати дослідників. В 1941 згаданий вище Х. Л. Борхес створює свою знамениту притчу «Вавилонська бібліотека». У цій притчі Всесвіт представляється у вигляді Бібліотеки, безмежної і всеосяжної, на полицях якої «можна виявити всі можливі комбінації двадцяти з чимось орфографічних знаків (число їх, хоч і величезне, не нескінченно) або все, що піддається виразу — усіма мовами». Філософський сенс притчі, звичайно ж, набагато глибше проблеми інформаційного пошуку, але вихідний образ взятий автором із повсякденної реальності. Важко втриматися, щоб не навести хоча б коротких витримок із притчі, що відповідають тематиці статті.
«Коли було проголошено, що Бібліотека обіймає всі книги, першим відчуттям була нестримна радість. Кожен відчував себе власником таємного і незайманого скарбу. Не було проблеми — особистої чи світової, для якої не було б переконливого рішення. . . Всесвіт набув сенсу, всесвіт став раптово величезним, як надія. У цей час багато говорилося про виправдання: книги апології та пророцтв, які назавжди виправдовували діяння кожної людини у всесвіті і зберігали чудові таємниці її майбутнього. Тисячі спраглих залишили рідні шестигранники і рушили вгору сходами, гнані марним бажанням знайти своє виправдання. . . Але ті, хто пустився на пошуки, забули, що для людини можливість знайти своє виправдання або якийсь його спотворений варіант дорівнює нулю. . .
На зміну надіям, природно, прийшов безвихідний розпач. Думка, що на якійсь полиці в якомусь шестикутнику ховаються дорогоцінні книги і що ці книги недосяжні, виявилася майже нестерпною. Одна богохульна секта закликала всіх кинути пошуки і зайнятися перетасовуванням літер і знаків, поки не створяться завдяки неймовірній випадковості канонічні книги. . . Інші, навпаки, вважали, що насамперед слід знищити марні книжки. . .
Відомо й інше забобон того часу: Людина Книги. На якійсь полиці в якомусь шестиграннику (вважали люди) стоїть книга, що містить суть і короткий виклад решти: якийсь бібліотекар прочитав її і став подібним до Бога. У мові цих місць можна побачити сліди культу цього працівника віддалених часів. Багато хто робив паломництво з метою знайти Його. Протягом століття йшли безрезультатні пошуки. Як визначити таємничий священний шестигранник, в якому Він живе? Кимось був запропонований регресивний метод: щоб виявити книгу А, слід попередньо звернутися до книги В, яка вкаже місце А; щоб розшукати книгу
В, слід попередньо впоратися в книзі С, і так до нескінченності. »
Рушійною силою «інформаційної революції», що відбулася в середині XX століття, стали не зберігачі інформації — бібліотечні працівники, а її споживачі — вчені та інженери. У 1931 році в Німеччині була створена Статистична машина Еммануеля Гольдберга, яка забезпечувала читання спеціальним чином підготовленої мікропленки, на якій зберігався масив документів. Особливість організації зберігання інформації полягала в тому, що на плівку разом із мікрофільмованим документом заносився опис цього документа, закодований за допомогою перфорації. Пошук документа здійснюється шляхом порівняння запиту (також закодованого) з перфорацією плівки. Машину Гольдберга відрізняло високу якість механіки та оптики: користувач мав можливість переглядати за годину понад 100 000 кадрів 35-міліметрової плівки. Статистична машина Гольдберга, була, мабуть, першим інструментом, що діє, що дозволяє автоматизувати пошук у великих масивах даних за їх розміткою. До речі, на думку деяких дослідників, на ідеї Еммануеля Гольдберга спирався Веннівер Буш, автор знаменитої статті «Поки ми мислимо» («As We May Think»), фактично написаної в 1939 році, в якій сформульована ідея гіпертексту та передбачена поява персонального пристрою що зберігає інформацію та автоматизує процес її пошуку. Ось як виглядає одна з його ідей:
Обговоримо влаштування персонального призначення. Нехай воно називається Memex і є щось на зразок автоматизованого архіву або бібліотеки. Memex зберігає для свого господаря всі необхідні книги, записи, кореспонденцію. Прилад автоматизований настільки, що дає відповіді на запитання, задані у простій формі, - тобто дуже гнучкий у спілкуванні.
Швидкість відповідей висока і змушує чекати. Є графічний екран, клавіатура та кнопки управління. Коли користувач шукає потрібну книгу, він повинен запровадити її мнемонічний код і натиснути потрібну для пошуку кнопку. На екрані з'явиться перша сторінка. Повинна бути можливість гортати книгу в будь-якому напрямку. Можна буде зупинитися на вибраній сторінці, а потім піти за посиланням і знайти наступний матеріал, що цікавить. При цьому завжди можна повернутись до попередньої сторінки або одночасно розглядати кілька сторінок.
З'являться енциклопедії з готовими посиланнями для зв'язування інформації та швидкого пошуку. Їх можна буде завантажувати в Memex та шукати все, що потрібно.
Нерідко в літературі можна зустріти висловлювання, що В. Буш передбачив ідею персонального комп'ютера, але так говорити не зовсім правильно, бо фактичний час написання статті As We May Think відноситься до того періоду, коли під керівництвом В. Буша в Массачусетському технологічному інституті був створено макет мікрофільмового селектора «Мемекс», що діє.
Якщо ж говорити про пошукові пристрої тієї епохи, заснованих не на аналоговому, а на цифровому поданні інформації (якраз і використовуваному в сучасних комп'ютерах), то слід відзначити реалізовану на суперпозиційних перфокартах систему пошуку патентів, яку в 1939 створив У .Баттен для британського концерну «Imperial chemical industries, Ltd». Її алгоритм роботи був заснований на координатному індексуванні - поданні змісту документа за допомогою списку ключових слів, що містяться в ньому. Ця ідея отримала подальший розвиток у роботах американського математика Кельвіна Муерса, який створив і запатентував у 1947 році систему механізованого пошуку документів, що працювала на особливих картах з вирізами вздовж країв (так званих «Zato-картах»).
В основі системи лежав також метод координатного індексування. Саме К. Муерс став основоположником наукового підходу до інформаційного пошуку, запровадивши у 1950 р. терміни «інформаційний пошук», «інформаційно-пошукова система», «інформаційно-пошукова мова», «пошуковий образ», «дескриптор», «дескрипторний словник» та ін З цього часу почався бурхливий розвиток інформатики як науки про структуру і властивості семантичної інформації (насамперед наукової). Важливе місце у цій науці займали питання інформаційного пошуку, у процесі виконання якого, власне кажучи, і відбувається безпосереднє задоволення інформаційних потреб користувача. Узагальнення накопичених результатів було проведено в монографії співробітників Всесоюзного інституту наукової та технічної інформації (ВІНІТІ), які описали методологічні засади теоретичної інформатики.
Можливості практичної реалізації алгоритмів інформаційного пошуку різко розширилися, коли в середині 1960-х - на початку 1970-х років замість механічних пристроїв стали досить широко застосовувати електронно-обчислювальні машини третього, а потім і четвертого поколінь, на базі яких створювалися автоматизовані системи збору, аналізу, класифікації, зберігання, передачі на відстань, пошуку та видачі інформації. Зокрема, дослідницька група під керівництвом професора Гарвардського університету Дж. Солтона розробила систему аналізу та вилучення тексту SMART (Salton's Magic Automatic Retriever of Text), в якій було вперше реалізовано багато базових принципів сучасних пошукових систем. осмислення цих принципів було проведено Дж. Солтоном у монографії, причому особливий акцент у ній був зроблений на викладі нових підходів до питань класифікації документів та запитів, аналіз змісту, інтерактивного пошуку та видачі інформації.Ця книга і досі не втратила своєї актуальності .
Технологічною основою створення подібних інформаційно-пошукових систем було використання так званих мейнфреймів - розрахованих на багато користувачів централізованих обчислювальних систем, в яких масиви даних і програми їх обробки розташовувалися на потужній центральній ЕОМ, а користувальницький доступ здійснювався за допомогою алфавітно-цифрових терміналів (дисплеїв), працюючих під керуванням машин-сателітів. Існує думка, що інформаційно-пошукові системи того часу не отримали належного розвитку через недостатню потужність і пам'ять тодішніх ЕОМ, так і з відсутністю якісних каналів зв'язку (особливо дальньої). Тут проблеми були дещо інші. По-перше, відсутність універсальних мережевих протоколів сильно обмежувало віддалений доступ до таких систем. По-друге, велике завантаження обчислювальними завданнями не дозволяло організувати роботу таких систем у цілодобовому режимі. Усе це надавало інформаційно-пошуковим системам переважно локальний характер.
Незважаючи на це, в інформаційних системах того часу був зібраний і систематизований колосальний на той час обсяг інформації. Наприклад, у Новосибірському ВЦ СО РАН на машинах типу БЭСМ-6 зберігалася вся підписках реферативних журналів ВІНІТІ, бібліографічні описи видань, які у ДПНТБ і багато науково-технічної документації. Основні проблеми пов'язані з її використанням - це відсутність інтерактивної роботи, оскільки, як правило, запит надсилався з терміналу, а відповідь надходила у вигляді «кілометрової» роздруківки на АЦПУ. І це була життєва необхідність, оскільки аналізувати відповідь за дисплеєм не було ніякої можливості. Ну а друга проблема була пов'язана з візуалізацією матеріалу — практично не було програмного забезпечення, що дозволяло переглядати інформацію в близькому до друкованого видання вигляді.
У 1980-ті роки мейнфрейми стали поступово витіснятися персональними комп'ютерами, які дозволяли обробляти інформацію безпосередньо на робочому місці, без зв'язку з центральним процесором, а, крім того, мали досить потужні (на ті часи) засоби візуалізації інформації. Це призвело до істотного зниження інтересу до створення централізованих інформаційних систем і, як наслідок, до призупинення фундаментальних наукових досліджень у галузі інформаційного пошуку, які відновилися лише з появою мережі Інтернет, що призвело до розподіленого зберігання інформації.

2 Принципи організації інформаційно-довідкових систем
Як зазначалося, що створені у працях К. Муерса і Дж. Солтона фундаментальні основи пошуку інформації є актуальними і по сьогодні. Однак тут є невеликий нюанс щодо їх використання. "Класики" називали такі системи Information Retrieval System (IRS). У 1950 - 1970 роках англомовний термін Information Retrieval (IR) перекладали російською мовою як «інформаційний пошук», а відповідно, системи цього класу називали інформаційно-пошуковими системами. У цих системах використовувалися ручні процедури індексування документів, створення тезаурусів та дескрипторів. Але, що надзвичайно важливо, ці системи призначалися для виділення інформації (саме інформації та саме виділення) з різних документів. "Виділення" - це більш точне значення слова retrieval. Зараз в енциклопедіях IR визначається як мистецтво та наука пошуку інформації в документах та пошуку власне документів та описують документи метаданих у базах даних (у тому числі мережевих). Підмножиною IR є виділення інформації в тексті (Text Retrieval, TR) і виділення інформації в документах (Document Retrieval, DR).
Ми нагадуємо про це, щоб підкреслити різницю між пошуком як автоматизованою процедурою та виділенням необхідної інформації у знайдених документах. Суть відмінностей полягає в наступному:
. Виділення інформації - це діяльність людини, яка використовує пошукову машину. Вона є інтерактивною, ітераційною та пов'язана з іншими видами інтелектуальної діяльності людини.
. Читач шукає не документи як такі, а містить інформацію для якихось власних цілей (навчання, прийняття рішень та інших.).
. Читач потребує доступу до різних джерел даних, щоб отримати всеосяжне уявлення про об'єкт пошуку.
. Якими б досконалими не були апаратне і програмне забезпечення, які використовуються людиною, вони залишаються інструментами, а інтелект є атрибутом Читача.
Найбільш радикальний етап «інформаційної революції» розпочався у 1990-ті роки. Він був пов'язаний з по-справжньому масовим поширенням потужних і недорогих персональних комп'ютерів, які могли бути підключені до створеної всесвітньої комп'ютерної мережі Інтернет. Саме мережа Інтернет, що відрізняється від друкованих видань оперативністю розміщення та доставки інформації практично будь-якого характеру, а від класичних електронних ЗМІ — можливістю передачі друкованого тексту, робить все більш реальною перспективу створення єдиного інформаційного простору людської цивілізації.
В даний час Інтернет є головним джерелом електронних документів. Кількість документів у мережі піддається лише непрямим, до того ж явно заниженим оцінкам. Так, станом на початок серпня 2005 року кількість документів, проіндексованих пошуковою системою Yahoo, перевищила 20 мільярдів документів, з них 19,2 мільярда - текстові документи, 1,6 мільярда - зображення і близько 50 мільйонів - аудіо- та відеофайли. При цьому, ясна річ, не можна стверджувати, що Yahoo індексує всі інтернет-документи.
Однак така велика кількість потенційно доступних документів зробила особливо актуальним завдання надання користувачам мережі адекватних засобів інформаційного пошуку, без яких Інтернет міг би перетворитися на реальне втілення «Вавилонської бібліотеки». Говорячи про засоби інформаційного пошуку в мережі Інтернет, зазвичай мають на увазі пошукові системи, що надають можливість пошуку інформації по всьому Інтернету (принаймні по всіх www-сторінках). Такі системи відомі всім користувачам Інтернету: це Google, Yahoo, MSN та ін (з числа вітчизняних розробок найбільш популярні Yandex, Rambler та Mail.ru). Однак для пошуку документів, що належать до тієї чи іншої предметної області, користувачі Інтернету нерідко звертаються до тематичних каталогів інтернет-ресурсів - структурованих наборів посилань на документи відповідної тематики.
Щоб описати принципи роботи засобів інформаційного пошуку, необхідно, перш за все, уточнити відповідну термінологію. Основні терміни та визначення в галузі пошуку та поширення інформації за допомогою автоматизованих інформаційних систем, а також інформаційно-пошукових мов регламентовані офіційними документами Російської Федерації: державними стандартами ГОСТ 7.73-96 «Пошук та розповсюдження інформації» та ГОСТ 7.74-96 « Інформаційно-пошукові мови».
Отже, інформаційно-пошукова система (ІПС) є сукупністю довідково-інформаційного фонду та технічних засобів інформаційного пошуку в ньому. У свою чергу, довідково-інформаційний фонд (СІФ) - це сукупність інформаційних масивів (тобто впорядкованих сукупностей документів, фактів або відомостей про них) і пов'язаного з ними довідково-пошукового апарату (тобто даних про адресах зберігання документів із певними пошуковими образами документа). Нарешті, пошуковий образ документа - це текст, що складається з лексичних одиниць інформаційно-пошукової мови (тобто спеціального формалізованого штучного мови), що виражає основний зміст документа і призначений для реалізації інформаційного пошуку. Процес вираження змісту документа інформаційно-пошуковою мовою називається індексуванням.
Зауважимо, що під змістом документа в даному контексті зазвичай мають на увазі не тільки більш-менш короткий виклад того, про що оповідає документ, але і його «бібліографічні характеристики»: назва документа, прізвища його авторів, вихідні дані тощо .Сукупність видобутих у процесі індексації характеристик документа разом з формальним описом структури цих характеристик зазвичай називають метаданими. Більш формально, метадані - це структуровані дані, що являють собою характеристики сутностей, що описуються, з метою їх ідентифікації, пошуку, оцінки, управління ними.
Структурування даних покликане полегшити пошук документів, бо одне й те саме слово (наприклад «Пушкін») може входити до списку авторів документа, у його заголовок, в анотацію або навіть у вихідні дані (місто Пушкін у Ленінградській області як місце видання документа) . Ці випадки можуть бути розмежовані завдяки структуруванню метаданих.
Неважко зрозуміти, що документ стає доступним для пошуку за допомогою тієї чи іншої інформаційно-пошукової системи, якщо його метаопис (тобто сукупність мета-даних) потрапляє до довідково-інформаційного фонду цієї системи. Але яким чином здійснюються пошук та індексація інтернет-документів, що заносяться до СІФ? Пошукові системи загального призначення використовують пошукові роботи (їх англійська назва — «crawler», тобто «повзун»), які послідовно переглядають інтернет-документи, переходячи від одного до іншого за допомогою гіперпосилань, і витягують їх метадані. Зрозуміло, пошукові роботи періодично переглядають документи, вже занесені до СІФ інформаційної системи, щоб встановити, чи існують вони в даний час і чи не зазнали вони будь-яких істотних змін. При складанні тематичних каталогів інтернет-ресурсів також часто використовуються пошукові роботи, які, однак, збирають дані про документи лише з сайтів відповідної тематики. Мережеві імена таких сайтів, як правило, зазначаються експертами в даній предметній галузі, при цьому допускається і безпосереднє занесення експертами відомостей про окремі інтернет-документи. Нарешті, деякі спеціалізовані інформаційно-пошукові системи створюються виключно вручну, при цьому розмір їх пошукових масивів може бути дуже значним. Так, дуже популярна в середовищі математиків база даних журналу «Zentralblatt MATH» містить майже 3 мільйони записів — бібліографічні відомості (включаючи досить докладні анотації) про математичні публікації, що вийшли друком за останні півтора століття. Ці відомості заносяться до бази даних вченими-математиками з різних країн, що реферують публікації за своєю спеціальністю, причому кожному запису відповідає інтернет-документ, що динамічно формується.
Але все-таки довідково-інформаційні фонди більшості інформаційно-пошукових систем, що працюють з інтернет-документами, поповнюються не вручну, а за допомогою тих чи інших програм, що автоматизують пошук та індексацію документів. І тут, у процесі індексації документа, проявляється основна проблема використання таких програм: автоматичне структурування метаданих виявляється дуже непростим завданням. Щоб переконатися в цьому, достатньо переглянути невелику кількість інтернет-документів, наприклад наукової тематики. Можна легко побачити, що в деяких випадках прізвища авторів пишуться перед назвою документа, а в деяких, навпаки, після назви. Яким чином програма має визначати, що саме заносити у політ «автори» цього документа, а що — у полі назва? Зауважимо, що найпростіші варіанти вирішення цієї проблеми (типу «доповнити індексуючу програму словником прізвищ») виявляються малоефективними. І справа не тільки в необхідності величезного (і не існує на практиці) об'єднаного словника прізвищ різних націй з варіантами транскрипцій іншими мовами. Проблема полягає ще й у тому, що багато прізвищ (особливо в мовах із слабовираженою зміною словоформ за допомогою закінчень) збігаються із «звичайними» словами мови. Крім того, прізвище може бути назвою документа, наприклад книги або статті біографічного характеру.
Наявність зазначених проблем призвело до того, що звичайною практикою універсальних пошукових систем є представлення пошукового образу документа у вигляді неструктованого набору ключових слів - інформативних слів, наведених до стандартної лексикографічної форми. Інформативними словами, згідно з ГОСТом 7.74-96, називаються слова, словосполучення або спеціальні позначення в тексті документа (або запиту), що виражають поняття, суттєві для передачі змісту документа. Конкретні критерії включення слова або словосполучення до безлічі інформативних слів залежать від виду ІПС. Так, в універсальних пошукових системах як інформативні розглядаються практично всі слова, включаючи службові. Навпаки, в спеціалізованих інформаційно-пошукових системах, для яких набір ключових слів - один з компонентів структури метаданих документа, безліч інформативних слів зазвичай будується на основі предметного покажчика відповідної предметної області (що містить поряд з одиночними словами і дуже складні словосполучення), час як слова, які стосуються «загальновживаної» лексики, до інформативних не включаються.
Оскільки цілком очевидні переваги структурованого опису документа перед неструктурованим (про що вже говорилося вище), остільки організаціями, які намагаються виступати в якості «законодавця мод» в мережі Інтернет, насамперед консорціумом W3C, неодноразово робилися спроби надати творцям інтернет- документів можливість явно вказувати значення основних елементів метаданих документа, що дозволило б значно підвищити ефективність функціонування пошукових роботів. Так, ще в середині 1990-х років у специфікації мови гіпертекстової розмітки документів HTML було чітко прописано, що кожен документ повинен мати рівно один елемент TITLE («назва») у полі HEAD («заголовок»). Більше того, в описі мови HTML з'явився елемент META, призначений для запису парних елементів NAME:CONTENT («назва: значення»), що описують властивості даного документа: прізвище автора, список ключових слів тощо.
Зауважимо, однак, що специфікація мови HTML не передбачала будь-яких конкретних назв для позначення елементів, що містять інформацію про прізвище автора, ключові слова тощо. Зважаючи на це навіть за наявності в індексованому документі елементів META завдання автоматичного визначення його структури залишалося труд-розв'язною. Найбільш відомим підходом до її вирішення став запропонований у 1995 році на семінарі, що проводився Національним центром суперкомп'ютерних додатків (NSCA) у місті Дублін (штат Огайо, США), базовий набір з 15 полів метаданих, призначений для опису ресурсів, що публікуються в Інтернеті. У цей набір увійшли такі загальні властивості документів, як назва, дата публікації, автор, видавець, власник. Таким чином, у будь-якому документі мало існувати ядро ​​метаданих, про які заздалегідь відомо, як їх слід інтерпретувати. Ці пропозиції були опубліковані під робочою назвою Dublin Core metadata, які згодом стали фундаментом проекту Dublin Core Metadata Initiative.
Названі ідеї отримали подальший розвиток у проекті Semantic Web, суть якого полягає у створенні мережі документів, що містять метадані «вихідних» документів мережі Інтернет та існуючої паралельно з ними. Ця «паралельна» мережа призначена спеціально для побудови пошуковими роботами (та іншими інтелектуальними агентами) однозначних логічних висновків про властивості «вихідних» документів. Основні принципи створення Semantic Web (до практичної реалізації якої, втім, ще дуже далеко) засновані на повсюдному використанні, по-перше, універсальних ідентифікаторів ресурсів (URI) за допомогою розширення цього поняття на об'єкти, недоступні для скачування з Інтернету (персони, географічні сутності і т. п.), а по-друге - онтологій (тобто формальних моделей опису тих чи інших предметних областей) та мов опису метаданих.
На жаль, жоден із перелічених підходів не став по-справжньому поширеним. У цьому легко можна переконатися, переглянувши довільний набір інтернет-документів. Майже напевно в більшості з них будуть відсутні елементи META, що містять прізвища авторів, список ключових слів і т. п. Причини ситуації, що склалася, широко обговорюються в інтернет-спільноті, але, безсумнівно, до основних причин належить «людський фактор».
По-перше, через широку поширеність інтернет-технологій теоретична підготовка багатьох творців інтернет-ресурсів залишає бажати кращого, і вони часто просто не знають про призначення елемента META в мові HTML. По-друге, явна вказівка ​​значень метаданих - процес вельми трудомісткий, тому навіть ті творці ресурсів, які знають про технологію метаданих, не завжди вважають за потрібне витрачати час і сили на роботу з ними, тим більше, що розробники універсальних пошукових систем, виходячи з описаної ситуації , не надто покладаються на можливість автоматичного отримання структурованого пошукового образу індексованого документа, бо відсоток документів, докладно описаних творцями, дуже невеликий. У результаті складається своєрідне порочне коло, яке найближчим часом навряд чи буде розірвано.
У дещо кращому положенні знаходяться творці тематичних каталогів інтернет-ресурсів, оскільки кількість організацій, що працюють у тій чи іншій галузі людської діяльності, а також веб-сайтів, що публікують дійсно цінну та/або нову інформацію відповідної тематики, як правило, досить невелика. Важливо відзначити, що реальні технології створення переважної більшості сайтів такі, що однорідні документи з одного сайту мають однакову html-розмітку. При цьому неважливо, чи генеруються документи динамічно (у цьому випадку однорідність розмітки - природне наслідок роботи відповідної програми) або ж вони створюються вручну за допомогою створення копії вже наявного документа з наступною заміною тексту (що також зберігає розмітку). Дана обставина дозволяє автоматизувати процес індексації метаданих інтернет-документу за допомогою вказівки шаблону документів того чи іншого сайту, тобто явною вказівкою команд (тегів) мови HTML, що обрамляють основні характеристики документа: автори, назва, ключові слова, анотація, коди того або іншого класифікатора тощо.

3 Складання пошукових розпоряджень

З попереднього пункту ми отримали деяке уявлення про те, як улаштований довідково-інформаційний фонд ІПС. Щоб зробити запит, ми повинні, перш за все, скласти пошуковий образ запиту, тобто його формальне уявлення в термінах інформаційно-пошукової мови. Після цього складається пошукове розпорядження, що включає пошуковий образ запиту та вказівки про логічні операції, що підлягають виконанню в процесі інформаційного пошуку. ІПС порівнює пошукове розпорядження з пошуковими образами документів, що зберігаються в її довідково-пошуковому апараті (при цьому в більшості пошукових систем ключові слова за умовчанням наводяться до стандартної лексикографічної форми) і видає відомості: адреси зберігання і, як правило, короткі описи, - про документах, пошукові образи яких відповідають (тобто фактично не суперечать) пошуковому припису.
Наприклад, пошуковий припис для ІПС інтернет-магазину, що торгує чоловічими костюмами, може виглядати приблизно так:
(зріст = 176) і (розмір = 104) і ((колір = "чорний") або (колір = "темно-синій"))
і (країна-виробник = не "Китай") та (ціна< 7000 руб.)
При цьому, якщо не вказані значення таких елементів метаданих, як матеріал і тип костюма (пара або трійка), мається на увазі, що користувача влаштовують будь-які значення цих метаданих елементів.
Найпростіша формальна модель з використанням структурованих метаданих документів має такий вигляд. Нехай у довідково-пошуковому апараті ІПС зберігається інформація про документи di. У цьому будь-який документ di представляється як di =< mjjk >, де mj"fc - належить безлічі значень елементів метаданих Mj, k - кількість значень (з урахуванням повторень) відповідного елемента метаданих в описі документа. Розглянемо підмножина метаданих Mc, що визначає набір класифікаційних ознак документів, що використовуються для складання пошукового припису операцій) Для фіксованого елемента метаданих Mj, де Mj С Mc безліч документів розбивається на класи еквівалентності, відповідні різним значенням цього елемента метаданих.
Будемо вважати два документи толерантними, якщо у них збігається значення хоча б одного з елементів метаданих, що входять до Mc (нагадаємо, що толерантність - відношення, яке має властивості рефлексивності і симетричності, але, взагалі кажучи, може не мати, в на відміну від відношення еквівалентності, властивістю транзитивності). Кожне таке значення породжує клас толерантності.
Розглянемо всілякі поєднання значень елементів метаданих, що входять до Mc. Безліч документів, що мають однаковий набір значень, суть ядра толерантності, які служать класами еквівалентності на безлічі документів.
Таким чином, пошукове розпорядження, що містить підмножини метаданих, що визначає набір класифікаційних ознак, і поєднань значень цих метаданих за допомогою логічних операцій, визначає конкретне ядро ​​толерантності на множині документів, яке і видається користувачеві в якості відповіді на його інформаційний запит .
На жаль, в ІПС загального призначення пошукові образи документів, як уже зазначалося в попередньому пункті, структуровані дуже слабко. Зазвичай користувач таких систем має можливість включити в пошуковий образ запиту (точніше, в ту його частину, яку описує зміст необхідного документа) лише ключові слова або словосполучення, вказавши при цьому, де саме вони повинні утримуватися: в заголовку веб-сторінки або її текст. Інші поля у формі пошукового запиту стосуються мови документа, регіону розташування сервера розміщення документа, формату файлу, структури його URL-адреси тощо, тобто не мають безпосереднього відношення до змісту документа.
Втім, побудова більш-менш складного пошукового припису здатна викликати утруднення у більшості рядових користувачів, навіть якщо їм надано зручний інтерфейс, що не вимагає безпосереднього використання мови запитів. Труднощі виникають на рівні розуміння схем даних та використання логічних операторів. Зокрема, викладацький досвід одного з авторів показує, що навіть студенти старших курсів, що спеціалізуються в галузі інформатики, при виконанні завдання типу «зробити запит, який видає дані за 3 та 5 жовтня», нерідко пов'язують дати логічним оператором «І».
Розвиненими можливостями побудови пошукових розпоряджень мають, як правило, спеціалізовані ІПС, довідково-інформаційний фонд яких містить добре структуровані пошукові образи документів, причому можливості пошукового інтерфейсу безпосередньо залежать від апріорно оцінюваної можливості побудови рядовими користувачами складних логічних запитів. Так, у вже згадуваній базі даних журналу «Zentralblatt MATH», призначене для професійних математиків, функція «Розширений пошук» дозволяє з'єднувати в пошуковому розпорядженні за допомогою логічних зв'язок до 5 значень елементів медатанних (до того ж самі ці елементи, з можливими їх повтореннями вибираються користувачем самостійно із загального списку), додатково вказуючи тип шуканого документа та часовий інтервал його публікації.
І все ж таки не можна не відзначити, що вміння формально записати пошуковий запит, нехай і дуже складний, — справа, власне кажучи, не дуже хитра, що вимагає лише відомого досвіду та невеликих технічних навичок. Набагато нетривіальніше завдання правильно висловити свою інформаційну потребу, тобто неформально задати «характеристики предметної області, значення яких необхідно встановити для виконання поставленої задачі в практичній діяльності» (ГОСТ 7.73-96).
Найпростіша ситуація виникає, коли користувач хоче знайти конкретний документ, адреса зберігання якого, однак, невідома. У цьому випадку завдання в пошуковому приписі як ключові слова імені автора документа та його назви, як правило, дозволяють досить швидко досягти потрібного результату, навіть якщо ІПС не дає можливість структурувати входження перерахованих ключових слів стосовно відповідних полів метаданих. В останньому випадку найбільші проблеми можуть виникнути, якщо потрібний документ відноситься до розряду «хрестоматійних» (як наприклад «Гамлет» У. Шекспіра, «Фауст» І.-В. Гете або «Євгеній Онєгін» А. С. Пушкіна) та існує маса документів, що просто згадують про нього. Один з ефективних прийомів вирішення подібної проблеми полягає в доповненні пошукового розпорядження якою-небудь досить довгою цитатою з тексту (по можливості, не найбільш загальновживаною).
Однак на практиці користувачеві зазвичай потрібно знайти не якийсь конкретний, заздалегідь відомий документ, а деякі відомості (факти), знання яких необхідне для вирішення поставленого завдання (або задоволення цікавості). Ситуація, що виникає при цьому, нагадує сюжет відомої російської казки «Піди туди — не знаю куди, принеси те — не знаю що» (втім, подібні казки відомі у фольклорі багатьох народів світу — від Ірландії до Китаю), причому акцент ставиться на першій частині фрази, оскільки про те, що саме йому потрібно, користувач таки має певне уявлення. Казкового Федота-стрільця вів до мети чарівний м'ячик. А як же слід скласти пошуковий запит, щоб швидше досягти поставленої мети?
«Лобова атака» у формі постановки прямого запиту типу «Яке дівоче прізвище дружини М.Є.Салтикова-Щедріна?» зазвичай не призведе до бажаного результату, оскільки сучасний рівень розвитку пошукових систем загального призначення не передбачає діалогу з користувачем природною мовою. Зазначимо, що поставлене вище питання — не зовсім тривіальне, бо відповіді на «зовсім тривіальні» питання на кшталт «Де народився М.Є.Салтиков-Щедрін?» пошукові системи зазвичай все-таки знаходять, оскільки переважна більшість біографій письменника починаються приблизно так: «М.Є.Салтиков-Щедрін народився в січні 1826 року в селі Спас-Кут Тверської губернії» (слово «де» як службове пошуковою системою увага зазвичай не береться). Крім того, співтворці деяких веб-сторінок, що містять інформацію, що часто розшукується в Мережі (звичайного не наукового, а «побутового» характеру), іноді включають передбачуваний вид користувальницького запиту (точніше, питання) в пошуковий образ документа.
Найбільш надійним способом складання пошукового припису є включення в пошуковий образ запиту ключових слів (або словосполучень), які, на думку користувача, неодмінно повинні входити в текст документа, що містить потрібні відомості. Однак тут виникає наступна дилема: якщо включити в пошуковий запит невелику кількість «найбільш вірогідних» слів, то його результатом будуть сотні (а то й тисячі) документів, далеко не всі з яких будуть містити відповідь саме на поставлене запитання. Якщо ж включити в запит багато «передбачуваних» ключових слів (або навіть цілу фразу), то ми ризикуємо отримати на виході порожню безліч документів, оскільки автори документів необхідної тематики могли описувати цікавий для користувача предмет фразами, які дещо відрізняються від заданої в запиті.
Отже, в процесі пошуку документів, що містять деякі цікаві для нас факти, стоїть завдання сформулювати пошукове розпорядження таким чином, щоб отримати в результаті його виконання не порожня безліч документів, в якому відсоток «потрібних» документів якомога більший. Це різко підвищує шанси скоротити кількість документів, переглянутих «марно», тобто перш ніж ми натрапимо на «потрібний» документ. Проблеми, пов'язані з отриманням кількісних оцінок ефективності пошуку, буде розглянуто нижче.

4 Про пошук «за аналогією»

У попередньому пункті ми розглядали ситуацію, коли пошуковий образ запиту задається користувачем як якесь «ідеальне уявлення» про пошуковий образ шуканого документа. Проте, як зазначалося на початку статті, інформаційні потреби науковців, що у процесі дослідження перебувають на етапах вивчення вже наявних у цій галузі результатів і наукового пошуку, характеризуються невисокою чіткістю усвідомлення і висловлювання. Знову ж таки має місце ситуація «Піди туди — не знаю куди, принеси те — не знаю що», проте тепер уже акцент ставиться на другій частині фрази, оскільки відомо, що описи документів, які стосуються тієї чи іншої наукової тематики, заносяться у відповідні реферативні бази даних. З іншого боку, у кожного дослідника за роки його роботи утворюється картотека бібліографічних описів статей, книг і т. д., що представляють для нього інтерес. Основний критерій їхнього відбору - особисті інтереси вченого. Нині такі картотеки зберігаються, зазвичай, на електронних носіях.
Таким чином, виникає завдання знаходження по цій множині документів класу схожих за змістом документів (пошук «за аналогією»). Як інформаційний запит передбачається завдання непустої множини документів, а як результат виконання запиту видаються документи, кожен з яких у певному сенсі близький до одного з документів, що входять в задану множину. Процес розбиття безлічі документів електронної бази на класи, при якому елементи, що об'єднуються в один клас, мають більшу схожість, ніж елементи, що належать до різних класів, називається кластеризацією.
Кількісна характеристика міри подібності визначається на множині документів D наступним чином:
m: D х D - ,
причому функція m у разі повної подібності приймає значення 1, у разі повної відмінності - 0. Обчислення міри подібності здійснюється за формулою виду

M(di, d2) = aimi (di, d2), (1)
де i - номер елемента (атрибута) метаданих документа, ai - вагові коефіцієнти, причому ai = 1, mi (d1, d2) - міра подібності за i-му елементу (іншими словами, за i-ю шкалою). Оскільки в описуваній ситуації практично всі шкали - номінальні (що складаються з дискретних текстових значень), то міра подібності за i-ю шкалою визначається наступним чином: якщо значення i-их атрибутів документів збігаються, то міра близькості дорівнює 1, інакше 0 .При цьому необхідно враховувати, що значення атрибутів можуть бути складовими. У такому разі mi = ni1 / ni0, де nio = maxnio (d1), nio (d2), а nio (dj) - загальна кількість елементів, що становлять значення i-го атрибуту документа dj, ni1 - кількість збігаються елементів. Зауважимо, що як шкали доцільно використовувати такі елементи метаданих: автори, ключові слова, текст анотації. Крім того, при завданні заходу можна взяти до уваги той факт, що значення вагових коефіцієнтів у формулі (1) визначаються передбачуваною апостеріорною достовірністю даних відповідної шкали і в певних випадках один з коефіцієнтів може бути збільшений з пропорційним зменшенням інших. Наприклад, повний (або навіть «майже повний») збіг значень атрибуту «автори» документа d1 і документа d2 більш вагомий у випадку, коли кількість значень цього атрибуту в документі d1 досить велика (порівняно з випадком, коли документ d1 має всього одного автора).
Основна проблема кластеризації документів полягає в такому рознесенні документів по групах, при якому елементи кожної групи були б настільки подібні один до одного, щоб у деяких випадках можна було знехтувати їх індивідуальними особливостями. При кластеризації документів важливо дійти розумного компромісу щодо розміру кластерів, уникаючи як формування великої кількості дуже дрібних кластерів (що знижує ефективність кластеризації як виділення множин схожих документів), так і невеликої кількості дуже великих класів (що може викликати зменшення точності пошуку ). Дослідження різних алгоритмів кластеризації документів з метою виявлення оптимального алгоритму для розбиття масиву записів електронної бази з інформацією про наукові публікації, на кластери, що містять статті по подібній тематиці, проведено в роботі.

5 Оцінка ефективності пошуку
Два основних поняття, в яких дається оцінка ефективності пошуку, визначені в ГОСТ 7.73-96, причому ці визначення залишилися практично незмінними з 1960-х років (див. с. 282-283): релевантними називаються документи, зміст яких відповідає інформаційному запиту , а пертинентними - зміст яких відповідає інформаційній потребі. Зрозуміло, два цих поняття хоч і близькі, але аж ніяк не еквівалентні. Джерело появи у видачі нерелевантних документів - помилки в описах та програмному коді пошукових систем, а також інші організаційно-технічні причини. При цьому в тих випадках, коли пошук здійснюється шляхом завдання конкретного пошукового запиту, можливо об'єктивно судити про релевантність того чи іншого документа, що увійшов у видачу, оскільки причиною видачі нерелевантних документів (сукупність якого називається пошуковим шумом) є похибки в індексуванні документів (ручному). або автоматичному), що виявляються, наприклад, у внесенні в пошуковий образ документа «зайвих» слів. Така ситуація може виникнути не тільки в результаті явних помилок, а й «мовних колізій». Наприклад, слова «вино» та «вина» мають у деяких відмінках збігаються словоформи, внаслідок чого в пошуковий образ документа, що містить вираз «у вині», при автоматичному індексуванні (яке, як правило, не супроводжується семантичним аналізом тексту) будуть включені обидва названі слова. Тим самим було при включенні в пошуковий запит слова «вино» будуть видані, зокрема, документи, що містять слово з початковою формою «вина», які є, власне кажучи, нерелевантними. Зверніть увагу, що при побудові прикладу ми не могли обмежитися простими омонімами, оскільки, наприклад, при запиті «цибуля» будуть релевантними документи як про зброю, так і про рослину.
У тих же випадках, коли пошук здійснюється «за аналогією», оцінка релевантності документа носить більш суб'єктивний характер, оскільки такий пошук допускає свавілля у способі завдання міри подібності, у встановленні її порогового значення, що відокремлює «схожі» документи від «несхожих» і Але навіть якщо ми визнаємо всі ці параметри невід'ємною частиною пошукового припису, тобто декларуємо їх «об'єктивний» (для даного конкретного припису) характер, то все одно залишиться практично непереборна залежність результату пошуку «за аналогією» від всієї сукупності документів, що входять до інформаційного масиву. Простіше кажучи, висновок про схожість об'єкта «кішка» з об'єктом «корова» відрізняється у разі, коли «інформаційний масив» є безліч лев, корова, і у разі, коли «інформаційний масив» — корова, кобра (або навіть лев, корова, кобра).
Що ж до пертинентності, то поняття це суто суб'єктивне, оскільки потреби (не обов'язково інформаційні) різних людей, нехай навіть і виражені одними й тими самими словами-запитами, можуть бути дуже різні. Так, потреба в супі з погляду середньостатистичного російського задовольняється за допомогою щіщ або борщу, а з погляду середньостатистичного француза - за допомогою супу-пюре.
Вже з цього прикладу видно, що пертинентність видачі може бути підвищена за допомогою корекції пошукового припису, що формулюється відповідно до передбачуваного розуміння відповідної потреби інформаційною системою (або, якщо завгодно, розробниками системи). Яскравою ілюстрацією цієї тези служить відомий анекдот, в якому на питання пролітаючих над незнайомою місцевістю повітроплавців: «Де ми знаходимося?» перехожий-математик дав абсолютно релевантну, але не пертинентну відповідь: «У кошику повітряної кулі». Звичайно, об'єктом жарту тут є буквалізм математика, але саме така поведінка характерна і для комп'ютерних алгоритмів. Тому правильно сформульований запит на кшталт: «Які наші географічні координати?» або (якщо орієнтуватися як на букваліста, так і на звичайного перехожого): «Поблизу якого населеного пункту ми пролітаємо?» міг би привести до пертинентної відповіді.
На закінчення перерахуємо основні кількісні характеристики інформаційного пошуку:
. коефіцієнт повноти: відношення числа знайдених релевантних документів до загальної кількості релевантних документів, що є в інформаційному масиві,

Recall = \DretП Dretr\/\Dre(\,
де Drei - безліч релевантних документів в інформаційному масиві, а Dretr - безліч знайдених документів,
. коефіцієнт точності: відношення числа знайдених релевантних документів до загального числа документів у видачі,

Precision = \DrelП Dretr \/\Dretr \,

Коефіцієнт шуму: відношення числа нерелевантних документів у видачі до загальної кількості документів у видачі,

Noise = \Dnrel П Dretr \/\Dretr \,

Де Dnrei – безліч нерелевантних документів в інформаційному масиві.
Зауважимо, що ні точність, ні повнота, взяті окремо, не гарантують високої якості пошуку. Так, видача всіх документів, що є в інформаційному масиві, дасть значення коефіцієнта повноти, що дорівнює 1, але точність при цьому буде невисокою. Навпаки, якщо видано лише один документ, і до того ж релевантний, то коефіцієнт точності дорівнює 1, але за великої кількості ненайдених релевантних документів коефіцієнт повноти буде дуже малий. Щоб дотриматися балансу між повнотою і точністю, на практиці використовують так звану F-міру (міру Ван Різбергена), що є середнім гармонічним повнотою і точності:

F = 2 x Recall x Precision/(Recall + Precision).

Висновок
Отже, ми зробили короткий екскурс у питання історії автоматизації інформаційного пошуку, ознайомилися з основними принципами роботи сучасних інформаційно-пошукових систем та прийомами побудови пошукових розпоряджень і, нарешті, виклали основні підходи до оцінки ефективності пошуку. Неважко помітити, що сучасний розвиток алгоритмів інформаційного пошуку характеризується ускладненням і навіть «інтелектуалізацією» пошукових алгоритмів. Найімовірніше, у майбутньому ключовим терміном стане розкопка текстів (text mining), іноді звана аналітикою текстів (text analytics) чи розкопкою контенту (content mining). Отже, у перспективі ми станемо свідками конвергенції науки про інформацію та комп'ютерну науку.

Список літератури
Арський Ю.М., Гіляревський Р.С., Туров І.С., Чорний А.І. Інфосфера: Інформаційні структури, системи та процеси в науці та суспільстві // М.: ВІНІТІ, 1996.
Барахнін В.Б., Нехаєва В.А., Федотов А.М. Про завдання міри подібності для кластеризації текстових документів // Вісник НГУ. Сер. Інформаційні технології.
- 2008. - Т. 6, Вип. 1. - С. 3-9.
Барахнін В.Б., Федотов А.М. Ресурси мережі Інтернет як об'єкт наукового дослідження // Вісті вузів. Проблеми поліграфії та видавничої справи. - 2008. - №
1. - С. 70-77.
Ляпунов А.А. Про співвідношення понять матерія, енергія та інформація // У кн.: Ляпунов А.А. Проблеми теоретичної та прикладної кібернетики. - Новосибірськ:
Наука, 1980. - С. 320-323.
Михайлов А.І., Чорний А.І, Гіляревський Р.С. Основи інформатики. М: Наука,
1968.
Народні російські казки під редкцією А. Н. Афанасьєва у трьох томах. Том ІІ. М: Наука, 1985.
Отле П. Бібліотека, бібліографія, документація: Вибрані праці піонера інформатики / Пер. з англ. та фр. М: ФАІР-ПРЕС, Пашков будинок, 2004.
Федотов А.М. Парадокси інформаційних технологій // Вісник НГУ. Сер. Інформаційні технології. - 2008. - Т. 6, вип. 2. - С. 3-14.
Черняк Л. Статистична машина Емануеля Гольдберга // Відкриті системи, 2004 № 03 (http://www.osp.ru/os/2004/03/184081/).
Шрейдер Ю.А. Рівність, схожість, порядок. М: Наука, 1971.
Шокін Ю.І., Федотов А.М., Гуськов А.Є., Жижимов О.Л., Столяров С.В. Електронні бібліотеки - шлях інтеграції інформаційних ресурсів Сибірського відділення РАН // Вісник КазНУ, спеціальний випуск. – м. Алмати, Р. Казахстан, Казахський національний університет ім. аль-Фарабі. – 2005 р., № 2. – С. 115-127.
Bush V. As We May Think// The Atlantic Monthly, July, 1945 (http://www.theatlantic.com/doc/194507/bush).
Dublin Core Metadata Initiative (http://dublincore.org/).
Mayer T. Our Blog is Growing Up - And So Has Our Index (http://www.ysearchblog.com/archives/000172.html).
Otlet P. Traite de documentation. Bruxelles: Ed. Mundaneum, 1934.
Price D.J. de Solla. Little Science, Big Science. N.Y., L.: Columbia Univ. Press, 1963. / Рус. пров. Прайс Д. Мала наука, Велика наука // Наука науку. М: Прогрес, 1966. С. 281-385.
Salton G. Dynamic Information and Library Processing. N.J.: Prentice Hall, 1975. / Рус. пров. Солтон Дж. Динамічні бібліотечно-інформаційні системи. М: Світ,
1979.
Тask Force on Metadata. Summary Report. // American Library Association. 1999. Т. June.

Хорхе Франсіско Ісідоро Луїс Борхес Асеведо - Jorge Francisco Isidoro Luis Borges Acevedo.
Інформація та інформаційні ресурси існували завжди, але ці ресурси через свою специфічність не розглядалися раніше як окрема економічна категорія, незважаючи на те, інформація завжди використовувалася людьми для управління та вирішення нагальних завдань.
Тут ми не говоритимемо про найбільші бібліотеки давнини, оскільки проблеми пошуку не були настільки актуальними.
Дерек Де Солла Прайс - Derek J. de Solla Price.
Поль Отле - Paul Otlet.
Термін «інформатика» належав колись скромній науці, яка відала саме інформацією, переважно науково-технічною. Термін «інформатика» (франц. informatique) народився 1960 року, умовно походить від французьких слів information (інформація) і automatique (автоматизація) і буквально означає «інформаційна автоматизація».
Борхес був професійним бібліотекарем (бібліографом) і навіть у свій час обіймав посаду директора Національної бібліотеки Аргентини.
Еммануель Гольдберг – Emanuel Goldberg – німецький інженер, виходець із Росії.
Веннівер Буш - (Vannevar Bush.
Кельвін Муерс - Calvin Northrup Mooers.
Джерард Солтон - Gerard Salton.

Федеральне агентство з освіти

Смоленський державний університет

Технології пошуку інформації в Інтернеті.

Смоленськ


Введение………………………………………………………………………….. 1.Класифікація пошукових систем …………………………………… ……... 2.Прийоми пошуку……………………………………………………………….... 2.1.Простий пошук……………………… ……………………………………….. 2.2.Розширений пошук…………………………………………………………. 3.Тематичний каталог Yahoo.………………………………………………… 4.Автоматичний індекс Alta Vista…………………………………………… 5. Пошук інформації в конференціях (Usenet)……………………………….. 6. Вітчизняні пошукові служби ………………………………………….. 6.1.Rambler……… ………………………………………………………………. 6.2.Яндекс…………………………………………………………………………. 7.Пошук файлів ………………………………………………………………….. 8.Джерела спеціалізованої інформації ……………………………… 9. Пошук окремих людей мережі Internet ……………………………………... 10.Метапоиск……………………………………………………………… …….. 11.Ефективний пошук інформації…………………………………………...

Заключение……………………………………………………………………….

Література………………………………………………………………………..
3 3 6 6 8 10 12 13 14 15 15 16 17 18 19 19 21 22

Вступ

Будь-хто, хто намагався колись знайти потрібну інформацію в Інтернеті, напевно погодиться з тим, що цей процес схожий на пошук голки в копиці сіна. Світова мережа Internet містить великий обсяг інформації, який швидко збільшується з кожним днем. Внаслідок цього часто виявляється, що завдання знаходження необхідної інформації в цьому інформаційному океані є надзвичайно складним і потрібно вміти ефективно використовувати різні пошукові системи (програми пошуку інформації в мережі). Необхідно врахувати, що "пошук – це мистецтво".

1. Класифікація пошукових систем

Існує багато різних пошукових систем, що належать різним компаніям. Насамперед, виділяють так звані тематичні каталоги (наприклад, Yahoo) та автоматичні індекси (наприклад, AltaVista), хоча необхідно мати на увазі, що ціла низка пошукових систем займає деяке проміжне положення між цими двома "полюсами", тобто вони містять елементи обох цих класів. Кожна з пошукових систем має свою велику базу даних про адреси (місце розташування) різних Web-документів, і пошук посилань на необхідну нам інформацію відбувається не в самих Web-документах, а саме в цій базі даних.

Тематичні каталоги та автоматичні індекси розрізняються, перш за все, по тому, як формуються та поповнюються їх бази даних: чи беруть у цьому процесі участь люди, чи все відбувається абсолютно автоматично.

Бази даних тематичних каталогів складаються і систематично поповнюються експертами у відповідних галузях виходячи з нових Web-документів, виявлених у Internet спеціальними пошуковими програмами. Тематичний каталог представляє користувачу Internet деяку деревоподібну структуру категорій (розділів та підрозділів), на верхньому рівні якої зібрані найзагальніші поняття, такі як Наука, Мистецтво, Бізнес тощо, а елементи найнижчого рівня є посилання на окремі Web-сторінки та сервери разом з коротким описом їхнього вмісту. Цим ієрархічним каталогом можна подорожувати, починаючи з більш загальних категорій (понять) до вужчих, спеціалізованих.

Наприклад, для знаходження інформації про стан наукових досліджень з теорії суперструн можна спуститися вниз наступною "сходами" понять:

Science (Наука)

Physics (Фізика)

Theoretical Physics (Теоретична фізика)

Theories (Теорії)

String Theories (Теоріструн)


В результаті буде одержано список сайтів, серед яких найбільший інтерес представляє сайт Superstrings. Клацнувши мишею на гіперпосиланні Superstrings, ми потрапляємо на home page сайту, з відповідним заголовком, на якому можна знайти on-line підручник з теорії суперструн, різні посилання для подальшого читання, глосарій з суперструн і т.д.

Головною перевагою тематичних каталогів є велика цінність інформації, що отримується користувачем, що забезпечується присутністю "людського фактора" в процесі аналізу та сортування нових Web-сторінок. З іншого боку, тематичні каталоги мають суттєвий недолік, пов'язаний знову ж таки з людським фактором, бо через обмежені можливості людини їх бази даних охоплюють лише невелику частину всього інформаційного Web-простору (менше 1 %). Таким чином, незважаючи на всю корисність тематичних каталогів, використання лише пошукових систем цього виду часто виявляється недостатнім.

Зведена таблиця вибраних предметних каталогів

List.Ru Апорт Яндекс Rambler Yahoo! About
Загальна характеристика 19 розділів верхнього рівня 14 розділів верхнього рівня 10 основних розділів, 7 комбінованих, додаткова класифікація 56 розділів 14 основних розділів 36 розділів
Сортування ресурсів усередині розділу Алфавіт, оцінка гідів, популярність (відвідуваність), дата Алфавіт, відвідуваність, ліга, оцінка кількості посилань на даний ресурс, думка користувачів Алфавіт, дата додавання, індекс цитування за відвідуваністю за алфавітом по оплаченості посилань
Булівські оператори Використовується мова пошукової машини Апорт Використовується мова пошукової машини Яndex Використовується мова пошукової машини Rambler Ні Ні
Пошук за фразою " " " "
Префікси +, - +, -
Ітеративний пошук (у результатах) Є пошук усередині категорії Після входу натисніть More…
заміна частини слова * * (Не завжди коректно)

На відміну від тематичних каталогів, бази даних для автоматичних індексів створюються і поповнюються повністю автоматично деякими спеціальними, внутрішніми пошуковими програмами-роботами, які в цілодобовому режимі переглядають Internet-вузли (сайти) у пошуках новостворених Web-документів. З кожного такого документа робот витягує всі посилання, що містяться в ньому, і додає їх у свою базу адрес, в результаті чого у програми-робота виникає можливість перегляду ще деякої кількості нових для нього Web-документів. У кожному новому Web-документі робот аналізує всі слова, що входять до нього, і в розділі бази даних, що відповідає кожному даному слову, запам'ятовується адреса (URL) документа, де це слово зустрілося. Таким чином, база даних, створювана автоматичним індексом, фактично зберігає відомості про те, у яких Web-документах містяться ті чи інші слова. На відміну від тематичних каталогів автоматичні індекси охоплюють до 25 % загального Web-простору.

Автоматичний індекс має окрему пошукову систему для забезпечення інтерфейсу користувача. Ця система може, переглядаючи базу даних, за заданим набором ключових слів знаходити і видавати на екран комп'ютера користувача адреси і коротку інформацію про всі Web-сторінки, які містять даний набір ключових слів. Таким чином, автоматичний індекс складається з трьох частин: програми-робота, що збирається цим роботом бази даних та інтерфейсу для пошуку в цій базі даних. Саме з останньою складовою і працює користувач. В силу такої організації автоматичний індекс не робить будь-якої класифікації або оцінювання інформації.

Інтерфейс автоматичних індексів дозволяє користувачеві задати деякий набір ключових слів, які з його точки зору є характерними для шуканих ним документів, і дозволяють, таким чином, знайти досить обмежену кількість потенційно належать до справи Web-сторінок. Як такі слова можуть бути використані деякі специфічні терміни та його комбінації, досить рідкісні прізвища тощо.

Успіх пошуку потрібної інформації значною мірою визначається саме вдалим вибором ключових слів, бо в іншому випадку пошукова система може видати багато тисяч і мільйонів посилань на Web-документи, що не відносяться до справи.

Слід мати на увазі, що початківця підстерігає багато різних несподіванок, що іноді доходять до анекдотичних ситуацій.

Якщо для автоматичних індексів пошук за ключовими словами є єдиним засобом знаходження необхідної інформації, то в тематичних каталогах (наприклад, Yahoo!) цей засіб є альтернативним способом пошуку поряд з подорожжю по системі (дереву) вкладених один в одного категорій.

Деяким різновидом пошукових служб є рейтингові служби. Вони надають клієнту готовий список деяких посилань, до яких зверталися найчастіше інші користувачі мережі Internet. Коли йдеться про теми, які мають суспільний інтерес, такі як новини, музика тощо, такі рекомендації, отримані статистичним методом, є дуже зручними та корисними. Такі послуги, зокрема, надає вітчизняна служба Rambler.

2. Прийоми пошуку

2.1. Простий пошук

Кожна пошукова система (ПС) надає свої методи пошуку та має свої особливості у правилах запису комбінацій ключових слів. Проте є спільні елементи однаково справедливі більшість пошукових систем. Зазвичай, всі ПС допускають пошук Web-документів за ключовими словами, які є характерними для шуканого документа. Вибір таких слів часто є нетривіальним завданням.