Що таке пошукові машини. Прилади та матеріали. Контроль за поточним станом Ваших документів в індексі пошукових машин

Класифікація

По області пошуку (умовно)

Локальні

Призначені для пошуку інформації з будь-якої частини всесвітньої мережі, наприклад, по одному або кількох сайтах, або по локальній мережі .

Глобальні

Призначені для пошуку інформації по всій мережі Інтернет або значній її частині. Представниками таких пошукових машин є пошукові системи Google, Яндекс і т.п. Пошукові машиниздійснюють пошук інформації різного типу, наприклад текстів, відео, зображень, географічних об'єктів, персональних даних та ін. При цьому файли, з якими може працювати пошукова машина, можуть бути як текстового формату (наприклад. , і графічного (.gif, .png, .svg…) чи мультимедійного (відео і звук). Поки що найпоширенішим є саме пошук за текстовими документами.

Пошуковий запит

Вихідною інформацією для пошуку є пошуковий запит.

Функції

Пошукові машини виконують кілька функцій:

Пошук посилань

Пошук посилань на сторінки та інші документи сайтів.

Автоматичний

Ручний режим

Користувачі самі додають до бази даних пошукової машини посилання на сторінки своїх сайтів

Індексація документів сайтів

Вилучення з документів інформації, важливої ​​для пошуку, перетворення цієї інформації у формат, зручний для пошукової машини та збереження цієї інформації в базу даних пошукової машини

Пошук по базі даних проіндексованих документів

Може складатися з кількох етапів

Знаходження документів, які відповідають пошуковому запиту

Ранжування документів відповідно до їхньої релевантності пошуковим запитам

Кластеризація документів

Примітки

Див. також


Wikimedia Foundation. 2010 .

Дивитись що таке "Пошукова машина" в інших словниках:

    Пошукова машина- (searching engine): веб-сервер, що проводить індексацію веб-сторінок на доступних серверах(Наприклад, Yandex)... Джерело: ІНТЕРНЕТ РЕСУРСИ. ВИМОГИ ДОСТУПНОСТІ ДЛЯ ІНВАЛІДІВ ЗА ЗОРОМ. ГОСТ Р 52872 2007 (утв. Наказом Ростехрегулювання від ... Офіційна термінологія

    пошукова машина- Веб сервер, що проводить індексацію веб-сторінок на доступних серверах (наприклад, Yandex). [ГОСТ Р 52872 2007] Тематики інформаційні технологіїзагалом EN searching engine … Довідник технічного перекладача

    В інтернет спеціальний вебсайт, на якому користувач за заданим запитом може отримати посилання на сайти, які відповідають цьому запиту. Пошукова система складається з трьох компонентів: 1 пошукового робота; 2 індекси системи; та 3 програми,… … Фінансовий словник

    У Internet пошуковамашина, яка: відсилає запит на пошук у кілька пошукових систем; та генерує з отриманих відповідей зведення (на одній сторінці). Англійською: Meta search engine Синоніми: Мета гусениця Синоніми англійські: Metacrawler… … Фінансовий словник

    Ця стаття має бути повністю переписана. На сторінці обговорення можна пояснити. Пошукова система програмно-апаратний комплекс з веб-інтерфейсом, що надає … Вікіпедія

    Пошукова система- (англ. search engine, синоніми: шукалка, пошуковий сервер, пошукова машина) – Інструмент для пошуку інформації в Інтернеті. Як правило, робота пошукової машини складається із двох етапів. Спеціальна програма (пошуковий робот, автомат, агент, … Енциклопедичний словник ЗМІ - Пошукова система веб-сайт, що надає можливість пошуку інформації в Інтернеті. Більшість пошукових систем шукають інформацію на сайтах Всесвітньої павутини, але існують також системи, здатні шукати файли на ftp серверах, товари в… … Вікіпедія

Книги

  • До питання ефективності пошуку конкретики в Інтернеті, І. А. Семенов. Згідно з дослідженнями Berkley, обсяг інформації в Інтернеті станом на 2003 рік оцінювався в 258, 85 терабайтів, і це лише загальнодоступні дані. за даним Internet World Stats, зростання ... електронна книга

Пошукові машини (Search engine)

Пошукові машини дозволяють знайти WWW-документи, що стосуються заданих тематик або мають ключові слова або їх комбінації. На пошукових серверах відпрацьовуються два способи пошуку:

· По ієрархії понять;

· За ключовими словами.

Заповнення пошукових серверів відбувається автоматично або вручну. Пошуковий сервер зазвичай має посилання інші пошукові сервери, та передає їм запит на пошук за бажанням користувача.

Існує два типи пошукових машин.

1. "Повнотекстові" пошукові машини, які індексують кожне слово на веб-сторінці, за винятком стоп-слова.

2. "Абстрактні" пошукові машини, які створюють реферат кожної сторінки.

Для вебмайстрів повнотекстові машини корисніші, оскільки будь-яке слово, що зустрічається на веб-сторінці, піддається аналізу щодо його релевантності до запитів користувачів. Однак абстрактні машини можуть індексувати сторінки краще за повнотекстові. Це залежить від алгоритму отримання інформації, наприклад за частотою вживання однакових слів.

Основні характеристики пошукових машин.

1. Розмір пошукової машини визначається кількістю проіндексованих сторінок. Однак у кожний момент часу посилання, що видаються у відповідь на запити користувачів можуть бути різної давності. Причини, через які це відбувається:

· Деякі пошукові машини відразу індексують сторінку на запит користувача, а потім продовжують індексувати ще не проіндексовані сторінки.

· Інші частіше індексують найпопулярніші сторінки мережі.

2.Дата індексації. Деякі пошукові машини показують дату, коли документ був проіндексований. Це допомагає користувачу визначити, коли документ з'явився у мережі.

3.Глибина індексування показує скільки сторінок після зазначеної індексуватиме пошукова система. Більшість машин не мають обмежень щодо глибини індексування. Причини, через які можуть бути проіндексовані не всі сторінки:

· не правильне використаннякадрових структур.

· використання картки сайту без дублювання звичайними посиланнями

4.Робота з кадрами. Якщо пошуковий робот не вміє працювати з фреймовими структурами, то багато структур з фреймами будуть втрачені при індексуванні.

5. Частота посилань. Основні пошукові машини можуть визначити популярність документа, як часто на нього посилаються. Деякі машини на підставі таких даних роблять висновок варто або не варто індексувати документ.

6. Частота оновлення сервера. Якщо сервер оновлюється часто, то пошукова машина частіше його реіндексувати.

7.Контроль індексації. Показує, якими засобами можна керувати пошуковою машиною.

8. Перенаправлення. Деякі сайти перенаправляють відвідувачів з одного сервера на інший, і цей параметр показує, як це пов'язано зі знайденими документами.

9.Стоп-слова. Деякі пошукові машини не включають певні слова до своїх індексів або можуть не включати ці слова до запитів користувачів. Такими словами зазвичай вважаються прийменники або слова, що часто використовуються.

10.Spam-штрафи. Можливість блокування спаму.

11.Видалення старих даних. Параметр, що визначає дії вебмайстра під час закриття сервера або переміщення його на іншу адресу.

Приклад пошукових машин.

1. Альтавіста. Система відкрита у грудні 1995 року. Належить компанії DEC. З 1996 співпрацює з Yahoo. AltaVista - це найкращий варіантдля настроюваного пошуку . Проте сортування результатів за категорієюям не виконується і доводиться переглядати вручну надану інформацію. В AltaVista не передбачено коштів для отримання списків активних вузлів, новин або інших можливостей пошуку за змістом.

2.Excite Search. Запущена наприкінці 1995 року. У вересні 1996 - придбано WebCrawler. Цей вузол має потужне пошукове хутро.нізм, можливість автоматичного індивідуального налаштуванняінформації, що надається, а також складені кваліфікаціїним персоналом опису безлічі вузлів. Excite відрізняється від інших пошукових вузлів тим, щодозволяє вести пошук у службах новин та публікує огляди Web-сторінок. У пошуковому механізмі використовуються засобистандартного пошуку за ключовими словами та евристичніметоди пошуку за змістом. Завдяки такому поєднанню,можна знайти відповідні за змістом сторінки Web , якщо вони не містять вказаних користувачемключівих слів. Недоліком Excite є дещо хаотичний інтерфейс.

3.HotBot. Запущена в травні 1996 року. Належить компанії Wired. Базується на технології пошукової машини Berkeley Inktomi. HotBot - це база даних, що містить документи, індексовані за повному тексту, і одне з найбільш повних пошукових механізмів у Web . Його засоби пошуку за логічними умовами та засоби обмеження пошуку будь-якою областю або вузлом Webдопомагають користувачеві знайти необхідну інформацію, відсіваючи непотрібну. HotBot надає можливість вибрати необхідні параметри пошуку з списків, що розкриваються.

4.InfoSeek. Запущена раніше 1995 року, легко доступна. В даний час містить близько 50 мільйонів URL-адрес. У Infoseek добре продуманий інтерфейс, а також чудові пошукові засоби. Більшість відповідей на запити супроводжуються посиланнями «пов'язані теми», а після кожної відповіді наводяться посилання «подібні сторінки». База даних пошукового механізмусторінок, індексованих на повний текст. Відповіді впорядковуються за двома показниками: частотою зустрічей слово чи фраз на країни цях, а також метоположення слів або фраз на сторінках.Існує каталог Web Directory , що поділяється на 12 категорій із сотнями підкатегорій, для яких може бути здійснений пошук. Кожна сторінка каталогу містить перелік ре комендованих вузлів.

5. Lycos. Працює із травня 1994 року. Широко відома та використовується. До складу входить каталог з великою кількістю URL. та пошукова машина Point з технологією статистичного аналізувмісту сторінок, на відміну від індексування за повним текстом. Lycos містить новини, огляди вузлів, посилання на популярні вузли, карти міст, а також засоби для пошуку адрес, звуків і відео кліпів. Lycos впорядковує відповіді за рівнем соотвідповідності запиту за кількома критеріями, наприклад, за чиселлу пошукових термінів, що зустрілися в анотації до документу, інтервалу міжду словами в конкретній фразі документа, місцезнаходженнятермінів у документі.

6. WebCrawler. Відкрито 20 квітня 1994 року як проект Вашингтонського Університету. WebCrawler надає можливостісинтаксису для конкретизації запитів, а також великий вибір інструкцій вузлів при легкому інтерфейсі.


За кожною відповіддю WebCrawler перешкодить невелику піктограму з приблизною оцінкою відповідності запиту. Коме того виводить на екран сторінку з коротким резюме для кожної відповіді, її повним URL, точною оцінкою відповідності, а також використовує ця відповідь у запиті за зразком як його ключових слів. Графічний інтерфейс для налаштування запитів у Web Crawler немає. Н е допускається ікористування універсальними символами, а також неможливопризначити вагові коефіцієнти ключових слів.Немає можливості обмеження поля пошукупевною областю.

7. Yahoo. Найстаріший каталог Yahoo було запущено на початку 1994 року. Широко відомий, часто використовуємо та найбільш поважаємо. У березні 1996 року запущено каталог Yahooligans для дітей. З'являються регіональні та top-каталоги Yahoo. Yahoo базується на передплаті користувачів. Він може бути відправною точкою для будь-яких пошуків у Web, оскільки за допомогою його системи класифікації користувач знайде вузол з добре організованою інформацією. Вміст Web поділяється на 14 загальних категорій, перерахованих на домашній сторінці Yahoo!. Залежно від специфіки запиту користувача існує можливість або працювати з цими категоріями, щоб ознайомитися з підкатегоріями та списками вузлів, або шукати конкретні словата терміни по всій базі даних. Користувач може також обмежити пошук у межах будь-якого розділу чи підрозділу Yahoo!. Завдяки тому, що класифікація вузлів виконується людьми,не комп'ютером, якість посилань зазвичай дуже висока. Проте, уточнення пошуку у разі невдачі – складне завдання. До складу Yahoo ! входить пошуковий механізм AltaVista, тому в разі невдачі при пошуку на Yahoo! автоматично відбувається його повторення з використанням пошукового механізму AltaVista . Потім отримані результати передаються в Yahoo!. Yahoo! забезпечує можливість надсилати запити для пошуку в Usenet та у Fourl 1, щоб дізнатися адреси електронної пошти.

До російських пошуковим машинамвідносяться:

1. Rambler. Це російськомовна пошукова система. Розділи, перелічені на домашній сторінці Rambler, висвітлюють російськомовні Web-ресурси Існує класифікатор інформації. Зручною можливістюроботи є надання списку найбільш відвідуваних вузлів за кожною запропонованої тематики.

2. Апорт Пошук. Апорт входить до числа провідних пошукових систем, сертифікованих Microsoft як локальні пошуковісистеми для російської версії Microsoft Internet Explorer. Однією з переваг Апорту є англо-російський та російсько-англійський переклад режимі onlineзапитів та пошуків результату, завдяки чому можна вести пошук у російських ресурсах Internet навіть не знаючи російської мови. Більш тогоможна шукати інформацію цю, використовуючи висловлювання, навіть для пропозицій.Серед основних властивостей пошукової системи Апорт можна виділити такі:

Переклад запиту та результатів пошуку з російської на англійськуська мова і навпаки;

Автоматичну перевіркуорфографічних помилок запиту;

Інформативне виведення результатів пошуку для знайдених сайтів;

Можливість пошуку у будь-якій граматичній формі;


мова розширених запитів для професійного нальних користувачів.

До інших властивостей пошуку можна віднести підтримку п'яти основних кодових сторінок (різних операційнихсистем) для російської мови, технологію пошуку з використанняїм обмежень щодо URL та дату документів, реалізацію пошукуза заголовками, коментарями та підписомтут до картинок і т. д., збереження параметрів пошуку та визначеннячисла попередніх запитів користувача, об'єднання копій документа на різних серверах.

3. List. ru ( http://www.list.ru) За своєю реалізацією цей сервер має багатоспільного з англомовною системою Yahoo!. на головній сторінцісервера розташовані посилання на найпопулярніші пошукові категорії.


Список посилань на основні категорії каталогу займає центральну частину. Пошук в каталозі реалізований таким чином, що в результаті запиту можуть бути знайдені окремі сайти, так і рубрики. У разі успішного пошуку виводиться URL, назва, опис, ключові слова. Допускається використання мови запитів Яндекс. Зпосилання "Структуракаталогу" відкриває в окремому вікні повний рубрикатор каталогу. Реалізовано можливість переходу з рубрикатора до будь-якої обраної підкатегорії. Більш детальний тематичний поділпоточної рубрики наведено списком посилань.Каталог організований таким чином, що всі сайти, що містяться на нижніх рівняхструктури, представлені та в рубриках.Список ресурсів, що показується, упорядкований в алфавітному порядку, але можна вибирати сортування: по часумені додавання, по переходах, по порядку додавання до каталогу,популярності серед відвідувачів каталогу

4. Яndex. Програмні продуктисерії Яndex представляють набір засобів повнотекстової індексації та пошуку текстових даних з урахуванням морфології російської. Яndex включає модулі морфологічного аналізу та синтезу, індексації та пошуку, а також набір допоміжних модулів, таких як аналізатор документів, мови розмітки, конвертори форматів, павук.

Алгоритми морфологічного аналізу та синтезу, засновані на базовому словнику, вміють нормалізувати слова, тобто знаходити їхню початкову форму, а також будувати гіпотези для слів, що не містяться в базовому словнику. Система повнотекстового індексуваннядозволяє створювати компактний індекс та швидко здійснювати пошук з урахуванням логічних операторів.

Яndex призначений для роботи з текстами в локальній та глобальної мережі, а також може бути підключений як модуль до інших систем.

Пошукові машини (Search engine)

Пошукові машини дозволяють знайти WWW-документи, що стосуються заданих тематик або мають ключові слова або їх комбінації. На пошукових серверах відпрацьовуються два способи пошуку:

· По ієрархії понять;

· За ключовими словами.

Заповнення пошукових серверів відбувається автоматично або вручну. Пошуковий сервер зазвичай має посилання інші пошукові сервери, і передає їм запит на пошук за бажанням користувача.

Існує два типи пошукових машин.

1. "Повнотекстові" пошукові машини, які індексують кожне слово на веб-сторінці, за винятком стоп-слова.

2. "Абстрактні" пошукові машини, які створюють реферат кожної сторінки.

Для вебмайстрів повнотекстові машини корисніші, оскільки будь-яке слово, що зустрічається на веб-сторінці, піддається аналізу щодо його релевантності до запитів користувачів. Однак абстрактні машини можуть індексувати сторінки краще за повнотекстові. Це залежить від алгоритму отримання інформації, наприклад за частотою вживання однакових слів.

Основні характеристики пошукових машин.

1. Розмір пошукової машини визначається кількістю проіндексованих сторінок. Однак у кожний момент часу посилання, що видаються у відповідь на запити користувачів можуть бути різної давності. Причини, через які це відбувається:

· Деякі пошукові машини відразу індексують сторінку на запит користувача, а потім продовжують індексувати ще не проіндексовані сторінки.

· Інші частіше індексують найпопулярніші сторінки мережі.

2.Дата індексації. Деякі пошукові машини показують дату, коли документ був проіндексований. Це допомагає користувачу визначити, коли документ з'явився у мережі.

3.Глибина індексування показує скільки сторінок після зазначеної індексуватиме пошукова система. Більшість машин не мають обмежень щодо глибини індексування. Причини, через які можуть бути проіндексовані не всі сторінки:

· Не правильне використання фреймових структур.

· використання картки сайту без дублювання звичайними посиланнями

4.Робота з кадрами. Якщо пошуковий робот не вміє працювати з фреймовими структурами, то багато структур з фреймами будуть втрачені при індексуванні.

5. Частота посилань. Основні пошукові машини можуть визначити популярність документа, як часто на нього посилаються. Деякі машини на підставі таких даних роблять висновок варто або не варто індексувати документ.

6. Частота оновлення сервера. Якщо сервер оновлюється часто, то пошукова машина частіше його реіндексувати.

7.Контроль індексації. Показує, якими засобами можна керувати пошуковою машиною.

8. Перенаправлення. Деякі сайти перенаправляють відвідувачів з одного сервера на інший, і цей параметр показує, як це пов'язано зі знайденими документами.

9.Стоп-слова. Деякі пошукові машини не включають певні слова до своїх індексів або можуть не включати ці слова до запитів користувачів. Такими словами зазвичай вважаються прийменники або слова, що часто використовуються.

10.Spam-штрафи. Можливість блокування спаму.

11.Видалення старих даних. Параметр, що визначає дії вебмайстра під час закриття сервера або переміщення його на іншу адресу.

Приклад пошукових машин.

1. Альтавіста. Система відкрита у грудні 1995 року. Належить компанії DEC. З 1996 співпрацює з Yahoo. AltaVista - це найкращий варіант для налаштованого пошуку . Проте сортування результатів за категорієюям не виконується і доводиться переглядати вручну надану інформацію. В AltaVista не передбачено коштів для отримання списків активних вузлів, новин або інших можливостей пошуку за змістом.

2.Excite Search. Запущена наприкінці 1995 року. У вересні 1996 - придбано WebCrawler. Цей вузол має потужне пошукове хутро.нізм, можливість автоматичного індивідуального налаштуванняінформації, що надається, а також складені кваліфікаціїним персоналом опису безлічі вузлів. Excite відрізняється від інших пошукових вузлів тим, щодозволяє вести пошук у службах новин та публікує огляди Web-сторінок. У пошуковому механізмі використовуються засобистандартного пошуку за ключовими словами та евристичніметоди пошуку за змістом. Завдяки такому поєднанню,можна знайти відповідні за змістом сторінки Web , якщо вони не містять зазначених користувачем ключівих слів. Недоліком Excite є дещо хаотичний інтерфейс.

3.HotBot. Запущена в травні 1996 року. Належить компанії Wired. Базується на технології пошукової машини Berkeley Inktomi. HotBot - це база даних, що містить документи, індексовані за повним текстом, і один з найповніших пошукових механізмів у Web. Його засоби пошуку за логічними умовами та засоби обмеження пошуку будь-якою областю або вузлом Web допомагають користувачеві знайти необхідну інформацію, відсіваючи непотрібну. HotBot надає можливість вибрати необхідні параметри пошуку з списків, що розкриваються.

4.InfoSeek. Запущена раніше 1995 року, легко доступна. В даний час містить близько 50 мільйонів URL-адрес. У Infoseek добре продуманий інтерфейс, а також чудові пошукові засоби. Більшість відповідей на запити супроводжуються посиланнями «пов'язані теми», а після кожної відповіді наводяться посилання «подібні сторінки». База даних пошукового механізму сторінок, індексованих на повний текст. Відповіді впорядковуються за двома показниками: частотою зустрічей слово чи фраз на країни цях, а також метоположення слів або фраз на сторінках.Існує каталог Web Directory , що поділяється на 12 категорій із сотнями підкатегорій, для яких може бути здійснений пошук. Кожна сторінка каталогу містить перелік ре комендованих вузлів.

5. Lycos. Працює із травня 1994 року. Широко відома та використовується. До складу входить каталог з великою кількістю URL. та пошукова машина Point з технологією статистичного аналізу вмісту сторінок, на відміну від індексування за повним текстом. Lycos містить новини, огляди вузлів, посилання на популярні вузли, карти міст, а також засоби для пошуку адрес, звуків і відео кліпів. Lycos впорядковує відповіді за рівнем соотвідповідності запиту за кількома критеріями, наприклад, за чиселлу пошукових термінів, що зустрілися в анотації до документу, інтервалу міжду словами в конкретній фразі документа, місцезнаходженнятермінів у документі.

6. WebCrawler. Відкрито 20 квітня 1994 року як проект Вашингтонського Університету. WebCrawler надає можливостісинтаксису для конкретизації запитів, а також великий вибір інструкцій вузлів при легкому інтерфейсі.


За кожною відповіддю WebCrawler перешкодить невелику піктограму з приблизною оцінкою відповідності запиту. Коме того виводить на екран сторінку з коротким резюме для кожної відповіді, її повним URL, точною оцінкою відповідності, а також використовує ця відповідь у запиті за зразком як його ключові слова.Графічний інтерфейс для налаштування запитів у Web Crawler немає. Н е допускається ікористування універсальними символами, а також неможливопризначити вагові коефіцієнти ключових слів.Немає можливості обмеження поля пошукупевною областю.

7. Yahoo. Найстаріший каталог Yahoo було запущено на початку 1994 року. Широко відомий, часто використовуємо та найбільш поважаємо. У березні 1996 року запущено каталог Yahooligans для дітей. З'являються регіональні та top-каталоги Yahoo. Yahoo базується на передплаті користувачів. Він може бути відправною точкою для будь-яких пошуків у Web, оскільки за допомогою його системи класифікації користувач знайде вузол з добре організованою інформацією. Вміст Web поділяється на 14 загальних категорій, перерахованих на домашній сторінці Yahoo!. Залежно від специфіки запиту користувача існує можливість або працювати з цими категоріями, щоб ознайомитися з підкатегоріями та списками вузлів, або шукати конкретні слова та терміни по всій базі даних. Користувач може також обмежити пошук у межах будь-якого розділу чи підрозділу Yahoo!. Завдяки тому, що класифікація вузлів виконується людьми,не комп'ютером, якість посилань зазвичай дуже висока. Проте, уточнення пошуку у разі невдачі – складне завдання. До складу Yahoo ! входить пошуковий механізм AltaVista, тому в разі невдачі при пошуку на Yahoo! автоматично відбувається його повторення з використанням пошукового механізму AltaVista . Потім отримані результати передаються в Yahoo!. Yahoo! забезпечує можливість надсилати запити для пошуку в Usenet та Fourl 1, щоб дізнатися адреси електронної пошти.

До російських пошукових машин відносяться:

1. Rambler. Це російськомовна пошукова система. Розділи, перелічені на домашній сторінці Rambler, висвітлюють російськомовні Web-ресурси. Існує класифікатор інформації. Зручною можливістю роботи є надання списку найвідвідуваніших вузлів за кожною запропонованої тематики.

2. Апорт Пошук. Апорт входить до числа провідних пошукових систем, сертифікованих Microsoft як локальні пошуковісистеми для російської версії Microsoft Internet Explorer. Однією з переваг Апорту є англо-російський та російсько-англійський переклад у режимі online запитів та пошуків результату, завдяки чому можна вести пошук у російських ресурсах Internet навіть не знаючи російської мови. Більш тогоможна шукати інформацію цю, використовуючи висловлювання, навіть для пропозицій.Серед основних властивостей пошукової системи Апорт можна виділити такі:

Переклад запиту та результатів пошуку з російської на англійськуська мова і навпаки;

Автоматичну перевірку орфографічних помилок запиту;

Інформативне виведення результатів пошуку для знайдених сайтів;

Можливість пошуку у будь-якій граматичній формі;


мова розширених запитів для професійного нальних користувачів.

До інших властивостей пошуку можна віднести підтримку п'яти основних кодових сторінок (різних операційнихсистем) для російської мови, технологію пошуку з використанняїм обмежень щодо URL та дату документів, реалізацію пошукуза заголовками, коментарями та підписомтут до картинок і т. д., збереження параметрів пошуку та визначеннячисла попередніх запитів користувача, об'єднання копій документа на різних серверах.

3. List. ru ( http://www.list.ru) За своєю реалізацією цей сервер має багатоспільного з англомовною системою Yahoo!. На головній сторінці сервера розміщені посилання на найпопулярніші пошукові категорії.


Список посилань на основні категорії каталогу займає центральну частину. Пошук в каталозі реалізований таким чином, що в результаті запиту можуть бути знайдені окремі сайти, так і рубрики. У разі успішного пошуку виводиться URL, назва, опис, ключові слова. Допускається використання мови запитів Яндекс. Зпосилання "Структуракаталогу" відкриває в окремому вікні повний рубрикатор каталогу. Реалізовано можливість переходу з рубрикатора до будь-якої обраної підкатегорії. Більш детальний тематичний поділпоточної рубрики наведено списком посилань.Каталог організований таким чином, що всі сайти, що містяться на нижніх рівнях структури, представлені та в рубриках.Список ресурсів, що показується, упорядкований в алфавітному порядку, але можна вибирати сортування: по часумені додавання, по переходах, по порядку додавання до каталогу,популярності серед відвідувачів каталогу

4. Яndex. Програмні продукти серії Яndex являють собою набір засобів повнотекстової індексації та пошуку текстових даних з урахуванням морфології російської мови. Яndex включає модулі морфологічного аналізу та синтезу, індексації та пошуку, а також набір допоміжних модулів, таких як аналізатор документів, мови розмітки, конвертори форматів, павук.

Алгоритми морфологічного аналізу та синтезу, засновані на базовому словнику, вміють нормалізувати слова, тобто знаходити їхню початкову форму, а також будувати гіпотези для слів, що не містяться в базовому словнику. Система повнотекстового індексування дозволяє створювати компактний індекс та швидко здійснювати пошук з урахуванням логічних операторів.

Яndex призначений для роботи з текстами в локальній та глобальній мережі, а також може бути підключений як модуль до інших систем.

25.04.05 5.4K

Вступ

Одним з основних способів знайти інформацію в Інтернеті є пошукові машини. Пошукові машини щодня «повзають» по Мережі: вони відвідують веб-сторінки та заносять їх у гігантські бази даних. Це дозволяє користувачеві набрати деякі ключові слова, натиснути submit і побачити, які сторінки задовольняють його запиту.

Розуміння того, як працюють пошукові машини просто необхідне вебмайстрам. Для них життєво важлива правильна з погляду пошукових машин структура документів та всього сервера чи сайту. Без цього документи будуть недостатньо часто з'являтися у відповідь на запити користувачів до пошукової машини або навіть можуть бути не проіндексовані.

Вебмайстри бажають підвищити рейтинг своїх сторінок і це зрозуміло: адже на будь-який запит до пошукової машини можуть бути видані сотні і тисячі посилань, що відповідають йому на документи. У більшості випадків тільки 10 перших посилань мають достатню релевантність до запиту.

Звичайно, хочеться, щоб документ опинився в першій десятці, оскільки більшість користувачів рідко переглядає наступні за першою десяткою посилання. Іншими словами, якщо посилання на документ буде одинадцятим, то це також погано, якби його не було зовсім.

Основні пошукові машини

Які із сотень пошукових машин справді важливі для вебмайстра? Ну, зрозуміло, широко відомі та часто використовуються. Але при цьому слід врахувати аудиторію, на яку розрахований Ваш сервер. Наприклад, якщо Ваш сервер містить вузькоспеціальну інформацію про новітніх методахдоїння корів, то навряд чи Вам варто сподіватися на пошукові системи загального призначення. У цьому випадку я порадив би обмінятися посиланнями з Вашими колегами, які займаються подібними питаннями 🙂 Отже, спочатку визначимося з термінологією.

Існує два види інформаційних базданих про веб-сторінки: пошукові машини та каталоги.

Пошукові машини: (spiders, crawlers) постійно досліджують мережу з метою поповнення баз даних документів. Зазвичай це вимагає ніяких зусиль з боку людини. Прикладом може бути пошукова система Altavista.

Для пошукових систем досить важливою є конструкція кожного документа. Велике значеннямають title, meta-таги та вміст сторінки.

Каталоги: на відміну від пошукових машин, у каталог інформація заноситься з ініціативи людини. Сторінка, що додається, повинна бути жорстко прив'язана до прийнятих у каталозі категорій. Прикладом каталогу може бути Yahoo. Конструкція сторінок не має значення. Далі йтиметься в основному про пошукові машини.

Altavista

Система відкрита у грудні 1995 року. Належить компанії DEC. З 1996 співпрацює з Yahoo.

Excite Search

Запущена наприкінці 1995 року, система швидко розвивалася. У липні 1996 куплено Magellan, у вересні 1996 - придбано WebCrawler. Однак обидва використовують її окремо один від одного. Можливо, у майбутньому вони працюватимуть разом.

Існує в цій системі і каталог – Excite Reviews. Потрапити до цього каталогу — удача, оскільки далеко не всі сайти туди заносяться. Однак інформація з цього каталогу не використовується за замовчуванням пошуковою машиною, зате є можливість перевірити її після перегляду результатів пошуку.

HotBot

Запущена в травні 1996 року. Належить компанії Wired. Базується на технології пошукової машини Berkeley Inktomi.

InfoSeek

Запущена трохи раніше 1995 року, широко відома, чудово шукає та легко доступна. В даний час "Ultrasmart/Ultraseek" містить близько 50 мільйонів URL.

Опція пошуку за умовчанням Ultrasmart. У цьому випадку пошук здійснюється по обох каталогах. При опції Ultraseek результати запиту видаються без додаткової інформації. Воістину нова пошукова технологіятакож дозволяє полегшити пошуки та безліч інших особливостей, які Ви можете прочитати про InfoSeek. Існує окремий від пошукової машини каталог InfoSeek Select.

Lycos

Приблизно з травня 1994 року працює одна із найстаріших пошукових систем Lycos. Широко відома і часто використовується. До її складу входить пошукова машина Point (працює з 1995 року) та каталог A2Z (працює з лютого 1996 року).

OpenText

Система OpenText з'явилася трохи раніше 1995 року. З червня 1996 року стала партнерство з Yahoo. Поступово втрачає свої позиції і незабаром перестане входити до основних пошукових систем.

WebCrawler

Відкрито 20 квітня 1994 року як дослідницький проектВашингтонського університету. Існує каталог WebCrawler Select.

Yahoo

Найстаріший каталог Yahoo було запущено на початку 1994 року. Широко відомий, часто використовуємо та найбільш поважаємо. У березні 1996 запущено ще один каталог Yahoo - Yahooligans для дітей. З'являються нові і нові регіональні та top-каталоги Yahoo.

Оскільки Yahoo базується на підписці користувачів, в ньому може не бути деяких веб-сайтів. Якщо пошук Yahoo не дав відповідних результатів, користувачі можуть скористатися пошуковою машиною. Це дуже просто. Коли робиться запит до Yahoo, каталог переправляє його до будь-якої з основних пошукових машин. Першими посиланнями в списку адрес, що задовольняють запиту, йдуть адреси з каталогу, а потім йдуть адреси, отримані від пошукових машин, зокрема від Altavista.

Особливості пошукових машин

Кожна пошукова машина має низку особливостей. Ці особливості слід враховувати під час виготовлення своїх сторінок.

Тип пошукової машини

«Повнотекстові» пошукові машини індексують кожне слово на веб-сторінці, за винятком лише деяких стоп-слов. «Абстрактні» пошукові машини створюють екстракт кожної сторінки.

Для вебмайстрів повнотекстові машини корисніші, оскільки будь-яке слово, що зустрічається на веб-сторінці, піддається аналізу щодо його релевантності до запитів користувачів. Однак для абстрактних пошукових машин може статися, що сторінки проіндексовані краще ніж для повнотекстових. Це може виходити від алгоритму екстрагування, наприклад, за частотою вживання в сторінці тих самих слів.

Розмір

Розмір пошукової машини визначається кількістю проіндексованих сторінок. Наприклад, у пошуковій машині з великим розміромможуть бути проіндексовані майже всі ваші сторінки, при середньому обсязі ваш сервер може бути частково проіндексований, а при малому обсязі ваші сторінки можуть взагалі не потрапити до каталогів пошукової машини.

Період оновлення

  • деякі пошукові машини відразу індексують сторінку на запит користувача, а потім продовжують індексувати ще не проіндексовані сторінки
  • інші частіше можуть «повзати» по найбільш популярним сторінкаммережі, ніж за іншими

Дата індексування документа

Деякі пошукові машини показують дату, коли було проіндексовано той чи інший документ. Це допомагає користувачеві зрозуміти, який «свіжості» видає посилання пошукова система. Інші залишають користувачам лише здогадуватися про це.

Вказані (submitted) сторінки

В ідеалі пошукові системи повинні знайти будь-які сторінки будь-якого сервера в результаті проходу за посиланнями. Реальна картинавиглядає інакше. Станиці серверів набагато раніше з'являються в індексах пошукових систем, якщо їх прямо вказати (Add URL).

Не вказані (non-submitted) сторінки

Якщо хоча б одну сторінку сервера вказано, пошукові машини обов'язково знайдуть наступні сторінкиза посиланнями із зазначеної. Однак на це потрібно більше часу. Деякі машини відразу індексують весь сервер, але більшість, записавши вказану сторінку в індекс, залишають індексування сервера на майбутнє.

Глибина індексування

Цей параметр відноситься тільки до не зазначеним сторінкам. Він показує скільки сторінок після вказаної індексуватиме пошукова система.

Більшість великих машин немає обмежень по глибині індексування. Насправді ж це зовсім так. Ось кілька причин, через які можуть бути проіндексовані не всі сторінки:

  • не надто акуратне використання фреймових структур (без дублювання посилань у файлі, що управляє (frameset))
  • використання imagemap без дублювання їх звичайними посиланнями

Підтримка кадрів

Якщо пошуковий робот не вміє працювати з фреймовими структурами, то багато структур з фреймами будуть втрачені при індексуванні.

Підтримка ImageMap

Тут приблизно така сама проблема, як і з фреймовими структурами серверів.

Захищені паролями директорії та сервера

Деякі пошукові машини можуть індексувати такі сервери, якщо їм вказати Username та Password. Навіщо це потрібно? Щоб користувачі бачили, що є на сервері. Це дозволяє як мінімум дізнатися, що така інформація є, і, можливо, вони тоді підпишуться на Вашу інформацію.

Частота появи посилань

Основні пошукові машини можуть визначити популярність документа, як часто на нього посилаються з інших місць Мережі. Деякі машини на підставі таких даних роблять висновок варто чи не варто витрачати час на індексування такого документа.

Здатність до навчання

Якщо сервер оновлюється часто, то пошукова машина частіше його реіндексувати, якщо рідко — рідше.

Контроль індексації

Показує, якими засобами можна керувати тією чи іншою пошуковою машиною. Усі великі пошукові машини керуються приписами файлу robots.txt. Деякі також підтримують контроль за допомогою META-тагів із самих індексованих документів.

Перенаправлення (redirect)

Деякі сайти перенаправляють відвідувачів з одного сервера на інший, і цей параметр показує, який URL буде пов'язаний з вашими документами. Це важливо, оскільки, якщо пошукова машина не відпрацьовує перенаправлення, можуть виникнути проблеми з неіснуючими файлами.

Стоп-слова

Деякі пошукові машини не включають певні слова до своїх індексів або можуть не включати ці слова до запитів користувачів. Такими словами зазвичай вважаються прийменники або просто дуже використовуються слова. А не включають їх задля економії місця на носіях. Наприклад, Altavista ігнорує слово web та для запитів типу web developerбудуть видані посилання лише за другим словом. Існують способи уникнути такого.

Вплив на алгоритм визначення релевантності

Пошукові машини обов'язково використовують розташування та частоту повторення ключових слів у документі. Проте, додаткові механізми збільшення ступеня релевантності кожної машини різні. Цей параметр показує, які механізми існують для тієї чи іншої машини.

Spam-штрафи

Всі великі пошукові системи «не люблять», коли будь-який сайт намагається підвищити свій рейтинг шляхом, наприклад, багаторазової вказівки себе через Add URL або багаторазової згадки одного і того ж ключового слова і т. д. У більшості випадків подібні дії (spamming, stacking) караються, і рейтинг сайту, навпаки, падає.

Підтримка META-тагів

За ідеєю всі пошукові машини повинні враховувати метадані при індексації сторінок, проте на практиці не все це роблять.

Title

Цей параметр показує, як пошукові машини генерують заголовки посилань для користувача у відповідь на запит.

Description

Цей параметр показує, як пошукові машини генерують описи посилань для користувача у відповідь на запит.

Перевірка статусу URL

Дуже корисна для вебмайстра риса пошукової машини - чи можна перевірити наскільки глибоко проіндексований його сервер і чи він взагалі в індексі пошукової машини.

Видалення старих даних

Параметр, що визначає дії вебмайстра під час закриття сервера або переміщення його на іншу адресу. Можливі дві дії: просто видалити старий зміст та переписати файл robots.txt.

  • видалення вмісту: коли пошукова машина спробує реіндексувати документи і не знайде їх, старі посилання в індексі будуть видалені. І тут все залежить від періоду оновлення даних для пошукової машини.
  • robots.txt: коли пошукова машина запросить цей файл і «побачить», що сервер весь закритий від індексації, всі посилання на файли цього сервера будуть видалені з індексу.

Добре погано

Головний елемент сучасного Інтернету– це пошукові машини або пошукові системи, Yandex, Rambler, Google та інші. В Інтернеті знаходиться море різної інформації, і саме пошукові системи допомагають користувачеві швидко знайти необхідну інформацію.

У підручниках чи наукових книгах є список важливих термінів – алфавітно- предметний покажчикабо індекс.В індексі перераховані найбільш важливі терміни цієї книги (ключові слова) та номери сторінок, на яких вони зустрічаються.

Робота пошукових систем заснована на подібному принципі. По суті, коли користувач вводить пошуковий запит (ключове слово), він звертається до предметного покажчика Інтернету або індексу списку всіх ключових слів Інтернету, із зазначенням сторінок, де вони зустрічаються.

Пошукова машина– це програма, яка складає та зберігає предметний покажчик Інтернету (індекс), а також знаходить у ньому задані ключові слова.

Етапи складання індексу та пошуку по ньому:

Збір адрес веб-сторінок в Інтернеті

У пошукову машину завантажують список адрес сторінок сайтів. Потім пошукова машина, а точніше її складова частинапошуковий робот, збирає всі гіпертекстові посилання з кожної з заданих сторінокна інші сторінки та додає всі, знайдені у посиланнях адреси, до свого початкового списку адрес. Таким чином, початковий перелік швидко збільшується.

Викачування сторінок

Пошуковий робот або павук обходить сторінки, завантажує з них текстовий матеріал і зберігає на дисках своїх комп'ютерів, потім передає індексацію на індексування.

Складання індексу

Для початку текст сторінки, що індексується, очищається від будь-яких нетекстових елементів (графіки, розмітки мови HTMLта ін.). Далі слова, вибрані з тексту, наводяться до своїх основ або називного відмінка. Зібрані основи слів вибудовують у алфавітному порядкуіз зазначенням номери сторінки, де взято основу, та номери входження,де стояла основа цій сторінці.

Пошук

Коли користувач вводить слово у рядок запиту, пошукова машина звертається до індексу. Знаходить усі номери сторінок, які стосуються заданому слову, і показує користувачеві результат пошуку (список сторінок).

Якість пошукової машини

Синонімом якості пошуку вважається його релевантність.Щодо пошукових машин слово релевантний(що стосується справи) – чи не головний термін. Релевантність результатів пошуку пошукової машини означає, що ці результати містять сторінки, які стосуються сенсу пошукового запиту. Релевантність чи якість пошуку – досить складна річ.

Ще одним важливим критеріємякості роботи пошукача є точність.

Точність– це міра якості виданих результатів, вона обчислюється як кількість релевантних сторіноку загальному обсязі сторінок, виданих у результатах пошуку. Однак важлива не лише точність пошуку, а й ранжуваннярезультатів пошуку.

Ранжування- Розташування результатів пошуку по релевантності.

Неможливо сказати, яка пошукова машина краще. Для користувача краще пошуковик, що видає найбільш релевантні та точні результати. Для власника сайту хороша та машина, в якій добре видно сайт і яка приводить найбільша кількістьцільових відвідувачів.