Що оцінювали перші пошукові машини. Дивитись що таке "Пошукова машина" в інших словниках. Особливості пошукових машин

На цьому, ясна річ, список популярних пошукових систем не закінчується – їх кількість обчислюється сотнями. Однак я впевнений, що для роботи з англомовними сайтами вам з лишком вистачить і цих.

Слід зазначити, що практично всі представлені вище пошукові машини можуть працювати і з кирилицею. Але для пошуку інформації російською мовою все-таки рекомендую вітчизняні пошукові системи:

Існують й інші російськомовні пошукові системи, проте ці найпопулярніші, особливо перші дві.

Мал. 4.1. Пошукова система Google

З книги Протидія чорному PR в Інтернеті автора Кузін Олександр Володимирович

Пошукові машини та каталоги як інструменти розкручування «бойових» інтернет-ресурсів та наповнення їх контентом Цей розділ написано з використанням деяких матеріалів книги «Інтернет-розвідка: посібник до дії». Автоматизація наповнення «бойових» сайтів та

З книги Блог. Створити та розкрутити автора Ющук Євген Володимирович

Пошукові машини та каталоги як інструменти розкрутки блогу та наповнення його контентом Йтиметься про автоматизацію наповнення блогу цікавим контентом, тобто про те, як знаходити матеріал для блогу швидше за інших блогерів. Навряд чи більшість читачів зможе

З книги Інтернет-розвідка [Інструкція до дії] автора Ющук Євген Леонідович

Складання запитів, пов'язаних з назвою компанії, у пошукові

З книги Збираємо комп'ютер своїми руками автора Ватаманюк Олександр Іванович

5.2. Популярні операційні системи Існує безліч операційних систем, і кожна має ступінь поширеності. Деякі системи зручніші для роботи в мережі, а інші – для автономної роботи, так як поєднати все, не втрачаючи у швидкодії та

З книги Win2K FAQ (v. 6.0) автора Шашков Олексій

(6.10) Є змішана мережа, netware та NT, клієнти W2kPro та W98. Машини W98 не можуть увійти на машини W2k. Для вирішення цієї проблеми необхідно зробити прив'язку за протоколами, IPX/SPX тільки клієнт Novell, TCP/IP тільки клієнта Microsoft. Зробити це можна у властивостях мережевих підключеньменю

З книги Реферат, курсова, диплом на комп'ютері автора

Пошукові машини Якщо вам необхідно отримати добірку матеріалів за більш конкретною спеціальної інформаціїкраще скористатися пошуковими машинами. Пошукова машина – це комплекс спеціальних програмдля пошуку у Мережі. Вони позбавлені недоліків, властивих

Із книги Інтернет. Нові можливості. Трюки та ефекти автора Баловсяк Надія Василівна

Як функціонують пошукові машини і як правильно будувати запити Сучасні пошукові машини є комплексом спеціальних програм, призначених для пошуку інформації в Інтернеті. Принцип їх роботи полягає в наступному: час від часу вони

Із книги Інтернет на 100%. Детальний самовчитель: від «чайника» – до професіонала автора Гладкий Олексій Анатолійович

Популярні онлайн кінотеатри Один з популярних безкоштовних онлайн кінотеатрів знаходяться за адресою http://vsekino.tv (рис. 7.5). Мал.

З книги Інтернет – легко та просто! автора Олександров Єгор

Популярні каталоги Найпопулярнішим та повним каталогому світі безперечно є англомовний Yahoo! (http://dir.yahoo.com) (рис. 4.4). Мал. 4.4. Популярний каталог посилань Yahoo! Слід зазначити, що найчастіше каталоги суміщені з пошуковими машинами, тому багато представлених

З книги Яндекс для всіх автора Абрамзон М. Г.

1.11.3. Популярні записи Оновлення списку популярних записів відбувається раз на день. Таких записів відбирається кілька десятків, але лише кілька найпопулярніших виноситься на титульну сторінкурозділу Пошуку. Інші можна переглянути за посиланням Всього записів.

З книги Як знайти та завантажити в Інтернеті будь-які файли автора Райтман М. А.

1.11.6. Популярні категорії Якщо до цього йшлося про рейтинг блогерів, сервісів, найбільш популярних записів, то тепер йтиметься про категорії. Категорію свого повідомлення встановлюють їхні автори. Як чому, чому - залежить від теми, від моди, від настрою. Тим не

З книги Перші кроки з Windows 7. Посібник для початківців автора Колісниченко Денис М.

1.11.7. Популярні новини Окремим блоком серед решти індикаторів виділено рейтинг новин сервісу Яндекс. Новини. Це ті новини, які найбільше обговорюються у блогах. Список популярних новин оновлюється кожні 5-10 хвилин. Якщо перейти за посиланням з

З книги Знайомтесь: Ноутбук автора Жуков Іван

Популярні трекери У світі є безліч торрент-трекерів, послугами яких ви можете користуватися. Далі представлені найпопулярніші трекери. http://lostfilm.tv – трекер, що спеціалізується на серіалах. Як правило, релізи у професійному озвучуванні та якості

Із книги IT-безпека: чи варто ризикувати корпорацією? автора Маккарті Лінда

10.2.1. Пошукові машини Інтернет містить величезну кількість інформації. Адже в Інтернеті створити сайт може будь-хто, хто хоче, тому кількість нових сайтів зростає з кожним днем. Для пошуку в Інтернеті використовуються пошукові машини. Пошукова машина - це спеціальний

З книги автора

Популярні Інтернет-програми ICQ (Аська)ICQ – це централізована служба миттєвого обміну повідомленнями. Користувач служби (тобто ви) працює із програмою-клієнтом (так званий «месенджер»). Надсилання повідомлень відбувається миттєво. Також ви можете

З книги автора

Популярні поштові списки розсилки BugtraqУ цьому списку обговорюються вразливі місця UNIX, як їх можна використовувати та як їх закрити. Його метою є не навчання злому систем, але, навпаки, тому, як виявляти вразливі місця, як ділитися інформацією про них, як їх

Тематичні колекції посилань - це списки, складені групою професіоналів або навіть колекціонерами-одинаками. Дуже часто вузькоспеціалізована тема може бути розкрита одним фахівцем краще ніж групою співробітників великого каталогу. Тематичних колекцій у Мережі так багато, що давати конкретні адреси немає сенсу.

Добір доменного імені

Каталог зручна системапошуку, проте для того, щоб потрапити на сервер компанії Microsoftабо IBM, навряд чи має сенс звертатися до каталогу. Вгадати назву відповідного сайту неважко: www.microsoft.com, www.ibm.com або www.microsoft.ru, www.ibm.ru - сайти російських представництв цих компаній.

Аналогічно, якщо користувачеві потрібен сайт, присвячений погоді у світі, його логічно шукати на сервері www.weather.com. Найчастіше пошук сайту з ключовим словом у назві ефективніший, ніж пошук документа, у тексті якого це слово використовується. Якщо західна комерційна компанія (або проект) має односкладову назву та реалізує в Мережі свій сервер, то його ім'я з високою ймовірністю вкладається у формат www.name.com, а для Рунету (російської частини Мережі) - www.name.ru, де name - Ім'я компанії або проекту. Підбір адреси може успішно конкурувати з іншими прийомами пошуку, оскільки за такої системи пошуку можна встановити з'єднання з сервером, який не зареєстрований в жодній пошуковій системі. Однак, якщо підібрати ім'я, що шукається, не вдається, доведеться звернутися до пошукової машини.

Пошукові машини

Скажи мені, що ти шукаєш в Інтернеті, і скажу, хто ти

Якби комп'ютер був високоінтелектуальною системою, якою можна було легко пояснити, що ви шукаєте, він видавав би два-три документи - саме ті, які вам потрібні. Але, на жаль, це не так, і у відповідь на запит користувач зазвичай отримує довгий список документів, багато з яких не мають жодного відношення до того, що він запитував. Такі документи називаються нерелевантними (від англ. relevant - відповідний, що відноситься до справи). Таким чином, релевантний документ - це документ, що містить потрібну інформацію. Очевидно, що від уміння грамотно видавати запит залежить відсоток одержуваних релевантних документів. Частка релевантних документів у списку всіх знайдених пошуковою машиною документів називається точністю пошуку. Нерелевантні документи називають шумовими. Якщо всі знайдені документи є релевантними (шумових немає), то точність пошуку становить 100%. Якщо знайдено всі релевантні документи, то повнота пошуку – 100%.

Таким чином, якість пошуку визначається двома взаємозалежними параметрами: точністю та повнотою пошуку. Збільшення повноти пошуку знижує точність і навпаки.

Як працює пошукова машина

Пошукові системи можна порівняти з довідковою службою, агенти якої обходять підприємства, збираючи інформацію до бази даних (рис. 4.21). При зверненні до служби інформація видається з цієї бази. Дані в базі старіють, тому агенти їх періодично оновлюють. Деякі підприємства самі надсилають дані про себе і до них агентам приїжджати не доводиться. Іншими словами, Довідкова службамає дві функції: створення та постійне оновленняданих у базі та пошук інформації в базі на запит клієнта.

Мал. 4.21.

Аналогічно, пошукова машинаскладається з двох частин: так званого робота (або павука), який обходить сервери Мережі та формує базу даних пошукового механізму.

База робота в основному формується ним самим (робот сам знаходить посилання на нові ресурси) і набагато меншою мірою - власниками ресурсів, які реєструють свої сайти в пошуковій машині. Крім робота (мережевого агента, павука, черв'яка), що формує базу даних, існує програма, що визначає рейтинг знайдених посилань.

Принцип роботи пошукової машини зводиться до того, що вона опитує свій внутрішній каталог (базу даних) за ключовими словами, які користувач вказує в полі запиту, і видає список посилань, ранжований за релевантністю.

Слід зазначити, що, відпрацьовуючи конкретний запит користувача, пошукова система оперує саме внутрішніми ресурсами (а не пускається в подорож Мережею, як часто вважають недосвідчені користувачі), а внутрішні ресурси, природно, обмежені. Незважаючи на те, що база даних пошукової машини постійно оновлюється, пошукова машинане може проіндексувати всі Web-документи: їхнє число занадто велике. Тому завжди існує ймовірність того, що шуканий ресурс просто невідомий конкретної пошукової системи.

Цю думку наочно ілюструє рис. 4.22. Еліпс 1 обмежує безліч усіх Web-документів, що існують на певний момент часу, еліпс 2 - всі документи, які проіндексовані даною пошуковою машиною, а еліпс 3 - шукані документи. Таким чином, знайти за допомогою даної пошукової машини можна лише частину шуканих документів, які нею проіндексовані.

Мал. 4.22.

Проблема недостатності повноти пошуку полягає у обмеженості внутрішніх ресурсів пошуковика, а й у тому, що швидкість робота обмежена, а кількість нових Web-документів постійно зростає. Збільшення внутрішніх ресурсів пошукової машини може повністю вирішити проблему, оскільки швидкість обходу ресурсів роботом кінцева.

При цьому вважати, що пошукова машинамістить копію вихідних ресурсів Інтернету, було б неправильно. Повна інформація(Вихідні документи) зберігається аж ніяк не завжди, частіше зберігається лише її частина - так званий індексований список, або індекс, який набагато компактніше тексту документів і дозволяє швидше відповідати на пошукові запити.

Для побудови індексу вихідні дані перетворюються так, щоб обсяг бази був мінімальним, а пошук здійснювався дуже швидко та давав максимум корисної інформації. Пояснюючи, що таке індексований перелік , можна провести паралель із його паперовим аналогом - з так званим конкордансом, тобто. словником, в якому в алфавітному порядкуперераховані слова, що вживаються конкретним письменником, а також зазначені посилання на них та частота їх вживання у його творах.

Очевидно, що конкорданс (словник) набагато компактніший вихідних текстівтворів та знайти в ньому потрібне словонабагато простіше, ніж перегортати книгу в надії натрапити на потрібне слово.

Побудова індексу

Схема побудови індексу показано на рис. 4.23. Мережеві агенти, або роботи-павуки, "повзають" по Мережі, аналізують вміст Web-сторінок та збирають інформацію про те, що і на якій сторінці було виявлено.

Мал. 4.23.

При знаходженні чергової HTML-сторінки більшість пошукових систем фіксують слова, картинки, посилання та інші елементи (у різних пошукових системах по-різному), які у ній. Причому за відстеження слів сторінці фіксується як їх наявність, а й місцезнаходження, тобто. де ці слова знаходяться: у заголовку (title), підзаголовках (subtitles), у метатегах 1 Метатеги - це службові теги, що дозволяють розробникам розміщувати на Web-сторінки службову інформацію, у тому числі для того, щоб зорієнтувати пошукову машину.(meta tags) або в інших місцях. При цьому зазвичай фіксуються значущі слова, А спілки і вигуки типу "а", "але" і "або" ігноруються. Метатеги дозволяють власникам сторінок визначити ключові словата тематику, за якими індексується сторінка. Це може бути актуальним у випадку, коли ключові слова мають кілька значень. Метатеги можуть зорієнтувати пошукову систему при виборі з кількох значень слова єдино правильне. Однак метатеги працюють надійно лише у тому випадку, коли заповнюються чесними власниками сайту. Несумлінні власники Web-сайтів поміщають у свої метатеги найпопулярніші в Мережі слова, які не мають нічого спільного з темою сайту. В результаті відвідувачі потрапляють на сайти, що не запитуються, підвищуючи тим самим їх рейтинг. Саме тому багато сучасних пошукових систем або ігнорують метатеги, або вважають їх додатковими по відношенню до тексту сторінки. Кожен робот підтримує свій список ресурсів, покараних за несумлінну рекламу.

Очевидно, якщо ви шукаєте сайти за ключовим словом "собака", то пошуковий механізм повинен знайти не просто всі сторінки, де згадується слово "собака", а ті, де це слово має відношення до теми сайту. Для того, щоб визначити, якою мірою те чи інше слово має відношення до профілю деякої Web-сторінки, необхідно оцінити, наскільки часто воно зустрічається на сторінці, чи є за цим словом посилання на інші сторінки чи ні. Коротше кажучи, необхідно ранжувати знайдені на сторінці слова за ступенем важливості. Словам присвоюються вагові коефіцієнти залежно від того, скільки разів і де вони зустрічаються (у заголовку сторінки, на початку або наприкінці сторінки, на засланні, у метатезі тощо). Кожен пошуковий механізм має свій алгоритм привласнення вагових коефіцієнтів - це одна з причин, через яку пошукові машини по тому самому ключовому слову видають різні списки ресурсів. Оскільки сторінки постійно оновлюються, процес індексування повинен виконуватись постійно. Роботи-павуки подорожують посиланнями і формують файл, що містить індекс, який може бути досить великим. Для зменшення його розмірів вдаються до мінімізації обсягу інформації та стиснення файлу. Маючи кілька роботів, пошукова система може обробляти сотні сторінок за секунду. Сьогодні потужні пошукові машини зберігають сотні мільйонів сторінок та отримують десятки мільйонів запитів щодня.

При побудові індексу вирішується завдання зниження кількості дублікатів - завдання нетривіальна, враховуючи, що з коректного порівняння потрібно спочатку визначити кодування документа. Ще складнішим завданням є відділення дуже схожих документів (їх називають "майже дублікати"), наприклад таких, у яких відрізняється лише заголовок, а текст дублюється. Подібних документів у Мережі дуже багато – наприклад, хтось списав реферат і опублікував його на сайті за своїм підписом. Сучасні пошукові системи дозволяють вирішувати такі проблеми.

Пошукові машини (Search engine)

Пошукові машини дозволяють знайти WWW-документи, що стосуються заданих тематик або мають ключові слова або їх комбінації. На пошукових серверах відпрацьовуються два способи пошуку:

· По ієрархії понять;

· За ключовими словами.

Заповнення пошукових серверів відбувається автоматично або вручну. Пошуковий сервер зазвичай має посилання інші пошукові сервери, та передає їм запит на пошук за бажанням користувача.

Існує два типи пошукових машин.

1. "Повнотекстові" пошукові машини, які індексують кожне слово на веб-сторінці, за винятком стоп-слова.

2. "Абстрактні" пошукові машини, які створюють реферат кожної сторінки.

Для вебмайстрів повнотекстові машини корисніші, оскільки будь-яке слово, що зустрічається на веб-сторінці, піддається аналізу щодо його релевантності до запитів користувачів. Однак абстрактні машини можуть індексувати сторінки краще за повнотекстові. Це залежить від алгоритму отримання інформації, наприклад за частотою вживання однакових слів.

Основні характеристики пошукових машин.

1. Розмір пошукової машини визначається кількістю проіндексованих сторінок. Однак у кожний момент часу посилання, що видаються у відповідь на запити користувачів можуть бути різної давності. Причини, через які це відбувається:

· Деякі пошукові машини відразу індексують сторінку на запит користувача, а потім продовжують індексувати ще не проіндексовані сторінки.

· Інші частіше індексують найбільш популярні сторінкимережі.

2.Дата індексації. Деякі пошукові машини показують дату, коли документ був проіндексований. Це допомагає користувачу визначити, коли документ з'явився у мережі.

3.Глибина індексування показує скільки сторінок після зазначеної індексуватиме пошукова система. Більшість машин не мають обмежень щодо глибини індексування. Причини, через які можуть бути проіндексовані не всі сторінки:

· не правильне використаннякадрових структур.

· використання картки сайту без дублювання звичайними посиланнями

4.Робота з кадрами. Якщо пошуковий роботне вміє працювати з фреймовими структурами, то багато структур з фреймами будуть втрачені при індексуванні.

5. Частота посилань. Основні пошукові машини можуть визначити популярність документа, як часто на нього посилаються. Деякі машини на підставі таких даних роблять висновок варто або не варто індексувати документ.

6. Частота оновлення сервера. Якщо сервер оновлюється часто, то пошукова машина частіше його реіндексувати.

7.Контроль індексації. Показує, якими засобами можна керувати пошуковою машиною.

8. Перенаправлення. Деякі сайти перенаправляють відвідувачів з одного сервера на інший, і цей параметр показує, як це пов'язано зі знайденими документами.

9.Стоп-слова. Деякі пошукові машини не включають певні слова до своїх індексів або можуть не включати ці слова до запитів користувачів. Такими словами зазвичай вважаються прийменники або слова, що часто використовуються.

10.Spam-штрафи. Можливість блокування спаму.

11.Видалення старих даних. Параметр, що визначає дії вебмайстра під час закриття сервера або переміщення його на іншу адресу.

Приклад пошукових машин.

1. Альтавіста. Система відкрита у грудні 1995 року. Належить компанії DEC. З 1996 співпрацює з Yahoo. AltaVista - це найкращий варіантдля настроюваного пошуку . Проте сортування результатів за категорієюям не виконується і доводиться переглядати вручну надану інформацію. В AltaVista не передбачено коштів для отримання списків активних вузлів, новин або інших можливостей пошуку за змістом.

2.Excite Search. Запущена наприкінці 1995 року. У вересні 1996 - придбано WebCrawler. Цей вузол має потужне пошукове хутро.нізм, можливість автоматичного індивідуального налаштуванняінформації, що надається, а також складені кваліфікаціїним персоналом опису безлічі вузлів. Excite відрізняється від інших пошукових вузлів тим, щодозволяє вести пошук у службах новин та публікує огляди Web-сторінок. У пошуковому механізмі використовуються засобистандартного пошуку за ключовими словами та евристичніметоди пошуку за змістом. Завдяки такому поєднанню,можна знайти відповідні за змістом сторінки Web , якщо вони не містять вказаних користувачемключівих слів. Недоліком Excite є дещо хаотичний інтерфейс.

3.HotBot. Запущена в травні 1996 року. Належить компанії Wired. Базується на технології пошукової машини Berkeley Inktomi. HotBot - це база даних, що містить документи, індексовані за повному тексту, і одне з найбільш повних пошукових механізмів у Web . Його засоби пошуку за логічними умовами та засоби обмеження пошуку будь-якою областю або вузлом Webдопомагають користувачеві знайти необхідну інформацію, відсіваючи непотрібну. HotBot надає можливість вибрати необхідні параметри пошуку з списків, що розкриваються.

4.InfoSeek. Запущена раніше 1995 року, легко доступна. В даний час містить близько 50 мільйонів URL-адрес. У Infoseek добре продуманий інтерфейс, а також чудові пошукові засоби. Більшість відповідей на запити супроводжуються посиланнями «пов'язані теми», а після кожної відповіді наводяться посилання «аналогічні сторінки». База даних пошукового механізму сторінок індексованих за повним текстом. Відповіді впорядковуються за двома показниками: частотою зустрічей слово чи фраз на країни цях, а також метоположення слів або фраз на сторінках.Існує каталог Web Directory , що поділяється на 12 категорій із сотнями підкатегорій, для яких може бути здійснений пошук. Кожна сторінка каталогу містить перелік ре комендованих вузлів.

5. Lycos. Працює із травня 1994 року. Широко відома та використовується. До складу входить каталог з великою кількістю URL. та пошукова машина Point з технологією статистичного аналізувмісту сторінок, на відміну від індексування за повним текстом. Lycos містить новини, огляди вузлів, посилання на популярні вузли, карти міст, а також засоби для пошуку адрес, звуків і відео кліпів. Lycos впорядковує відповіді за рівнем соотвідповідності запиту за кількома критеріями, наприклад, за чиселлу пошукових термінів, що зустрілися в анотації до документу, інтервалу міжду словами в конкретній фразі документа, місцезнаходженнятермінів у документі.

6. WebCrawler. Відкрито 20 квітня 1994 року як проект Вашингтонського Університету. WebCrawler надає можливостісинтаксису для конкретизації запитів, а також великий вибір інструкцій вузлів при легкому інтерфейсі.

За кожною відповіддю WebCrawler перешкодить невелику піктограму з приблизною оцінкою відповідності запиту. Коме того виводить на екран сторінку з коротким резюме для кожної відповіді, її повним URL, точною оцінкою відповідності, а також використовує ця відповідь у запиті за зразком як його ключові слова.Графічний інтерфейс для налаштування запитів у Web Crawler немає. Н е допускається ікористування універсальними символами, а також неможливопризначити вагові коефіцієнти ключових слів.Немає можливості обмеження поля пошукупевною областю.

7. Yahoo. Найстаріший каталог Yahoo було запущено на початку 1994 року. Широко відомий, часто використовуємо та найбільш поважаємо. У березні 1996 року запущено каталог Yahooligans для дітей. З'являються регіональні та top-каталоги Yahoo. Yahoo базується на передплаті користувачів. Він може бути відправною точкою для будь-яких пошуків у Web, оскільки за допомогою його системи класифікації користувач знайде вузол з добре організованою інформацією. Вміст Web поділяється на 14 загальних категорій, перерахованих на домашній сторінці Yahoo!. Залежно від специфіки запиту користувача існує можливість або працювати з цими категоріями, щоб ознайомитися з підкатегоріями та списками вузлів, або шукати конкретні словата терміни по всій базі даних. Користувач може також обмежити пошук у межах будь-якого розділу чи підрозділу Yahoo!. Завдяки тому, що класифікація вузлів виконується людьми,не комп'ютером, якість посилань зазвичай дуже висока. Проте, уточнення пошуку у разі невдачі – складне завдання. До складу Yahoo ! входить пошуковий механізм AltaVista, тому в разі невдачі при пошуку на Yahoo! автоматично відбувається його повторення з використанням пошукового механізму AltaVista . Потім отримані результати передаються в Yahoo!. Yahoo! забезпечує можливість надсилати запити для пошуку в Usenet та у Fourl 1, щоб дізнатися адреси електронної пошти.

До російських пошуковим машинамвідносяться:

1. Rambler. Це російськомовна пошукова система. Розділи, перелічені на домашній сторінці Rambler, висвітлюють російськомовні Web-ресурси Існує класифікатор інформації. Зручною можливістюроботи є надання списку найбільш відвідуваних вузлів за кожною запропонованої тематики.

2. Апорт Пошук. Апорт входить до числа провідних пошукових систем, сертифікованих Microsoft як локальні пошуковісистеми для російської версії Microsoft Internet Explorer. Однією з переваг Апорту є англо-російський та російсько-англійський переклад режимі onlineзапитів та пошуків результату, завдяки чому можна вести пошук у російських ресурсах Internet навіть не знаючи російської мови. Більш тогоможна шукати інформацію цю, використовуючи висловлювання, навіть для пропозицій.Серед основних властивостей пошукової системиАпорт можна виділити такі:

Переклад запиту та результатів пошуку з російської на англійськуська мова і навпаки;

Автоматичну перевіркуорфографічних помилок запиту;

Інформативне виведення результатів пошуку для знайдених сайтів;

Можливість пошуку у будь-якій граматичній формі;

мова розширених запитів для професійного нальних користувачів.

До інших властивостей пошуку можна віднести підтримку п'яти основних кодових сторінок (різних операційнихсистем) для російської мови, технологію пошуку з використанняїм обмежень щодо URL та дату документів, реалізацію пошукуза заголовками, коментарями та підписомтут до картинок і т. д., збереження параметрів пошуку та визначеннячисла попередніх запитів користувача, об'єднання копій документа на різних серверах.

3. List. ru ( http://www.list.ru) За своєю реалізацією цей сервер має багатоспільного з англомовною системою Yahoo!. на головній сторінцісервера розташовані посилання на найпопулярніші пошукові категорії.

Список посилань на основні категорії каталогу займає центральну частину. Пошук в каталозі реалізований таким чином, що в результаті запиту можуть бути знайдені окремі сайти, так і рубрики. У разі успішного пошуку виводиться URL, назва, опис, ключові слова. Допускається використання мови запитів Яндекс. Зпосилання "Структуракаталогу" відкриває в окремому вікні повний рубрикатор каталогу. Реалізовано можливість переходу з рубрикатора до будь-якої обраної підкатегорії. Більш детальний тематичний поділпоточної рубрики наведено списком посилань.Каталог організований таким чином, що всі сайти, що містяться на нижніх рівняхструктури, представлені та в рубриках.Список ресурсів, що показується, упорядкований в алфавітному порядку, але можна вибирати сортування: по часумені додавання, по переходах, по порядку додавання до каталогу,популярності серед відвідувачів каталогу

4. Яndex. Програмні продуктисерії Яndex представляють набір засобів повнотекстової індексації та пошуку текстових даних з урахуванням морфології російської. Яndex включає модулі морфологічного аналізу та синтезу, індексації та пошуку, а також набір допоміжних модулів, таких як аналізатор документів, мови розмітки, конвертори форматів, павук.

Алгоритми морфологічного аналізу та синтезу, засновані на базовому словнику, вміють нормалізувати слова, тобто знаходити їхню початкову форму, а також будувати гіпотези для слів, що не містяться в базовому словнику. Система повнотекстового індексуваннядозволяє створювати компактний індекс та швидко здійснювати пошук з урахуванням логічних операторів.

Яndex призначений для роботи з текстами в локальній та глобальної мережі, а також може бути підключений як модуль до інших систем.

Відомо, що користувачі, які потрапляють на сайт із пошукових машин, дають до сорока відсотків трафіку. Тому подбати про правильне індексування вашого сайту в пошукових машинах дуже корисно. Під "правильним індексуванням" я маю на увазі, що повинна бути дотримана релевантність запиту та змісту сайту, тобто, кажучи простим і доступною мовою, зміст сайту повинен відповідати запиту (деякі "майстри" зловживають наборами ключових слів, що не відповідають реальності. Наприклад, коли моя сестра готувала до випуску компакт-диск з локальними копіями перших рівнів Web-сторінок, слово "х#й" і що з ним зустрічалося на серверах дуже солідних компаній, що нічого спільного не мають з подібного роду лексикою:-).

Altavista
Апорт-пошук
Медіалінгва
Рамблер
РусІнфоІл
Російський Експрес
ТІЛА-пошук
HotBot
Яndex

Чому я перерахував саме ці пошукові машини? Тому що саме ними, за моїми спостереженнями, користуються російськомовні нетизен (netizen). Що таке "мої спостереження"? Це аналіз логів доступу до мого сервера http://citforum.ru/ , точніше тієїчастини логів, де збирається інформація з HTTP_REFERER, тобто. адреси (URLs), на яких клієнти скористалися посиланням на якусь сторінку мого сервера.

Який рейтинг перелічених мною машин на практиці, якими машинами користуються більше, якими менше?

На першому місці з колосальним відривом від решти йде Altavista. Ця пошукова машина лідирувала ще до того, як там з'явився пошук з різних мов (у тому числі - за російськомовними документами). Ну воно і зрозуміло - прекрасний, доступний сервер, давно працює (з початку 1996 року), величезна базадокументів (понад 50 мільйонів адрес). Слід також врахувати, що російськомовні користувачі знаходяться не тільки в Росії, а й у Болгарії, Чехії та Словаччині, у Польщі, Ізраїлі, Німеччині, не кажучи вже про колишні республіки СРСР - Україна, Білорусь... (Особливо хочу сказати про прибалтів: це вони при зустрічі на вулицях якогось Каунаса чи Таллінна не знають російської мови, а перед монітором, особливо якщо дуже потрібно, дуже навіть знають:-)) Так от усім цим користувачам зручніше користуватися Альтавістою, а не нашими вітчизняними машинами - ближче, все-таки...

Наступна за популярністю пошукова машина, як не дивно, наймолодша в Росії – Яndex. Як мені казав Алекей Амілющенко (компанія Comptek) на сьогоднішній день там спостерігається в середньому 72 000 запитів на добу і є тенденція +10% на тиждень (дані від 7.04.98). Мені здається, Яndex є найбільш перспективною російською пошуковою машиною. З комптеківською системою розбору "великої і могутньої" російської мови Яndex цілком може вийти переможцем у конкуренції з другим китом у цій сфері - Рамблером.

Рамблер – третя серйозна пошукова машина для російськомовних користувачів. Головне, що мені в ній не подобається, то це ігнорування вмісту конструкції . (Це я не придумав, це сказав Дмитро Крюков із компанії Stack Ltd.) Напевно, саме через відмову враховувати ключові слова, у результатах запитів видається такий дивний набір посилань. Другий недолік суто інтерфейсного характеру - результати постійно видаються у кодуванні КОІ, незалежно від цього, що обрано користувачем перед цим. Третій недолік: спайдер Рамблера працює по протоколу HTTP 0.9, що зумовлює помилок індексування, тобто. якщо на одній IP-адресі живуть декілька віртуальних серверів, Рамблер бачить лише перший, а решта вважає просто синонімами. Ну та гаразд, сподіватимемося, що це незабаром виправлять.

Ну і на останньому місці за моїм рейтингом йдуть Апорт-Пошук, який дуже дивно індексує сервери, РусІнфОіл, який регулярно закривається на реконструкції і ТІЛА-Пошук - красивий і майже марний прибамбас для сервера www.dux.ru.

Ви запитаєте: а в списку були ще HotBot та метапошукова машина Слідпит компанії "Медіалінгва"? Я їх не забув, просто HotBot незрозуміло чому залишає в моїх логах натовп записів, що не може бути випадковими зальотами іноземців, що не розуміють російської мови (з інших імпортних машин таких зальотів набагато менше), а "Слідопит" я ще недостатньо серйозно вивчив.

А навіщо пошукові машини для розкрутки сайту?

Все дуже просто, як я вже казав, пошукові машини можуть дати до сорока відсотків трафіку до сайту. Щоб це відбувалося, необхідно, щоб Ваш сайт був правильно проіндексований, а для цього необхідно знати, як це робиться.

А робиться це наступним чином: або робот пошукової машини сам добирається до вашого сайту, або Ви самі вказуєте сайт у відповідному інтерфейсі (AddUrl), який є в будь-якій пошуковій машині, що поважає себе. Перший варіант страждає затягнутістю (поки що робот дістанеться, може через день, може через рік: Internet великий). Другий - вимагає витратити деякий час (різноманітний софт для автоматичної реєстраціїВашого сайту в хмарі пошукових машин нам нічого не дає - машини імпортні).

Щоб усе сталося у кращому виглядіпотрібно:

на сайті має бути хоч якийсь текст. Картинки та тест на них пошукові машини ігнорують. Щоправда, можна продублювати текст у атрибут altтага img
У кожному документі сайту ОБОВ'ЯЗКОВО повинні бути осмислений заголовок (title), ключові слова (keywords) та короткий опис (description). Це лише пишуть, що пошукові машини – повнотекстові, насправді це не так.
Виготовлення файлу robots.txt (особливо якщо у вас є власний сервертипу www.name.ru).
Прописка вручну в кожній пошуковій машині, що цікавить Вас, і наступний контроль індексування Вашого сайту.

Ви вже зареєстрували першу сторінку свого сайту в різних пошукових машинах.

Ви думаєте вже все у підрядці? Як би не так. Якщо посилання на Ваш сайт у відповіді пошукової машини виводиться на другому екрані - "це так само погано, як якщо б посилання взагалі не було" (Danny Sullivan, searchenginewatch.com)

Інакше висловлюючись, просто вказати сторінку в AddURL недостатньо. Необхідно заздалегідь підготувати документ так, щоб на відповідні запити до пошукової машини в її відповіді на запит посилання на Ваш документ знаходилася якщо не перша, то хоча б у першій десятці посилань (а краще, якщо в цій десятці було кілька посилань на Ваші документи): ). Що означає "підготувати"? Це чисто технічне питаннянічого надприродного. Просто в секції HEAD кожного документа Вашого сайту варто вказати "розмовляючий" Title, KeyWords, Description та Robots.

Title:заголовок документа. Хороший осмислений заголовок може змусити користувача з багатьох інших вибрати саме Ваше посилання. Найчастіше бачиш приблизно такі заголовки: "Зміст" - чого, навіщо - незрозуміло, немає бажання перевіряти. Інший випадок: на всіх сторінках сайту як заголовок - "Ласкаво просимо до компанії..." - теж не надто привабливо перевіряти всі таким чином озаглавлені документи. Уявіть собі, що вибрано режим пошуку за заголовками, без опису кожного документа.

KeyWords:ключові слова. Саме вміст цього контейнера впливає на релевантність документа запиту пошуку.

Скільки не кажуть, що пошукові машини - повнотекстові, це не зовсім вірно, а ось вміст цього контейнера точно потрапить до індексу пошукової машини. На жаль, творці однієї з найбільших вітчизняних пошукових машин Rambler не хочуть відпрацьовувати цей контейнер. А даремно.

у полі content не повинно бути знаків кінця рядка, лапок та інших спеціальних символів, регістр символів ролі не відіграє
не рекомендується повторювати одні й ті самі ключові слова кілька разів, це може бути сприйнято як spam і сторінка ризикує бути видаленою з індексу пошукової машини.
не варто робити однакові keywords для різних сторінокВаш сайт. Це, звичайно, простіше, але вміст самих документів різний. Якщо дуже хочеться автоматизувати цей процес, можна написати програму, яка б прописувала в це поле всі виділені блоки документа, наприклад, що стоїть між тагами H, I і B.
якщо рядок в content занадто довгий, можна зробити ще кілька аналогічних конструкцій.
загалом кажучи, загальний обсяг ключових слів одного документа може досягати до 50% обсягу цього документа.

Description: короткий описдокумента. Досить корисний контейнер, його вміст використовується як короткий опис релевантних документів у відповіді сучасних пошукових машин. Якщо цього контейнера немає, то видаються кілька рядків з початку документа. Відповідно, не рідкісна катина, коли на початку документа розташований JavaScript, і замість нормального опису видається абракадабра у вигляді шматка скрипта.

у полі content не повинно бути знаків кінця рядка, лапок та інших спеціальних символів.
бажано, щоб тут була осмислена анотація документа з пари-трійки людських пропозицій, щоб користувач пошукової машини, крім заголовка, зміг зрозуміти зміст документа.
на жаль, вітчизняні пошукові машини поки що не вміють працювати з цим контейнером, хоча бояться, що незабаром навчаться.

Чи можна керувати діями пошукових машин?

Можна і навіть потрібно! Першу дію, яку потрібно зробити, це написати файл robots.txt і покласти його в корінь Вашого сервера. Цей файл популярно пояснює роботу пошукової машини, що треба індексувати, а що не варто. Наприклад, навіщо індексувати службові файли типу статистичних звітів? Чи результати роботи скриптів? Більш того, багато "розумних" машин просто не стануть індексувати сервери, не знайшовши robots.txt. До речі, у цьому файлі можна вказати різні маски індексування різних пошукових машин.

Докладніше про це можна прочитати в моєму перекладі "Standard for Robots Exclusion". Друга дія: забезпечити сторінки сайту МЕТА-тагами Robots. Це гнучкіший засіб управління індексацією, ніж robots.txt. Зокрема, у цьому тазі можна наказати роботу пошукової машини не йти за посиланнями на чужі сервери, наприклад, у документах зі списками посилань. Формат цього неподобства такий:

robot_terms - це розділений комами список наступних ключових слів (великі чи малі символи ролі не грають): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW. NONE каже всім роботам ігнорувати цю сторінку під час індексації (еквівалентно одночасного використанняключових слів NOINDEX, NOFOLLOW). ALL дозволяє індексувати цю сторінку та всі посилання з неї (еквівалентно одночасному використанню ключових слів INDEX, FOLLOW). INDEX дозволяє індексувати цю сторінку NOINDEX не дозволяє індексувати цю сторінку FOLLOW дозволяє індексувати всі посилання з цієї сторінки NOFOLLOW не дозволяє індексувати посилання з цієї сторінки

Якщо цей мета-таг пропущено або не вказано robot_terms, то за замовчуванням пошуковий робот надходить, якби були вказані robot_terms=INDEX, FOLLOW (тобто ALL). Якщо в CONTENT виявлено ключове слово ALL, то робот надходить відповідно, ігноруючи можливо вказані інші ключові слова.

Якщо robot_terms містить тільки NOINDEX, посилання з цієї сторінки не індексуються. Якщо robot_terms містить тільки NOFOLLOW, сторінка індексується, а посилання, відповідно, ігноруються.

Контролює поточний стан Ваших документів в індексі пошукових машин.

Ну добре, Ви прочитали все, що було вищим і так і зробили. Що ж далі? А далі буде довга, нудна і, головне, регулярна перевірка щодо того, як справи. Як не сумно, а доведеться приділяти цьому увагу хоча б тому, що документи часом зникають із пошукових машин. Чому? Знати б... Отже, у хороших пошукових машинах можна подивитися які документи та скільки їх у поточний часзнаходиться у індексі. Ось як це робиться:

Alta Vista
У цій пошуковій машині перевірку статусу URL здійснити досить просто – достатньо набрати в рядку запиту:

url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

У першому випадку буде видано всі проіндексовані сторінки сервера. У другому – лише сторінки Windows-кодування. У третьому - чи є в індексі AltaVista файл index.shtml із зазначеної директорії

Excite
Так само просто як і AltaVista перевіряється статус URL в пошуковій машині Excite. Достатньо набрати URL. Наприклад:

HotBot
Дещо по-іншому перевіряється статус URL у пошуковій машині HotBot. Це робиться так:

Введіть URL у поле запиту
Змініть опцію "all of the words" на "links to this URL"

Infoseek
У пошуковій машині Infoseek для перевірки статусу URL існує окремий інтерфейс із цілим набором налаштувань:

WebCrawler
WebCrawler надає можливість перевірити статус URL на сторінці:

Rambler
У цій пошуковій машині статус URL можна перевірити двома способами.

У розділі "Розширений пошук" шляхом вказівки імені сервера як маски в одній з опційВерхні 100 слів на Rambler

Пошукові машини (Search engine)

· По ієрархії понять;

· За ключовими словами.

Заповнення пошукових серверів відбувається автоматично або вручну. Пошуковий сервер зазвичай має посилання інші пошукові сервери, і передає їм запит на пошук за бажанням користувача.

Існує два типи пошукових машин.

1. "Повнотекстові" пошукові машини, які індексують кожне слово на веб-сторінці, за винятком стоп-слова.

2. "Абстрактні" пошукові машини, які створюють реферат кожної сторінки.

Основні характеристики пошукових машин.

· Інші частіше індексують найпопулярніші сторінки мережі.

· Не правильне використання фреймових структур.

· використання картки сайту без дублювання звичайними посиланнями

4.Робота з кадрами. Якщо пошуковий робот не вміє працювати з фреймовими структурами, то багато структур з фреймами будуть втрачені при індексуванні.

6. Частота оновлення сервера. Якщо сервер оновлюється часто, то пошукова машина частіше його реіндексувати.

7.Контроль індексації. Показує, якими засобами можна керувати пошуковою машиною.

10.Spam-штрафи. Можливість блокування спаму.

Приклад пошукових машин.

1. Альтавіста. Система відкрита у грудні 1995 року. Належить компанії DEC. З 1996 співпрацює з Yahoo. AltaVista - це найкращий варіант для налаштованого пошуку . Проте сортування результатів за категорієюям не виконується і доводиться переглядати вручну надану інформацію. В AltaVista не передбачено коштів для отримання списків активних вузлів, новин або інших можливостей пошуку за змістом.

2.Excite Search. Запущена наприкінці 1995 року. У вересні 1996 - придбано WebCrawler. Цей вузол має потужне пошукове хутро.нізм, можливість автоматичного індивідуального налаштуванняінформації, що надається, а також складені кваліфікаціїним персоналом опису безлічі вузлів. Excite відрізняється від інших пошукових вузлів тим, щодозволяє вести пошук у службах новин та публікує огляди Web-сторінок. У пошуковому механізмі використовуються засобистандартного пошуку за ключовими словами та евристичніметоди пошуку за змістом. Завдяки такому поєднанню,можна знайти відповідні за змістом сторінки Web , якщо вони не містять зазначених користувачем ключівих слів. Недоліком Excite є дещо хаотичний інтерфейс.

3.HotBot. Запущена в травні 1996 року. Належить компанії Wired. Базується на технології пошукової машини Berkeley Inktomi. HotBot - це база даних, що містить документи, індексовані за повним текстом, і один з найповніших пошукових механізмів у Web. Його засоби пошуку за логічними умовами та засоби обмеження пошуку будь-якою областю або вузлом Web допомагають користувачеві знайти необхідну інформацію, відсіваючи непотрібну. HotBot надає можливість вибрати необхідні параметри пошуку з списків, що розкриваються.

5. Lycos. Працює із травня 1994 року. Широко відома та використовується. До складу входить каталог з великою кількістю URL. та пошукова машина Point з технологією статистичного аналізу вмісту сторінок, на відміну від індексування за повним текстом. Lycos містить новини, огляди вузлів, посилання на популярні вузли, карти міст, а також засоби для пошуку адрес, звуків і відео кліпів. Lycos впорядковує відповіді за рівнем соотвідповідності запиту за кількома критеріями, наприклад, за чиселлу пошукових термінів, що зустрілися в анотації до документу, інтервалу міжду словами в конкретній фразі документа, місцезнаходженнятермінів у документі.

7. Yahoo. Найстаріший каталог Yahoo було запущено на початку 1994 року. Широко відомий, часто використовуємо та найбільш поважаємо. У березні 1996 року запущено каталог Yahooligans для дітей. З'являються регіональні та top-каталоги Yahoo. Yahoo базується на передплаті користувачів. Він може бути відправною точкою для будь-яких пошуків у Web, оскільки за допомогою його системи класифікації користувач знайде вузол з добре організованою інформацією. Вміст Web поділяється на 14 загальних категорій, перерахованих на домашній сторінці Yahoo!. Залежно від специфіки запиту користувача існує можливість або працювати з цими категоріями, щоб ознайомитися з підкатегоріями та списками вузлів, або шукати конкретні слова та терміни по всій базі даних. Користувач може також обмежити пошук у межах будь-якого розділу чи підрозділу Yahoo!. Завдяки тому, що класифікація вузлів виконується людьми,не комп'ютером, якість посилань зазвичай дуже висока. Проте, уточнення пошуку у разі невдачі – складне завдання. До складу Yahoo ! входить пошуковий механізм AltaVista, тому в разі невдачі при пошуку на Yahoo! автоматично відбувається його повторення з використанням пошукового механізму AltaVista . Потім отримані результати передаються в Yahoo!. Yahoo! забезпечує можливість надсилати запити для пошуку в Usenet та Fourl 1, щоб дізнатися адреси електронної пошти.

До російських пошукових машин відносяться:

1. Rambler. Це російськомовна пошукова система. Розділи, перелічені на домашній сторінці Rambler, висвітлюють російськомовні Web-ресурси. Існує класифікатор інформації. Зручною можливістю роботи є надання списку найвідвідуваніших вузлів за кожною запропонованої тематики.

2. Апорт Пошук. Апорт входить до числа провідних пошукових систем, сертифікованих Microsoft як локальні пошуковісистеми для російської версії Microsoft Internet Explorer. Однією з переваг Апорту є англо-російський та російсько-англійський переклад у режимі online запитів та пошуків результату, завдяки чому можна вести пошук у російських ресурсах Internet навіть не знаючи російської мови. Більш тогоможна шукати інформацію цю, використовуючи висловлювання, навіть для пропозицій.Серед основних властивостей пошукової системи Апорт можна виділити такі:

Переклад запиту та результатів пошуку з російської на англійськуська мова і навпаки;

Автоматичну перевірку орфографічних помилок запиту;

Інформативне виведення результатів пошуку для знайдених сайтів;

Можливість пошуку у будь-якій граматичній формі;

мова розширених запитів для професійного нальних користувачів.

3. List. ru ( http://www.list.ru) За своєю реалізацією цей сервер має багатоспільного з англомовною системою Yahoo!. На головній сторінці сервера розміщені посилання на найпопулярніші пошукові категорії.

Список посилань на основні категорії каталогу займає центральну частину. Пошук в каталозі реалізований таким чином, що в результаті запиту можуть бути знайдені окремі сайти, так і рубрики. У разі успішного пошуку виводиться URL, назва, опис, ключові слова. Допускається використання мови запитів Яндекс. Зпосилання "Структуракаталогу" відкриває в окремому вікні повний рубрикатор каталогу. Реалізовано можливість переходу з рубрикатора до будь-якої обраної підкатегорії. Більш детальний тематичний поділпоточної рубрики наведено списком посилань.Каталог організований таким чином, що всі сайти, що містяться на нижніх рівнях структури, представлені та в рубриках.Список ресурсів, що показується, упорядкований в алфавітному порядку, але можна вибирати сортування: по часумені додавання, по переходах, по порядку додавання до каталогу,популярності серед відвідувачів каталогу

4. Яndex. Програмні продукти серії Яndex являють собою набір засобів повнотекстової індексації та пошуку текстових даних з урахуванням морфології російської мови. Яndex включає модулі морфологічного аналізу та синтезу, індексації та пошуку, а також набір допоміжних модулів, таких як аналізатор документів, мови розмітки, конвертори форматів, павук.

Алгоритми морфологічного аналізу та синтезу, засновані на базовому словнику, вміють нормалізувати слова, тобто знаходити їхню початкову форму, а також будувати гіпотези для слів, що не містяться в базовому словнику. Система повнотекстового індексування дозволяє створювати компактний індекс та швидко здійснювати пошук з урахуванням логічних операторів.

Яndex призначений для роботи з текстами в локальній та глобальній мережі, а також може бути підключений як модуль до інших систем.