Что такое поисковые машины. Приборы и материалы. Контроль за текущим состоянием Ваших документов в индексе поисковых машин

Классификация

По области поиска (условно)

Локальные

Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети .

Глобальные

Предназначены для поиска информации по всей сети Интернет либо по значительной её части. Представителями таких поисковых машин являются поисковые системы Google , Яндекс и т. п. Поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др. При этом файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например.html, .htm, .txt, .doc, .rtf…), так и графического (.gif, .png, .svg…) или мультимедийного (видео и звук). Пока наиболее распространённым является именно поиск по текстовым документам.

Поисковый запрос

Исходной информацией для поиска является поисковый запрос .

Функции

Поисковые машины выполняют несколько функций:

Поиск ссылок

Поиск ссылок на страницы и другие документы сайтов.

Автоматический

Ручной режим

Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов

Индексация документов сайтов

Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины

Поиск по базе данных проиндексированных документов

Может состоять из нескольких этапов

Нахождение документов, соответствующих поисковому запросу

Ранжирование документов в соответствии с их релевантностью поисковым запросам

Кластеризация документов

Примечания

См. также


Wikimedia Foundation . 2010 .

Смотреть что такое "Поисковая машина" в других словарях:

    Поисковая машина - (searching engine): веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex)... Источник: ИНТЕРНЕТ РЕСУРСЫ. ТРЕБОВАНИЯ ДОСТУПНОСТИ ДЛЯ ИНВАЛИДОВ ПО ЗРЕНИЮ. ГОСТ Р 52872 2007 (утв. Приказом Ростехрегулирования от… … Официальная терминология

    поисковая машина - Веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). [ГОСТ Р 52872 2007] Тематики информационные технологии в целом EN searching engine … Справочник технического переводчика

    В Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь

    В Internet поисковая машина, которая: отсылает запрос на поиск в несколько поисковых систем; и генерирует из полученных ответов сводку (на одной странице). По английски: Meta search engine Синонимы: Мета гусеница Синонимы английские: Metacrawler… … Финансовый словарь

    Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения. Поисковая система программно аппаратный комплекс с веб интерфейсом, предоставляющий возможност … Википедия

    Поисковая система - – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ - Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия

Книги

  • К вопросу об эффективности поиска конкретики в Интернете , И. А. Семёнов. Согласно исследованиям Berkley, объём информации в Интернете по состоянию на 2003 год оценивался в 258, 85 терабайта, и это только общедоступные данные. По данным Internet World Stats, рост… электронная книга

Поисковые машины (Search engine)

Поисковые машины позволяют найти WWW-документы, относящиеся к заданным тематикам или снабженные ключевыми словами или их комбинациями. На поисковых серверах отрабатываются два способа поиска:

· По иерархии понятий;

· По ключевым словам.

Заполнение поисковых серверов происходит автоматически или вручную. Поисковый сервер обычно имеет ссылки на остальные поисковые сервера, и передает им запрос на поиск по желанию пользователя.

Существует два типа поисковых машин.

1."Полнотекстовые" поисковые машины, которые индексируют каждое слово на веб-странице, исключая стоп-слова.

2."Абстрактные" поисковые машины, которые создают реферат каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако абстрактные машины могут индексировать страницы лучше полнотекстовых. Это зависит от алгоритма извлечения информации, например по частоте употребления одинаковых слов.

Основные характеристики поисковых машин.

1.Размер поисковой машины определяется количеством проиндексированных страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть различной давности. Причины, по которым это происходит:

· некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы.

· другие чаще индексируют наиболее популярные страницы сети.

2.Дата индексации. Некоторые поисковые машины показывают дату, когда был проиндексирован документ. Это помогает пользователю определить, когда документ появился в сети.

3.Глубина индексирования показывает сколько страниц после указанной будет индексировать поисковая система. Большинство машин не имеют ограничений по глубине индексирования. Причины, по которым могут быть проиндексированы не все страницы:

· не правильное использование фреймовых структур.

· использование карты сайта без дублирования обычными ссылками

4.Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

5.Частота ссылок. Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит индексировать документ.

6.Частота обновления сервера. Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать.

7.Контроль индексации. Показывает, какими средствами можно управлять поисковой машиной.

8.Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает как это будет связано с найденными документами.

9.Стоп-слова. Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или часто использующиеся слова.

10.Spam-штрафы. Возможность блокирования спама.

11.Удаление старых данных. Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес.

Примеры поисковых машин.

1. Altavista. Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo. AltaVista - это наилучший вариант для настраиваемого поис­ка. Однако сортировка результатов по категори­ ям не выполняется и приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для получения списков активных узлов, новостей или других возможностей поиска по содержанию.

2.Excite Search. Запущена в конце 1995 года. В сентябре 1996 - приобретена WebCrawler. Данный узел имеет мощный поисковый меха­ низм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифици­ рованным персоналом описания множества узлов. Excite отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web -страниц. В поисковом механизме используются средства стандартного поиска по ключевым словам и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти подходящие по смыслу страницы Web , если они не содержат указанных пользователем ключе­ вых слов. Недостатком Excite является несколько хаотичный интерфейс.

3.HotBot. Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi. HotBot - это база данных, содержащая документы, индексированные по полному тексту, и один из наиболее полных поисковых механизмов в Web . Его средства поиска по логическим ус­ловиям и средства ограничения поиска любой областью или узлом Web по­могают пользователю найти необходимую информацию, отсеи­вая ненужную. HotBot предоставляет возможность выбрать необходимые параметры поиска из раскрываю­щихся списков.

4.InfoSeek. Запущена раньше 1995 года, легко доступна. В настоящее время содержит порядка 50 миллионов URL. У Infoseek хорошо продуманный интерфейс, а так­же отличные поисковые средства. Большинство ответов на запросы сопровождается ссылками «связанные темы», а после каждого ответа приводятся ссылки «аналогич­ные страницы». База данных поискового механизма страниц, индексированных по полному тексту. Ответы упорядочи­ваются по двум показателям: частоте встреч слово или фраз на страни­цах, а также метоположению слов или фраз на страницах. Существует каталог Web Directory , подразделяющийся на 12 категорий с сот­нями подкатегорий, для которых может быть выполнен поиск. Каждая страница каталога содержит перечень ре­комендуемых узлов.

5. Lycos. Работает с мая 1994 года. Широко известна и используема. В состав входит каталог с огромным числом URL . и поисковая машина Point с технологией статистического анализа содержимого страниц, в отличии от индексирования по полно­му тексту. Lycos содержит новости, обзоры узлов, ссылки на популярные узлы, карты городов, а так­же средства для поиска адресов, изо­бражений и звуковых и видео клипов. Lycos упорядочивает ответы по степени соот­ ветствия запросу по нескольким критериям, например, по чис­ лу поисковых терминов, встретившихся в аннотации к доку­ менту, интервалу меж­ ду словами в конкретной фразе документа, местоположению терминов в документе.

6. WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского Университета. WebCrawler предоставляет возможности синтаксиса для конкретизации запросов, а также большой выбор аннотаций узлов при несложном интерфейсе.


Следом за каждым ответом WebCrawler помеша­ет небольшую пиктограмму с приблизительной оценкой соответ­ствия запросу. Коме того выводит на экран стра­ницу с кратким резюме для каждого ответа, его полным URL , точной оценкой соответствия, а также использует этот ответ в запросе по образцу в качестве его ключевых слов. Графического интерфейса для настройки запросов в Web Crawler нет. Н е допускается ис­ пользование универсальных символов, а также невозможно назначить весовые коэффициенты ключевым словам. Не существует возможности ограничения поля поиска определенной областью.

7. Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен каталог Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на подписке пользователей. Он может служить от­правной точкой для любых поисков в Web , поскольку с помощью его системы классификации пользователь найдет узел с хорошо организованной информацией. Содержимое Web подразделяется на 14 общих категорий, пере­численных на домашней странице Yahoo !. В зависимости от специ­фики запроса пользователя существует возможность или работать с этими категориями, чтобы ознакомиться с подкатегориями и спи­сками узлов, или искать конкретные слова и термины по всей базе данных. Пользователь может также ограничить поиск в пределах любого раздела или подраздела Yahoo !. Благодаря тому, что классификация узлов выполняется людьми, а не компьютером, качество ссылок обычно очень высокое. Однако, уточнение поиска в случае неудачи – сложная задача. В состав Yahoo ! входит поисковый механизм AltaVista , поэтому в слу­ чае неудачи при поиске на Yahoo ! автоматически происходит его повторение с использованием поискового механизма AltaVista . Затем полученные результаты передаются в Yahoo !. Yahoo ! обеспечивает возможность отправлять запросы для поиска в Usenet и в Fourl 1, чтобы узнать адреса электронной почты.

К российским поисковым машинам относятся:

1. Rambler.Это русскоязычная поисковая система. Разделы, перечисленные на домашней странице Rambler , освещают русскоязычные Web -ресурсы. Существует классификатор информации. Удобной возможностью работы являет­ся предоставление списка наиболее посещаемых узлов по каждой предложенной тематике.

2. Апорт Поиск. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer . Одним из преимуществ Апорта является англо-русский и русско-английский перевод в режиме online запросов и поисков результата, благодаря чему можно вести поиск в русских ресурсах Internet , даже не зная русского языка. Более того можно искать информа­цию, используя выражения, даже для предложений. Среди основных свойств поисковой системы Апорт можно вы­ делить следующие:

Перевод запроса и результатов поиска с русского на англий­ ский язык и наоборот;

Автоматическую проверку орфографических ошибок за­проса;

Информативный вывод результатов поиска для найден­ных сайтов;

Возможность поиска в любой грамматической форме;


язык расширенных запросов для профессио­нальных пользователей.

К другим свойствам поиска можно отнести под­ держку пяти основных кодовых страниц (разных операционных систем) для русского языка, технологию поиска с использовани ем ограничений по URL и дате документов, реализацию поиска по заголовкам, комментариям и подпи­ сям к картинкам и т. д., сохранение параметров поиска и опреде ленного числа предыдущих запросов пользователя, объединение копий документа, находящихся на разных серверах.

3. List . ru (http://www.list.ru ) По своей реализации этот сервер имеет много общего с англоязычной системой Yahoo !. На главной странице сервера располо­жены ссылки на наиболее популярные поисковые категории.


Список ссылок на основные категории ката­лога занимает центральную часть. Поиск в каталоге реализован таким образом, что в резуль­тате запроса могут быть найдены как отдельные сайты, так и рубрики. В случае успешного поиска выводится URL , назва­ние, описание, ключевые слова. Допускается использование языка запросов Яндекс. С сылка "Структура каталога" открывает в отдельном окне полный рубрикатор ката­ лога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок. Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях струк­ туры, представлены и в рубриках. Показываемый список ресурсов упорядочен в алфавит­ном порядке, но можно выбирать сортировку: по вре­ мени добавления, по переходам, по порядку добавления в каталог, по популярности среди посетителей каталога.

4. Яndex. Программные продукты серии Яndex представляют набор средств полнотекстовой индексации и поиска текстовых данных с учетом морфологии русского языка. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, паук.

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами в локальной и в глобальной сети, а также может быть подключен как модуль к другим системам.

Поисковые машины (Search engine)

Поисковые машины позволяют найти WWW-документы, относящиеся к заданным тематикам или снабженные ключевыми словами или их комбинациями. На поисковых серверах отрабатываются два способа поиска:

· По иерархии понятий;

· По ключевым словам.

Заполнение поисковых серверов происходит автоматически или вручную. Поисковый сервер обычно имеет ссылки на остальные поисковые сервера, и передает им запрос на поиск по желанию пользователя.

Существует два типа поисковых машин.

1."Полнотекстовые" поисковые машины, которые индексируют каждое слово на веб-странице, исключая стоп-слова.

2."Абстрактные" поисковые машины, которые создают реферат каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако абстрактные машины могут индексировать страницы лучше полнотекстовых. Это зависит от алгоритма извлечения информации, например по частоте употребления одинаковых слов.

Основные характеристики поисковых машин.

1.Размер поисковой машины определяется количеством проиндексированных страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть различной давности. Причины, по которым это происходит:

· некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы.

· другие чаще индексируют наиболее популярные страницы сети.

2.Дата индексации. Некоторые поисковые машины показывают дату, когда был проиндексирован документ. Это помогает пользователю определить, когда документ появился в сети.

3.Глубина индексирования показывает сколько страниц после указанной будет индексировать поисковая система. Большинство машин не имеют ограничений по глубине индексирования. Причины, по которым могут быть проиндексированы не все страницы:

· не правильное использование фреймовых структур.

· использование карты сайта без дублирования обычными ссылками

4.Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

5.Частота ссылок. Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит индексировать документ.

6.Частота обновления сервера. Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать.

7.Контроль индексации. Показывает, какими средствами можно управлять поисковой машиной.

8.Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает как это будет связано с найденными документами.

9.Стоп-слова. Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или часто использующиеся слова.

10.Spam-штрафы. Возможность блокирования спама.

11.Удаление старых данных. Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес.

Примеры поисковых машин.

1. Altavista. Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo. AltaVista - это наилучший вариант для настраиваемого поис­ка. Однако сортировка результатов по категори­ ям не выполняется и приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для получения списков активных узлов, новостей или других возможностей поиска по содержанию.

2.Excite Search. Запущена в конце 1995 года. В сентябре 1996 - приобретена WebCrawler. Данный узел имеет мощный поисковый меха­ низм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифици­ рованным персоналом описания множества узлов. Excite отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web -страниц. В поисковом механизме используются средства стандартного поиска по ключевым словам и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти подходящие по смыслу страницы Web , если они не содержат указанных пользователем ключе­ вых слов. Недостатком Excite является несколько хаотичный интерфейс.

3.HotBot. Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi. HotBot - это база данных, содержащая документы, индексированные по полному тексту, и один из наиболее полных поисковых механизмов в Web . Его средства поиска по логическим ус­ловиям и средства ограничения поиска любой областью или узлом Web по­могают пользователю найти необходимую информацию, отсеи­вая ненужную. HotBot предоставляет возможность выбрать необходимые параметры поиска из раскрываю­щихся списков.

4.InfoSeek. Запущена раньше 1995 года, легко доступна. В настоящее время содержит порядка 50 миллионов URL. У Infoseek хорошо продуманный интерфейс, а так­же отличные поисковые средства. Большинство ответов на запросы сопровождается ссылками «связанные темы», а после каждого ответа приводятся ссылки «аналогич­ные страницы». База данных поискового механизма страниц, индексированных по полному тексту. Ответы упорядочи­ваются по двум показателям: частоте встреч слово или фраз на страни­цах, а также метоположению слов или фраз на страницах. Существует каталог Web Directory , подразделяющийся на 12 категорий с сот­нями подкатегорий, для которых может быть выполнен поиск. Каждая страница каталога содержит перечень ре­комендуемых узлов.

5. Lycos. Работает с мая 1994 года. Широко известна и используема. В состав входит каталог с огромным числом URL . и поисковая машина Point с технологией статистического анализа содержимого страниц, в отличии от индексирования по полно­му тексту. Lycos содержит новости, обзоры узлов, ссылки на популярные узлы, карты городов, а так­же средства для поиска адресов, изо­бражений и звуковых и видео клипов. Lycos упорядочивает ответы по степени соот­ ветствия запросу по нескольким критериям, например, по чис­ лу поисковых терминов, встретившихся в аннотации к доку­ менту, интервалу меж­ ду словами в конкретной фразе документа, местоположению терминов в документе.

6. WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского Университета. WebCrawler предоставляет возможности синтаксиса для конкретизации запросов, а также большой выбор аннотаций узлов при несложном интерфейсе.


Следом за каждым ответом WebCrawler помеша­ет небольшую пиктограмму с приблизительной оценкой соответ­ствия запросу. Коме того выводит на экран стра­ницу с кратким резюме для каждого ответа, его полным URL , точной оценкой соответствия, а также использует этот ответ в запросе по образцу в качестве его ключевых слов. Графического интерфейса для настройки запросов в Web Crawler нет. Н е допускается ис­ пользование универсальных символов, а также невозможно назначить весовые коэффициенты ключевым словам. Не существует возможности ограничения поля поиска определенной областью.

7. Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен каталог Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на подписке пользователей. Он может служить от­правной точкой для любых поисков в Web , поскольку с помощью его системы классификации пользователь найдет узел с хорошо организованной информацией. Содержимое Web подразделяется на 14 общих категорий, пере­численных на домашней странице Yahoo !. В зависимости от специ­фики запроса пользователя существует возможность или работать с этими категориями, чтобы ознакомиться с подкатегориями и спи­сками узлов, или искать конкретные слова и термины по всей базе данных. Пользователь может также ограничить поиск в пределах любого раздела или подраздела Yahoo !. Благодаря тому, что классификация узлов выполняется людьми, а не компьютером, качество ссылок обычно очень высокое. Однако, уточнение поиска в случае неудачи – сложная задача. В состав Yahoo ! входит поисковый механизм AltaVista , поэтому в слу­ чае неудачи при поиске на Yahoo ! автоматически происходит его повторение с использованием поискового механизма AltaVista . Затем полученные результаты передаются в Yahoo !. Yahoo ! обеспечивает возможность отправлять запросы для поиска в Usenet и в Fourl 1, чтобы узнать адреса электронной почты.

К российским поисковым машинам относятся:

1. Rambler.Это русскоязычная поисковая система. Разделы, перечисленные на домашней странице Rambler , освещают русскоязычные Web -ресурсы. Существует классификатор информации. Удобной возможностью работы являет­ся предоставление списка наиболее посещаемых узлов по каждой предложенной тематике.

2. Апорт Поиск. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer . Одним из преимуществ Апорта является англо-русский и русско-английский перевод в режиме online запросов и поисков результата, благодаря чему можно вести поиск в русских ресурсах Internet , даже не зная русского языка. Более того можно искать информа­цию, используя выражения, даже для предложений. Среди основных свойств поисковой системы Апорт можно вы­ делить следующие:

Перевод запроса и результатов поиска с русского на англий­ ский язык и наоборот;

Автоматическую проверку орфографических ошибок за­проса;

Информативный вывод результатов поиска для найден­ных сайтов;

Возможность поиска в любой грамматической форме;


язык расширенных запросов для профессио­нальных пользователей.

К другим свойствам поиска можно отнести под­ держку пяти основных кодовых страниц (разных операционных систем) для русского языка, технологию поиска с использовани ем ограничений по URL и дате документов, реализацию поиска по заголовкам, комментариям и подпи­ сям к картинкам и т. д., сохранение параметров поиска и опреде ленного числа предыдущих запросов пользователя, объединение копий документа, находящихся на разных серверах.

3. List . ru (http://www.list.ru ) По своей реализации этот сервер имеет много общего с англоязычной системой Yahoo !. На главной странице сервера располо­жены ссылки на наиболее популярные поисковые категории.


Список ссылок на основные категории ката­лога занимает центральную часть. Поиск в каталоге реализован таким образом, что в резуль­тате запроса могут быть найдены как отдельные сайты, так и рубрики. В случае успешного поиска выводится URL , назва­ние, описание, ключевые слова. Допускается использование языка запросов Яндекс. С сылка "Структура каталога" открывает в отдельном окне полный рубрикатор ката­ лога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок. Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях струк­ туры, представлены и в рубриках. Показываемый список ресурсов упорядочен в алфавит­ном порядке, но можно выбирать сортировку: по вре­ мени добавления, по переходам, по порядку добавления в каталог, по популярности среди посетителей каталога.

4. Яndex. Программные продукты серии Яndex представляют набор средств полнотекстовой индексации и поиска текстовых данных с учетом морфологии русского языка. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, паук.

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами в локальной и в глобальной сети, а также может быть подключен как модуль к другим системам.

25.04.05 5.4K

Введение

Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины каждый день «ползают» по Сети: они посещают веб-страницы и заносят их в гигантские базы данных. Это позволяет пользователю набрать некоторые ключевые слова, нажать «submit» и увидеть, какие страницы удовлетворяют его запросу.

Понимание того как работают поисковые машины просто необходимо вебмастерам. Для них жизненно важна правильная с точки зрения поисковых машин структура документов и всего сервера или сайта. Без этого документы будут недостаточно часто появляться в ответ на запросы пользователей к поисковой машине или даже вовсе могут быть не проиндексированы.

Вебмастера желают повысить рейтинг своих страниц и это понятно: ведь на любой запрос к поисковой машине могут быть выданы сотни и тысячи отвечающих ему ссылок на документы. В большинстве случаев только 10 первых ссылок обладают достаточной релевантностью к запросу.

Естественно, хочется, чтобы документ оказался в первой десятке, поскольку большинство пользователей редко просматривает следующие за первой десяткой ссылки. Иными словами, если ссылка на документ будет одиннадцатой, то это также плохо, как если бы ее не было вовсе.

Основные поисковые машины

Какие из сотен поисковых машин действительно важны для вебмастера? Ну, разумеется, широко известные и часто используемые. Но при этом следует учесть ту аудиторию, на которую рассчитан Ваш сервер. Например, если Ваш сервер содержит узкоспециальную информацию о новейших методах доения коров, то вряд ли Вам стоит уповать на поисковые системы общего назначения. В этом случае я посоветовал бы обменяться ссылками с Вашими коллегами, которые занимаются сходными вопросами 🙂 Итак, для начала определимся с терминологией.

Существует два вида информационных баз данных о веб-страницах: поисковые машины и каталоги.

Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Примером может быть поисковая система Altavista.

Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Примером каталога может служить Yahoo. Конструкция страниц значения не имеет. Далее речь пойдет в основном о поисковых машинах.

Altavista

Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo.

Excite Search

Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 — приобретена WebCrawler. Однако, оба используют ее отдельно друг от друга. Возможно в будущем они будут работать вместе.

Существует в этой системе и каталог — Excite Reviews. Попасть в этот каталог — удача, поскольку далеко не все сайты туда заносятся. Однако информация из этого каталога не используется поисковой машиной по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.

HotBot

Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi.

InfoSeek

Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время «Ultrasmart/Ultraseek» содержит порядка 50 миллионов URL.

Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Поистине новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek. Существует отдельный от поисковой машины каталог InfoSeek Select.

Lycos

Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая машина Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).

OpenText

Система OpenText появилась чуть раньше 1995 года. С июня 1996 года стала партнерствовать с Yahoo. Постепенно теряет свои позиции и вскоре перестанет входить в число основных поисковых систем.

WebCrawler

Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online Существует каталог WebCrawler Select.

Yahoo

Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo — Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo.

Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых сайтов. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой машиной. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых машин. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых машин, в частности от Altavista.

Особенности поисковых машин

Каждая поисковая машина обладает рядом особенностей. Эти особенности следует учитывать при изготовлении своих страниц.

Тип поисковой машины

«Полнотекстовые» поисковые машины индексируют каждое слово на веб-странице, исключая лишь некоторые стоп-слова. «Абстрактные» поисковые машины создают некий экстракт каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако для абстрактных поисковых машин может случиться, что страницы проиндексированы лучше, чем для полнотекстовых. Это может исходить от алгоритма экстрагирования, например по частоте употребления в странице одних и тех же слов.

Размер

Размер поисковой машины определяется количеством проиндексированных страниц. Например, в поисковой машине с большим размером могут быть проиндексированы почти все ваши страницы, при среднем объеме ваш сервер может быть частично проиндексирован, а при малом объеме ваши страницы могут вообще не попасть в каталоги поисковой машины.

Период обновления

  • некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы
  • другие чаще могут «ползать» по наиболее популярным страницам сети, чем по другим

Дата индексирования документа

Некоторые поисковые машины показывают дату, когда был проиндексирован тот или иной документ. Это помогает пользователю понять, какой «свежести» ссылку выдает поисковая система. Другие оставляют пользователям только догадываться об этом.

Указанные (submitted) страницы

В идеале поисковые машины должны найти любые страницы любого сервера в результате прохода по ссылкам. Реальная картина выглядит по-другому. Станицы серверов гораздо раньше появляются в индексах поисковых систем, если их прямо указать (Add URL).

Не указанные (non-submitted) страницы

Если хотя бы одна страница сервера указана, то поисковые машины обязательно найдут следующие страницы по ссылкам из указанной. Однако на это требуется больше времени. Некоторые машины сразу индексируют весь сервер, но большинство все-таки, записав указанную страницу в индекс, оставляют индексирование сервера на будущее.

Глубина индексирования

Этот параметр относится только к не указанным страницам. Он показывает сколько страниц после указанной будет индексировать поисковая система.

Большинство крупных машин не имеют ограничений по глубине индексирования. На практике же это не совсем так. Вот несколько причин, по которым могут быть проиндексированы не все страницы:

  • не слишком аккуратное использование фреймовых структур (без дублирования ссылок в управляющем (frameset) файле)
  • использование imagemap без дублирования их обычными ссылками

Поддержка фреймов

Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

Поддержка ImageMap

Тут примерно та же проблема, что и с фреймовыми структурами серверов.

Защищенные паролями директории и сервера

Некоторые поисковые машины могут индексировать такие сервера, если им указать Username и Password. Зачем это нужно? Чтобы пользователи видели, что есть на Вашем сервере. Это позволяет как минимум узнать, что такая информация есть, и, быть может, они тогда подпишутся на Вашу информацию.

Частота появления ссылок

Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины на основании таких данных «делают вывод» стоит или не стоит тратить время на индексирование такого документа.

Способность к обучению

Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать, если редко — реже.

Контроль индексации

Показывает, какими средствами можно управлять той или иной поисковой машиной. Все крупные поисковые машины руководствуются предписаниями файла robots.txt. Некоторые также поддерживают контроль с помощью META-тагов из самих индексируемых документов.

Перенаправление (redirect)

Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает какой URL будет связан с вашими документами. Это важно, поскольку, если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы с несуществующими файлами.

Стоп-слова

Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или просто очень часто использующиеся слова. А не включают их ради экономии места на носителях. Например, Altavista игнорирует слово web и для запросов типа web developer будут выданы ссылки только по второму слову. Существуют способы избежать подобного.

Влияние на алгоритм определения релевантности

Поисковые машины обязательно используют расположение и частоту повторения ключевых слов в документе. Однако, дополнительные механизмы увеличения степени релевантности для каждой машины различны. Этот параметр показывает, какие именно механизмы существуют для той или иной машины.

Spam-штрафы

Все крупные поисковые системы «не любят», когда какой-либо сайт пытается повысить свой рейтинг путем, например, многократного указания себя через Add URL или многократного упоминания одного и того же ключевого слова и т. д. В большинстве случаев подобные действия (spamming, stacking) караются, и рейтинг сайта наоборот падает.

Поддержка META-тагов

По идее, все поисковые машины должны учитывать метаданные при индексации страниц, однако на практике не все это делают.

Title

Этот параметр показывает как поисковые машины генерируют заголовки ссылок для пользователя в ответ на его запрос.

Description

Этот параметр показывает как поисковые машины генерируют описания ссылок для пользователя в ответ на его запрос.

Проверка статуса URL

Очень полезная для вебмастера черта поисковой машины — можно ли проверить насколько глубоко проиндексирован его сервер и есть ли он вообще в индексе поисковой машины.

Удаление старых данных

Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес. Возможны два действия: просто удалить старое содержание и переписать файл robots.txt.

  • удаление содержимого: когда поисковая машина попытается реиндексировать документы и не найдет их, старые ссылки в индексе будут удалены. В этом случае все зависит от периода обновления данных для поисковой машины.
  • robots.txt: когда поисковая машина запросит этот файл и «увидит», что сервер весь закрыт от индексации, то все ссылки на файлы этого сервера будут удалены из индекса.

Хорошо Плохо

Главный элемент современного Интернета – это поисковые машины или поисковики , Yandex, Rambler, Google и прочие. В Интернете находится море различной информации, и именно поисковики помогают пользователю быстро найти необходимую информацию.

В учебниках или научных книгах есть список важных терминов – алфавитно-предметный указатель или индекс. В индексе перечислены наиболее важные термины данной книги (ключевые слова) и номера страниц на которых они встречаются.

Работа поисковиков основана на подобном принципе. По сути, когда пользователь вводит поисковой запрос (ключевое слово), он обращается к предметному указателю Интернета или индексу – списку всех ключевых слов Интернета, с указанием страниц, где они встречаются.

Поисковая машина – это программа, которая составляет и хранит предметный указатель Интернета (индекс), а также находит в нем заданные ключевые слова.

Этапы составления индекса и поиска по нему:

Сбор адресов веб-страниц в Интернете

В поисковую машину загружают первоначальный список адресов страниц сайтов. Затем поисковая машина, а точнее ее составная частьпоисковый робот , собирает все гипертекстовые ссылки с каждой из заданных страниц на другие страницы и добавляет все, найденные в ссылках адреса, к своему первоначальному списку адресов. Таким образом, первоначальный список быстро увеличивается.

Выкачивание страниц

Поисковой робот или паук обходит страницы, скачивает с них текстовый материал и хранит на дисках своих компьютеров, затем передает на индексирование индексному роботу.

Составление индекса

Для начала текст индексируемой страницы очищается от всяких нетекстовых элементов (графики, разметки языка HTML и пр.). Далее слова, выбранные из текста, приводятся к своим основам или именительному падежу. Собранные основы слов выстраивают в алфавитном порядке с указанием номера страницы , где взята основа, и номера вхождения, где стояла основа на данной странице.

Поиск

Когда пользователь вводит слово в строку запроса, поисковая машина обращается к индексу. Находит все номера страниц, относящиеся к заданному слову, и показывает пользователю результат поиска (список страниц).

Качество поисковой машины

Синонимом качества поиска считается его релевантность. В отношении поисковых машин слово релевантный (относящийся к делу) – чуть ли не главный термин. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, которые относятся к смыслу поискового запроса. Релевантность или качество поиска – довольно сложная вещь.

Еще одним важным критерием качества работы поисковика является точность .

Точность – это мера качества выданных результатов, она вычисляется как количество релевантных страниц в общем объеме страниц, выданных в результатах поиска. Однако важна не только точность поиска, но и ранжирование результатов поиска.

Ранжирование – расположение результатов поиска по релевантности.

Невозможно сказать какая поисковая машина лучше. Для пользователя лучше поисковик, выдающий наиболее релевантные и точные результаты. Для владельца сайта хороша, та машина, в которой хорошо виден сайт и которая приводит наибольшее количество целевых посетителей.