Поиск и хранение информации в сети internet. Организация поиска информации. настройка расширенной формы

Поиск информации: основные понятия, виды и формы организации

Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им, чему свидетельством являются, например, наскальные рисунки. Цели, возможности и характер поиска всегда зависели от наличия, информации, её важности и доступности, а также средств его организации. Совокупность названных факторов обуславливает постановку большинства задач общества, его отдельных групп и личностей в любой период их существования, ибо в социуме передатчиками и приёмниками любых сведений являются индивидуумы. В данном процессе они могут представлять собственные интересы, а также потребности социальной микро (отдельных групп людей) и макросреды (общества в целом).

Конец XX – начало XXI века, характеризуется огромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоёв социума. Более того, Интернет-технологии и программно-технические средства, также доступные большинству людей, позволяют осуществлять данный процесс в любое время, практически в любом месте по любым запросам.

Цель любого поиска заключается в потребности, необходимости или желании находить различные виды информации, способствующие получению лицом, осуществляющим поиск, нужных ему сведений, знаний и т.д. для: повышения собственного профессионального, культурного и любого иного уровня; создания новой информации и формирования новых знаний; принятия управленческих решений и т.п.

Всё возрастает важность этих процессов, особенно теперь, когда информация влияет практически на все стороны жизни общества.

По оценке специалистов в Интернете работает 30 и более миллионов пользователей. Из них десятки тысяч – в режиме онлайн (англ. « on - line » – интерактивный доступ в любой момент времени) и количество таких пользователей постоянно (ежедневно) растёт. Всё это затрудняет организацию оперативного поиска и нахождения нужной такому количеству пользователей информации. В этой связи возникает спектр проблем, обусловленных разнообразными возможностями (видами) поиска информации, различными способами их реализации в информационно-поисковых системах (ИПС), разным уровнем знаний пользователей о возможностях таких систем, особенно в области формирования запросов и обработки данных, полученных в результате выполнения этих запросов и т.д. Игнорирование этих аспектов приводит разработчиков к созданию малоэффективных поисковых систем (ПС), а пользователей – к разочарованию в возможностях подобных систем по удовлетворению их информационных потребностей, к неуверенности в собственных знаниях и возможностях работы с ПС и др. Последнее обстоятельство способствует появлению «психологического барьера » (Тема 1) и других негативных проявлений, порой вызывающих у пользователей неприятие НИТ или неуверенность в собственных силах.

Некоторые специалисты предполагают, что в дальнейшем будут созданы ИПС, способные автоматически адаптироваться с учётом уровня знаний и запросов конкретных пользователей, воспринимать запросы на естественном языке и, используя искусственный интеллект, выдавать им не только релевантную, но и пертинентную информацию. В этом направлении постоянно ведутся работы. Однако ещё видимо не одно десятилетие потребуются интеллект и знания конкретных пользователей ИПС или их посредников для эффективного достижения поставленных целей – поиска необходимой информации.

Это вызывает потребность у широкого круга пользователей ПС достаточно хорошо владеть данной предметной областью. Рассмотрим терминологический аппарат, относящийся к проблемам поиска информации.

Существуют различные толкования термина «поиск информации» или «информационный поиск».

Термин «информационный поиск » (англ. « information retrieval ») ввёл американский математик К. Муэрс. Он заметил, что побудительной причиной такого поиска является информационная потребность , выраженная в форме информационного запроса. При этом к объектам информационного поиска К. Муэрс относит документы, сведения об их наличии и (или) местонахождении, фактографическую информацию.

Отметим, что решать проблемы фактографического поиска первыми стали представители библиотек. Они разработали средства информационного поиска, получившие название «справочно-поисковый аппарат » (каталоги, библиографические указатели и др.) . В профессиональной отечественной печати данный термин используется с 1970-х годов.

В «Библиотечной энциклопедии» «информационный поиск » определяется как нахождение в информационном массиве документов , соответствующих информационному запросу пользователей .

С точки зрения использования компьютерной техники под «информационным поиском » подразумевается совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя .

Существуют и другие определения. В любом случае, информационный поиск вызван потребностью удовлетворения информационных запросов пользователей, ожидающих с помощью ПС оперативно получить необходимые им данные или сведения. Он является методом нацеленного поиска и извлечения релевантных документов и (или) фактов из различных источников информации, например, банков данных или запоминающих устройств. В качестве таковых выступают живые и неживые объекты, представляющие различные носители информации

Системы, обеспечивающие реализацию подобного поиска информации, называются поисковыми системами (ПС). В традиционных технологиях ПС представляют картотеки и каталоги, адресные и иные справочники, указатели, энциклопедии, справочный аппарат к изданиям и другие материалы.

В 1945 годы американский учёный и инженер В. Буш в статье «Возможный механизм нашего мышления» впервые широко поставил вопрос о необходимости механизации информационного поиска. Затем, начиная с 1960 годов, появляются автоматизированные поисковые системы, работающие с информацией. С этого периода ведутся интенсивные работы в области формирования и реализации принципов и методов информационного поиска.

«Поисковые системы » осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова.

Электронные ПС с помощью обычных или интеллектуальных терминалов (ПЭВМ) дают возможность пользователям производить поисковые запросы при помощи формальных и описывающих содержание элементов и с применением специальных логических операторов; осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова. Существуют и другие дефиниции. В любом случае поисковые системы позволяют осуществлять только поисковые процедуры и связанные с ними процессы.

Цель работы: изучение принципов организации поиска в сети Internet и приобретение практических навыков составления поисковых запросов.

2.1 Простые приемы поиска Web -страниц

Простые приемы поиска не предполагают использования мощных поисковых возможностей сети Internet и основываются на знании принципов формирования символьных доменных имен и интуиции.

Поиск коммерческих Web -сайтов. Чтобы получить искомый адрес, к названию фирмы, предприятия, организации или простому английскому существительному (ключевому слову) можно добавить домен. com, подставить впереди www. Web-страницы, в адресе которых обозначен домен верхнего уровня. com., чаще всего содержат информацию на английском языке .

Пример 1. Возьмем название фирмы SONY, добавим домен. com, а впереди www. - получим адрес Web-страницы фирмы SONY: www . sony . com . Аналогичным образом можно получить:

www . cnn . com - всемирные новости CNN;

www . mtv . com - музыкальные новости MTV;

www. - журнал COSMOPOLITAN.

Если ввести ключевое слово в адресной строке Internet Explorer и нажать Ctrl + Enter , то обозреватель попробует перейти к точному URL-адресу, автоматически добавляя имя протокола и признак Web, например http://www. и домен верхнего уровня. com. Например, если набрать в адресной строке me и нажать Ctrl-Enter, то обозреватель Internet Explorer попробует открыть Web-узел с адресом http :// www . me . com . Если узел не открывается, значит, он не существует.

Поиск по регионам. Для российского и других регионов приведенный выше прием остается в силе. В данном случае к ключевому слову добавляется домен верхнего уровня региона (двухбуквенный код страны), что дает адрес Web-страницы. Например, для поиска российских серверов к ключевому слову можно попробовать добавить домен. ru.

Пример 2. Известно, что есть сервер www . audi . com . Можно попытаться найти его филиал в России, заменяя домен. com на домен. ru, - www . audi . ru .

Поиск крупных учебных заведений. К названию или аббревиатуре учебного заведения добавляется домен. edu (в основном, для американского и европейского регионов), что, как правило, дает нужный адрес.

Пример 3. Возьмем университет OXFORD, добавим домен. edu, а впереди www. - получим адрес Web-страницы университета OXFORD: www . oxford . edu . Часто в адресе Web-страницы учебного заведения отсутствует домен. edu. Зарегистрированным доменом второго уровня (или псевдонимом домена) может быть сокращенное английское название учебного заведения. Для поиска российского учебного заведения можно взять его английскую аббревиатуру, например MSU (Moscow State University), добавить домен. ru - www . msu . ru - Московский государственный университет имени.

Часто в адресе Web-страницы присутствует доменное имя поставщика услуг Internet, на компьютере которого установлена данная Web-страница, например, www . kgtu . runnet . ru - адрес Красноярского государственного технического университета, где ***** - доменное имя поставщика услуг Internet.

Многие страны имеют зарегистрированный домен второго уровня для учебных заведений. Например, для Великобритании - это домен AC (Academic). Любая Web-страница может иметь несколько адресов-псевдонимов, при обращении к которым пользователь попадает на одну и ту же Web-страницу. Например, для университета OXFORD это адреса www . ox . ac . uk и www . oxford . edu .

Прочий поиск Web -страниц. Можно манипулировать ключевыми словами и доменами верхнего уровня для поиска правительственных (.gov), военных (.mil) и других организаций (.org). Например, адрес Белого дома правительства США: www . whitehouse . gov .

2.2 Поисковые системы сети Internet

В Internet имеются мощные средства поиска любой информации: документов, изображений, программ, Web-страниц и т. д. Поиск осуществляется в так называемых поисковых системах, которые также называют поисковыми программами, поисковыми серверами, поисковыми машинами. Поисковых систем в Internet множество. Наиболее известные системы поиска информации приведены в таблице 2.1. Список ссылок на различные поисковые системы размещен на Web-странице www . monk . newmail . ru .

Таблица 2.1 - Наиболее популярные поисковые системы

Название поисковой системы	Адрес
Яндекс (русскоязычная)	http://www. *****
Рамблер (русскоязычная)	http://www *****

Апорт (русскоязычная)	http://w w w. *****
Yahoo! (англоязычная)
AltaVista (англоязычная)
Google (русскоязычная)	http://www. *****

Поисковая система реализована в виде Web-страницы с обычным адресом, которая содержит так называемую строку для поиска и кнопку Поиск (Search ), а также может содержать тематический каталог ресурсов, ссылки на популярные страницы и т. п.

Для вызова поисковой системы необходимо ввести в адресной строке обозревателя Internet ее адрес. После загрузки поисковой системы в строке для поиска необходимо ввести запрос (query ), который представляет собой строку текста (на любом языке), - ключевую фразу искомых документов в Internet и щелкнуть кнопку Поиск. Для более эффективного поиска необходимо, чтобы запрос содержал слова или фразу, которые будут на искомой Web-странице или в искомом документе (их нужно «угадать»). Через некоторое время на экране появится список адресов Web -страниц, содержащий ссылки на искомые документы, которые, как правило, сопровождаются комментариями. Щелкнув ссылку, можно перейти к любому из найденных документов.

Чтобы перейти к следующей странице списка найденных документов, необходимо щелкнуть соответствующий номер (1, 2, 3, ...) в главном окне с результатом поиска. Обычно документы из первой десятки найденных максимально соответствуют запросу.

Основу любой поисковой системы составляет специальная программа -сетевой робот или spider (паук), иногда можно встретить названия worm (червь), crawler (ползучее растение). Поисковая система рассылает в Internet таких «пауков», которые просматривают максимальное количество (по возможности) представленных в Internet Web-страниц, а затем регистрируют их адрес (URL) и содержимое в своей базе данных . После ввода пользователем запроса и щелчка кнопки Поиск поисковая система просматривает базу данных и выводит на экран результат поиска.

Кроме того, практически все поисковые системы позволяют зарегистрировать страницу пользователя, размещенную в Internet. Для этого на странице крупной поисковой системы, например, такой как YAHOO!, нужно вызвать режим регистрации и ввести URL и описание своей страницы. Далее поисковая система распространит вашу регистрационную информацию на все другие крупные поисковые узлы, те, в свою очередь, на другие и т. д. Имеются также глобальные регистрационные серверы.

Поисковые каталоги имеются, например, на поисковых серверах Rambler, Yahoo!, AltaVista и др. Чтобы осуществить поиск по каталогу, необходимо выбирать «мышью» темы, углубляясь и сужая круг поиска до тех пор, пока список выведенных ссылок не уменьшится до нескольких страниц, которые можно просмотреть вручную, либо до достаточно большой группы, в которой можно осуществить обычный поиск (например, в поисковой системе Япёех: Учеба Высшее образование Московский государственный университет).

2.3 Правила выполнения запросов в поисковых системах

При выполнении запросов имеются определенные правила, которые отчасти могут различаться в разных поисковых системах, однако основные действия схожи. Правила выполнения запросов всегда можно узнать на Web-странице конкретной поисковой системы в разделе Помощь (этот раздел может называться Help , Как искать, Советы поиска, Правила выполнения запросов и т. п.). Правила запросов обычно включают в себя использование языка запросов для расширенного поиска.

Самое простое правило, существующее для всех поисковых систем, - указать любую фразу и щелкнуть Поиск.

В следующем пункте будут рассмотрены некоторые правила выполнения запросов на примере системы Яндекс. Многие из этих правил применимы и к другим поисковым системам. Примеры запросов взяты со страниц помощи поисковой системы Яндекс.

2.4 Примеры простых запросов в поисковой системе Яndex

Обычно запрос - это просто одно или несколько ключевых слов, например: микропроцессоры компании Intel . По такому запросу находятся документы, в которых встречаются все слова запроса. Некоторые слова в запросе игнорируются (союзы, предлоги и т. п.), так как не несут смысловой нагрузки. Например, по запросу яблоки на снегу будут найдены все документы, в которых встречаются одновременно два слова: «яблоко» и «снег» (однако порядок их отображения в списке будет различным). Где в пределах документа расположены слова, в какой грамматической форме они находятся - не важно. Предлог на игнорируется. Поэтому приведенный запрос можно написать и так: снег на яблоке. Результат поиска будет таким же.

Важное и очень полезное свойство поисковых систем: независимо от того, в какой грамматической форме вы пишете в запросе слово, оно находится в документах во всех своих формах. Например, по запросу человек шел будут найдены среди прочих и документы, содержащие текст «люди идут». Распознавание всех форм работает для обычных слов русского языка . Для экзотических слов, неологизмов и т. п. оно не осуществляется.

Операторы Яндекс, их назначение и примеры использования можно найти в пункте помощи системы.

Для визуального создания сложных запросов можно использовать возможности расширенного поиска на странице «Расширенный поиск».

1. Ознакомьтесь с теоретическими сведениями.

2. Составьте адрес Web-сайта всемирно известной фирмы (Intel, IBM, Sony и т. д.) и откройте его в Internet Explorer . Сохраните найденные Web-страницы в отдельной папке.

3. Используя тот же прием, перейдите на Web-сайт Санкт-Петербургского государственного университета и тем же способом откройте Web-сайт факультета прикладной математики этого же университета. Сохраните найденные Web-страницы в отдельной папке.

4. В каждой поисковой системе (таблица 2.1) выполните несколько запросов, затрагивающих интересующие вас проблемы, и откройте найденные документы.

5. Опробуйте поиск по тематическим каталогам.

6. С помощью расширенного поиска на Яндексе сравните популярность следующих сайтов по количеству страниц, ссылающихся на них: Президента и Правительства Российской Федерации; Московского государственного университета и Санкт-Петербургского государственного университета; Эрмитажа и Лувра. Сохраните найденные Web-страницы в отдельной папке. Создайте текстовый файл, где зафиксируйте количество ссылок на каждую из них.

7. Найдите информацию о том, когда и где родился. Составьте список его произведений. Найдите его фотографии в разные годы жизни. Сохраните всю информацию в отдельной папке.

8. Осуществите поиск информации в сети Internet по выбранной теме курсовой работы . По результатам поиска создайте в текстовом редакторе Word таблицу согласно образцу (таблица 2.3) и заполните ее.

Таблица 2.3 - Образец оформления отчета о результатах поиска

№ *и/и*		Характеристика результатов поиска
URL найденного ресурса	Краткое описание ресурса

9. Пригласите преподавателя для отчета о проделанной работе.

10. Удалите сохраненные в процессе работы файлы из рабочей папки.

2.6 Контрольные вопросы

1. Охарактеризуйте простые приемы поиска информации в сети Internet.

2. Каковы принципы работы поисковых систем сети Internet?

3. Сформулируйте основные правила составления поисковых запросов.

4. Какие из рассмотренных Вами поисковых систем имеют возможности использования языка запросов?

5. Какие из рассмотренных Вами поисковых систем имеют тематический каталог ресурсов?

6. Какие из рассмотренных Вами поисковых систем имеют возможности поиска по различным категориям информационных ресурсов?

4.5.1. Традиционные поисковые системы Интернета

Для поиска информации используются специальные внешние службы - поисковые серверы: поисковые машины и каталоги.

Поисковые машины - это такие серверы, которые накапливают информацию о содержимом сайтов автоматически, при помощи специальных программ-роботов.

Информацию для серверов-каталогов отбирают люди. В отличие от поисковых машин, информация в каталогах более точно структурирована, причем в вертикальном иерархическом виде.

И поисковые машины, и каталоги являются внешними службами или, как их еще называют, автономными системами. Особенностью автономных систем является то, что цикл работы с информацией выполняется полностью непосредственно на этой системе, начиная с получения информации от первоисточника и заканчивая предоставлением поискового сервиса конечному пользователю.

Автоматические поисковые системы охватывают больший объем информации, их сведения чаще обновляются и поэтому более актуальны. Однако информация на таких серверах плохо структурирована, потому что оценка содержимого того или иного сайта - трудно формализуемая задача. Чаще всего программа-робот отбирает документы только по наличию искомых слов в тексте документа. Примером поисковой машины является AltaVista (http://www.altavista.com).

В каталогах вся информация имеет четкую вертикальную иерархическую структуру. Причем эта структура строится на основе смыслового содержания. В этом главная ценность каталогов, обрабатываемых людьми: можно найти не множество сайтов, содержащих данные ключевые слова, а множество сайтов, посвященных данной тематике. Примером каталога может служить сервер Yahoo (http://www.yahoo.com).

Каталоги WWW, содержащие большое количество записей, часто размещают на своих страницах локальные поисковые машины. Реализуемые в виде традиционных шаблонов, которые мало чем отличаются от шаблонов на автоматических индексах.

Как для поисковых машин, так и для каталогов устанавливается некий принцип отбора информации. Этот принцип закладывается либо в алгоритмы работы поисковых машин, либо в регламент работы людей (для каталогов). В зависимости от того, откуда и какой тип информации накапливается, оценивают две характеристики автономных систем - пространственный масштаб и специализацию.

Пространственный масштаб призван ограничить количество первоисточников информации до некоего конечного предела. Например, поисковая система может быть построена в рамках только одного сайта. Поиск может быть ограничен рамками одного географического домена (например, ru). Такие системы называют региональными.

Существует множество поисковых серверов, которые не имеют подобных ограничений. Их называют глобальными информационно-поисковыми системами.

Особенности регионального подхода могут присутствовать и в глобальных системах. Так, система Lycos (http://www.lycos.com) сортирует результаты поиска в зависимости от того, из какого региона поступил запрос.

Наиболее популярные поисковые сервера загружены настолько, что возникает необходимость в создании "зеркал" (mirrors). Зеркала должны содержать точную копию первичной поисковой системы и гарантировать быстрое обслуживание обращений, поступающих из определенной географической зоны.

При обращении к той или иной поисковой системе следует учитывать, какие сервисы она предоставляет. Например, в отечественной поисковой машине Яндекс (http://www.yandex.ru) введен поиск не только страниц, но и серверов. Суть этого метода заключается в том, что ключевые слова ищутся не по всем страницам, а лишь по их заголовкам (то, что заключено в HTML между тегами "title"). В зарубежной AltaVista сделана отдельная служба Real Names, которая содержит перечень всех зарегистрированных страниц компаний и организаций.

Следующий важный сервис - это специализация поиска. В настоящее время Интернет является хранилищем разных типов информации. Поэтому и поиск информации тоже может быть формализован. Можно искать исключительно графические изображения, можно - мультимедийные записи в формате MP3 и т.д. На многих поисковых серверах можно задать тип искомой информации. кроме того, существуют и серверы, которые специализируются на поиске информации строго определенного типа. FTPSearch (http://ftpsearch.lycos.com) специализируется исключительно на поиске файлов. Он индексирует всевозможные ftp-серверы на предмет находящихся там файлов. Поиск осуществляется непосредственно по наименованию искомого файла. Аналогично MP3Search (http://mp3.box.sk) специализируется на поиске исключительно файлов в формате MP3.

Еще одним важным моментом является то, какой язык запросов использует та или иная система. Чем сложнее этот язык - тем более тонкую настройку поиска оказывается возможным провести. В настоящее время не существует единого унифицированного языка запросов для поисковых систем. Разработка такого языка сделала бы возможной интеграцию различных поисковых сервисов в единую сверхсистему поиска. В феврале 1999 был начат проект SESP (Search Engine Standards Project), в котором участвует 15 крупнейших поисковых систем Интернета. В задачу проекта входит стандартизация работы поисковых служб (материалы о нем можно найти по адресу http://www.searchenginewatch.com).

4.5.2. Метапоисковые системы

Еще одним перспективным направлением развития поисковых сервисов в сети является использование метапоисковых систем. Основа метапоисковых систем - это интерфейс между пользователем и множеством поисковых систем. Метапоисковая система не предназначена для индексирования и накопления информации. назначение ее - чистый поиск и обработка результатов поиска.

Метасистема позволяет, в соответствии с пожеланиями пользователя, ограничить свой поиск определенными поисковыми серверами, проверять существование ресурсов, на которые указывают результаты поиска, осуществлять уточненный поиск в результатах поиска и т.д. Метапоисковые системы часто называют клиентами к поисковым серверам.

Примером метапоисковой системы может служить отечественная разработка "ДИСКо Искатель" компании "ДИСКо" (http://www.disco.ru).

Основной чертой метапоисковых систем нового поколения является объединение поисковых серверов различных специализаций. В рамках одного приложения можно осуществлять поиск информации различного типа. При обработке поискового запроса допускается соединение более чем со 100 поисковыми системами (в т.ч. и со специализированными). Результаты поиска дополнительно обрабатываются: ссылки, дублирующие уже найденные, системой исключаются; полученные адреса проверяются на доступность. Есть возможность конфигурации работы с поисковыми серверами (можно выбрать серверы, с которыми будет работать система, указать максимальное число ссылок, получаемых с каждого сервера и т.д.).

Однако и в случае использования метапоисковых систем не обойтись без знаний о традиционных поисковых серверах - именно они служат базой для всякого поиска.

Проблема поиска и средства его организации

Гигантские и непрерывно увеличивающиеся объемы доступной в Интернет информации, в т.ч. оперативной, делает проблему поиска необходимых сведений весьма актуальной и сложной. Скорость поиска нужной информации определяет в значительной степени профессионализм пользователя Интернет. Стоит сказать, для автоматизации ϶ᴛᴏй задачи разработаны различные, как зарубежные, так и отечественные системы поиска, представляющие собой Web-страницы специального вида. При этом, несмотря на наличие многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя определенного опыта, интуиции, знания терминологии, используемой в его предметной области.

По оценке, опубликованной в журнале Nature от 8 июля 1999 г., число публично индексируемых Web-страниц составляло 800 млн. Спустя год автор исследования (Стив Лоуренс из института NEC Research Institute) полагал, что их число увеличилось почти вдвое – до 1,5 млрд. Даже лучшие поисковые механизмы индексируют не более чем одну страницу из шести. Стоит сказать, для того ɥᴛᴏбы извлечь полезную информацию из сети Интернет, нужно знать, где и как вести поиск.

Имеющийся в Internet Explorer инструмент Поиск упрощает обращение к средствам поиска, избавляя от знания адресов поисковых машин. При этом лучше непосредственно обращаться к поисковым системам, загружая ϲᴏᴏᴛʙᴇᴛϲᴛʙующую страницу.

По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:

каталоги и специализированные базы данных;

поисковые системы;

метапоисковые системы.

Каталоги и базы данных

Каталоги в WWW аналогичны систематическим библиотечным каталогам. Поиск по каталогам состоит в последовательном движении по иерархическому списку ссылок, называемых рубриками или категориями. На первой странице каталога содержится ссылки на крупные темы, например, Культура и искусство; Медицина и здоровье; Общество и политика; Бизнес и экономика; Развлечения и др. Щелчок мыши на ϲᴏᴏᴛʙᴇᴛϲᴛʙующей ссылке (категории) открывает страницу, содержащую ссылки, детализирующие выбранную тему (рубрику) Двигаясь вниз по детализирующим категориям, можно найти страницу с нужной информацией. На каждой странице, открываемой при движении по каталогу тем или иным способом, указывается последовательность просмотренных вложенных рубрик, например, Деловой мир: Финансы: Аналитика и т.д.

Все каталоги создаются и поддерживаются в актуальном состоянии вручную специалистами, аналогично тому, как библиографы составляют и поддерживают библиотечные каталоги. Уместно отметить, что описание документа делается либо составителями каталога, либо автором. Благодаря ϶ᴛᴏму, содержание страниц, включенных в каталог, наиболее адекватно ϲᴏᴏᴛʙᴇᴛϲᴛʙует рубрике, к кᴏᴛᴏᴩой они отнесены. Но, учитывая скорость пополнения и изменения информации в Интернет, «ручной» способ ведения каталогов не позволяет равноценно отражать реальное состояние ресурсов Интернет на данную тему.

Поисковые системы

(поисковые машины, поисковые серверы, поисковые роботы)

Существуют десятки крупных и тысячи малых и специализированных Web-узлов, предназначенных для поиска в Интернете. Средства поиска ϶ᴛᴏй группы позволят пользователю по определенным правилам сформулировать требования к необходимой ему информации (с помощью языка запросов создать запрос) После ϶ᴛᴏго машина поиска автоматически просматривает документы на контролируемых (индексируемых) ею сайтах и отбирает те из них, кᴏᴛᴏᴩые, «по мнению» поискового сервера, ϲᴏᴏᴛʙᴇᴛϲᴛʙуют сформулированным пользователем требованиям (релевантны запросу) В поисковых узлах могут быть использованы собственные индексы Интернета, постоянно обновляемые особыми программами, называемыми пауками (spiders) Программа-паук обследует Web, проверяя каждую ссылку на данной странице, затем на страницах, адресуемых ссылками, и т. д., и сообщает ϲʙᴏему владельцу сведения обо всех страницах для последующей индексации.

В результате поиска создается одна или несколько страниц, содержащих ссылки на релевантные запросу документы (Web-страницы) Стоит сказать, для каждой ссылки обычно также указываются дата создания документа, его объем, степень ϲᴏᴏᴛʙᴇᴛϲᴛʙия релевантности запросу, фрагменты текста, характеризующие содержание документа. Щелчок мышью на такой ссылке позволяет загрузить заинтересовавшую страницу. В случае очень большого количества найденных документов можно уточнить запрос и в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с ним повторить поиск, но только среди отобранных страниц (такой поиск в разных машинах называется по-разному, но обычно ϶ᴛᴏ – искать в найденном) В ряде машин поиска можно определенным способом поменять ссылку на страницу, содержание кᴏᴛᴏᴩой в наибольшей степени удовлетворяет вашим потребностям, и повторить поиск, потребовав искать похожие.

Достоинство автоматизированного поиска состоит по сути в том, что он обеспечивает просмотр очень больших объемов информации, имеющейся в Интернет в данный момент. При этом сложность точного описания запроса, адекватно отражающего ваши информационные потребности, а также еще большая сложность задачи автоматического определения степени ϲᴏᴏᴛʙᴇᴛϲᴛʙия вашему запросу просматриваемых страниц, приводит к тому, что количество страниц, отобранных «с первого захода»традиционно или очень мало, или чрезмерно велико. В целом поиск с использованием поисковой машины представляет собой итерационный (многоходовой) процесс, в результате кᴏᴛᴏᴩого постепенно уточняется форма запроса.

Метапоисковые системы

Как отмечалось выше, любая поисковая система просматривает определенный набор серверов и отбирает документы в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с присущими ей критериями. В итоге поиск разными системами по одним и тем же ключевым словам дает различные результаты. Это привело к идее создания так называемых метапоисковых (или мультипоисковых) систем, кᴏᴛᴏᴩые сами ничего не ищут, но обращаются за помощью сразу к нескольким поисковым системам. Отметим, что каждая из метапоисковых систем имеет ϲʙᴏй язык запросов. Система переводит сформулированный на ее языке запрос на языки запросов, используемые каждой машиной поиска. Далее, результаты поиска всеми системами объединяются и представляются в ϲᴏᴏᴛʙᴇᴛϲᴛʙующей форме. Естественно, что поиск с помощью метапоисковых систем занимает большее время по сравнению с обычными системами поиска.

Обзор наиболее популярных поисковых систем

В Интернет имеется большое количество поисковых систем, и каждый пользователь ориентируется на ту, к кᴏᴛᴏᴩой он привык или кᴏᴛᴏᴩую ему посоветовали его коллеги. Воспользуемся краткой характеристикой наиболее популярных поисковых систем, кᴏᴛᴏᴩая приводится на одном из сайтов.

1. Google (www.google.com) Самая быстрая и самая большая поисковая система. Проиндексировано более 1,3 миллиарда страниц (из них полностью - немногим более 700 миллионов, про остальные известен только адрес и текст ссылки) Нормально ищет по русскоязычным ресурсам (разумеется, без словоформ), есть возможность выбрать язык интерфейса. Можно включать/исключать результаты с определенных сайтов и/или доменов. В отличие от большинства поисковых систем, Google оценивает популярность ресурса по количеству ссылок, ведущих к нему с других страниц. Присутствует тематически ориентированный поиск - Apple Macintosh, BSD UNIX, Linux, правительство США и University searches - поиск в ресурсах ведущих научных и учебных институтов.

2. Яndex (www.yandex.ru) Лучшая из поисковых систем отечественного производства. Индексирует в основном русскоязычные ресурсы, при ϶ᴛᴏм по возможностям не уступает зарубежным системам. Поиск можно осуществлять точно или в любых словоформах, с ограничением по дате, с указанием сайта или его поддиректории. Можно вести поиск с учетом так называемого индекса цитируемости, искать изображения, скрипты, апплеты; задавать язык документа. Нужные ссылкитрадиционно обнаруживаются уже в первой десятке результатов. Имеет "облегченную" версию (с минимумом элементов дизайна) на http://www.ya.ru.

3. AltaVista (www.altavista.com) Предоставляет большое расширение критериев поиска: в Advanced search есть выбор отрезка времени, к кᴏᴛᴏᴩому относится дата создания или изменения ресурса, поддержка 25 языков; присутствует возможность выдачи одного результата на сайт (϶ᴛᴏ сужает круг поиска без ущерба для качества) Power search имеет стандартный набор возможностей. До недавнего времени AV была крупным порталом, но по причинам финансового (и не только) характера значительно сократила количество сервисов.

4. Yahoo! (www.yahoo.com) Важно заметить, что один из первых поисковых серверов в Интернет. Помимо стандартного набора функций, позволяет отбирать ресурсы по дате (4 года, 1, 3, 6 месяцев, неделя, 1, 3 дня) Поддерживает возможность указания знака "*" вместо любой последовательности символов в ключевых словах. На Yahoo! составлен большой структурированный каталог категорий (categories) Сначала поиск осуществляется в них, потом в собственном архиве, потом - с использованием системы Google. Поиск в категориях дает хорошие результаты - их немного и ϲᴏᴏᴛʙᴇᴛϲᴛʙие хорошее.

5. Lycos (www.lycos.com) В последнее время - одна из самых популярных систем. При всем этом никаких особенных возможностей она не предоставляет - "AND" "OR", поиск фраз, обязательное присутствие/отсутствие слова; в расширенных возможностях - поиск в названии, URL, имени хоста и/или названии домена; 25 языков, включая русский, - словом, весь "общепринятый" набор. Можно указать тип содержания ресурса - авто, книги, ftp, download, новости и т.д. Очевидно, популярность Lycos - следствие масштаба ϶ᴛᴏго крупного проекта.

6. Рамблер (www.rambler.ru) До недавнего времени самая известная русская поисковая система. Расширенный поиск не позволяет искать фразы, а обычный поиск до февраля ϶ᴛᴏго года редко выдавал приемлемые результаты. С февраля в ϶ᴛᴏй системе используется улучшенный механизм поиска, сменился дизайн, но по качеству Rambler все равно не сравнялся с Яндексом и Апортом (по мнению автора, проводящего анализ поисковых систем) На сайте присутствует рейтинг-каталог ресурсов Rambler Top 100, один из признанных источников статистической информации об интернет-проектах.

7. Апорт (www.aport.ru) Другой хороший русский поисковый сервер. Поиск ведется по тексту (только во всех словоформах) и по URL, с использованием логических операторов и оператора "…" (однако стоп-слова во фразе все равно игнорируются), по дате и в отдельных полях (название, описание и т.д.), поддерживаются мета-символы * и! Представление результатов поиска наиболее хорошо оформлено по сравнению с остальными русскими поисковыми машинами. Некᴏᴛᴏᴩые сомнения вызывает дизайн главной страницы, кᴏᴛᴏᴩая явно перегружена информацией. Имеется немного более "легкая" версия на http://aport.ru.

Как выбрать поисковую машину

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего) Обычно ϶ᴛᴏ все называют одним словом - релевантность, то есть ϲᴏᴏᴛʙᴇᴛϲᴛʙие ответа вопросу.

1. Охват и глубина

Под охватом имеется в виду объем базы поисковой машины, кᴏᴛᴏᴩый измеряется тремя показателями – общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить: Некᴏᴛᴏᴩые машины пишут на ϲʙᴏем сайте статистику робота. Но можно проверить и самому – надо задать несколько поисковых запросов, состоящих из одного слова (ɥᴛᴏбы исключить влияние языка запросов, в т.ч. – различного трактования пробела), и при ϶ᴛᴏм смотреть на статистику результатов, выдаваемую машиной – обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных весов – редкие, «средние» и «тяжелые» (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для ϶ᴛᴏго надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на кᴏᴛᴏᴩые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок

Скорость обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Не стоит забывать, что важным показателем качества поисковой машины (ее робота) будет не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и побудут, страницы на них обновляются. Ссылки, кᴏᴛᴏᴩые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно ϲᴏᴏᴛʙᴇᴛϲᴛʙовать запросу.

Как проверить: Объективную информацию можно получить, проанализировав логи серверов – робот поисковой машины представляется обычно именем ϲʙᴏей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только ϲʙᴏего сайта, по϶ᴛᴏму остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковые машины и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Стоит сказать, для определения актуальности ссылок – проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель)

Стоит сказать, что каждая поисковая машина имеет ϲʙᴏи алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при ϶ᴛᴏм те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса («расширенный поиск» в Апорте и Яндексе, «детальный запрос» в Рэмблере – варианты перевода на русский язык «advanced search»)

Кроме релевантности, существуют важные пользовательские характеристики.

4. Скорость поиска

В случае если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить: Путем эксперимента – надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик – около трех-четырех часов дня)

5. Поисковые возможности (работа с языком документа, язык запросов)

Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Стоит сказать - полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме ϶ᴛᴏго, в языке HTML существуют тэги, кᴏᴛᴏᴩые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.)

Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некᴏᴛᴏᴩые умеют искать словосочетания или слова на заданном расстоянии - ϶ᴛᴏ часто важно для получения разумного результата. Дополнительной возможностью будет поиск в зонах документа – заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, кᴏᴛᴏᴩый не требует знания операторов.

Как проверить: Обычно эта информация публикуется на сервере поисковой машины (в Help"е) Отметим, что тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

6. Дополнительные удобства

Это - дополнительные возможности, кᴏᴛᴏᴩые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с данными возможностями.

Понятно, что указанный анализ займет некᴏᴛᴏᴩое время. Кроме ϶ᴛᴏго, поисковые машины, как и весь Интернет, не стоят на месте. При этом, учитывая, что поиск информации – одна из важных составляющих компьютерных технологий, ϶ᴛᴏму стоит уделить достаточное внимание – по крайней мере, не меньшее, чем умению работать в локальной сети.

На Yandex.ru был проведен опрос: зачем нужен Интернет и чего в нем не хватает (http://www.yandex.ru/polling/9.html) В порядке убывания данные опроса распределились следующим образом: Интернет используют как справочник (23,76%), инструмент исследования (15,.45%), развлечение (14,15%), и только на четвертом месте - источник новостей (12,32%) Оптимистично прозвучало, что 10% пользователей всегда, а 73% часто удается найти нужную информацию. А не хватает в Интернете: информации, хорошего поиска и порядка (в т.ч.: упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и систематизированности)

ОТВЕТЬТЕ НА ВОПРОСЫ:

Назовите, какие способы организации поиска существую в сети Интернет?

Как осуществляется поиск информации в каталогах и базах данных?

Как заносится информация в каталоги и базы данных?

Что в Интернет относится к поисковым системам?

Как формируется информационная база данных в поисковых машинах?

С чего начинается поиск информации в поисковых системах?

Что такое запрос?

Как осуществляется поиск информации в поисковых машинах?

Что понимают под релевантностью запросу?

Что можно предпринять в случае очень большого количества найденных документов при дальнейшем поиске?

Что такое метапоисковые системы?

В чем состоит принципиальное отличие метапоисковых систем от обычных поисковых машин?

Какие из следующих систем будут метапоисковыми:

Назовите наиболее популярные отечественные поисковые системы?

Назовите наиболее популярные зарубежные поисковые системы?

Какие две составляющие важны при поиске информации в сети Интернет?

Какие характеристики определяют эффективность поисковых систем при проведении поиска информации в сети Интернет?

Пользовательское соглашение:
Интеллектуальные права на материал - Информационные компьютерные сети - Борисов Н.А., Лукин А.А. принадлежат её автору. Данное пособие/книга размещена исключительно для ознакомительных целей без вовлечения в коммерческий оборот. Вся информация (в том числе и "Тема 3. Поиск информации в сети ИНТЕРНЕТ") собрана из открытых источников, либо добавлена пользователями на безвозмездной основе.
Для полноценного использования размещённой информации Администрация проекта сайт настоятельно рекомендует приобрести книгу / пособие Информационные компьютерные сети - Борисов Н.А., Лукин А.А. в любом онлайн-магазине.

Тег-блок: Информационные компьютерные сети - Борисов Н.А., Лукин А.А., 2015. Тема 3. Поиск информации в сети ИНТЕРНЕТ.

(С) Юридический репозиторий сайт 2011-2016

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопро-са:

1. что искать – какие источники информации;

2. где искать – места размещение этих источников;

3. как искать – какие инструменты для этого использовать.

Выделим основные источники информации, представленные в Интернете. Это документы WWW, ста-тьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной ин-формации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах дан-ных, энциклопедиях. Заметим, перечисленный список не претендует на полноту.

Теперь отвечаем на вопрос, где эти источники информации размещаются. Это такие популярные ресур-сы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализиро-ванных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами. Однако для такого изменчивого пространства как Ин-тернет необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска. Таким образом, мы подходим к понятию автономного инструмента поиска – информационно-поисковой сис-темы.

Информационно-поисковая система (ИПС) –это система,обеспечивающая поиск и отбор необходи-мых данных в специальной базе с описаниями источников информации (индексе) на основе информа-ционно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребно-стям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная ха-рактеристика процедуры поиска – релевантность.

Релевантность –это соответствие результатов поиска сформулированному запросу.

Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

По пространственному масштабу ИПС можно разделить на:

‒ локальные;

‒ глобальные;

‒ региональные;

‒ специализированные.

Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе от-дельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы , по возможности наиболее полно, описывают ресурсы всего информационного пространства сети Интернет. Специали-зированные ИПС сосредоточены на поиске определенных источников информации:документовWWW,файлов, адресов и т.д.

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределен-ных источников информации. Следовательно, сначала нужно описать информационные ресурсы и соз-дать индекс. Построение индекса начинается с определения начального набора URL источников ин-формации. Затем проводится процедура индексирования.

Индексирование –описание источников информации и построение специальной базы данных(индекса)для эффективного поиска.

В некоторых информационно-поисковых системах описание источников информации проводится пер-соналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае про-цедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как

в тематических каталогах библиотек.

В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого раз-рабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимо-сти от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может ока-заться очень большим по размеру.

Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии. Для поиска в системах данного типа пользо-вателю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запро-са. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого язы-ка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты. Не последнее значение имеет внешний вид поисковой системы, предстающий перед поль-зователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, ис-ключительно важна форма представления результатов поиска, поскольку пользователю необходимо уз-нать как можно больше о найденном источнике информации, чтобы принять правильное решение о не-обходимости его посещения.

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с ин-терфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом сис-темы (системой формирования запросов и просмотра результатов поиска).

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса поль-зователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи резуль-татов поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитекту-ра индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно бы-ло отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользо-вателя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрез-вычайно важно хранить запросы, на которые получен удовлетворительный ответ.

Web-сайты –те информационные ресурсы,доступ к которым обеспечивает ИПС.

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описа-нии подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:

‒ Заголовки (Title).

‒ Заглавия (H1-H6).

‒ Аннотация (Description).

‒ Списки ключевых слов (KeyWords).

‒ Полные тексты документов.

Поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полно-текстовыми.

Для того, чтобы описать файл в ресурсе FTP используется его URL. Для описания статьи в группе ново-стей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список так называемых стоп-слов, которые игнорируются в процессе ин-

дексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфо-логии. Учет морфологии означает умение работать с различными формами слов конкретного языка. Следует отметить достаточную сложность русского языка, слова которого изменяются по числам, па-дежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут

и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический сло-варь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно скло-няется или спрягается.

Итак, обобщенная технология поиска состоит из следующих этапов:

1. Пользователь формулирует запрос.

2. Система проводит поиск документов (или их поисковых образов).

3. Пользователь получает результат (сведения о документах).

4. Пользователь совершенствует или реформирует запрос.

5. Организация нового поиска.

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС. Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмот-ренных. В общем случае, можно выделить следующие поисковые инструменты для WWW:

‒ поисковые системы;

‒ метапоисковые системы;

‒ программы ускоренного поиска.

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяют-ся на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог –поисковая система с классифицированным по темам списком аннотаций со ссылками наweb-ресурсы. Классификация, как правило, проводится людьми.

Поисковая машина –поисковая система с формируемой роботом базой данных,содержащей информа-цию об информационных ресурсах.

Метапоисковая система –система,не имеющая своего индекса,способная послать запросы пользова-теля одновременно нескольким поисковым серверам, затем объединить полученные результаты и пред-ставить их пользователю в виде документа со ссылками.

Программа ускоренного поиска –это программа с возможностями метапоисковой системы,устанавли-ваемая на локальном компьютере.

Принципиальным отличием метапоисковых систем и программ ускоренного поиска от ИПС является отсутствие своего собственного индекса. Зато они превосходно умеют использовать результаты работы других поисковых систем.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса. Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на перво-источник. Среди самых популярных зарубежных каталогов можно упомянуть:

‒ Yahoo (www.yahoo.com),

‒ Magellan (www.mckinley.com),

‒ Российские каталоги:

‒ @Rus (www.atrus.ru)

‒ Weblist (www.weblist.ru)

‒ Созвездие интернет (www.stars.ru).

Отличительной чертой поисковых машин является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками. Для сужения области поиска возможна сортировка содержимого индекса по кате-гориям. Как правило, поисковые машины поддерживают два режима: режим простого поиска и ре-жим расширенного поиска .

Рассмотрим обобщенные возможности формирования запроса в режиме простого поиска. Можно про-сто вводить через пробел одно или несколько слов; поиск слов со всевозможными окончаниями моде-лируется символом * в конце слова. Многие системы позволяют искать словосочетания или фразу, для этого необходимо ее заключить в кавычки. Возможно обязательное включение или исключение опреде-ленных слов. Основная проблема поиска по примитивно составленному запросу (в виде перечисления ключевых слов) заключается в том, что поисковая машина найдет все страницы, на которых указанные слова встречаются в любой части документа. Как правило, количество найденных страниц будет слиш-ком велико. Для улучшения качества поиска в режиме простого поиска допустимо использование логи-ческих операторов и операторов, позволяющих ограничить область поиска, а также выбор определен-ной категории документов из представленного списка.

В качестве операторов, устанавливающих отношения между ключевыми словами, большинство поис-ковых систем используют следующие:

‒ AND (И) & –обязательное присутствие всех ключевых слов;

‒ OR (ИЛИ) | –присутствие хотя бы одного из ключевых слов;

‒ NOT (НЕ) ! –отсутствие ключевого слова;

‒ NEAR (ОКОЛО) ~ –определенный интервал между ключевыми словами.

Многие поисковые системы включают в свой язык составления запросов специальные операторы, по-зволяющие проводить поиск в определенных зонах документа, например, в его заголовке, или искать документ по известной части его адреса. Интересной возможностью является поиск документов в сети, ссылающиеся на страницу с указанным вами адресом (URL). Таким образом, можно найти в сети стра-ницы, на которых есть ссылки на ваш Web-сайт. Некоторые системы позволят ограничить область по-иска внутри указанного домена.

В качестве дополнительных специальных операторов можно выделить:

‒ Операторы поиска документов с определенным графическим файлом;

‒ Операторы ограничения по дате искомых страниц;

‒ Операторы близости между словами;

‒ Операторы учета словоформы;

‒ Операторы сортировки результатов (по релевантности, свежести, старости).

Следует заметить, что на сегодняшний день не существует стандарта на количество и синтаксис под-держиваемых операторов для различных поисковых систем. Поэтому пользователь, обращаясь к опре-деленной поисковой системе, непременно должен в первую очередь ознакомиться с ее правилами со-ставления запросов. Как правило, на домашней странице будет обязательно присутствовать ссылка По-мощь (Help), по которой можно перейдете к справочной информации.

Режим расширенного или детального запроса в разных системах реализован индивидуально, но чаще всего это бланк, в котором упомянутые операторы и ключевые элементы реализуются простой установ-кой соответствующих флажков или выбором параметров из списка.

Рассмотрим способы представления результатов поиска в поисковых машинах. Чаще всего количество найденных документов превышает несколько десятков, а в отдельных случаях может достигать сотен тысяч! Поэтому в качестве формы выдачи составляется список документов по 5-10-15 единиц на стра-нице с возможностью перехода к следующей порции внизу страницы. Обязательно указывается заголо-вок и URL(адрес) найденного документа, иногда система указывает в процентах степень релевантности документа.

В описании документа чаще всего содержится несколько первых предложений или выдержки из текста документа с выделением ключевых слов. Как правило, указана дата обновления (проверки) документа, его размер в килобайтах, некоторые системы определяют язык документа и его кодировку (для русскоя-зычных документов).

Что можно делать с полученными результатами? Если название и описание документа соответствует вашим требованиям, можно немедленно перейти к его первоисточнику по ссылке. Это удобнее делать в новом окне, чтобы иметь возможность далее анализировать результаты выдачи. Многие поисковые сис-темы позволяют проводить поиск в найденных документах, причем вы можете уточнить ваш запрос введением дополнительных терминов. Если интеллектуальность системы высока, вам могут предло-жить услугу поиска похожих документов. Для этого вы выбираете особо понравившийся документ и указываете его системе в качестве образца для подражания. Однако, автоматизация определение похо-жести – весьма нетривиальная задача, и зачастую эта функция работает неадекватно вашим надеждам. Некоторые поисковики позволяют провести пересортировку результатов. Для экономии вашего време-ни можно сохранить результаты поиска в виде файла на локальном диске для последующего изучения в автономном режиме.

Наиболее популярные поисковые машины за рубежом и в России.

Зарубежные поисковые машины:

Google www.google.com

Altavista www.altavista.com

Excite www.excite.com

HotBot www.hotbot.com

Nothern Light www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Fast www.alltheweb.com

Российские поисковые машины:

Яndex www.yandex.ru (или www.ya.ru)

Рэмблер www.rambler.ru

Апорт www.aport.ru

Белорусские поисковые системы:

Система 09 www.09.open.by

Поисковая система Unibel http://search.unibel.by

Система *.BY http://search.promedia.minsk.by/

Белорусский интенет-каталог Акавiта http://akavita.kryvia.net/

Обратите внимание на то, что различные поисковые системы описывают разное количество источников информации в Интернет. Поэтому нельзя ограничиваться поиском только в одной из указанных поиско-вых системах.

Теперь познакомимся с инструментами поиска, которые не формируют собственный индекс, но умеют использовать возможности других поисковых систем. Это метапоисковые системы (поисковые службы)

– системы, способные послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылка-ми.

Здесь приведены адреса известных метапоисковых систем.

MetaCrawlerwww.metacrawler.com

SavvySearchwww.savvysearch.com

Наконец, рассмотрим последний в списке инструмент поиска – программы ускоренного поиска.

Программа ускоренного поиска –это программа,устанавливаемая на компьютере пользователя и спо-собная:

‒ посылать запросы к нескольким поисковым серверам;

‒ сортировать результаты поиска по релевантности;

‒ удалять дубликаты;

‒ проверять наличие документов в сети.

WebFerret, NewsFerret www.ferretsoft.com

Inforia Quest 99 http://www.inforia.com/quest

Subject Search Spider (SSSpider) www.kryltech.com.

После подробного изучения основных возможностей инструментов обратимся к проблеме эффектив-ности поиска .Основными параметрами эффективности поиска является полнота как отношение числанайденных документов к общему числу релевантных документов (то есть, найдены все документы, со-ответствующие запросу), и точность поиска – отношение числа релевантных документов к общему чис-лу полученных документов (то есть не найдено ничего лишнего, не относящегося к делу). Это и означа-ет понятие релевантности. Немаловажное значение имеет актуальность ссылок на документы, то есть существование в настоящий момент найденных документов в сети, и скорость поиска.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

‒ Свойства и возможности поисковой системы.

‒ Качество формулировки запроса пользователем.

‒ Каким образом можно оценить качество поискового инструмента? Поисковые системы обычно сравнивают по следующим параметрам:

‒ Количество проиндексированных страниц (объем индекса).

‒ Количество поддерживаемых операторов.

‒ Стандартный оператор, объединяющий несколько ключевых слов. Если стандартным операто-ром является оператор И, поисковая машина автоматически будет искать документы, на которых

обязательно будут присутствовать все введенные ключевые слова. В противном случае (оператор ИЛИ) будут найдены документы со всеми ключевыми словами и с каждым по отдельности

‒ Поиск точной фразы.

‒ Поиск слов с различными окончаниями.

‒ Учет словоформ. В случае автоматического режима учета словоформ система будет искать в до-кументах слово со всеми его изменениями.

‒ Чувствительность к заглавной букве. Если система не различает заглавные и строчные буквы, ре-зультаты поиска будут менее качественными.

‒ Поиск мультимедийных файлов.

‒ Форма представления результатов.

‒ Период обновления индекса. Этот показатель влияет на такой параметр как актуальность най-денных ссылок. Чем чаще обновляется индекс, тем реже в результатах поиска будут встречаться устаревшие ссылки.

‒ Задержка перед пропиской. Данный параметр указывает на временной интервал перед занесени-ем описания Web-страницы в индекс после просьбы ее автора.

Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, не-обходимо провести всесторонний лексический анализ информации, которую вы собираетесь искать. За-тем необходимо составить набор ключевых слов (при необходимости, на нескольких языках) в виде от-дельных терминов, словосочетаний, профессиональной лексики и клише.

‒ Тестовые запросы из 1-2 ключевых слов или фразы.

‒ Анализ количественного отклика.

‒ Корректировка запроса по релевантности отклика.

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

‒ Поиск общей информации в каталогах. В каталогах вы, как правило, обязательно выйдете на специализированные сервера в искомой области.

‒ Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска ограниченного числа ссылок в каталогах явно недостаточно. Кроме того, узкоспециаль-ная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск в поисковых машинах, обладающих индексами большого объема.

‒ Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной по-исковой машины. Эффективным и простым способом решения проблемы составления качест-венного запроса является использование режима расширенного запроса.

‒ Использование функции поиска в найденном. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов. Как правило, для этого нужно включить специальный флажок Искать в найденном и ввести дополнительные слова для повторного поис-ка среди найденных по запросу страниц.

‒ Использование поиска похожих документов.

‒ Использование метапоисковых систем и программ ускоренного поиска информации. Для полу-чения общего обзора документов целесообразно использовать возможности метапоисковых сис-тем или программ ускоренного поиска. Напоминаем, данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько са-мых релевантных ссылок.

‒ Просмотр раздела Ссылки на специализированных сайтах. Авторы многих специализированных Web-узлов накапливают свои коллекции ссылок по тематике сайта. Зачастую вы зайдете в этих коллекциях много полезных источников, сэкономив время, затрачиваемое на самостоятельный поиск с использованием рассмотренных выше инструментов.

‒ Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей. Найти нужную группу можно, ис-пользуя специальные инструменты поиска, которые мы рассмотрим далее.

‒ Подписка на специализированные списки рассылки. Подписавшись на специализированный спи-сок рассылки, вы сможете получать по электронной почте свежую информацию по вашей тема-тике, а также задавать вопросы вашим коллегам-подписчикам.

Обсудим проблему поиска такого источника информации, как статьи в группах новостей. Инструмен-тами поиска в данном случае могут являться рассмотренные поисковые машины WWW, которые ин-дексируют не только пространство WWW, но и статьи в телеконференциях и имеют специальный ре-жим поиска именно в этом ресурсе. Поиск в группах новостей поддерживает, например, поисковый сер-вер Altavist а. Следует отметить, что поисковые системы WWW весьма оперативно индексируют группы новостей и содержат информацию о статьях, реально существующих в сети. Для поиска в архивах ново-стей существую специализированные системы, самой известной из которых является система Deja (www.deja.com). Эта система позволяет проводить как поиск отдельных статей, содержащих введенный термин, так и поиск определенных групп новостей, посвященных обсуждению заданной темы. Можно зарегистрироваться в Deja и подписаться на определенные группы новостей.

Теперь рассмотрим инструменты, позволяющие проводить поиск файлов. Многие поисковые системы

WWW стали оказывать услугу поиска мультимедийных файлов (Altavista, Aport,…). Для этого вовсе нет необходимости знать специальные операторы, а достаточно перейти с домашней страницы по ссыл-кам Картинки (Images), MP3/Audio или Video к специальному режиму поиска. Поиск проводится по возможному имени файла или по тексту в комментарии к ссылке на мультимедийный файл. Вы можете спрогнозировать имя файла, например, файл с изображением орла может называться eagle.gif. Или до-гадаться, что фото Билла Гейтса будет иметь соответствующую подпись.

Что касается поиска программного обеспечения, во всемирной паутине существуют поисковые Web-серверы с коллекциями условно-бесплатного ПО, некоторые из них специализируются на поиск про-граммного обеспечения для Интернета или для конкретной операционной системы. Эти системы в ко-нечном итоге приведут вас к конкретному серверу, с которого и можно скачать искомый программный продукт. Следует упомянуть серверы Archie, также оказывающие услугу поиска файлов на FTP-серверах, однако пользоваться Web-серверами гораздо удобнее.

Рассмотрим поисковые инструменты для поиска адресной информации. Введем понятие Белого(White) и Желтого (Yellow) поиска.

White-поиск –поиск адресной информации по заранее известному собственному имени адресата(имячеловека или организации)

Yellow-поиск –поиск собственного имени по дополнительным признакам(по роду деятельности,погеографическому признаку), а затем поиск его адресной информации.

Обычно Yellow Pages системы фактически сразу включают в себя и White Pages – у найденного адреса-та сразу видны его телефон и почтовый адрес. Кроме того, некоторые Yellow Pages позволяют искать просто в алфавитном списке своих абонентов (white-поиск). С другой стороны, White pages также со-держат элементы yellow-поиска – кроме задания собственного имени они обычно позволяют указать название города, штата и другие, сужающие поиск, данные (что необходимо в случае многих однофа-мильцев). Возможно, именно поэтому многие on-line телефонные справочники, выполняющие, факти-чески white-поиск, называют себя Yellow pages.

Здесь приведены адреса Web-систем для поиска адресной информации для людей и организаций.

Поиск людей:

‒ Поиск людей на Yahoo (http://people.yahoo.com).

‒ Система WhoWhere (www.whowhere.com).

‒ Система Bigfoot (www.bigfoot.com).

Поиск организаций:

‒ раздел Желтые страницы (Yellow pages) на поисковых системах

‒ специализированные сервера

‒ www.yellowpages.com – для поиска в США и других странах

РАБОТА С ПОЧТОВЫМ КЛИЕНТОМ

Как упоминалось выше, одним из направлений использования Интернета является обмен информацией.

Рассмотрим основные средства обмена информацией, доступные через глобальную сеть:

Электронная почта ,позволяющая очень быстро отправлять электронные письма на электронные ад-реса пользователей Интернета.

Списки рассылки ,на которые можно подписаться,как на журнал,и затем периодически получать насвой электронный адрес подборку статей на заданную тему. Впоследствии можно отправлять свои со-общения всем подписчикам.

Группы новостей ,которые позволяют публиковать сообщения по интересам на специальных серверахв сети. Сообщения можно читать, подключившись к серверу и выбрав тему для себя. Далее, по жела-

Чрезвычайно популярным ресурсом является IRC , который служит для прямого общения группы лю-дей в режиме реального времени с помощью ввода текста с клавиатуры и немедленного появления его на общей доске.

Разработаны специальные программы для общения в реальном режиме времени, позволяющие после установления связи передавать текст, вводимый с клавиатуры, а также звук, свое изображение и любые файлы. С помощью этих программ можно организовать совместную работу удаленных пользователей с программой, запущенной на локальном компьютере.

‒ С помощью специального оборудования и программного обеспечения через Интернет можно проводить аудио- и видеоконференции, то есть передавать звук и изображение от одного ко мно-гим.

‒ В Интернете есть свои пейджинговые системы, в которых можно зарегистрироваться и получить свой персональный номер. Зная персональный номер другого человека, можно через централь-ный сервер пейджинговой службы отправить ему сообщение с предложением установить соеди-нение и пообщаться. Самой популярной пейджинговой системой в Интернете является система

‒ Интернет-телефонией называется система, позволяющая вести разговор в реальном времени че-рез сеть Интернет.

Приступим к более подробному описанию средств обмена информацией в Интернете. Начнем с самого древнего для сетевого общения средства под названием электронная почта. Введем определение:

Электронная почта –средство обмена информацией,подготовленной в электронном виде,междулюдьми, имеющими доступ к компьютерной сети.

Основными областями применения электронной почты являются ведение личной переписки и работа с некоторыми информационными ресурсами Интернета, такими как списки рассылки, off-line группы но-востей и системы пересылки файлов по электронной почте. Конечно, имея вариант подключения к Ин-тернету в режиме on-line, удобнее для копирования файлов использовать любой FTP-клиент или про-грамму загрузки файлов. Однако иногда для пользователей, имеющих способ подключения по протоко-лу UUCP, единственным способом получить файл с FTP-сервера является заказ его по почте с исполь-зованием специальной службы файлы-почтой. Кроме того, почтовая система не требует вашего непре-менного присутствия в Интернете, поэтому возможность получить архив с программой приличного размера по электронной почте иногда удобнее даже для пользователей, имеющий полноценный доступ ко всем ресурсам Интернета.

Как реализована технология клиент/сервер в случае электронной почты. Серверную часть представля-ет почтовый сервер.

Почтовый сервер –программа,пересылающая сообщения из почтовых ящиков на другие серверы илина компьютер пользователя по запросу его почтового клиента. На почтовом сервере создают почтовые ящики для пользователей с определенным именем и паролем для доступа.

Клиентскую часть сервиса представляет почтовый клиент. Почтовый клиент (мейлер) – программа, помогающая составлять и посылать электронные сообщения, получать и отображать письма на компью-тере пользователя.

Работа с почтой может проводиться в режиме off-line. Это означает, что для получения и отправки поч-ты в назначенный час вы устанавливаете соединение с провайдером. Затем вы даете команду вашему почтовому клиенту, по которой он подключается к вашему почтовому серверу, отсылает подготовлен-ные письма и забирает на локальный компьютер сообщения, пришедшие за истекший период на ваш почтовый ящик. Писать письма и читать полученные с сервера сообщения вы можете в автономном ре-жиме, то есть, без подключения к Интернету.

Теперь рассмотрим почтовые протоколы.

Одним из вариантов подключения к Интернету является подключение по протоколу UUCP. UUCP (протокол копирования с Unix на Unix) использовался для передачи информации по компьютерным се-тям очень давно, до изобретения протокола TCP/IP. UUCP (протокол копирования сUnixнаUnix) – устаревающий протокол для передачи информации по компьютерным сетям. В то время единственным средством общения была электронная почта, которая и передавалась по упомянутому протоколу, досто-инством которого является неприхотливость к ресурсам компьютера, параметрам модема и качеству телефонной линии связи. На сегодняшний день протокол UUCP безнадежно устарел, он не относится к Интернет-протоколам, то есть, не базируется на TCP/IP. Тем не менее, следует упомянуть о программе-

клиенте, разработанной российскими программистами специально для работы с почтой по этому прото-колу – программе, работающей под упра