Реферат: Технологии поиска информации в сети Интернет. Проблемы, возникающие в процессе поиска

c Вячеслав Тихонов , Ноябрь 2000 atomzone.hypermart.net

1. Введение

2. Поисковые системы

2.1. Как работают механизмы поиска 2.2. Сравнительный обзор поисковых систем

3. Поисковые роботы

3.1. Использование поисковых роботов

3.1.1. Статистический анализ 3.1.2. Обслуживание гипертекстов 3.1.3. Зазеркаливание 3.1.4. Исследование ресурсов 3.1.5. Комбинированное использование

3.2. Повышение затрат и потенциальные опасности при использовании поисковых роботов

3.2.1.Сетевой ресурс и загрузка сервера 3.2.2.Обновление документов

3.3. Роботы / агенты клиента

3.3.1.Плохие программные реализации роботов

4.1. Определение роботом, какую информацию включать / исключать 4.2. Формат файла /robots.txt. 4.3. Записи (records) файла /robots.txt 4.4. Расширенные комментарии формата. 4.5. Определение порядка перемещения по Сети 4.6. Подведение итоговых данных

5. Заключение

1. Введение

Основные протоколы, используемые в Интернет (в дальнейшем также Сеть), не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают предела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.

2. Поисковые системы

Поисковые cистемы обычно состоят из трех компонент:

    агент (паук или кроулер), который перемещается по Сети и собирает информацию;

    база данных, которая содержит всю информацию, собираемую пауками;

    поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

2.1 Как работают механизмы поиска

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

    Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

    Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

    Кроулеры просматривают заголовки и возращают только первую ссылку.

    Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

    Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).

    Тэги, в которых эти слова располагаются.

    Местоположение искомых слов в документе.

    Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

    Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.

    Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

2.2 Сравнительный обзор поисковых систем

Lycos . В Lycos используется следующий механизм индексации:

    слова в title заголовке имеют высший приоритет;

    слова в начале страницы;

Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие способы организации поисковых предписаний.

AltaVista . Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

    ключевые фразы, находящиеся в начале странички;

    ключевые фразы по количеству вхожденийприсутствия словфраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo . Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText . Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek . В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

    слова в заголовке title имеют наивысший приоритет;

    слова в теге keywords, description и частота вхожденийповторений в самом тексте;

    при повторении одинаковых слов рядом выбрасывает из индекса

    Допускает до 1024 символов для тега keywords, 200 символов для тэга description;

    Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS . WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.

3. Поисковые роботы

За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной, не говоря уже об эффективном методе исследования ресурсов.

Эта проблема побудила исследователей Интернет на проведение экспериментов с автоматизированной навигацией по Сети, названной "роботами". Веб-робот - это программа, которая перемещается по гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается. Эти программы также иногда называют "пауками", " странниками", или " червями" и эти названия, возможно, более привлекательны, однако, могут ввести в заблуждение, поскольку термин "паук" и "странник" cоздает ложное представление, что робот сам перемещается, а термин "червь" мог бы подразумевать, что робот еще и размножается подобно интернетовскому вирусу-червю. В действительности, роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.

3.1 Использование поисковых роботов

Роботы могут использоваться для выполнения множества полезных задач, таких как статистический анализ, обслуживание гипертекстов, исследования ресурсов или зазеркаливания страниц. Рассмотрим эти задачи подробнее.

3.1.1 Статистический Анализ

Первый робот был создан для того, чтобы обнаружить и посчитать количество веб-серверов в Сети. Другие статистические вычисления могут включать среднее число документов, приходящихся на один сервер в Сети, пропорции определенных типов файлов на сервере, средний размер страницы, степень связанности ссылок и т.д.

3.1.2 Обслуживание гипертекстов

Одной из главных трудностей в поддержании гипертекстовой структуры является то, что ссылки на другие страницы могут становиться " мертвыми ссылками" в случае, когда страница переносится на другой сервер или cовсем удаляется. На сегодняшний день не существует общего механизма, который смог бы уведомить обслуживающий персонал сервера, на котором содержится документ с сылками на подобную страницу, о том, что она изменилась или вобще удалена. Некоторые серверы, например, CERN HTTPD, будут регистрировать неудачные запросы, вызванные мертвыми ссылками наряду с рекомендацией относительно страницы, где обнаружена мертвая cсылка, предусматривая что данная проблема будет решаться вручную. Это не очень практично, и в действительности авторы документов обнаруживают, что их документы содержат мертвые ссылки лишь тогда, когда их извещают непосредственно, или, что бывает очень редко, когда пользователь cам уведомляет их по электронной почте.

Робот типа MOMSPIDER, который проверяет ссылки, может помочь автору документа в обнаружении подобных мертвых ссылок, и также может помогать в обслуживании гипертекстовой структуры. Также роботы могут помочь в поддержании содержания и самой структуры, проверяя соответствующий HTML-документ, его соответствие принятым правилам, регулярные модернизации, и т.д., но это обычно не используется. Возможно, данные функциональные возможности должны были бы быть встроены при написании окружающей среды HTML-документа, поскольку эти проверки могут повторяться в тех случаях, когда документ изменяется, и любые проблемы при этом могут быть решены немедленно.

3.1.3 Зазеркаливание

Зазеркаливание - популярный механизм поддержания FTP архивов. Зеркало рекурсивно копирует полное дерево каталогов по FTP, и затем регулярно перезапрашивает те документы, которые изменились. Это позволяет распределить загрузку между несколькими серверами, успешно справиться с отказами сервера и обеспечить более быстрый и более дешевый локальный доступ, так же как и автономный доступ к архивам. В Сети Интернет зазеркаливание может быть осуществлено с помощью робота, однако на время написания этой статьи никаких сложных средств для этого не существовало. Конечно, существует несколько роботов, которые восстанавливают поддерево страниц и сохраняют его на локальном сервере, но они не имеют средств для обновления именно тех страниц, которые изменились. Вторая проблема - это уникальность страниц, которая состоит в том, что ссылки в скопированных страницах должны быть перезаписаны там, где они ссылаются на страницы, которые также были зазеркалены и могут нуждаться в обновлении. Они должны быть измененены на копии, а там, где относительные ссылки указывают на страницы, которые не были зазеркалены, они должны быть расширены до абсолютных ссылок. Потребность в механизмах зазеркаливания по причинам показателей производительности намного уменьшается применением сложных кэширующих серверов, которые предлагают выборочную модернизацию, что может гарантировать, что кэшированный документ не обновился, и в значительной степени самообслуживается. Однако, ожидается, что cредства зазеркаливания в будущем будут развиваться должным образом.

3.1.4 Исследование ресурсов

Возможно, наиболее захватывающее применение роботов - использование их при исследовании ресурсов. Там, где люди не могут справиться с огромным количеством информации, довольно возможность переложить всю работу на компьютер выглядит довольно привлекательно. Существует несколько роботов, которые собирают информацию в большей части Интернет и передают полученные результаты базе данных. Это означает, что пользователь, который ранее полагался исключительно на ручную навигацию в Сети, теперь может объединить поиск с просмотром страниц для нахождения нужной ему информации. Даже если база данных не содержит именно того, что ему нужно, велика вероятность того, что в результате этого поиска будет найдено немало ссылок на страницы, которые, в свою очередь, могут ссылаться на предмет его поиска.

Второе преимущество состоит в том, что эти базы данных могут автоматически обновляться за определенный период времени так, чтобы мертвые ссылки в базе данных были обнаружены и удалены, в отличие от обслуживания документов вручную, когда проверка часто является спонтанной и не полной. Использование роботов для исследования ресурсов будет обсуждаться ниже.

3.1.5 Комбинированное использование

Простой робот может выполнять более чем одну из вышеупомянутых задач. Например робот RBSE Spider выполняет статистический анализ запрошенных документов и обеспечивает ведение базы данных ресурсов. Однако, подобное комбинированное использование встречается, к сожалению, весьма редко.

3.2 Повышение затрат и потенциальные опасности при использовании поисковых роботов

Использование роботов может дорого обойтись, особенно в случае, когда они используются удаленно в Интернете. В этом разделе мы увидим, что роботы могут быть опасны, так как они предъявляют слишком высокие требования к Сети.

Роботы требуют значительной пропускной способности канала сервера. Во-первых роботы работают непрерывно в течение длительных периодов времени, часто даже в течение месяцев. Чтобы ускорить операции, многие роботы делают параллельные запросы страниц с сервера, ведущие в последствии к повышенному использованию пропускной способности канала сервера. Даже удаленные части Сети могут чувствовать сетевую нагрузку на ресурс, если робот делает большое количество запросов за короткий промежуток времени. Это может привести к временной нехватке пропускной способности сервера для других пользователей, особенно на серверах с низкой пропускной способностью, поскольку Интернет не имеет никаких cредств для балансирования нагрузки в зависимости от используемого протокола.

Традиционно Интернет воспринимался как "свободный", поскольку индивидуальные пользователи не должны были платить за его использование. Однако теперь это поставлено под сомнение, так как особенно корпоративные пользователи платят за издержки, связанные с использованием Сети. Компания может чувствовать, что ее услуги (потенциальным) клиентам стоят оплаченных денег, а страницы, автоматически переданные роботам - нет.

Помимо предъявления требований к Сети, робот также предъявляет дополнительные требования к самому серверу. В зависимости от частоты, с которой он запрашивает документы с сервера, это может привести к значительной загрузке всего сервера и снижению скорости доступа других пользователей, обращающихся к серверу. К тому же, если главный компьютер используется также для других целей, это может быть вообще неприемлемо. В качестве эксперимента автор управлял моделированием 20 параллельных запросов от своего сервера, функционирующего как Plexus сервер на Sun 4/330. Несколько минут машину, замедленную использованием паука, вообще невозможно было использовать. Этот эффект можно почувствовать даже последовательно запрашивая страницы.

Все это показывает, что нужно избегать ситуаций с одновременным запросом страниц. К сожалению, даже современные браузеры (например, Netscape) создают эту проблему, параллельно запрашивая изображения, находящиеся в документе. Сетевой протокол HTTP оказался неэффективным для подобных передач и как средство борьбы с подобными эффектами сейчас разрабатываются новые протоколы.

3.2.2 Обновление документов

Как уже было упомянуто, базы данных, создаваемые роботами, могут автоматически обновляться. К сожалению, до сих пор не имеется никаких эффективных механизмов контроля за изменениями, происходящими в Сети. Более того, нет даже простого запроса, который мог бы определить, которая из cсылок была удалена, перемещена или изменена. Протокол HTTP обеспечивает механизм "If-Modified-Since", посредством которого агент пользователя может определить время модификации кэшированного документа одновременно с запросом самого документа. Если документ был изменен, тогда сервер передаст только его содержимое, так как этот документ уже был прокэширован.

Это средство может использоваться роботом только в том случае, если он сохраняет отношения между итоговыми данными, которые извлекаются из документа: это сама ссылка и отметка о времени, когда документ запрашивался. Это ведет к возникновению дополнительных требований к размеру и сложности базы данных и широко не применяется.

3.3 Роботы / агенты клиента

Загрузка Сети является особой проблемой, связанной с применением категории роботов, которые используются конечными пользователями и реализованы как часть веб-клиента общего назначения (например, Fish Search и tkWWW робот). Одной из особенностей, которая является обычной для этих роботов, является способность передавать обнаруженную информацию поисковым системам при перемещении по Сети. Это преподносится как усовершенствование методов исследования ресурсов, так как запросы к нескольким удаленным базам данных осуществляются автоматически. Однако, по мнению автора, это неприемлемо по двум причинам. Во-первых, операция поиска приводит к большей загрузке сервера, чем даже простой запрос документа, поэтому обычному пользователю могут быть причинены значительные неудобства при работе на нескольких серверах с большими издержками, чем обычно. Во-вторых, ошибочно предполагать, что одни и те же ключевые слова при поиске одинаково релевантны, синтаксически правильны, не говоря уже об оптимальности для различных баз данных, и диапазон баз данных полностью скрыт от пользователя. Например, запрос " Форд и гараж " мог бы быть послан базе данных, хранящей литературу 17-ого столетия, базе данных, которая не поддерживает булевские операторы или базе данных, которая определяет, что запросы относительно автомобилей должны начаться со слова "автомобиль: ". И пользователь даже не знает это.

Другой опасный аспект использования клиентского робота заключается в том, что как только он был распространен по Сети, никакие ошибки уже не могут быть исправлены, не могут быть добавлены никакие знания проблемных областей и никакие новые эффективные свойства не могут его улучшить, как не каждый пользователь впоследствии будет модернизировать этого робота самой последней версией.

Наиболее опасный аспект, однако - большое количество возможных пользователей роботов. Некоторые люди, вероятно, будут использовать такое устройство здраво, то есть ограничиваться некоторым максимумом ссылок в известной области Сети и в течение короткого периода времени, но найдутся и люди, которые злоупотребят им из-за невежества или высокомерия. По мнению автора, удаленные роботы не должны передаваться конечным пользователям, и к счастью, до сих пор удавалось убедить по крайней мере некоторых авторов роботов не распространять их открыто.

Даже не учитывая потенциальную опасность клиентских роботов, возникает этический вопрос: где использование роботов может быть полезно всему Интернет-сообществу для объединения всех доступных данных, а где они не могут быть применены, поскольку принесут пользу только одному пользователю.

"Интеллектуальные агенты" и " цифровые помощники", предназначенные для использования конечным пользователем, который ищет информацию в Интернет, являются в настоящее время популярной темой исследований в компьютерной науке, и часто рассматриваются как будущее Сети. В то же время это действительно может иметь место, и уже очевидно, что автоматизация неоценима для исследований ресурсов, хотя требуется проводить еще больше исследований для того, чтобы их сделать их использование эффективным. Простые управляемые пользователем роботы очень далеки от интеллектуальных сетевых агентов: агент должен иметь некоторое представление о том, где найти определенную информацию (то есть какие услуги использовать) вместо того, чтобы искать ее вслепую. Рассмотрим ситуацию, когда человек ищет книжный магазин; он использует "Желтые страницы" для области, в которой он проживает, находит список магазинов, выбирает из них один или несколько, и посещает их. Клиентский робот шел бы во все магазины в области, спрашивая о книгах. В Сети, как и в реальной жизни, это неэффективно в малом масштабе, и совсем должно быть запрещено в больших масштабах.

3.3.1 Плохие программные реализации роботов

Нагрузка на сеть и серверы иногда увеличивается плохой программной реализацией особенно недавно написанных роботов. Даже если протокол и ссылки, посланные роботом, правильны, и робот правильно обрабатывает возвращенный протокол (включая другие особенности вроде переназначения), имеется несколько менее очевидных проблем.

Автор наблюдал, как несколько похожих роботов управляют вызовом его сервера. В то время, как в некоторых случаях негативные последствия были вызваны людьми, использующими свой сайт для испытаний (вместо локального сервера), в остальных случаях стало очевидно, что они были вызваны плохим написанием самого робота. При этом могут произойти повторные запросы страниц в том случае, если нет никаких записей об уже запрошенных ссылках (что является непростительным), или когда робот не распознает, когда несколько ссылок синтаксически эквивалентны, например, где различаются DNS псевдонимы для одного и того же адреса IP, или где ссылки не могут быть обработаны роботом, например " foo/bar/ baz.html " является эквивалентным "foo/baz.html".

Некоторые роботы иногда запрашивают документы типа GIF и PS, которые они не могут обработать и поэтому игнорируют.

Другая опасность состоит в том, что некоторые области Сети являются почти бесконечными. Например, рассмотрим сценарий, который возвращает страницу со ссылкой на один уровень, расположенный ниже. Он начнет, например, с " /cgi-bin/pit / ", и продолжит с " /cgi-bin/pit/a / ", " /cgi-bin/pit/a/a / ", и т.д. Поскольку такие cсылки могут заманить в робота в ловушку, их часто называют "черными дырами".

4. Проблемы при каталогизации информации

Бесспорен тот факт, что базы данных, наполняемые роботами, популярны. Автор непосредственно регулярно использует такие базы данных для нахождения нужных ему ресурсов. Однако, имеется несколько проблем, которые ограничивают применение роботов для исследования ресурсов в Сети. Одна из них заключается в том, что здесь находится слишком много документов, и все они постоянно динамически изменяются.

Одной из мер эффективности подхода к поиску информации является "отзыв" (recall), содержащий информацию о всех релевантных документах, которые были найдены. Брайен Пинкертон утверждает, что отзыв в индексирующих системах Интернет является вполне приемлемым подходом, так как обнаружение достаточно релевантных документов не проблема. Однако, если сравнивать все множенство информации, доступной в Интернет, с информацией в базе данных, созданной роботом, то отзыв не может быть слишком точным, поскольку количество информации огромно и она очень часто изменяется. Так что практически база данных может не содержать специфического ресурса, который доступен в Интернет в данный момент, и таких документов будет множество, поскольку Сеть непрерывно растет.

4.1. Определение роботом, какую информацию включать / исключать

Робот не может автоматически определить, была ли данная страница в Сети включена в его индекс. К тому же веб-сервера в Интернет могут содержать документы, которые являются релевантными только для локального контекста, документы, которые существуют временно, и т.д. На практике роботы сохраняют почти всю информацию о том, где они побывали. Заметьте, что, даже если робот смог определить, должна ли указанная страница быть исключена из его базы данных, он уже понес накладные расходы на запрос самого файла, а робот, который решает игнорировать большой процент документов, очень расточителен. Пытаясь исправить эту ситуацию, Интернет-сообщество приняло " Стандарт исключений для роботов". Этот стандарт описывает использование простого структурированного текстового файла, доступного в известном месте на сервере ("/robots.txt") и используемого для того, чтобы определить, какая из частей их ссылок должна игнорироваться роботами. Это средство может быть также использовано для того, чтобы предупредить роботов о черных дырах. Каждому типу роботов можно передавать определенные команды, если известно, что данный робот специализируется в конкретной области. Этот стандарт является свободным, но его очень просто осуществить и в нем имеется значительное давление на роботов с попыткой их подчинения.

4.2. Формат файла /robots.txt.

Файл /robots.txt предназначен для указания всем поисковым роботам индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые НЕ описаны в /robots.txt. Это файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id), и указывают для каждого робота или для всех сразу что именно им НЕ НАДО индексировать. Тот, кто пишет файл /robots.txt, должен указать подстроку Product Token поля User-Agent, которую каждый робот выдает на HTTP-запрос индексируемого сервера. Например, нынешний робот Lycos на такой запрос выдает в качестве поля User-Agent:

Lycos_Spider_(Rex)/1.0 libwww/3.1

Если робот Lycos не нашел своего описания в /robots.txt - он поступает так, как считает нужным. При создании файла /robots.txt следует учитывать еще один фактор - размер файла. Поскольку описывается каждый файл, который не следует индексировать, да еще для многих типов роботов отдельно, при большом количестве не подлежащих индексированию файлов размер /robots.txt становится слишком большим. В этом случае следует применять один или несколько следующих способов сокращения размера /robots.txt:

    указывать директорию, которую не следует индексировать, и, соответственно, не подлежащие индексированию файлы располагать именно в ней

    создавать структуру сервера с учетом упрощения описания исключений в /robots.txt

    указывать один способ индексирования для всех agent_id

    указывать маски для директорий и файлов

4.3. Записи (records) файла /robots.txt

Общее описание формата записи.

[ # comment string NL ]*

User-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]* # comment string ]? NL

[ # comment string NL ]*

# comment string NL

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

Параметры

Описание параметров, применяемых в записях /robots.txt

    [...]+ Квадратные скобки со следующим за ними знаком + означают, что в качестве параметров должны быть указаны один или несколько терминов. Например, после "User-Agent:" через пробел могут быть указаны один или несколько agent_id.

    [...]* Квадратные скобки со следующим за ними знаком * означают, что в качестве параметров могут быть указаны ноль или несколько терминов. Например, Вы можете писать или не писать комментарии.

    [...]? Квадратные скобки со следующим за ними знаком? означают, что в качестве параметров могут быть указаны ноль или один термин. Например, после "User-Agent: agent_id" может быть написан комментарий.

    ..|.. означает или то, что до черты, или то, что после.

    WS один из символов - пробел (011) или табуляция (040)

    NL один из символов - конец строки (015) , возврат каретки (012) или оба этих символа (Enter)

    User-Agent: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются agent_id поисковых роботов.

    Disallow: ключевое слово (заглавные и прописные буквы роли не играют). Параметрами являются полные пути к неиндексируемым файлам или директориям.

    # начало строки комментариев, comment string - собственно тело комментария.

    agent_id любое количество символов, не включающих WS и NL, которые определяют agent_id различных поисковых роботов. Знак * определяет всех роботов сразу.

    path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексации.

4.4. Расширенные комментарии формата.

Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_id или path_root закончена. Если в строке User-Agent указано несколько agent_id, то условие path_root в строке Disallow будет выполнено для всех одинаково. Ограничений на длину строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле /robots.txt своего agent_id, то он игнорирует /robots.txt.

Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки

Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_id, то робот волен выбирать любую из них.

Каждый поисковый робот будет определять абсолютный URL для чтения с сервера с использованием записей /robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.

Пример 1:

User-Agent: Lycos

Disallow: /cgi-bin/ /tmp/

В примере 1 файл /robots.txt содержит две записи. Первая относится ко всем поисковым роботам и запрещает индексировать все файлы. Вторая относится к поисковому роботу Lycos и при индексировании им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные - разрешает. Таким образом сервер будет проиндексирован только системой Lycos.

4.5. Определение порядка перемещения по Сети

Определение того, как перемещаться по Сети является относительной проблемой. Учитывая, что большинство серверов организовано иерархически, при первом перемещении вширь по ссылкам от вершины на ограниченной глубине вложенности ссылок, более вероятно быстрее найти набор документов с более высоким уровнем релевантности и услуг, чем при перемещении в глубину вложенности ссылок, и поэтому этот метод намного предпочтительнее для исследования ресурсов. Также при перемещении по ссылкам первого уровня вложенности более вероятно найти домашние страницы пользователей с ссылками к другим, потенциально новым, серверам, и поэтому при этом существует большая вероятность найти новые сайты.

4.6. Подведение итоговых данных

Проиндексировать произвольный документ, находящийся в Сети, очень сложно. Первые роботы просто сохраняли название документа и якори (anchor) в самом тексте, но новейшие роботы уже используют более продвинутые механизмы и вообще рассматривают полное содержание документа.

Эти методы являются хорошими общими мерами и могут автоматически применяться для всех страниц, но, к сожалению, не могут быть столь же эффективны, как индексация страницы самим ее автором. Язык HTML обеспечивает автора документа средством для того, чтобы присоединить к нему общую информацию. Это средство заключается в определении элемента, например " . Однако, здесь не определяется никакая семантика для специфических значений атрибутов данного HTML-тэга, что серьезно ограничивает его применение, а поэтому и его полноценность. Это ведет к низкой "точности" относительно общего количества запрошенных документов, которые являются релевантными для конкретного запроса. Включение особенностей типа применения булевских операторов, нахождение весов слов, как это делается в WAIS или обратной связи для релевантности, могут улучшить точность документов, но учитывая, что информация, находящаяся в данный момент в Интернет, чрезвычайно разнообразна, эта проблема продолжает быть серьезной и наиболее эффективные пути ее решения пока не найдены.

5. Заключение

Данная работа, естественно, не претендует ни на полноту, ни на точность изложения. Большая часть материала была взята из иностранных источников, в частности, основой послужили обзоры Мартина Костера (Martijn Koster). Поэтому я не исключаю возможности, что данный документ содержит какие-либо неточности, связанные как с переводом, так и с феноменально быстрым развитием информационных технологий. Однако, я все же надеюсь, что данная статья окажется полезной всем, кого интересует Всемирная Сеть Интернет, ее развитие и будущее. В любом случае я буду рад получить отклики о моей работе по E-Mail: [email protected]

6. Список использованной литературы

Павел Храмцов "Поиск и навигация в Internet". http://www.osp.ru/cw/1996/20/31.htm

How Intranet Search Tools and Spiders Work http://linux.manas.kg/books/how_intranets_work/ch32.htm

Martijn Koster "Robots in the Web: threat or treat?" http://info.webcrawler.com/mak/projects/robots/threat-or-treat.html

Обучение Интернет-профессиям. Search engine Expert. http://searchengine.narod.ru/archiv/se_2_250500.htm

Андрей Аликберов "Несколько слов о том, как работают роботы поисковых машин". http://www.citforum.ru/internet/search/art_1.shtml

Федеральное агентство по образованию

Смоленский государственный университет

Технологии поиска информации в сети Интернет.

Смоленск


Введение…………………………………………………………………………..

1.Классификация поисковых систем …………………………………………...

2.Приемы поиска………………………………………………………………....

2.1.Простой поиск………………………………………………………………..

2.2.Расширенный поиск………………………………………………………….

3.Тематический каталог Yahoo.…………………………………………………

4.Автоматический индекс Alta Vista……………………………………………

5.Поиск информации в конференциях (Usenet)………………………………..

6.Отечественные поисковые службы …………………………………………..

6.1.Rambler……………………………………………………………………….

7.Поиск файлов …………………………………………………………………..

8.Источники специализированной информации ………………………………

9.Поиск отдельных людей в сети Internet ……………………………………...

10.Метапоиск……………………………………………………………………..

11.Эффективный поиск информации…………………………………………...

Заключение……………………………………………………………………….

Литература………………………………………………………………………..

Введение

Любой, кто пытался когда-нибудь найти нужную информацию в Интернете, наверняка согласится с тем, что этот процесс похож на поиск иголки в стоге сена. Глобальная сеть Internet содержит огромный объем информации, который стремительно увеличивается с каждым днем. В силу этого часто оказывается, что задача нахождения необходимой информации в этом информационном океане является чрезвычайно сложной и нужно уметь эффективно использовать различные поисковые системы (программы поиска информации в сети). Необходимо учесть, что "поиск - это искусство".

1. Классификация поисковых систем

Существует много разных поисковых систем принадлежащих разным компаниям. Прежде всего, выделяют так называемые тематические каталоги (например, Yahoo) и автоматические индексы (например, AltaVista), хотя необходимо иметь ввиду, что целый ряд поисковых систем занимает некоторое промежуточное положение между этими двумя "полюсами", то есть они содержат в себе элементы обоих этих классов. Каждая из поисковых систем имеет свою обширную базу данных об адресах (местоположении) различных Web-документов, и поиск ссылок на необходимую нам информацию происходит, не в самих Web-документах, а именно в этой базе данных.

Тематические каталоги и автоматические индексы различаются, прежде всего, по тому, как формируются и пополняются их базы данных: принимают ли в этом процессе участие люди, или все происходит совершенно автоматически.

Базы данных тематических каталогов составляются и систематически пополняются экспертами в соответствующих областях на основании новых Web-документов, обнаруженных в Internet специальными поисковыми программами. Тематический каталог представляет пользователю Internet некоторую древовидную структуру категорий (разделов и подразделов), на верхнем уровне которой собраны самые общие понятия, такие как Наука, Искусство, Бизнес и т. п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и серверы вместе с кратким описанием их содержимого. По этому иерархическому каталогу можно путешествовать, начиная с более общих категорий (понятий) к более узким, специализированным.

Например, для нахождения информации о состоянии научных исследований по теории суперструн можно спуститься вниз по следующей "лестнице" понятий:

Science (Наука)

Physics (Физика)

Theoretical Physics (Теоретическая физика)

Theories (Теории)

String Theories (Теорииструн)


В результате будет получен список сайтов, среди которых наибольший интерес представляет сайт Superstrings. Щелкнув мышью на гиперссылке Superstrings, мы попадаем на home page сайта, с соответствующим заголовком, на котором можно найти on-line учебник по теории суперструн, различные ссылки для дальнейшего чтения, глоссарий по суперструнам и т.д.

Главным достоинством тематических каталогов является большая ценность получаемой пользователем информации, что обеспечивается присутствием "человеческого фактора" в процессе анализа и сортировки новых Web-страниц. С другой стороны, тематические каталоги имеют существенный недостаток, связанный опять же с человеческим фактором, ибо из-за ограниченных возможностей человека их базы данных охватывают лишь небольшую часть всего информационного Web-пространства (менее 1 %). Таким образом, несмотря на всю полезность тематических каталогов, использование лишь поисковых систем этого вида часто оказывается явно недостаточным.

Сводная таблица избранных предметных каталогов

List.Ru Апорт Яндекс Rambler Yahoo! About
Общая характеристика 19 разделов верхнего уровня 14 разделов верхнего уровня 10 основных разделов, 7 комбинированных, дополнительная классификация 56 разделов 14 основных разделов 36 разделов
Сортировка ресурсов внутри раздела Алфавит, оценка гидов, популярность (посещаемость), дата Алфавит, посещаемость, лига, оценка числа ссылок на данный ресурс, мнение пользователей Алфавит, дата добавления, индекс цитируемости по посещаемости по алфавиту по оплаченности ссылок
Булевские операторы Используется язык поисковой машины Апорт Используется язык поисковой машины Яndex Используется язык поисковой машины Rambler Нет Нет
Поиск по фразе " " " "
Префиксы +, - +, -
Итеративный поиск (в результатах) Есть поиск внутри категории После входа щелкните More…
замена части слова * * (не всегда корректно)

В отличие от тематических каталогов, базы данных для автоматических индексов создаются и пополняются полностью автоматически некоторыми специальными, внутренними поисковыми программами-роботами, которые в круглосуточном режиме просматривают Internet-узлы (сайты) в поисках вновь появившихся Web-документов. Из каждого такого документа робот извлекает все содержащиеся в нем новые ссылки и добавляет их в свою базу адресов, в результате чего у программы-робота возникает возможность просмотра еще некоторого количества новых для него Web-документов. В каждом новом Web-документе робот анализирует все входящие в него слова и в разделе базы данных, соответствующем каждому данному слову, запоминается адрес (URL) документа, где это слово встретилось. Таким образом, база данных, создаваемая автоматическим индексом, фактически хранит сведения о том, в каких Web-документах содержаться те или иные слова. В отличие от тематических каталогов, автоматические индексы охватывают до 25 % общего Web-пространства.

Автоматический индекс имеет отдельную поисковую систему для обеспечения интерфейса с пользователем. Эта система может, просматривая базу данных, по заданному набору ключевых слов находить и выдавать на экран пользовательского компьютера адреса и краткую информацию обо всех Web-страницах, которые содержат данный набор ключевых слов. Таким образом, автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе данных. Именно с последней составляющей и работает пользователь. В силу такой организации, автоматический индекс не делает какой-либо классификации или оценивания информации.

Интерфейс автоматических индексов позволяет пользователю задать некоторый набор ключевых слов, которые с его точки зрения, являются характерными для искомых им документов, и позволяют, таким образом, найти достаточно ограниченное число потенциально относящихся к делу Web-страниц. В качестве таковых слов могут быть использованы некоторые специфические термины и их комбинации, достаточно редкие фамилии и т. д.

Успех поиска нужной информации в значительной степени определяется именно удачным выбором ключевых слов, ибо в противном случае поисковая система может выдать многие тысячи и миллионы ссылок на не относящиеся к делу Web-документы.

Следует иметь ввиду, что начинающего пользователя подстерегает много разных неожиданностей, иногда доходящих до анекдотических ситуаций.

Если для автоматических индексов поиск по ключевым словам является единственным средством нахождения необходимой информации, то в тематических каталогах (например, в Yahoo!) это средство является альтернативным способом поиска наряду с путешествием по системе (дереву) вложенных друг в друга категорий.

Некоторой разновидностью поисковых служб являются рейтинговые службы. Они предоставляют клиенту готовый список некоторых ссылок, к которым обращались наиболее часто другие пользователи сети Internet. Когда речь идет о темах, имеющих общественный интерес, таких как новости, музыка и т. д., такие рекомендации, полученные статистическим методом, являются весьма удобными и полезными. Такие услуги, в частности, обеспечивает отечественная служба Rambler.

2. Приемы поиска

2.1. Простой поиск

Каждая поисковая система (ПС) предоставляет свои методы поиска и имеет свои особенности в правилах записи комбинаций ключевых слов. Однако есть общие элементы одинаково справедливые для большинства поисковых систем. Обычно все ПС допускают поиск Web-документов по ключевым словам, которые являются характерными для искомого документа. Выбор таких слов часто является нетривиальной задачей.

Как правило, указание одного ключевого слова является недостаточным, и тогда возникает вопрос о том, как задавать их соответствующие комбинации. Пусть, например, мы хотим получить информацию о российском лауреате нобелевской премии 2000 г. Жоресе Алферове. Указание в поле поиска только фамилии

приведет к обнаружению огромного количества документов, большинство из которых никакого отношения к интересующему нас физику не имеет. Задавая же в поле поиска два ключевых слова

разделенных символом пробела, мы должны иметь ввиду, что разные поисковые системы реагируют на этот символ по-разному. Большинство ПС рассматривают пробел как знак логической операции "или" (OR) (к ним относятся Yahoo, AltaVista и т. д.). Поэтому поиск по комбинации слов Zhorez Alferov не сократит, а, наоборот, увеличит количество документов, найденных поисковой системой: будут найдены все документы, где встречается или слово Zhorez, или слово Alferov, или оба эти слова вместе.

В таких случаях для более адекватного поиска можно использовать заключение ключевых слов в кавычки, которые определяют точную комбинацию заключенных в них символов:

"Zhorez Alferov".

Однако, при этом не будут найдены документы, в которые входит комбинация этих слов в другом порядке (Alferov Zhorez), ибо всё заключенное в кавычки является единым словосочетанием, и поисковая система ищет в документах абсолютно точное совпадение всех символов этого словосочетания.

Для того, чтобы найти только те Web-страницы, на которых одновременно присутствуют все наши ключевые слова, перед каждым из них нужно поставить знак плюс. Например,

Zhorez +Alferov

приведет к нахождению Web-документов, где обязательно присутствует и слово Zhorez, и слово Alferov, причем не только в любом порядке, но и на любом расстоянии друг от друга (в последнем случае в найденном документе между этими словами может не быть никакой логической связи).

Знак минус перед словом исключает все документы, которые его содержат, что в ряде случаев может быть очень полезно. Например, если нам нужно найти разные работы по геометрической, но не волновой оптике, то можно задать такую комбинацию ключевых слов

Свет+оптика-волна

Необходимо иметь ввиду, что многие слова могут иметь одинаковую основу, но разные окончания (например, указание множественного числа в английском языке, падежного окончания в русском и т. д.). В связи с этим многие поисковые системы, получив запрос в виде последовательности ключевых слов, производят его нормализацию: отбрасывают из этого запроса все слова, состоящие менее чем из четырех символов (например, английский предлог of), а также отбрасывают различные окончания и суффиксы.

Например, чтобы не пропустить документ, в который входит фраза "В геометрической оптике световой луч...", поисковая система может приведенный выше запрос свести (нормализовать) к виду

Свет+оптик*-волн* (1)

Здесь символом звездочка (*) обозначены любые комбинации символов после корня соответствующих слов.

Поскольку не все ПС проводят такую первоначальную обработку запроса клиента, целесообразно самим задавать запрос в форме (1), то есть использовать символ "звездочка" для указания возможных вариаций окончаний ключевых слов.

Необходимо иметь в виду некоторое различие при использовании больших (прописных) и малых (строчных) букв в ключевых словах. Обычно поиск по маленьким буквам учитывает совпадения и когда в тексте стоит большая буква, и когда маленькая. Написание же ключевых слов большими буквами означает поиск документов, содержащих слово именно в таком виде.

Очень полезным может быть поиск ключевых слов только в заголовках Web-страниц, поскольку важность заголовка документа обычно больше важности его текста. В разных ПС поиск ключевых слов лишь в заголовках Web-страниц, задается с помощью разных служебных слов: в AltaVista это слово title:, в Yahoo! - t: в Rambler - $ title:, и т. д.

2.2. Расширенный поиск

Приемы простого поиска не всегда позволяют с достаточной эффективностью найти требуемые нам Web-документы, в связи с чем поисковые системы предоставляют клиенту возможность использовать средства так называемого расширенного (advanced) поиска. Запросы для расширенного поиска строятся из ключевых слов, связанных знаками логических операций, и имеют вид аналогичный булевским выражениям, используемым в языках программирования.

При этом кроме стандартных логических операций OR ("или"), AND ("и") и NOT (отрицание) используется, (и является очень эффективной!) операция NEAR, определяющая степень близости друг к другу ключевых слов в Web-документе.

При выполнении сложных запросов важно понимать, в каком порядке выполняются приведенные выше операции, то есть каков их приоритет. В последовательности OR, AND, NOT, NEAR приоритет операций возрастает слева направо. Порядок выполнения отдельных элементов сложного запроса можно изменить с помощью круглых скобок, как это принято при записи булевских выражений в программировании.

В отличие от средств простого поиска, средства расширенного поиска го-раздо более стандартизованы для разных поисковых систем. Большим преимуществом расширенного поиска является также гибкость предлагаемых клиенту возможностей построения запроса, а существенным недостатком - значительно более медленная его работа по сравнению с простым поиском.

OR (операция "или") выполняет ту же самую функцию, что и знак пробела в запросах простого поиска в большинстве ПС. Например, запрос

приводит к поиску документов, в которых есть или слово bush, или слово modes, или оба эти слова одновременно.

AND (операция "и")приводит к нахождению документов, в которых обязательно встречаются оба связанных этой операцией слова, но при этом они могут находиться на любом расстоянии друг от друга. В результате может оказаться, что в документе нет какой-либо логической связи между двумя заданными ключевыми словами. Например, в ответ на запрос

поисковая система AltaVista выдает ссылки не только на соответствующие научные работы по нелинейной динамике, но и на отдельные главы известного фантастического романа Г. Уэльса "Борьба миров", которые, разумеется, не имеют никакого отношения к предмету поиска.

NOT - операция отрицания, позволяющая исключить те Web-документы, которые содержат ненужное словосочетание (таким образом, эта операция в сложном поиске играет ту же самую роль, что и знак "минус" в простом поиске).

NEAR (логическая операция, указывающая степень близости друг к другу ключевых слов) является одной из самых удобных команд расширенного поиска. В разных поисковых системах понятие близости слов разное. Например, AltaVista считает близкими слова, которые разделены не более чем десятью другими словами. Некоторые другие ПС допускают при записи операции NEAR указание степени близости в явном виде, то есть позволяют определить максимально допустимое число посторонних слов, которые могут стоять между двумя ключевыми словами, связанными этой операцией.

Запрос вида


приведет к поиску документов, в которых два указанных ключевых слова стоят достаточно близко друг к другу, и стало быть, скорее всего связаны по смыслу. Например, в тексте Web-страницы может быть фраза: "Bushes of normal modes..".

Жорес NEAR Алферов

приведет к поиску документов, в которых есть словосочетания Жорес Иванович Алферов, Алферов Жорес Иванович и т. д. Заметим, что при использовании операции NEAR порядок следования ключевых слов в документе указать невозможно, что, впрочем, является скорее не недостатком, а преимуществом, и это хорошо видно из только что приведенного запроса.

Как уже было сказано, с помощью вышеописанных логических операций можно задавать запрос на поиск в виде сложного логического выражения.

Несмотря на существование некоторых общих принципов организации поиска Web-документов, различные ПС могут весьма сильно отличаться друг от друга по предоставляемым клиенту возможностям, по внешнему виду своих заглавных страниц и т. д., в силу чего знакомиться с ними желательно при непосредственной работе в сети Internet.

В качестве примера ниже приведено очень краткое, схематическое описание двух наиболее популярных в настоящее время ПС Yahoo (тематический каталог) и AltaVista (автоматический индекс).

3. Тематический каталог Yahoo

Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Вызов поисковой системы Yahoo можно осуществить с помощью адреса http://www.yahoo.com.

Заметим, что броузеры обычно допускают возможность не полного набора адреса. Например, в для вызова Yahoo можно набрать в поле адреса только слово Yahoo, а остальная часть адреса дописывается броузером автоматически.

Заглавная страница Yahoo предоставляет клиенту возможность обращаться к двум основным методам работы с этой поисковой системой - к поиску Web-документов по ключевым словам, поле набора которых находится слева от кнопки "Search" ("Поиск"), и к поиску с помощью иерархического дерева различных разделов (категорий), расположенного ниже.

Заметим, что и в том, и в другом случае поиск ссылки на нужный Web-документ происходит в одной и той же базе данных, но разными способами.

Открыв интересующий раздел тематического каталога щелчком мыши по его названию, увидим новую страницу Yahoo, которая имеет точно такую же структуру, как и заглавная страница: она содержит поле поиска по ключевым словам и список подразделов выбранного нами раздела, и т. д.

На заглавной странице Yahoo можно увидеть также рекламные объявления, различные дополнительные категории, например, новости, которые содержат, в частности, информацию о погоде и т. д.

Если общее число найденных Yahoo ссылок достаточно велико, то список этих ссылок разбивается на порции. По умолчанию такая порция содержит 20 ссылок, но это число можно изменить, если обратиться к странице опций поиска, кнопка запуска которой находится рядом с кнопкой поиска "Search". Там же можно переопределить роль пробела между ключевыми словами (считать ли его логической операцией OR или логической операцией AND), и т. д.

На странице выбора опций есть также переключатель, который позволяет включить или выключить режим поиска целых слов. В режиме Substrings Yahoo найдет все ссылки, в которых указанное нами слово стоит не только само по себе, но и является частью других слов, например, поиск слова "art" (искусство) сработает и на слове "department" (отдел, кафедра и т. д.). По умолчанию установлен режим Substrings, для того чтобы пользователь не был вынужден вводить каждое существительное в единственном и во множественном числе (т. е., с окончанием "-s"), и т. д. Напротив, в режиме Complete Words находятся заказанные нами ключевые слова только в том случае, если они ограничены с обеих сторон пробелами или знаками препинания.

Поисковая система Yahoo ищет ссылки на документы, соответствующие запросу, в нескольких различных базах данных, прежде всего это названия категорий и заголовки Web-сайтов. Если необходимые ссылки таким образом не были найдены, Yahoo автоматически организует поиск в базе данных индивидуальных Web-страниц. Клиент может заказать поиск в одной из этих баз данных щелчком мыши на кнопках, которые расположены ниже поля ввода ключевых слов. Результаты поиска ПС Yahoo упорядочивает в соответствии с несколькими критериями, которые определяют рейтинг данной ссылки. Более высокий рейтинг присваивается документам, в которых ключевые слова встречаются большее число раз, в которых они входят в заголовок или если ссылка соответствует более старшему разделу в иерархическом дереве категорий.

В конце страницы с результатами поиска Yahoo предлагает воспользоваться услугами нескольких других поисковых систем, если клиент не удовлетворен результатами этого поиска. Такие ссылки удобны тем, что система Yahoo, при обращении к ним, сама впишет наши ключевые слова в бланк запроса вызванной таким образом другой поисковой системы. Заметим в заключение, что Yahoo предоставляет около млн. ссылок на Web-страницы и это чуть более 0,1 % всего Web-пространства.

4. Автоматический индекс Alta Vista

Вызов этой поисковой системы можно осуществить по адресу: http://altavista.digital.com (для многих броузеров достаточно при этом набрать только слово altavista).

Alta Vista имеет одну из самых больших баз данных в классе автоматических индексов, и самые мощные и гибкие правила построения запросов. При этом Alta Vista имеет как систему простого поиска (simple search), так и систему расширенного поиска (advanced search), кнопка которой находится ниже поля ввода ключевых слов.

Предусмотрена возможность поиска информации и с помощью каталога категорий, устроенном аналогично каталогу системы Yahoo, причем, поиск по ключевым словам можно осуществить лишь в рамках определенной категории.

Поиск Web-документов по ключевым словам можно осуществлять в базе данных для WWW-страниц или в базе данных телеконференций (Usenet). Для выбора одной из этих баз данных - содержимого WWW или Usenet - служит выпадающий список, который можно вызвать с помощью кнопки, находящейся под панелью заголовка этой системы, на ее заглавной странице.

При использовании простого поиска системы Alta Vista необходимо учитывать его отличия от соответствующего средства ПС Yahoo. Действительно, по умолчанию Alta Vista, в отличие от Yahoo, ищет вхождения целых слов: заказанный термин должен стоять в Web-документе обособленно, а не быть частью других цепочек символов. Если же необходимо найти все вхождения данного ключевого слова, даже когда оно является частью других слов, необходимо использовать символ * (этот символ может стоять только в конце ключевого слова и заменять не более пяти букв). Например, запрос вида Ада* приведет к нахождению документов, в которых есть слова “Ада”, ”Адам”, ”Адажио” и т. д.

Поисковая система Alta Vista, как и большинство других поисковых систем, предлагает клиенту и ряд дополнительных возможностей, в частности, позволяет находить лишь те Web-документы, в которых заданные ключевые слова встречаются только в гипертекстовых ссылках, заголовках документов, в их URL-адресах (что дает возможность находить все Web-страницы, расположенные на сервере с данным адресом) и т. д. Для этого в Alta Vista используются специальные команды: Anchor, title и т. д. Такие возможности можно использовать как порознь, так и вместе друг с другом.

Бланк для расширенного поиска (advanced search) отличается от бланка простого запроса наличием двух полей. Второе из них - Results Ranking Criteria - полностью аналогично полю ввода бланка простого поиска, и в нем можно использовать те же специальные выражения, кавычки и знаки +, -, *. Однако здесь это поле играет лишь вспомогательную роль, определяя порядок сортировки полученных результатов: документы, содержащие ключевые слова из поля Ranking будут стоять в списке первыми.

Ключевые же слова для собственно поиска должны вводиться в первом из полей - Selection Criteria. Запросы в этом поле строятся по описанным нами ранее правилам с использованием операций NEAR, NOT, AND, OR. Кроме того, внизу бланка поиска находится поле для ввода дат, позволяющих задать промежуток времени, в который были созданы или изменены интересующие нас документы.

Об особенностях поиска в Alta Vista документов на русском языке заметим, что искать документы по русским ключевым словам в каталоге Yahoo смысла не имеет, поскольку сотрудники этой службы на русском языке не говорят.

5. Поиск информации в конференциях (Usenet)

WWW-страницы являются самым масштабным и ценным, но не единствен-ным источником информации в Internet. Большой интерес представляет система телеконференций Usenet, в которой каждый день публикуется более 100 тысяч сообщений со всего мира.

Если клиент интересуется какой-либо определенной темой, он может просто подписаться на соответствующую группу телеконференций. Однако если он хочет не обсуждать свою проблему с живыми людьми, а просто выяснить, что известно по тому или иному вопросу, можно воспользоваться системами автоматического поиска в содержимом Usenet. Alta Vista ведет отдельный индекс по более чем 10 тысячам телеконференций, для поиска в котором нужно лишь перебросить переключатель поиска из значения "the Web" в значение "Usenet" (все правила составления запроса и установки опций в обоих этих случаях одинаковы). Результаты поиска представляют собой отсортированный список заголовков статей, полный текст любой из которых можно получить щелчком мыши по ее заголовку.

Во всем мире считается самым лучшим сервисом для поиска информации в конференциях Usenet сервер DejaNews (http://www.dejanews.com). Среди русскоязычных выделяется сервер RusNews (http://news.corvis.ru), являющийся также новостным сервером, содержащим более 2000 новостных групп. Также имеет место аналогичный российский сервер ТЕЛА-поиск (http://tela.dux.ru/news.html).

Совершенно уникальным источником информации являются документы с ответами на часто задаваемые вопросы (Frequently Asked Questions, FAQs). Такой жанр вопросов и ответов прекрасным образом вводит совершенно неподготовленного читателя в самую суть дела. Если первоначально списки ответов на вопросы существовали только для групп телеконференций, то сейчас документы с заголовком "FAQ" используются для клиентов самых разнообразных серверов и служб. В этом жанре пишутся статьи и обзоры, а фирмы и организации пропагандируют свои цели и устремления. Если клиенту нужно в сжатые сроки ознакомиться с новой областью науки, техники, культуры или политики, советуется начать с чтения раздела "FAQ" соответствующей телеконференции Usenet. И хотя таким образом нельзя приобрести слишком фундаментальные знания, зато можно быстро освоиться с терминологией, узнать о самых животрепещущих проблемах и нередко получить почти исчерпывающий список литературы.

6. Отечественные поисковые службы

Российский сектор Internet в настоящее время бурно развивается, и хотя отечественные поисковые системы еще отстают от соответствующих зарубежных систем по объему своих каталогов и индексов, по некоторым показателям (прежде всего, по применению новых технологий при обработке результатов поиска) они не уступают своим заграничным аналогам, а в ряде случаев и превосходят их.

Укажем, прежде всего, на автоматический индекс Aport 2000 и тематический каталог @Rus (Атрус), расположенных по адресам: http://www.aport.ru/ и http://www.atrus.ru/, соответственно. Эти две системы находятся в партнерских отношениях. Действительно, когда в результате проведенного поиска Aport 2000 выводит адрес некоторой Web-страницы, она может сопровождаться кратким описанием соответствующего Web-узла, взятым из каталога @Rus. С другой стороны, при наполнении каталога Атрус активно используются средства поисковой системы Aport. С точки зрения клиента, однако, эти поисковые системы являются все-таки независимыми средствами получения информации. Отметим некоторые их достоинства. Aport 2000 использует наиболее эффективную в настоящее время систему рейтингования по количеству ссылок, ведущих к данному ресурсу(по индексу цитирования). Поисковая система Атрус предоставляет клиенту удобный каталог-портал "Мой @Rus", который пользователь может настроить на быстрое получение наиболее нужной ему информации. Средства настройки этого каталога позволяют также отключить все лишнее на основной странице поисковой систе-мы, что делает работу с ним особенно быстрой и удобной.

6.1. Rambler ( http://www.rambler.ru )

Поисковая система Rambler обладает одним из крупнейших индексов в Рос-сии, но основную популярность она приобрела в первую очередь как рейтинговая система. Она позволяет быстро выявить круг Web-узлов, поставляющих информацию на заданную тему, и оценить их популярность по количеству посещений разными клиентами Internet за последние сутки. Хотя число посещений данного Web-узла далеко не всегда свидетельствует об истинной ценности имеющейся на нем информации, в случае тем, представляющих общественный интерес, такому рейтингу популярности можно доверять.

По умолчанию находятся только те документы, в которых встретились все заданные нами ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR (как это имеет место по умолчанию в Yahoo или Alta Vista). Для этого в бланке расширенного поиска нужно выбрать опцию “Слова запроса: любое”.

Чтобы исключить документы, содержащие те или иные слова, последние нужно указать на соответствующем поле бланка расширенного поиска.

6.2. Яндекс ( http :// www . yandex . ru )

Поисковая система Яndex выделяется своими мощными средствами расши-ренного поиска, а также целым рядом технологических достижений, например, наличием интеллектуального механизма морфологического разбора слов, что особенно важно для русского языка. Независимо от того, в какой форме написали ключевое слово в запросе, Яndex будет учитывать все его формы. Например, если ключевым является слово идти, находятся ссылки на Web-документы, содержащие слова идти, идет, и даже шёл. Однако существует возможность поиска и по точной словоформе, для чего перед этой словоформой надо поставить восклицательный знак “!”.

Несколько набранных в запросе слов, разделенных пробелами, означает, что все они должны входить в одно предложение искомого документа (то есть пробел работает как знак логической операции AND).

Следует иметь ввиду, что в ПС Яndex операцию AND можно указать и в явной форме с помощью символа “&” (но не с помощью слова AND !). Удвоение же этого знака, т. е. использование символа “&&”, приводит к распространению действия операции AND на весь документ (т. е. связанные с помощью && слова должны обязательно присутствовать в пределах всего документа). Символом же операции OR в рассматриваемой поисковой системе служит знак “|” (но не само слово OR).

В ПС Яndex можно регулировать расстояние, на котором находятся друг от друга заданные ключевые слова в Web-документе. Например, запрос

физическое/(-2 4) образование

означает, что слово физическое может находиться как слева от слова образование (на расстоянии максимум двух слов от него), так и справа (на расстоянии максимум четырех слов от него).

Создавшая ПС Яndex компания CompTek бесплатно предоставляет для корпоративных клиентов (организаций) облегченную версию программы Яndex.Site, которая выполняет индексацию содержимого Web-узла. Это удобно владельцам тех Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах своего собственного узла.

Поисковая система Яndex имеет очень хорошее описание в разделе “Помощь”, который настоятельно рекомендуется посмотреть перед использованием этой системы.

7. Поиск файлов

Среди специальных систем поиска файлов в Интернете существуют аналоги уже рассмотренных ранее тематических каталогов (типа Yahoo) и автоматических индексов (типа Alta Vista). Разумеется, эти поисковые системы предоставляют клиенту не сами файлы, а лишь списки ссылок на них.

Одной из самых популярных поисковых служб типа тематических каталогов для поиска файлов является shareware.com по адресу http://www.shareware.com. Эта система классифицирует файлы только по одному признаку: для какой операционной системы они предназначены, но она хранит описания всех файлов, составленные людьми. Заглавная страница shareware.com устроена аналогично страницам уже рассмотренных нами поисковых систем. Она предлагает клиенту различные виды поиска, причем, ключевые слова могут содержать символ *, соответствующий последовательности любых символов. Поиск производится как в именах, так и в описаниях файлов. Можно указать нижний временной порог поиска, чтобы получить ссылки на файлы, созданные не раньше заданной даты, и выбрать способ сортировки результатов-по дате или по алфавитному порядку имен файлов. Щелкнув на имени файла в списке результатов, получим ряд ссылок на узлы Internet, на которых хранятся копии этого файла с указанием надежности работы этих серверов и времени, необходимого для скачивания файла в зависимости от пропускной способности нашего канала.

В отличие от каталога shareware.com, поисковая система Archie является автоматическим индексом аналогичным Alta Vista. Список анонимных узлов для Archie приходится вести людям (его можно найти по адресу http://hoohoo.ncsa.uiuc.edu/ftp/). Поиск в базе данных сервера Archie производится с помощью ключевых слов, которые в данном случае представляют собой просто имена файлов или фрагменты имен.

Время ожидания связи с популярными FTP-узлами (такими, например, как богатое собрание программ для Windows (ftp://ftp.winsite.com)) может оказаться весьма большим, в силу чего в Интернете обычно имеются их точные копии или "зеркальные отражения" (mirrors), а поисковые системы выдают адреса всех этих зеркал.

Каталог, содержащий общедоступные файлы, почти всегда называется pub. В большинстве архивов в каждом каталоге имеется специальный файл с краткими-обычно не длиннее одной строки-описанием каждого файла этого каталога. Такой файл может называться 0index, 00index и т. п. (нолики приписываются к имени файла, чтобы он всегда попадал на первое место в отсортированном по алфавиту списке файлов).

8. Источники специализированной информации

Существуют информационные компании, обеспечивающие ин­формационное электронное обслуживание. Например, Knight-Ridder (KR) - это крупнейшая в мире информационная компания, предоставляющая доступ к своим службам в интерактивном режиме. Здесь объединились такие всемирно известные службы, как DialogInformationService из США и DataStar из Европы. Используя Ин­тернет в качестве среды для распространения своих услуг, KR суме­ла автоматизировать ключевые моменты своей деятельности, улуч­шить обслуживание клиентов и, самое главное, расширить рынок своих услуг. Все это в конечном счете привело к тому, что KR стала мировым лидером в области доставки электронных документов и информационного сервиса.

Имеет собственную систему информационного поиска в Интер­нете фирма IBM - InfoMarket. В ней сочетаются средства получения информации и управления платежами с правами доступа.

Однако на начальной стадии освоения пространства Интернета не обойтись без самостоятельного поиска информации. Здесь весь­ма полезными могут оказаться адреса Web-узлов, хорошо зареко­мендовавшие себя источники деловой информации:

www.kentis.com- это сервер компании KentInformationSystem, сотрудники которой помогают профессионалам в области бухгалте­рии и финансов использовать компьютерные технологии, особенно Интернет;

http://www.promotion.aha.ru- on-line журнал по маркетингу в сети Интернет;

http://www.inter.net.ru- журнал «Интернет», регулярно публи­кующий материал по маркетингу и рекламе в сети Интернет;

http://clickz.com- журнал, полностью посвященный вопросам Интернет-маркетинга.

9. Поиск отдельных людей в сети Internet

Наиболее просто найти информацию о человеке, если у него имеется в сети Internet своя личная страница (personal home pages), на которой обычно имеется его фотография, e-mail и почтовый адрес, телефон и т. д. Нередко такая страница содержит краткую биографию автора, его хобби и т. д. Одна из крупнейших систем для поиска личных страниц называется Who’sWho и расположена по адресу http://web.city.ac.uk/citylive/pages.html.

Существуют также обширные каталоги электронных адресов различных людей, которые пользуются электронной почтой (e-mail). Лидерство здесь, по-видимому, принадлежит каталогу Four11 по адресу http://www.four11.com.

Отметим также каталог WhoWhere (http://www.whowhere.com), который производит поиск даже по схожести звучания или написания фамилий (например, “Kirsanov”, “Kirsanoff” и т. д.).

Отечественный каталог электронных адресов располагается по адресу http://www.botik.ru/~intermap/form.html.

Совершенно уникальным является всеамериканский адресный справочник по адресу http://www.databaseamerica.com, который выдает координаты любого из 90 млн. жителей США и любой из 10 млн. американских компаний.

10. Метапоиск

Базы данных разных поисковых систем в значительной мере не пересекаются. Поэтому для поиска достаточно редкой информации целесообразно обращаться не к одной, а к нескольким ПС. Однако правила оформления запросов для разных ПС, вообще говоря, отличаются друг от друга. Для того, чтобы не обращаться поочередно к разным поисковым системам и не думать о специфических правилах оформления запроса для каждой из них, были созданы так называемые метапоисковые системы.

Приняв заказ клиента, заданный с помощью ключевых слов в соответствие со своими собственными правилами его оформления, метапоисковая система сама пропишет его в бланках разных поисковых систем, разошлет эти бланки и будет ждать ответа. Когда все поисковые системы пришлют результаты поиска, метапоисковая программа сведет их в один документ и отправит пользователю. К таким метапоисковым системам относится MetaCrawler расположенный по адресу (http://metacrawler.cs.washington.edu:8080), который рассылает запрос на 9 различ-ных поисковых систем (в их число входит: Yahoo, Alta Vista, Lycos, Excite и т. д.). На случай разной интерпретации одних и тех же по смыслу опций в разных поисковых системах MetaCrawler предусматривает даже возможность проверки результатов поиска: прежде чем дать ссылку пользователю, он самостоятельно посмотрит на документ и проверит, соответствует ли он условиям запроса - так как их понимает MetaCrawler. Разумеется, этот режим проверки сильно задерживает получение результатов, но зато позволяет защититься как от неработоспособных ссылок, так и от бессмысленных результатов. Заметим, что на бланке запроса MetaCrawler можно задать время ожидания: в список будут включены только те результаты, которые успеют прийти с различных поисковых систем к этому моменту.

11. Эффективный поиск информации

После подробного изучения основных возможностей инструментов обратимся к проблеме эффективности поиска. Основными параметрами эффективности поиска являются:

Полнота поиска как отношение числа найденных документов к общему числу релевантных документов;

Точность поиска – отношение числа релевантных документов к общему числу полученных документов;

Актуальность ссылок на документы - существование найденных документов в сети в настоящий момент;

Скорость поиска.

В Internet существуют различные инструменты поиска, обладающие разными функциональными возможностями. Качество поиска, таким образом, зависит в первую очередь от параметров конкретной поисковой системы, например, от размеров индекса, от способа поиска (уточнение тем или поиск по запросу) и т.д. Далее, работая с конкретной поисковой системой, нужно иметь представление о методах составления запросов, знать необходимые операторы.

Таким образом, можно выделить следующие факторы, влияющие на эффективность поиска:

Свойства и возможности поисковой системы;

Качество формулировки запроса пользователем.

Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, необходимо провести всесторонний лексический анализ информации, которую необходимо найти. Затем желательно составить набор ключевых слов (при необходимости, на нескольких языках) в виде отдельных терминов и словосочетаний, специфичных для вашей предметной области.

Действия:

Выбор поискового инструмента;

Точная формулировка запросов с использованием операторов, поддерживаемых данным поисковым инструментом;

Отправка тестовых запросов;

Анализ результатов поиска (по количеству и релевантности ссылок);

При необходимости, корректировка запроса;

Повторный поиск;

Исходя из вышеизложенного, можно выделить следующие приемы эффективного поиска:

Поиск информации общего характера в поисковых системах-каталогах. - Поиск узкоспециальной информации в поисковых машинах. Для проведения более обширного поиска явно недостаточно использовать только системы-каталоги с ограниченным числом описанных ресурсов. Кроме того, узкоспециальная информация в каталогах может просто отсутствовать. Поэтому необходимо проводить поиск подобной информации в поисковых машинах, обладающих индексами большого объема.

Использование операторов или бланка расширенного запроса для сужения области поиска. Для проведения качественного поиска необходимо ознакомиться с языком запросов конкретной поисковой машины. Эффективным и простым способом решения проблемы составления качественного запроса является использование режима расширенного поиска.

Использование функции поиска среди найденных ресурсов. Большинство поисковых систем поддерживают возможность поиска внутри полученных результатов.

Использование метапоисковых систем. Данные инструменты поиска отправляют ваш запрос сразу нескольким поисковым системам и от каждой системы получают несколько самых релевантных ссылок.

Поиск ответов на вопросы в группах новостей. При желании можно обратиться с конкретным вопросом о помощи в специализированную группу новостей.

Подписка на специализированные списки рассылки и т.д.

Заключение

В заключение, можно сказать, что единой оптимальной технологии поиска в Интернет не существует. В зависимости от специфики необходимой информации, для ее поиска должны использоваться соответствующие поисковые службы. Необходимо помнить, что чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.

Литература

1. Информатика и информационные технологии / Под ред. Романовой Ю.Д. М.: Эксмо, 2008

2. Степанов А.Н. Информатика. СПб.: Питер, 2002

3. Майечак Б. Поиск информации в сети // Интернет для детей от 8 до 88. М.: Интерэксперт, 2002

4. Чечин Г. М., Положенцев Е. В., Нижникова С. В. Поиск информации в сети Internet. Ростов-на-Дону: РГУ, 2001 г.

5. Диканский Е.Ю. Осваиваем Internet: Практический курс по информационным и коммуникационным технологиям для начинающих пользователей. М.: Илекса, 2001

6. http://www.dist-cons.ru/modules/searchinf/index.html

7. http://www.seonews.ru/masterclasses/detail/29812.php

8. http://www.gdenet.ru/bibl/technology/transmission/5.1.html

Введение

Сегодня большинство людей привыкли начинать свой день не с горячей чашки кофе, свежей газеты и бутерброда с маслом, а с включения компьютера с доступом в Интернет. Всемирная паутина заменила нам выпуск новостей по телевидению, исключила необходимость покупать диски с фильмами и музыкой, а в некоторых случаях желание пользоваться телефоном и даже ходить на работу.

Всемирная электронная паутина так прочно вошла в нашу жизнь, что многие просто не представляют себе без нее жизнь. Едва оказавшись в доступном для интернета месте, они первым делом заходят на любимые сайты, узнают новости, «общаются» с друзьями, комментируют, просматривают, скачивают. Конечно, информация имеет для человека огромное значение, она формирует личность, но бывает, что она, же и разрушает ее.

Все чаще и чаще стало произноситься такое словосочетание, как «Интернет - зависимость» и в последнее время, данная тема стала одной из

самых популярных тем для публикаций и разговоров. Что это значит и какая

группа людей подвержена этому?

Что такое интернет-зависимость, как она появилась, как определить её у себя и как не поддаться этой зависимости? Вот вопросы, которые я поставила перед собой и решила выяснить, на сколько я и мои сверстники зависимы от Интернет.

Тема моего проекта « Интернет – зависимость»

Актуальность выбранной темы заключается в том, что в наше время компьютер все настойчивее вторгается во все области нашей жизни. Все большее количество детей подвергаются риску компьютерной зависимости. Я решила посмотреть на эту проблему внутри нашей школы.

П редметом исследования является Интернет-зависимость моих сверстников, определение ее наличия и степени распространения.

Цель работы : исследование проблемы Интернет - зависимости, степени распространенности и особенностей этого явления.

Для достижения поставленной цели я определила для себя следующие задачи: определить наиболее часто используемые Интернет – ресурсы и выяснить наличие и степень распространения зависимости от Интернет учащихся 8-10-х классов и учителей школы.

Для реализации задач я использовала методы: опрос, тестирование, сравнительный анализ результатов, вывод результатов в виде диаграмм.

В данной работе я попытаюсь ответить на такие вопросы:

Как учащиеся 8-10-х классов моей школы, а также мои учителя относятся к Интернет зависимости?

Какие существуют способы определения зависимости от Интернета?

Как не стать жертвой "паутины"?

Как избавиться от Интернет – зависимости?

Как влияет чрезмерное увлечение Интернетом на организм человека?

    ВСЕМИРНАЯ ПАУТИНА

1.1. Интерес, порождающий манию.

Если человек не сумеет сам заметить опасность,

если не отгородит глухой стеной ту сферу своей

жизни и деятельности, где властвует техника,

от остальных сфер своей жизни и души,

он превращается в духовного калеку.

Даниил Андреев. "Роза Мира"

Интернет всё больше и больше внедряется в нашу жизнь, становится одним из доминирующих инструментов, как для персональной, так и профессиональной коммуникаций. Количество пользователей Интернета насчитывает приблизительно 400 миллионов человек по всему миру. Для России эта цифра составляет 8,8 миллионов человек. И с каждым днём количество пользователей увеличивается. Вся наша культура становится более зависимой от этой технологии, и неудивительно, что у некоторых людей возникают проблемы в связи с тем, что они слишком много времени проводят в Интернете.

И сегодня каждый день множество людей открывает для себя существование глобальных компьютерных сетей, объединяющих компьютеры во всем мире в едином информационном пространстве, имя которому – Интернет.

Интернет – это глобальная компьютерная сеть, которая связывает между собой пользователей компьютерных сетей.

Интернет постепенно становится основным средством корпоративного общения, уступая пока телефону. Когда два или более компьютеров связывают постоянным соединением для обмена данными, говорят о создании компьютерной сети.

По Интернету происходит поиск информации, рассылают пресс -релизы, устраивают конференции, выставки, интервью и т.д. Обычный, «домашний» пользователь имеет все шансы по Интернету не только заказать любой товар с доставкой на дом или узнать погоду, но и познакомиться, пообщаться.

Сегодня Интернет не охватывает только несколько стран Африки и Восточной Азии.

Сегодня Интернет вошел практически во все отрасли, дома – полностью используется как в промышленности, армии, медицине и т.д. Без интернета невозможно представить всевозможные сервисы: электронная почта, онлайн

конференции, оперативный поиск информации, общение, социальные сети,

электронные СМИ, веб - представительства фирм и корпораций. В свое время даже фантасты не могли представить как всего за несколько десятилетий перспективная сеть компьютерной связи, ныне носящая имя

Интернет, изменит наш мир и нашу культуру.

За последние 10 лет Интернет распространился в десятки, сотни и даже в тысячи раз. И согласно последним данным - сегодня каждый 3 человек на планете находится в интернете. Количество пользователей продолжает бурно увеличиваться.

Но бурное развитие технологий и лавинообразно растущий поток информации, «выливающийся» на пользователей Сети, таят в себе скрытую угрозу. Время препровождение в Сети может стать настолько притягательным, что у человека вырабатывается нездоровая привязанность или зависимость от интернета.

Это явление получило название интернет-аддикция. Для его обозначения уже появились образные русскоязычные термины: «нетоголик», «интернетоман» или «интернет-аддикт».

Истинные интернетоманы - люди, утратившие способность контролировать свое время в Сети. Оно уходит на серфинг, игры, покупки, участие в форумах и чатах, банальное блуждание по сайтам, наконец. У этой категории пользователей на Сеть в среднем затрачивается в 10 раз больше времени, чем на работу или учебу.

Интернет как новый инструмент, средство современного жизнеобеспечения снимает проблему повышения мотивации. Телекоммуникационная среда с самого начала была оккупирована подрастающим поколением и которое хорошо освоилось в этой среде. Проблемы подрастающего поколения, не замечаемые взрослыми и находившиеся в состоянии «покоя» в реальной действительности, вылились в определенные негативные явления: появление молодежной субкультуры, Интернет-аддикция, флейм и т.д. Обратите внимание, что проблемы существуют, имеют определенные названия, т.е. это проблемы не носят частный характер.

    ИНТЕРНЕТ – ЗАВИСИМОСТЬ

Порой, фантазией реальность заменяя,

Мы забываем наш прекрасный мир.

Часами по сети гуляем!

Да! Интернет - у многих есть кумир.

Кто ты: ПАУК в нем или МУХА?

Определись! И ситуацией владей!

Иначе же в сети сотрется личность,

Бесследно ты исчезнешь в ней!

    1. Вред и польза Интернета

В наше время Интернет ассоциируется с кладом знаний. Благодаря нему можно узнать новую информацию и даже разбогатеть. Но, несмотря на все эти плюсы, Интернет приносит не только пользу, но и вред.

С возрастанием популярности Интернета проявились и негативные аспекты его применения. Некоторые люди настолько увлекаются виртуальным пространством, что начинают предпочитать Интернет реальности, проводя за компьютером до 18 часов в день. Чем больше времени в жизни человека начинает занимать интернет, тем меньше в ней остается места другим, более нужным вещам.

Человек меньше задумывается о своих социально-бытовых проблемах, своем здоровье, не строит никаких планов на жизнь. Все это откладывается на потом, оставляя место для комфортного психологического состояния «здесь и сейчас» - в Сети.

За и против

Огромный информационный ресурс

Отвыкание от книг

Путь избавления от одиночества

Замена реальных отношений виртуальными

Поддержание дружеских отношений на расстоянии

Перенос реальных интересов в виртуальный мир, сложность общения наяву

Возможность примерить на себя

различные «роли»

«Безнаказанное» поведение снижает уровень ответственности

Возможность сэкономить деньги, найти работу в интернете

Риск стать компьютерным преступником

Лучшее усвоение языка

Создание виртуального языка

Укрепление самооценки

Упадок нравственности

И уж, конечно, все сходятся в мыслях, что интернет, если он чрез меры, если его слишком много, ничего хорошего пользователю не даст. Один только вред.

2.2. Основные типы и критерии Интернет-зависимости.

Компьютеры и информационные системы находят применение во все новых областях человеческой практики, оказывая воздействие на психические процессы и трансформируя не только отдельные действия, но и человеческую деятельность в целом. С психологической точки зрения, при взаимодействии человека с системами информатики происходит преобразование деятельности за счет опосредствования ее знаковыми системами.

Каждый человек, становясь пользователем Интернета проходит 3 стадии : навязчивого влечения, отторжения и баланса. Некоторые пользователи застревают на первой стадии. Таким образом у него начинает формироваться Интернет-зависимость.

Основными проявлениями Интернет-зависимости являются : поглощенность проблемами Интернета (постоянные размышления об Интернете); постоянно увеличивающееся время провождения в Сети, необходимое для достижения удовлетворения; безуспешные попытки контролировать или прекратить использование Интернета; возникновение плохого настроения, депрессии, беспокойства при отсутствии Возможности работать в Интернете; концентрация внимания на Интернете. Все меньше и меньше уделяется вниманию семье и друзьям, затем работе, попытки скрыть свое чрезмерное увлечение, отрицание аддикции . Интернет используется как способ ухода от проблем, для того чтобы поднять настроение. Перечисленные признаки являются лишь общими для Интернет зависимости , которая в настоящее время разделяется исследователями на несколько подтипов.

    Информационная перегрузка (навязчивый web-серфинг) - бесконечные путешествия по Сети, поиск информации по базам данных и поисковым сайтам.

    Интернет-коммуникативная зависимость - избыточность знакомых и друзей в Сети.

    Навязчивая потребность в Сети - игра в онлайновые азартные игры.

Зависимость W eb -серфинга существует у многих, она вызвана желанием поиска новых интересных сайтов. Интернет используется как средство поиска информации, серфинг доставляет массу удовлетворения и массу информации, хотя 70 % этой информации является пустой, не несущей никакой информационной нагрузки. В месяц по подсчётам зависимые тратят не менее 350 МБ, что примерно составляет 340–620 рублей. Но это пустяки по сравнению с тем, что тратят зависимые от азартных игр в Интернете. Интернет-коммуникативная зависимость - в основном это потребность в общении. Самые популярные сервисы для общения в Интернете – это icq и irc . Они являются на данный момент самыми распространенными, поскольку являются бесплатными и используют относительно немного Интернет-трафика. Максимальную степень выраженности имеет зависимость от игр on - line . По данным психологов этой зависимости подвержены люди практически всех возрастов, начиная с 9-летнего.

Исследователи приводят различные критерии, по которым можно судить об Интернет-зависимости.

Более развернутую систему критериев приводят русские специалисты. По их мнению, можно констатировать Интернет-зависимость при наличии 3 пунктов из следующих:

    Неспособность и нежелание отвлекаться от Интернета и досада и раздражение, при вынужденном отрыве.

    Количество времени, проводимое в Интернете, чтобы достичь удовлетворения (иногда чувство удовольствия от общения в сети граничит с эйфорией), заметно возрастает. Неспособность спланировать время выхода из сети.

    Увеличение расходов на Интернет.

    Ложь или скрывание количества времени, проведенного в Интернете

    Забывание о прямых обязанностях, будь то учеба, работа или домашние дела.

    Пренебрежение семьей и друзьями. Потеря отношений и общения прежнего круга друзей.

    Освобождение посредством Интернета от негативных настроений и депрессий. Хорошее самочувствие и появление специфической эйфории при нахождении в сети.

    Пренебрежение собственным здоровьем.

Существуют так же и физические симптомы, свидетельствующие о возможном наличии Интернет-зависимости.

2.3. Причины и симптомы зависимости.

Интернет-зависимость – это исключительно современная проблема, которую нельзя оставлять без внимания. Стремительно растущая популярность социальных сетей и он-лайн игр ставит под угрозу гармоничное развитие и существование человека с самых ранних лет его жизни: сейчас компьютером умеет пользоваться каждый первоклассник!

Феномен Интернет – зависимости привлекает сейчас внимание ученых, исследователей сети, средства массовой информации. Это явление стало изучаться в зарубежной психологии с 1994 года. Интернет – зависимость определяется психологами как "навязчивое желание выйти в Интернет, находясь off-line, и неспособность выйти из Интернет, будучи on-line. Под on-line понимается общение в сети в реальном времени, off-line – общение через почтовый ящик, когда непосредственный собеседник отсутствует в данный момент времени. Исследователи отмечают, что большая часть Интернет - зависимых пользуется сервисами Интернет, связанными с общением. Другую часть «зависимых» привлекают информационные сервисы сети.

Причины Интернет – зависимости:

Доступность разнообразной информации;

Широкая интерактивность, постоянное общение;

персональный контроль над информацией о себе, позволяющий создавать определенный «образ»;

анонимность передаваемой информации;

основной причиной возникновения компьютерной зависимости у детей психологи считают недостаток общения и взаимопонимания с родителями, сверстниками и значимыми людьми;

игровая зависимость возникают на фоне скрытой или явной неудовлетворенности окружающим миром и невозможности самовыражения, при страхе быть непонятым.

Симптомы Интернет – зависимости:

Психические признаки компьютерной зависимости: «потеря контроля» над временем, проведенным за компьютером; утрата интереса к социальной жизни и внешнему виду;

Физические признаки компьютерной зависимости: ухудшение опорно-двигательного аппарата; пищеварительной системы; зрения.

В группе риска по интернет - зависимости:
- дети и подростки – 78%,
- женщины старше 45 лет – 57%,
- мужчины старше 30-35 лет – 32%.

Пути решения

Самый простой и доступный способ решения зависимости это приобретение другой зависимости. Любовь к здоровому образу жизни общение с живой природой, творческие прикладные увлечения, обращение к спорту, туризму, занятиям музыкой, художественной фотографией, как правило, выводят человека из зависимости. Прежде всего, следует привести свой образ жизни к некоему балансу. В ней должно быть что-то интересное помимо Интернета и компьютерных игр.
Главное – доказать человеку, что живое общение привлекательнее виртуального. Вырвать человека из Сети, приобщить к другим интересам – задача вполне разрешимая.

    МОИ ИССЛЕДОВАНИЯ

Моё исследование было проведено среди старшеклассников и учителей моей школы. Всего в исследовании участвовали 37 человек: 25 учащихся 8,9 и 10 классов и 12 учителей, которые располагают ежедневным доступом к Интернету.

Каждым из них были заданы несколько вопросов. На каждый вопрос была создана диаграмма, где наглядно представлены все ответы .(Приложение1)

Первый вопрос был: «Зарегистрированы ли вы в каком – ни будь социальном сете»

Результат его показал что, 92% учеников и 66% учителей зарегистрированы в "Вконтакте" и в "Одноклассниках" - 18% учеников и 34% учителей.

На вопрос «Какова ваша потребность в интернете» 20% учащихся и 10% учителей ответили, что равнодушно относятся к выходу в Интернет и у 40% учащихся и 80% учителей есть ежедневная и периодическая потребность выхода в Интернет. Это потребность связано с электронным образованием. Учителям ежедневно приходиться заполнять электронные журналы и тем самым заходить в Интернет.

По результатам исследования можно сделать вывод, что 100% участвующих в анкетировании зарегистрированы в социальных сетях. Все учителя и большинство учащихся считают Интернет полезным открытием, и разумно им используется половина анкетируемых, однако вызывает волнение то, что некоторая часть сидит в Интернете по ночам, что негативно сказывается на здоровье и учебе. Будем думать, что это происходит в выходные дни.

Интернет-зависимость - психическое расстройство, навязчивое

желание подключиться к Интернету и болезненная неспособность вовремя

отключиться от Интернета.

Среди 8 – 10 классов школы, у которых есть Интернет, таких 25 человек, я с учителем информатики провели тест на Интернет – зависимость.

«ПРОВЕРЬ СЕБЯ: ЗАВИСИМ ЛИ ТЫ ОТ СЕТИ?» (Приложение2).

Тест состоит всего из пяти вопросов, за каждый ответ «да» начисляется 1 балл, за «нет» - 0 баллов. Исследование выявило наличие у некоторых учащихся признаков Интернет - зависимости, что подтверждает важность и актуальность рассмотренной темы. У них выявлена разная степень Интернет - зависимости.

Примерно 32% учеников пользуются Интернетом больше, чем полагается. Им нужно найти силы пользоваться интернетом меньше.
Зависимость пока не грозит половине учащихся, проходящих тестирование, они могут пользоваться Сетью в том же режиме. С помощью этой анкеты я узнала, что юноши более подвержены Интернет – зависимости.

Следующее мое исследование – это влияние Интернета на здоровье по мнению самим анкетированных . Я обратилась к фельдшеру нашего села за статистическими данными о состоянии здоровья (осанка, зрение) в 8 и 9 классах тех, кто принимал участие в анкетировании. Проанализировав данные, можно сделать вывод: в 8 классе у трех человек было слабое зрение, а в 9 классе зрение ухудшилось у 5 человек, причем все пользуются Интернет, правда «зависимых» среди них нет. Нарушение осанки: 8 класс один человек (имеющих компьютер), а в 9 классе их количество увеличилось до 4. Конечно, я не берусь утверждать, что это точно от увлечения компьютером, но думаю, стоит моим одноклассникам задуматься.

Заключение

Компьютеризация нашего общества в последнее время приобрела лавинообразный характер, практически невозможно найти учебное заведение, организацию без наличия в них компьютеров и компьютерных сетей. Аналогично тому, как изобретение игровых автоматов породило такую форму аддиктивного поведения, получившего название "патологическая игра", таким же образом очередной виток технического прогресса создал еще более замысловатую аддиктивную патологию - интернет-зависимость.

Основной группой риска для развития этой патологии в России являются подростки в возрасте от 13 до 17 лет. Этому способствует ряд факторов - широкое распространение домашних компьютеров, легкость подключения интернет - сети. Как правило, подростки знакомятся с компьютером в школе, у друзей или компьютерном клубе. Практически все они проходят стадию естественной увлеченности и, хотя многие из них становятся в дальнейшем обычными пользователями, определенная часть переходит в категорию интернет - зависимых. Таким образом, приходится признать тот факт, что развитие цивилизации неизменно сопровождается не только улучшением качества жизни людей, но и порождает новые проблемы, откладывание решения которых грозит значительными последствиями для психического здоровья общества.

Несомненно, возможность использования интернета очень важна для каждого современного человека. Однако всегда следует помнить о потенциальной опасности сети и понимать, что реальная жизнь проходит очень быстро, если сидеть за компьютером больше двух часов в день…

Интернет открывает нам новые возможности, но от нас зависит, как мы будем их использовать.

Сильных Интернет укрепляет, а слабых – подавляет и разрушает.

Список литературы.

    Мартынова О. С. Интернет – зависимость « Психотерапия и

консультирование"

    Байков В.Д.,Сафронов И. К. Уроки Интернета для школьников.

БХВ-Петербург,2003

    Статьи в интернете:

1).Колчанова Л. Психологические проблемы интернет-зависимости. 2. Окружающие жаловались, что вы проводите много времени в интернете?
3. Если во время «бдения» в Сети приходит время приема пищи, то вы пропускаете его или едите прямо за компьютером?
4. Вы знаете, что нужно ложиться спать до 24.00, но несколько раз в неделю засиживаетесь в Сети за полночь?
5. Если за день не удается выйти в Сеть ни разу, вечером возникают тревога и раздражительность?
Ключ
0-1 балл. Зависимость пока вам не грозит, можно пользоваться Сетью в том же режиме.
2-3 балла. Вы в тревожной зоне. Нужно найти силы пользоваться интернетом меньше.
4-5 баллов. У вас ярко выражена зависимость. Нужна помощь.

Анализ теста

«ДА»

«НЕТ»

Говорят, что в Интернете есть все. На самом деле – это не так. Материалы для размещения в сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным опубликовать. Впрочем, река питается ручьями, и, благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в сети ресурсов стала серьезной проблемой. Несмотря на то, что проблемой занимаются тысячи организаций, она не только не приближается к разрешению, но и становится острее. Процент каталогизированных ресурсов неуклонно падает. В последние годы это падение стало катастрофическим. Так, если в 1999 году процент каталогизированных ресурсов приближался к 40%, то всего лишь за один следующий год он опустился до 25 %.

Вывод простой: пространство Web быстрее наполняется, чем систематизируется.

К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в Интернет можно считать одной из самых трудных задач.

Для поиска интересующей вас информации необходимо указать браузеру адрес Web-страницы, на которой она находится. Это самый быстрый и надежный вид поиска. Для быстрого доступа к ресурсу достаточно запустить браузер и набрать адрес страницы в строке адреса.

Адреса Web-страниц приводятся в специальных справочниках, печатных изданиях, звучат в эфире популярных радиостанций и с экранов телевизора.

Если вы не знаете адреса, то для поиска информации в сети Интернет существуют поисковые системы, которые содержат информацию о ресурсах Интернета.

Каждая поисковая система – это большая база ключевых слов, связанных с Web-страницами, на которых они встретились. Для поиска адреса сервера с интересующей вас информацией надо ввести в поле поисковой системы ключевое слово, несколько слов или фразу. Тем самым вы посылаете поисковой системе запрос. Результаты поиска выдаются в виде списка адресов Web-страниц, на которых встретились эти слова.

Как правило, поисковые системы состоят из трех частей: робота, индекса и программы обработки запроса.

Робот (Spider, Robot или Bot) - это программа, которая посещает веб-страницы и считывает (полностью или частично) их содержимое.

Роботы поисковых систем различаются индивидуальной схемой анализа содержимого веб-страницы.

Индекс - это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.

Индексы в каждой поисковой системе различаются по объему и способу организации хранимой информации. Базы данных ведущих поисковых машин хранят сведения о десятках миллионов документов, а объемы их индекса составляют сотни гигабайт. Индексы периодически обновляются и дополняются, поэтому результаты работы одной поисковой машины с одним и тем же запросом могут различаться, если поиск производился в разное время.

Программа обработки запроса - это программа, которая в соответствии с запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает ссылки на найденные документы.

Множество ссылок на выходе системы распределяется программой в порядке убывания от наибольшей степени соответствия ссылки запросу к наименьшей.

В России наиболее распространенными поисковыми системами являются:

  • Рамблер (www.rambler.ru);
  • Яндекс (www.yandex.ru);
  • Мэйл (www.mail.ru).

За рубежом поисковых систем гораздо больше. Самыми популярными являются:

  • Alta Vista (www.altavista.com);
  • Fast Search (www.alltheweb.com);
  • Northern Light (www.northernlight.com).

Яндекс является пожалуй наилучшей поисковой системой в российском Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов документов, которые система просматривает в течение нескольких секунд. На примере этой системы покажем как осуществляется поиск информации.

Поиск информации задается введением ключевого слова в специальную рамку и нажатием кнопки «Найти», справа от рамки.

Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале списка. При этом ранг найденного документа определяется тем, в каком месте документа находится ключевое слово (в заглавии документа важнее, чем в любом другом месте) и числом упоминаний ключевого слова (чем больше упоминаний, тем ранг выше).

Таким образом, сайты, расположенные на первых местах в списке, являются ведущими не с содержательной точки зрения, а практически, по отношению к частоте упоминания ключевого слова. В связи с этим, не следует ограничиваться просмотром первого десятка предложенных поисковой системой сайтов.

Содержательную часть сайта можно косвенно оценить по краткому его описанию, размещаемому Поисковой системой под адресом Сайта. Некоторые недобросовестные авторы сайтов, для того, чтобы повысить вероятность появления своей Web-страницы на первых местах Поисковой системы, умышленно включают в документ бессмысленные повторы ключевого слова. Но как только поисковая система обнаруживает такой «замусоренный» документ, она автоматически исключает его из своей базы данных.

Даже ранжированный список документов, предлагаемый поисковой системой в ответ на ключевую фразу или слово, может оказаться практически необозримым. В связи с этим в Яндекс (как и других мощных Поисковых Машинах) предоставлена возможность в рамках первого списка, выбрать документы, которые точнее отражают цель поиска, то есть уточнить или улучшить результаты поиска. Например, на ключевое слово список из 34 899 Веб-страниц. После ввода в команду «Искать в найденном» уточняющего ключевого слова список сокращается до 750 страниц, а после ввода в эту команду еще одного уточняющего слова этот список сокращается до 130 Веб-страниц.

Поисковые каталоги представляют собой систематизированную коллекцию (подборку) ссылок на другие ресурсы Интернета. Ссылки организованы в виде тематического рубрикатора, npeдставляющего собой иерархическую структуру, перемещаясь по которой, можно найти нужную информацию.

Приведем в качестве примера структуру поискового интернет-каталога Яндекс.

Это каталог общего назначения, так как в нем представлены ссылки на ресурсы Интернета практически по всем возможным направлениям. В этом каталоге выделены следующие темы:

  • Бизнес и экономика;
  • Общество и политика;
  • Наука и образование;
  • Компьютеры и связь;
  • Справочники и ссылки;
  • Дом и семья;
  • Развлечения и отдых;
  • Культура и искусство.

Каждая тема включает множество подразделов , а они, в свою очередь, содержат рубрики и т. д.

Предположим, вы готовите мероприятие ко Дню победы и хотите найти в Интернете слова известной военной песни Булата Окуджавы «Вы слышите, грохочут сапоги». Поиск можно организовать следующим образом:

Яндекс > Каталог > Культура и искусство > Музыка > Авторская песня

Такой способ поиска является достаточно быстрым и эффективным. В конце вам предлагается всего несколько ссылок, среди которых есть ссылки на сайты с песнями известных бардов. Остается только найти на сайте архив с текстами песен Б. Окуджавы и выбрать в нем нужный текст.

Другой пример. Предположим, вы собираетесь приобрести мобильный телефон и хотите сравнить характеристики аппаратов разных фирм. Поиск мог бы вестись по следующим рубрикам каталога:.

Яндекс > Каталог > Компьютеры и связь > Мобильная связь > Мобильные телефоны

Получив ограниченное количество ссылок, можно достаточно оперативно их просмотреть и выбрать телефон, исследовав характеристики по фирмам и модификациям аппаратов.

Большинство поисковых машин имеют возможность поиска по ключевым словам. Это один из самых распространенных видов поиска.

Для поиска по ключевым словам необходимо ввести в специальном окне слово или несколько слов, которые следует искать, и щелкнуть на кнопке Найти.

Поисковая система найдет в своей базе и покажет документы, содержащие эти слова. Таких документов может оказаться множество, но много в данном случае не обязательно означает хорошо.

Проведем несколько экспериментов с любой из поисковых систем. Предположим, что мы решили завести аквариум и нас интересует любая информация по данной теме. На первый взгляд самое простое - это поиск по слову «аквариум». Проверим это, например, в поисковой системе Яндекс. Результатом поиска будет огромное количество страниц - огромное количество ссылок. Причем, если посмотреть внимательнее, среди них окажутся сайты, упоминающие группу Б. Гребенщикова «Аквариум», торговые центры и неформальные объединения с таким же названием, и многое другое, не имеющее отношения к аквариумным рыбкам.

Нетрудно догадаться, что такой поиск не может удовлетворить даже непритязательного пользователя. Слишком много времени придется потратить на то, чтобы отобрать среди всех предложенных документов те, что касаются нужного нам предмета, и уж тем более на то, чтобы ознакомиться с их содержимым.

Можно сразу сделать вывод, что вести поиск по одному слову, как правило, нецелесообразно, ведь по одному слову очень сложно определить тему, которой посвящен документ, веб-страница или сайт. Исключение составляют редкие слова и термины, которые практически никогда не используются вне своей тематической области.

Имея определенный набор наиболее употребительных терминов в нужной области, можно использовать расширенный поиск. На рис. показано окно расширенного поиска в поисковой системе Яндекс. В этом режиме возможности языка запросов реализованы в виде формы. Подобный сервис, включающий словарные фильтры, предлагается почти всеми поисковыми системами.

Попробуем уточнить условия поиска и введем словосочетание «аквариумные рыбки». Количество ссылок уменьшится более чем в 20 раз. Этот результат нас устраивает больше, но все равно среди предложенных ссылок могут встретиться, например, русские сувенирные наборы спичечных этикеток с изображениями рыбок, и коллекции заставок для Рабочего стола компьютера, и каталоги аквариумных рыбок с фотографиями, и магазины аквариумных аксессуаров. Очевидно, что следует продолжить движение в направлении уточнения условий поиска.

Для того чтобы сделать поиск более продуктивным, во всех поисковых системах существует специальный язык формирования запросов со своим синтаксисом. Эти языки во многом похожи. Изучить их все достаточно сложно, но любая поисковая машина имеет справочную систему, которая позволит вам освоить нужный язык.

Приведем несколько простых правил формирования запроса в поисковой системе Яндекс.

Ключевые слова в запросе следует писать строчными (маленькими) буквами.

Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с прописной буквы.

При поиске учитываются все формы слова по правилам русского языка, независимо от формы слова в запросе.

Например, если в запросе было указано слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знаете» и т. п.

Для поиска устойчивого словосочетания следует заключить слова в кавычки.

Например, «фарфоровая посуда».

Для поиска по точной словоформе перед словом надо поставить восклицательный знак.

Например, для поиска слова «сентябрь» в родительном падеже следует написать «!сентября».

Для поиска внутри одного предложения слова в запросе разделяют пробелом или знаком &

Например, «приключенческий роман» или «приключенческий&роман». Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа.

Если вы хотите, чтобы были отобраны только те документы, в которых встретилось каждое слово, указанное в запросе, поставьте перед каждым из них знак плюс «+». Если вы, наоборот, хотите исключить какие-либо слова из результата поиска, поставьте перед этим словом минус «-». Знаки « + » и «-» надо писать через пробел от предыдущего и слитно со следующим словом.

Например, по запросу «Волга -автомобиль» будут найдены документы, в которых есть слово «Волга» и нет слова «автомобиль».

При поиске синонимов или близких по значению слов между словами можно поставить вертикальную черту «|».

Например, по запросу «ребенок | малыш | младенец» будут найдены документы с любым из этих слов.

Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки

Например, «(ребенок | малыш | дети | младенец) +(уход | воспитание)».

Знак «~» (тильда) позволяет найти документы с предложением, содержащим первое слово, но не содержащим второе.

Например, по запросу «книги ~ магазин» будут найдены все документы, содержащие слово «книги», рядом с которым (в пределах предложения) нет слова «магазин».

Если оператор повторяется один раз (например, & или ~), поиск производится в пределах предложения. Двойной оператор (&&,~~) задает поиск в пределах документа.

Например, по запросу «рак ~~ астрология» будут найдены документы со словом «рак», не относящиеся к астрологии.

Вернемся к примеру с аквариумными рыбками. После про¬чтения нескольких предлагаемых поисковой системой документов становится понятно, что поиск информации в Интернете следует начинать не с выбора аквариумных рыбок. Аквариум - сложная биологическая система, создание и поддержание которой требует специальных знаний, времени и серьезных капиталовложений.

На основании полученной информации человек, производящий поиск в Интернете, может кардинально изменить стратегию дальнейшего поиска, приняв решение изучить специальную литературу, относящуюся к исследуемому вопросу.

Для поиска литературы или полнотекстовых документов возможен следующий запрос:

«+(аквариум | аквариумист | аквариумистика) +начинающим +(советы | литература) +(статья | тезис | полнотекстовый) -(цена | магазин | доставка | каталог)».

После обработки запроса поисковой машиной результат оказался весьма успешным. Уже первые ссылки приводят к искомым документам.

Теперь можно подытожить результаты поиска, сделать определенные выводы и принять решение о возможных действиях:

  • Прекратить дальнейший поиск, так как в силу различных причин содержание аквариума вам не под силу.
  • Прочитать предлагаемые статьи и приступить к устройству аквариума.
  • Поискать материалы о хомячках или волнистых попугайчиках.
  1. Какой вид поиска является самым быстрым и надежным?
  2. Где пользователь может найти адреса Web-страниц?
  3. Каково основное назначение поисковой системы?
  4. Из каких частей состоит поисковая система?
  5. Какие поисковые системы вы знаете?
  6. Какова технология поиска по рубрикатору поисковой системы?
  7. Какова технология поиска по ключевым словам?
  8. Когда в критерии поиска надо задавать + или -?
  9. Какие критерии поиска в Яндексе заданы следующей фразой:

    (няня|воспитатель|гувернантка)++(уход|воспитание|присмотр) ?

  10. Что означает удвоение знака (~~ или ++) при формировании сложного запроса?

Задание.

Задание 1. Поиск по каталогам.

Пользуясь каталогом поисковой системы, найдите следующую информацию (по указанию учителя):

  1. Текст песни популярной музыкальной группы
  2. Репертуар Мариинского театра на текущую неделю
  3. Характеристики последней модели мобильного телефона известной фирмы (по вашему выбору)
  4. Рецепт приготовления украинского борща с галушками
  5. Долгосрочный прогноз погоды в вашем регионе (не менее чем на 10 дней)
  6. Фотография любимого исполнителя современной песни
  7. Примерная стоимость мультимедийного компьютера (прайс)
  8. Информация о вакансиях на должность секретаря в вашем регионе или городе
  9. Гороскоп своего знака зодиака на текущий день

По результатам поиска составьте письменный отчет в Word: представьте в документе найденный, скопированный и отформатированный материал. Предъявите отчет учителю.

Задание 2. Формирование запроса по точному названию или цитате.

Вам известно точное название документа, например «Гигиенические требования к персональным электронно-вычислительным машинам и организации работы». Сформулируйте запрос для поиска в Интернете полного текста документа.

Результат поиска сохраните в своей папке. Предъявите учителю.

Задание 3. Формирование сложных запросов.

  • В любой поисковой системе составьте запрос для поиска информации о русской бане. Исключите предложения об услугах, рекламу банных принадлежностей и прочую рекламу. Сосредоточьте поиск на влиянии русской бани на организм.
  • Составьте сложный запрос на поиск информации по уходу за домашними кошками. Исключите из поиска крупных кошек (например, львов), а также предложения о покупке, продаже, фотографии для обоев и т. п.
  • Текст запроса и результат поиска оформите в Word и представьте учителю.
Задание 4. Тематический поиск.

Всеми известными вам способами выполните поиск в Интернете информации по истории развития вычислительной техники. Поиск производите по различным направлениям: историческая обстановка, техника, личности. Результаты поиска оформите в виде презентации. Используйте в презентации многоступенчатой оглавление в виде гиперссылок.

Казалось бы, нет ничего проще, чем найти нужные данные в Сети. В реальности с этим может справиться даже тот, кто впервые воспользовался услугами поисковых систем. Однако в то же время с эффективностью такого поиска можно будет серьезно поспорить. Намного меньше времени можно потратить на поиск информации в Сети, располагая необходимыми сведениями об особенностях работы популярных поисковых систем.

В глобальной Сети применяют во время обработки запросов собственную машинную логику. Опираясь на несколько несложных правил и располагая достаточной информацией об использовании популярных поисковиков, можно значительно ускорить процесс нахождения необходимой информации, а самое главное - в результате вы получите именно то, что требуется.

Особенности составления поискового запроса

Как правильно искать в Интернете необходимую информацию? Для этого, в первую очередь, необходимо знать эффективные приемы удачного составления поисковых запросов. Выполнение поиска по единственному слову обычно приводит к выдаче результатов в виде миллионов страниц, большинство из которых абсолютно не относится к делу. Если в поисковой строке находится от четырех до шести значений и более, количество результатов автоматически сокращается до нескольких тысяч и сотен, а иногда ограничивается лишь парой страниц.

Более того, поиск в Интернете нуждается в составлении грамотных запросов. Чем точнее указано искомое слово или словосочетание, тем выше вероятность обнаружить необходимые данные на первой же странице в выдаче результатов. Все дело в том, что поисковикам далеко не всегда удается исправить ошибки орфографии, допущенные пользователем, а некоторые из них попросту упускаются. А ведь в отдельных случаях точность запроса может оказаться достаточно принципиальной.

Помимо прочего, не следует игнорировать необходимость введения заглавных букв, если запрос касается поиска человека по фамилии либо имен собственных. В противном случае среди подходящих страниц в результате поиска обязательно будет присутствовать достаточная масса неподходящих, косвенно касающихся запроса данных.

Почему важно использовать несколько поисковых систем?

Выполняя поиск в Интернете, крайне важно применять, как минимум, два поисковика. Ведь на получение результатов при этом будут влиять разные способы То, что не замечает один поисковик, обязательно заметит другая система. Например, использование отечественной поисковой системы может переместить необходимую информацию на несколько страниц вперед, и в то же время иностранная выдаст тот же результат в первой пятерке.

Выполнение поиска согласно синонимам

Что больше ищут в Интернете? Обычно предметом поиска пользователей оказывается медиа контент и развлечения, в частности, фильмы, музыка, компьютерные игры. При этом люди далеко не всегда нуждаются в нахождении конкретного запроса. Часто в результатах выдачи необходимо увидеть общую информацию, различные варианты одного значения.

Для поиска схожей информации согласно выбранному запросу применяется символ «~», который необходимо расположить перед запросом в поисковой строке. Например, задав запрос «~лучшие игры», в конечном итоге можно увидеть ссылки на страницы, где не будет присутствовать ни одного совпадения с определением «лучшие». Однако здесь окажется достаточно синонимов к данному определению.

Как получить несколько результатов одновременно?

Как искать информацию в Интернете, чтобы получить одновременно несколько результатов выдачи? Для этого используется разделение пары запросов специальным оператором «|», который может располагаться, как между несколькими словами, так и фразами. Например, разделив таким образом запросы «купить автомобиль» и «купить мотоцикл», можно быстро получить страницы, содержащие оба варианта.

Использование преимуществ расширенного поиска

Применение функции расширенного поиска дает возможность избежать самостоятельного формирования уточняющих запросов. Вместо этого можно воспользоваться теми вариантами, которые предлагает непосредственно поисковая система.

Большинство поисковиков знают, что искать в Интернете намного лучше по сравнению с самыми продвинутыми пользователями, так как основывают свою работу на статистике формирования популярных запросов. Поэтому задавая поисковику запрос в виде искомого слова, лучше сразу же конкретизировать его при помощи функционала расширенного поиска.

Как быстро отыскать значение незнакомого понятия?

Что люди ищут в Интернете? Нередко предметом поиска становятся незнакомые пользователю материалы, а также понятия, в сути которых нужно разобраться. Чтобы моментально отыскать значение тех или иных определений, достаточно всего лишь разместить перед запросом «define:».

Просмотр результатов из первого десятка страниц

Что искать в Интернете? В первую очередь, обращать внимание следует на первые результаты выдачи поисковой системы. Ведь именно здесь обычно встречаются не только самые соответствующие запросу данные, но также результаты, найденные на наиболее популярных среди пользователей страницах. Как правило, это самые уважаемые, проверенные Интернет порталы с содержанием точной, отвечающей запросам пользователя информации.

Уточнение географии искомых данных

Наименее актуальной необходимость уточнения географии запроса выглядит для жителей столиц и крупных городов, однако она остается важной для пользователей из отдаленных регионов. Несмотря на автоматическое определение местоположения пользователя, которое выполняется большинством продвинутых поисковых систем, в результатах на первых позициях обязательно окажутся ссылки, связанные с крупными населенными пунктами. Ведь именно в таких местах сконцентрирована основная масса активных пользователей.

Исходя из вышесказанного, не стоит слишком надеяться на то, что поисковик определит, из какой точки на карте исходит запрос. Вместо этого лучше сразу же добавить к искомому запросу упоминание о месте своего пребывания.

Не стоит забывать и жителям столичных областей, что искать в Интернете информацию подобным образом наиболее целесообразно. Ведь нужные товары или услуги запросто могут оказаться за пределами города. Иногда самое простое упоминание конкретного региона, улицы или даже станции метро способствует быстрому нахождению необходимых магазинов, компаний или сервисов, которые располагаются ближе всего по отношению к месту пребывания пользователя.