Огляд програм для пошуку документів та даних. Софт та сервіси для професійного пошуку Програми пошуку даних в інтернеті

Для професійного пошуку в Інтернеті необхідні спеціалізований софт, а також спеціалізовані пошукові системи та пошукові сервіси.

ПРОГРАМИ

http://dr-watson.wix.com/home – програма призначена для дослідження масивів текстової інформації з метою виявлення сутностей та зв'язків між ними. Результат роботи – звіт про об'єкт, що досліджується.

http://www.fmsasg.com/ - одна з найкращих у світі програм з візуалізації зв'язків та відносин Sentinel Vizualizer. Компанія повністю русифікувала свої продукти та підключила гарячу лінію російською.

http://www.newprosoft.com/ - "Web Content Extractor" є найбільш потужним, простим у використанні ПЗ вилучення даних з web сайтів. Має також ефективний Visual Web павук.

SiteSputnik програмний комплекс, що не має у світі аналогів, що дозволяє вести пошук та обробку його результатів у Бачному та Невидимому Інтернеті, використовуючи всі необхідні користувачеві пошуковики.

WebSite-Watcher – дозволяє проводити моніторинг веб-сторінок, включаючи захищені паролем, моніторинг форумів, RSS-каналів, груп новин, локальних файлів. Має потужну систему фільтрів. Моніторинг ведеться автоматично та поставляється у зручному для користувача вигляді. Програма із розширеними функціями коштує 50 євро. Постійно оновлюється.

http://www.scribd.com/ - Найбільш популярна в світі і все більш широко застосовується в Росії платформа розміщення різноманітних документів, книг і т.п. для вільного доступу з дуже зручним пошуковцем за назвами, темами тощо.

http://www.atlasti.com/ – являє собою найпотужніший і найефективніший з доступних для індивідуальних користувачів, невеликого і навіть середнього бізнесу інструмент якісного аналізу інформації. Програма багатофункціональна і тому корисна. Поєднує в собі можливості створення єдиного інформаційного середовища для роботи з різними текстовими, табличними, аудіо та відеофайлами як єдиним цілим, а також інструменти якісного аналізу та візуалізації.

Ashampoo ClipFinder HD – все більша частка інформаційного потоку посідає відео. Відповідно конкурентним розвідникам потрібні інструменти, що дозволяють працювати з цим форматом. Одним з таких продуктів є безкоштовна утиліта. Вона дозволяє шукати ролики за заданими критеріями на відеофайлових сховищах типу YouTube. Програма проста у використанні, виводить на одну сторінку всі результати пошуку з детальною інформацією, назвами, тривалістю, часом, коли відео було завантажене в сховище тощо. Є російська інтерфейс.

http://www.advego.ru/plagiatus/ - програма зроблена seo оптимізаторами, але цілком підходить як інструмент інтернет-розвідки. Плагіатус показує рівень унікальності тексту, джерела тексту, відсоток збігу тексту. Також програма перевіряє унікальність зазначеної URL-адреси. Програма безкоштовна.

http://neiron.ru/toolbar/ – включає надбудову для об'єднання пошуку Google та Yandex, а також дозволяє здійснювати конкурентний аналіз, що базується на оцінці ефективності сайтів та контекстної реклами. Реалізований як плагін для FF та GC.

http://web-data-extractor.net/ – універсальне рішення для отримання будь-яких даних, доступних в Інтернеті. Налаштування вирізування даних з будь-якої сторінки здійснюється в кілька кліків миші. Вам потрібно просто вибрати область даних, яку ви хочете зберігати та Datacol сам підбере формулу для вирізання цього блоку.

CaptureSaver - Професійний інструмент дослідження інтернету. Просто незамінна робоча програма, що дозволяє захоплювати, зберігати та експортувати будь-яку інтернет інформацію, включаючи не лише web сторінки, блоги, а й RSS новини, електронну пошту, зображення та багато іншого. Має найширший функціонал, інтуїтивно зрозумілий інтерфейс і смішну ціну.

http://www.orbiscope.net/en/software.html – система веб моніторингу за більш ніж доступними цінами.

http://www.kbcrawl.co.uk/ – програмне забезпечення для роботи, у тому числі у «Невидимому інтернеті».

http://www.copernic.com/en/products/agent/index.html - програма дозволяє вести пошук, використовуючи більше 90 пошукових систем, більш ніж за 10 параметрами. Дозволяє поєднувати результати, усувати дублікати, блокувати неробочі посилання, показувати найбільш релевантні результати. Постачається у безкоштовній, особистій та професійній версіях. Використовується більш ніж 20 млн. користувачів.

Maltego – принципово нове програмне забезпечення, що дозволяє встановлювати взаємозв'язок суб'єктів, подій та об'єктів у реалі та в інтернеті.

СЕРВІСИ

new – web браузер із десятками встановлених інструментів для OSINT.

- Ефективний пошуковик-агрегатор для пошуку людей в основних російських соціальних мережах.

https://hunter.io/ – ефективний сервіс для виявлення та перевірки email.

https://www.whatruns.com/ – простий у використанні, але ефективний сканер, що дозволяє виявити, що працює і не працює на веб-сайті та які дірки у безпеці. Реалізовано також як плагін до Chrom.

https://www.crayon.co/ – американська бюджетна платформа ринкової та конкурентної розвідки в інтернеті.

http://www.cs.cornell.edu/~bwong/octant/ – визначник хостів.

https://iplogger.ru/ – простий та зручний сервіс для визначення чужого IP.

http://linkurio.us/ – новий потужний продукт для працівників економічної безпеки та розслідувачів корупції. Обробляє та візуалізує величезні масиви неструктурованої інформації з фінансових джерел.

http://www.intelsuite.com/en - англомовна онлайн платформа для конкурентної розвідки та моніторингу.

http://yewno.com/about/ – перша діюча система перекладу інформації у знання та візуалізації неструктурованої інформації. В даний час підтримує англійську, французьку, німецьку, іспанську та португальську мови.

https://start.avalancheonline.ru/landing/?next=%2F - прогнозно-аналітичні сервіси Андрія Масаловича.

https://www.outwit.com/products/hub/ – повний набір автономних програм для професійної роботи на web 1.

https://github.com/search?q=user%3Acmlh+maltego – розширення для Maltego.

http://www.whoishostingthis.com/ - пошуковик з хостингу, IP адрес і т.п.

http://appfollow.ru/ - аналіз програм на основі відгуків, ASO оптимізації, позицій у топах і пошукових видачах для App Store, Google Play та Windows Phone Store.

http://spiraldb.com/ – сервіс, реалізований як плагін до Chrom, що дозволяє отримати безліч цінної інформації про будь-який електронний ресурс.

https://millie.northernlight.com/dashboard.php?id=93 - безкоштовний сервіс, що збирає та структурує ключову інформацію щодо галузей та компаній. Є можливість використання інформаційних панелей, заснованих на текстовому аналізі.

http://byratino.info/ – збирання фактографічних даних із загальнодоступних джерел у мережі Інтернет.

http://www.datafox.co/ – CI платформа збирає та аналізує інформацію по компаніях, що цікавлять клієнтів. Є демо.

https://unwiredlabs.com/home - спеціалізований додаток з API для пошуку геолокації будь-якого пристрою, підключеного до інтернету.

http://visualping.io/ – сервіс моніторингу сайтів і в першу чергу фотографій та зображень, що є на них. Навіть якщо фотографія з'явилася на секунду, вона буде електронною поштою передплатника. Має плагін для G oogleC hrome.

http://spyonweb.com/ – дослідницький інструмент, що дозволяє здійснити глибокий аналіз будь-якого інтернет-ресурсу.

http://bigvisor.ru/ – сервіс дозволяє відстежувати рекламні компанії за певними сегментами товарів та послуг, або конкретним організаціям.

http://www.itsec.pro/2013/09/microsoft-word.html – інструкція Артема Агєєва щодо використання програм Windows для потреб конкурентної розвідки.

http://granoproject.org/ – інструмент з відкритим вихідним кодом для дослідників, які відстежують мережі зв'язків між персонами та організаціями у політиці, економіці, криміналі тощо. Дозволяє поєднувати, аналізувати та візуалізувати відомості, отримані з різних джерел, а також показувати суттєві зв'язки.

http://imgops.com/ – сервіс вилучення метаданих із графічних файлів та роботи з ними.

http://sergeybelove.ru/tools/one-button-scan/ - маленький он-лайн сканер для перевірки дірок безпеки сайтів та інших ресурсів.

http://isce-library.net/epi.aspx – сервіс пошуку першоджерел за фрагментом тексту англійською мовою

https://www.rivaliq.com/ – ефективний інструмент для ведення конкурентної розвідки на західних, насамперед, європейських та американських ринках товарів та послуг.

http://watchthatpage.com/ - сервіс, який дозволяє автоматично збирати нову інформацію з поставлених на моніторинг ресурсів в інтернеті. Послуги безкоштовні.

http://falcon.io/ – свого роду Rapportive для Web. Він не є заміною Rapportive, а дає додаткові інструменти. На відміну від Rapportive дає загальний профіль людини, як би склеєний із даних із соціальних мереж та згадок у web.http://watchthatpage.com/ – сервіс, який дозволяє автоматично збирати нову інформацію з поставлених на моніторинг ресурсів в інтернеті. Послуги безкоштовні.

https://addons.mozilla.org/ua/firefox/addon/update-scanner/ – додаток для Firefox. Слідкує за оновленнями веб-сторінок. Корисно для веб-сайтів, які не мають стрічок новин (Atom чи RSS).

http://agregator.pro/ - агрегатор новинних та медійних порталів. Використовується маркетологами, аналітиками тощо. для аналізу новинних потоків з тих чи інших тем.

http://price.apishops.com/ – автоматизований веб-сервіс моніторингу цін за вибраними товарними групами, конкретними інтернет-магазинами та іншими параметрами.

http://www.la0.ru/ – зручний та релевантний сервіс аналізу посилань та беклінків на інтернет-ресурс.

www.recordedfuture.com – потужний інструмент аналізу даних та їх візуалізації, реалізований як он-лайн сервіс, побудований на «хмарних» обчисленнях.

http://advse.ru/ – сервіс під слоганом «Дізнайся все про своїх конкурентів». Дозволяє відповідно до пошукових запитів отримати сайти конкурентів, аналізувати рекламні компанії конкурентів у Google та Yandex.

http://spyonweb.com/ – сервіс дозволяє визначити сайти з однаковими характеристиками, у тому числі такими, що використовують однакові ідентифікатори сервісу статистики Google Analytics, IP адреси тощо.

http://www.connotate.com/solutions – лінійка продуктів для конкурентної розвідки, управління інформаційними потоками та перетворення відомостей в інформаційні активи. Включає як складні платформи, і прості дешеві сервіси, дозволяють ефективно вести моніторинг разом із компресією інформації та отриманням лише потрібних результатів.

http://www.clearci.com/ - платформа конкурентної розвідки для бізнесу різних розмірів від стартапів і маленьких компаній до компаній зі списку Fortune 500. Вирішено як saas.

http://startingpage.com/ – надбудова на Google, що дозволяє вести пошук у Google без фіксації вашої IP-адреси. Цілком підтримує всі пошукові можливості Google, у тому числі й російською мовою.

http://newspapermap.com/ – унікальний сервіс, дуже корисний для конкурентного розвідника. Поєднує геолокацію з пошуковцем он-лайн медіа. Тобто. ви вибираєте регіон, що вас цікавить, або навіть місто, або мову, на карті бачите місце і список он-лайн версій газет і журналів, натискаєте на відповідну кнопку і читаєте. Підтримує російську мову, дуже зручний інтерфейс.

http://infostream.com.ua/ – дуже зручна система моніторингу новин «Інфострім» від одного з класиків інтернет-пошуку Д.В.Ланде, що відрізняється першокласною вибіркою, цілком доступна для будь-якого гаманця.

http://www.instapaper.com/ – дуже простий та ефективний інструмент для збереження необхідних веб-сторінок. Може використовуватися на комп'ютерах, айфонах, айпадах та ін.

http://screen-scraper.com/ – дозволяє автоматично витягувати всю інформацію з веб-сторінок, завантажувати переважну більшість форматів файлів, автоматично вводити дані у різні форми. Завантажені файли та сторінки зберігає в базах даних, виконує безліч інших надзвичайно корисних функцій. Працює під усіма основними платформами, має повнофункціональну безкоштовну та дуже потужні професійні версії.

http://www.mozenda.com/- має кілька тарифних планів і доступний навіть для малого бізнесу веб сервіс багатофункціонального веб-моніторингу та доставки з обраних сайтів необхідної користувачеві інформації.

http://www.recipdonor.com/ - сервіс дозволяє здійснювати автоматичний моніторинг всього, що відбувається на сайтах конкурентів.

http://www.spyfu.com/ - а це, якщо у вас конкуренти іноземні.

www.webground.su – створений професіоналами Інтернет-пошуку сервіс для моніторингу Рунету, що включає всіх основних постачальників інформації, новин тощо, здатний до індивідуальних налаштувань моніторингу під потреби користувача.

ПОШУКНИКИ

https://www.idmarch.org/ – найкращий за якістю видачі пошуковик світового архіву pdf документів. Наразі проіндексовано понад 18 млн. pdf документів, починаючи від книг до секретних звітів.

http://www.marketvisual.com/ – унікальна пошукова система, що дозволяє вести пошук власників та топ-менеджменту з ПІБ, найменування компанії, займаної позиції або їх комбінації. У пошуковій видачі містяться не тільки об'єкти, що шукаються, але і їх зв'язки. Розрахована насамперед на англомовні країни.

http://worldc.am/ – пошуковик за фотографіями у вільному доступі з прив'язкою до геолокації.

https://app.echosec.net/ – загальнодоступна пошукова система, яка характеризує себе як найпросунутіший аналітичний інструмент для правоохоронних органів та професіоналів безпеки та розвідки. Дозволяє вести пошук фотографій, розміщених на різних сайтах, соціальних платформах та соціальних мережах у прив'язці до конкретних геолокаційних координат. Наразі підключено сім джерел даних. До кінця року їхня кількість становитиме понад 450. За наведення спасибі Дементію.

http://www.quandl.com/ – пошуковик по семи мільйонах фінансових, економічних та соціальних баз даних.

http://bitzakaz.ru/ – пошукач за тендерами та держзамовленнями з додатковими платними функціями

Website-Finder – дозволяє знайти сайти, які погано індексує Google. Єдиним обмеженням є те, що для кожного ключового слова він шукає лише 30 веб-сайтів. Програма проста у використанні.

http://www.dtsearch.com/ – найпотужніша пошукова система, що дозволяє обробляти терабайти тексту. Працює на робочому столі, в інтернеті та в інтранеті. Підтримує як статичні, і динамічні дані. Дозволяє шукати у всіх програмах MS Office. Пошук ведеться за фразами, словами, тегами, індексами та багато іншого. Єдина доступна система федерального пошуку. Має як платну, так і безкоштовну версію.

http://www.strategator.com/ – здійснює пошук, фільтрацію та агрегацію інформації про компанію з десятка тисяч веб-джерел. Шукає по США, Великій Британії, основним країнам ЄЕС. Відрізняється високою релевантністю, зручністю для користувача, має безкоштовні та платний варіант (14 $ на місяць).

http://www.shodanhq.com/ - незвичайний пошуковик. Одразу після появи отримав прізвисько Гугл для хакерів. Шукає не сторінки, а визначає IP адреси, типи роутерів, комп'ютерів, серверів та робочих станцій, розміщених за тією чи іншою адресою, простежує ланцюжки DNS серверів та дозволяє реалізувати багато інших цікавих функцій для конкурентної розвідки.

http://search.usa.gov/ – пошуковик по сайтам та відкритим базам усіх державних установ США. У базах є багато практичної корисної інформації, зокрема й у нашій країні.

http://visual.ly/ – сьогодні дедалі ширше для представлення даних використовується візуалізація. Це перша пошукова система інфографіки в Інтернеті. Одночасно з пошуковою системою на порталі є потужні інструменти візуалізації даних, що не потребують навичок програмування.

http://go.mail.ru/realtime - пошук по обговоренням тем, подій, об'єктів, суб'єктів в режимі реального, або настроюваного часу. Раніше вкрай критикований пошук Mail.ru працює дуже ефективно і дає цікаву релевантну видачу.

Zanran - щойно стартував, але вже добре працює перший і єдиний пошуковик для даних, що витягує їх з PDF, таблиць EXCEL, даних на сторінках HTML.

http://www.ciradar.com/Competitive-Analysis.aspx – одна з найкращих у світі систем пошуку інформації для конкурентної розвідки у «глибокому вебі». Витягує практично всі види файлів у всіх форматах по темі. Реалізовано як веб-сервіс. Ціни більш ніж прийнятні.

http://public.ru/ – Ефективний пошук та професійний аналіз інформації, архів ЗМІ з 1990 року. Інтернет-бібліотека ЗМІ пропонує широкий спектр інформаційних послуг: від доступу до електронних архівів публікацій російськомовних ЗМІ та готових тематичних оглядів преси до індивідуального моніторингу та ексклюзивних аналітичних досліджень, виконаних за матеріалами друку.

Cluuz – молода пошукова система з широкими можливостями для конкурентної розвідки, особливо в англомовному інтернеті. Дозволяє не лише знаходити, а й візуалізувати, встановлювати зв'язки між людьми, компаніями, доменами, електронною поштою, адресами тощо.

www.wolframalpha.com – пошуковик завтрашнього дня. На пошуковий запит видає наявну за об'єктом запиту статистичну та фактологічну інформацію, у тому числі візуалізовану.

www.ist-budget.ru – універсальний пошук за базами даних держзакупівель, торгів, аукціонів тощо.

ПРОФЕСІЙНИЙ ПОШУК ІНФОРМАЦІЇ У МЕРЕЖІ ІНТЕРНЕТ

Інтернет-пошук – важливий елемент роботи у Мережі. Точна кількість веб-ресурсів сучасного інтернету навряд чи комусь точно відома. У будь-якому випадку рахунок йде на мільярди. Для того щоб можна було використовувати інформацію, необхідну в даний конкретний момент, не важливо, в робочих або розважальних цілях, спочатку потрібно її знайти в океані ресурсів, що постійно поповнюється.

Для того щоб інтернет-пошук був успішним, мають бути виконані дві умови: запити мають бути добре сформульовані та задавати їх потрібно у відповідних місцях. Іншими словами, від користувача вимагається, з одного боку, вміння перекладати свої пошукові інтереси на мову пошукового запиту, а з іншого – гарне знання пошукових систем, доступних інструментів пошуку, їх переваг та недоліків, що дозволить вибирати в кожному конкретному випадку найбільш підходящі засоби пошуку. .

В даний час не існує жодного ресурсу, що задовольняє всім вимогам до інтернет-пошуку. Тому при серйозному підході до пошуку неминуче доводиться задіяти різні інструменти, використовуючи кожен у найкращому разі.

Основні засоби інтернет-пошукуможна поділити на такі основні групи:

Пошукові машини;

Веб-каталоги;

Довідкові ресурси;

Локальні програми для пошуку онлайн.

Найбільш популярним засобом пошуку єпошукові машини- так звані інтернет-пошуковики (Search Engines). Трійка лідерів у загальносвітовому масштабі є досить стабільною – це Google, Yahoo! та Bing. У багатьох країнах до цього переліку додаються власні локальні пошукові системи, оптимізовані для роботи з місцевим контентом. З їхньою допомогою теоретично можна знайти будь-яке конкретне слово на сторінках багатьох мільйонів сайтів. З погляду користувача основний недолік пошукових систем – це неминуча наявністьінформаційного шумуу результатах. Так прийнято називати результати, що потрапили з тих чи інших причин до списку видачі, що не відповідають запиту.

Незважаючи на багато відмінностей, всі інтернет-пошуковики працюють за схожими принципами і з технічного погляду складаються зі схожих підсистем. Перша структурна частина пошукової системи – спеціальні програми, що застосовуються для автоматичного пошуку та подальшого індексування веб-сторінок. Такі програми зазвичай називають павуками або ботами. Вони переглядають код веб-сторінок, знаходять розміщені ними посилання і цим виявляють нові веб-сторінки. Є й альтернативний спосіб включення сайту до індексу. Багато пошукових систем пропонують власникам ресурсів можливість самостійно додати сайт до своєї бази. Як би там не було, потім веб-сторінки завантажуються, аналізуються та індексуються. У них виділяються структурні елементи, знаходяться ключові слова, визначаються їх зв'язки з рештою сайтів та веб-сторінок. Виробляються інші операції, результатом виконання яких стає формування індексної бази пошуковика. Ця база – другий головний елемент будь-якої пошукової системи. Зараз не існує якоїсь абсолютно повної індексної бази, яка містила б відомості про весь контент інтернету. Оскільки різні пошукові системи використовують різні програми пошуку веб-сторінок і будують свій індекс за допомогою різних алгоритмів, індексні бази пошукових систем можуть істотно відрізнятися. Деякі сайти виявляються проіндексованими декількома пошуковими системами, проте завжди залишається певний відсоток ресурсів, включених до бази лише одного пошуковика. Наявність у кожного пошуковика такої оригінальної частини індексу, що не перетинається, дозволяє зробити важливий практичний висновок: якщо ви користуєтеся тільки одним пошуковцем, нехай навіть найбільшим, ви обов'язково втратите деякий відсоток корисних посилань.

Наступна частина інтернет-пошуковика – власне програми пошуку та сортування результатів. Ці програми вирішують дві основні завдання: спочатку знаходять в базі сторінки і файли, що відповідають запиту, а потім сортують отриманий масив даних відповідно до різних критеріїв. Від ефективності роботи багато в чому залежить успіх у досягненні цілей пошуку.

Останній елемент інтернет-пошуковика – інтерфейс користувача. Крім звичайних для будь-яких сайтів вимог до естетики та зручності, до інтерфейсів пошукових систем пред'являється ще одна важлива вимога: вони повинні пропонувати різні інструменти складання та уточнення запитів, а також сортування та фільтрування результатів. Переваги пошукових машин – чудове охоплення джерел, порівняно швидке оновлення вмісту бази та гарний вибір додаткових функцій.

Головний інструмент роботи з пошуковими системами – це запит.

Для інтернет-пошуку використовуються також спеціальні програми, які встановлюються на локальному комп'ютері. Це може бути як прості програми, і досить складні комплекси пошуку та аналізу даних. Найбільш поширені пошукові плагіни для браузерів, панелі для браузерів, призначені для роботи з будь-яким конкретним пошуковим сервісом та метапошукові пакети з можливостями аналізу результатів.

Веб-каталоги – це ресурси, у яких сайти розподіляються за тематичними категоріями. Якщо з пошуковими системами користувач працює тільки за допомогою запитів, то в каталозі є можливість переглядати тематичні розділи повністю. Друге важливе відмінність каталогів від автоматичних пошукових систем – те, що у тому наповненні, зазвичай, безпосередньо беруть участь люди, які переглядають ресурси і відносять сайт до тієї чи іншої категорії. Веб-каталоги прийнято ділити на універсальні та тематичні. Універсальні намагаються охопити максимум тем. Вони можна знайти все, що завгодно: від сайтів про поезію до комп'ютерних ресурсів. Інакше кажучи, широта пошуку вони максимальна. Тематичні каталоги спеціалізуються на певній тематиці, забезпечуючи за рахунок скорочення широти охоплення ресурсів максимальну глибину пошуку.

Переваги каталогів – порівняно висока якість ресурсів, оскільки кожен сайт у ньому проглядається та відбирається людиною. Тематичне угруповання сайтів дозволяє зручно розташовувати сайти близької тематики. Такий режим роботи хороший для виявлення нових для вас сайтів по темі, що цікавить - він точніше застосування пошукової машини. Веб-каталоги рекомендується використовувати для першого знайомства з будь-якою предметною областю, а також для пошуку за нечіткими запитами – у вас буде можливість «поблукати» по розділах каталогу і точніше визначитися з тим, що саме вам потрібно.

Недоліки веб-каталогів відомі. Насамперед, це повільне поповнення бази, оскільки включення сайту до каталогу передбачає участь людини. Щодо оперативності веб-каталог – не суперник пошукачам. Крім того, веб-каталоги суттєво поступаються пошукачам за розмірами баз.

Говорячи про інтернет-пошук, не можна залишити без уваги ряд термінів, які тісно пов'язані з цією сферою і часто використовуються для опису та оцінки пошукових систем. Наприклад:широта та глибина інтернет-пошуку. Широким називають пошук, який захоплює якнайбільше джерел інформації. При цьому достатнім вважається хоча б згадка про той чи інший відповідний запит на сайті. Глибина пошуку відноситься до подробиці індексування та подальшого пошуку кожного конкретного ресурсу. Наприклад, багато пошукових систем по-різному підходять до індексування різних сайтів. Великі та популярні сайти індексуються в максимальному обсязі, роботи намагаються не прогаяти жодної сторінки такого ресурсу. У той же час на інших сайтах може бути проіндексована лише велика сторінка та пара сторінок змісту. Ці обставини, звісно, ​​позначаються і наступному пошуку. Глибокий пошук працює за принципом «краще включити в результати зайву інформацію, ніж упустити будь-які дані, що стосуються теми пошуку».

Досить часто можна зустріти такі поняття, якглобальний та локальний інтернет-пошук. При локальному інтернет-пошуку враховується географічне розташування користувача і перевага надається результатам, так чи інакше пов'язаним із конкретною країною чи місцевістю. При глобальному пошуку ця інформація не враховується, і ведеться пошук у всіх доступних ресурсах.

При складанні запиту на інтернет-пошуковиках діють різні режими пошуку. До типових режимів пошуку, що зустрічаються на більшості інтернет-машин, можна віднестипростий та розширений пошук. Простий пошук дозволяє в одному запиті вказати лише одну пошукову ознаку. Розширений пошук дає можливість скласти запит із кількох умов, зв'язавши їх логічними операторами.

Для уточнення пошукових запитів використовуються різніфільтри . Фільтрами називають ті чи інші допоміжні засоби складання запиту, які не належать до змістовної сторони умов запиту, а обмежують результати пошуку якоюсь формальною ознакою. Так, наприклад, застосовуючи при пошуку фільтр типу файлу, користувач не повідомляє системі відомостей, що належать до теми свого запиту, а просто обмежує отримані результати певним типом файлів, вказаним за умови свого запиту.

Для більшості користувачів універсальні пошукові системи є основним, а найчастіше і єдиним засобом інтернет-пошуку. Вони пропонують хороше охоплення джерел, а також набір інструментів, достатній для вирішення основних пошукових завдань.

Ринок універсальних пошукових систем досить великий. Ми постаралися проаналізувати найвідоміші пошукові системи, а результати подали у вигляді таблиці 1.

При виборі універсального пошуковика важливу роль відіграє якість ресурсів, що знаходяться з його допомогою. Визначити кращий для конкретних завдань пошуковик можна методом маркера. Суть його полягає в тому, що спочатку складається якийсь тематичний пошуковий запит, після чого опитується група людей – експертів у цій галузі щодо виявлення кращих, на їхню думку, інтернет-ресурсів з обраної теми. На основі даних опитування формується список сайтів-маркерів, які гарантовано релевантні запиту та містять якісну інформацію. Потім запит відправляється на пошукові системи, що тестуються. Логіка оцінки проста: чим вище в результатах пошуку будуть розташовані сайти-маркери, тим краще конкретний ресурс підходить для пошуку інформації з тестової теми.


Що це

DuckDuckGo – це досить відома пошукова система з відкритим вихідним кодом. Сервери перебувають у США. Крім власного робота, пошуковик використовує результати інших джерел: Yahoo, Bing, Вікіпедії.

Чим краще

DuckDuckGo позиціонує себе як пошук, що забезпечує максимальну приватність та конфіденційність. Система не збирає жодних даних про користувача, не зберігає логи (немає історії пошуку), використання файлів cookie максимально обмежене.

DuckDuckGo не збирає особисту інформацію користувачів та не ділиться нею. Це наша політика конфіденційності.

Гебріел Вайнберг (Gabriel Weinberg), засновник DuckDuckGo

Навіщо це вам

Усі великі пошукові системи намагаються персоналізувати пошукову видачу з урахуванням даних про людину перед монітором. Цей феномен отримав назву «міхур фільтрів»: користувач бачить тільки ті результати, які узгоджуються з його перевагами або які система визнає такими.

Формує об'єктивну картину, яка не залежить від вашої минулої поведінки в Мережі, та позбавляє тематичної реклами Google та «Яндекса», заснованої на ваших запитах. За допомогою DuckDuckGo легко шукати інформацію іноземними мовами, тоді як Google і Яндекс за замовчуванням віддають перевагу російськомовним сайтам, навіть якщо запит введений іншою мовою.


Що це

not Evil - система, яка здійснює пошук анонімної мережі Tor. Для використання потрібно зайти в цю мережу, наприклад, запустивши спеціалізований .

not Evil не єдиний пошуковик у своєму роді. Є LOOK (пошук за замовчуванням у Tor-браузері, доступний зі звичайного інтернету) або TORCH (одна з найстаріших пошукових систем в Tor-мережі) та інші. Ми зупинилися на not Evil внаслідок недвозначного натяку на Google (досить подивитися на стартову сторінку).

Чим краще

Шукає там, куди Google, «Яндексу» та іншим пошуковим системам вхід закритий у принципі.

Навіщо це вам

У мережі Tor багато ресурсів, які неможливо зустріти у законослухняному інтернеті. І їх кількість зростатиме в міру того, як посилюється контроль влади над змістом Мережі. Tor – це своєрідна мережа всередині Мережі зі своїми соціалками, торрент-трекерами, ЗМІ, торговими майданчиками, блогами, бібліотеками тощо.

3. YaCy

Що це

YaCy – децентралізована пошукова система, що працює за принципом мереж P2P. Кожен комп'ютер, де встановлено основний програмний модуль, сканує інтернет самостійно, тобто є аналогом пошукового робота. Отримані результати збираються до загальної бази, яку використовують усі учасники YaCy.

Чим краще

Тут складно говорити, краще це чи гірше, оскільки YaCy – це зовсім інший підхід до організації пошуку. Відсутність єдиного сервера та компанії-власника робить результати повністю незалежними від чиїхось переваг. Автономність кожного вузла унеможливлює цензуру. YaCy здатний вести пошук у глибокому вебі та неіндексованих мережах загального користування.

Навіщо це вам

Якщо ви прихильник відкритого ПЗ та вільного інтернету, не схильного до впливу державних органів та великих корпорацій, то YaCy - це ваш вибір. Також за його допомогою можна організувати пошук усередині корпоративної чи іншої автономної мережі. І нехай поки що в побуті YaCy не надто корисний, він є гідною альтернативою Google з погляду процесу пошуку.

4. Pipl

Що це

Pipl - система, призначена для пошуку інформації про конкретну людину.

Чим краще

Автори Pipl стверджують, що їхні спеціалізовані алгоритми шукають ефективніше, ніж «звичайні» пошукові системи. Зокрема, пріоритетними є профілі соціальних мереж, коментарі, списки учасників та різні бази даних, де публікуються відомості про людей, наприклад, бази судових рішень. Лідерство Pipl у цій галузі підтверджено оцінками Lifehacker.com, TechCrunch та інших видань.

Навіщо це вам

Якщо вам потрібно знайти інформацію про людину, яка проживає в США, то Pipl буде набагато ефективнішою за Google. Бази даних російських судів, мабуть, недоступні для пошуковика. Тому з громадянами Росії він справляється негаразд.

Що це

FindSounds - ще одна спеціалізована пошукова система. Шукає у відкритих джерелах різні звуки: будинок, природа, машини, люди тощо. Сервіс не підтримує запити російською мовою, але є перелік російськомовних тегів, за якими можна виконувати пошук.

Чим краще

У видачі тільки звуки та нічого зайвого. У налаштуваннях можна виставити бажаний формат та якість звучання. Всі знайдені звуки доступні для завантаження. Є пошук за зразком.

Навіщо це вам

Якщо вам потрібно швидко знайти звук мушкетного пострілу, удари дятла-сосуна або крик Гомера Сімпсона, цей сервіс для вас. І це ми обрали лише з доступних російськомовних запитів. Англійською мовою спектр ще ширший.

Якщо серйозно, спеціалізований сервіс передбачає спеціалізовану аудиторію. Але раптом і вам знадобиться?

Що це

Wolfram | Alpha - обчислювально-пошукова система. Замість посилань на статті, що містять ключові слова, вона видає готову відповідь на запит користувача. Наприклад, якщо ввести форму пошуку «порівняти населення Нью-Йорка і Сан-Франциско» англійською, то Wolfram|Alpha відразу виведе на екран таблиці та графіки з порівнянням.

Чим краще

Цей сервіс краще за інших підходить для пошуку фактів і обчислення даних. Wolfram|Alpha накопичує та систематизує доступні в Мережі знання з різних галузей, включаючи науку, культуру та розваги. Якщо в цій базі знаходиться готова відповідь на пошуковий запит, система показує його, якщо ні – обчислює та виводить результат. При цьому користувач бачить тільки нічого зайвого.

Навіщо це вам

Якщо ви, наприклад, студент, аналітик, журналіст чи науковий співробітник, можете використовувати Wolfram|Alpha для пошуку та обчислення даних, пов'язаних з вашою діяльністю. Сервіс розуміє не всі запити, але постійно розвивається і стає розумнішим.

Що це

Метапошуковик Dogpile виводить комбінований список результатів з пошукових видач Google, Yahoo та інших популярних систем.

Чим краще

По-перше, Dogpile відображає менше реклами. По-друге, сервіс використовує особливий алгоритм, щоб знаходити та показувати найкращі результати з різних пошукових систем. Як стверджують розробники Dogpile, їх системи формує найповнішу видачу у всьому інтернеті.

Навіщо це вам

Якщо ви не можете знайти інформацію в Google або іншому стандартному пошуковику, пошукайте її відразу в декількох пошукових системах за допомогою Dogpile.

Що це

BoardReader - система для текстового пошуку за форумами, сервісами питань та відповідей та іншими спільнотами.

Чим краще

Сервіс дозволяє звузити поле пошуку до соціальних майданчиків. Завдяки спеціальним фільтрам ви можете швидко знаходити пости та коментарі, які відповідають вашим критеріям: мові, даті публікації та назві сайту.

Навіщо це вам

BoardReader може стати в нагоді піарникам та іншим фахівцям у галузі медіа, яких цікавить думка масової з тих чи інших питань.

На закінчення

Життя альтернативних пошукачів часто буває швидкоплинним. Про довгострокові перспективи подібних проектів Лайфхакер запитав колишнього генерального директора української філії компанії «Яндекс» Сергія Петренка.


Сергій Петренко

Колишній генеральний директор "Яндекс.України".

Щодо долі альтернативних пошукачів, то вона проста: бути дуже нішевими проектами з невеликою аудиторією, отже, без ясних комерційних перспектив або, навпаки, з повною ясністю їхньої відсутності.

Якщо подивитися на приклади у статті, то видно, що такі пошукові системи або спеціалізуються у вузькій, але затребуваній ніші, яка, можливо, поки що, не виросла настільки, щоб виявитися помітною на радарах Google або «Яндекса», або тестують оригінальну гіпотезу в ранжируванні, яка поки що не застосовна у звичайному пошуку.

Наприклад, якщо пошук по Tor раптом виявиться затребуваним, тобто результати звідти знадобляться хоча б відсотку аудиторії Google, то звичайно звичайні пошукові системи почнуть вирішувати проблему, як їх знайти і показати користувачу. Якщо поведінка аудиторії покаже, що помітній частці користувачів у помітній кількості запитів більш релевантними здаються результати, дані без урахування факторів, що залежать від користувача, то Яндекс або Google почнуть давати такі результати.

«Бути кращими» у контексті цієї статті не означає «бути кращими у всьому». Так, у багатьох аспектах нашим героям далеко до «Яндекса» (навіть до Bing далеко). Але кожен з цих сервісів дає користувачеві щось таке, чого не можуть запропонувати гіганти пошукової індустрії. Напевно, ви теж знаєте подібні проекти. Поділіться з нами – обговоримо.

Вступ

В даний час Інтернет об'єднує сотні мільйонів серверів, на яких розміщені мільярди різних сайтів та окремих файлів, що містять різноманітну інформацію. Це гігантське сховище інформації. Існують різні способи пошуку інформації в Інтернеті.

Пошук за відомою адресою.Необхідні адреси беруться із довідників. Знаючи адресу, достатньо ввести в адресний рядок Браузера.

Приклад 1. www.gov.ru – сервер органів державної влади Росії.

Конструювання адреси користувачем.Знаючи систему формування адреси в Інтернеті, можна при пошуку Web-сайтів конструювати адреси.

До ключового слова (назви фірми, підприємства, організації або простого англійського іменника) необхідно додати тематичний або географічний домен, при цьому необхідно підключати інтуїцію.

Приклад 2. Адреси комерційних Web-сторінок:

www.samsung.com (фірма SAMSUNG),

www.mtv.com (музичні новини MTV).

Приклад 3. Адреси навчальних закладів:

www.ntu.edu (Національний університет США).

Пошукові системи Інтернет

Для пошуку інформації в Інтернеті розроблені спеціальні інформаційно-пошукові системи. Пошукові системи мають звичайну адресу і відображаються у вигляді Web-сторінки, що містить спеціальні засоби для організації пошуку (рядок для пошуку, тематичний каталог, посилання). Щоб викликати пошукову систему, достатньо ввести її адресу в адресний рядок Браузера.

За даними сервісу статистики LiveInternet.ru розподіл пошукових систем у Росії приблизно такий:

2) Гугл - 35.0%

3) Пошук Mail.ru - 8.3%

4) Рамблер - 0.9%

За способом організації інформації інформаційно-пошукові системи поділяються на два види: класифікаційні (рубрикатори) та словникові.

Рубрикатори (класифікатори)- пошукові системи, у яких використовується ієрархічна (деревоподібна) організація інформації. При пошуку інформації користувач переглядає тематичні рубрики, поступово звужуючи поле пошуку (наприклад, якщо необхідно знайти значення якогось слова, спочатку в класифікаторі потрібно знайти словник, а потім вже в ньому знайти потрібне слово).



Словникові пошукові системи– це потужні автоматичні програмно-апаратні комплекси. З їхньою допомогою переглядається (сканується) інформація в Інтернет. До спеціальних довідників-індексів заносяться дані про місцезнаходження тієї чи іншої інформації. У відповідь на запит здійснюється пошук відповідно до рядка запиту. В результаті користувачеві пропонуються ті адреси (URL), на яких в момент сканування знайдені слова або група слів. Вибравши будь-яку із запропонованих адрес-посилань, можна перейти до знайденого документа. Більшість сучасних пошукових систем є змішаними.

Найбільш відомі та популярні системи пошуку:

Існують системи, що спеціалізуються на пошуку інформаційних ресурсів у різних напрямках.

https://my.mail.ru

https://ua-ru.facebook.com

https://twitter.com

https://www.tumblr.com

https://www.instagram.com і т.д.

Предметні пошукові системи:

Пошук програмного забезпечення:

Каталоги (тематичні добірки посилань з анотаціями):

http://www.atrus.ru

Правила виконання запитів

У кожній пошуковій системі у розділі Допомога (Help) можна отримати інформацію про те, як шукати, як скласти рядок запиту. Нижче наведено інформацію про типову, "усереднену" мову запитів.

Простий запит

Введіть одне слово, яке визначає тему пошуку. Наприклад, у пошуковій системі Rambler.ru достатньо ввести: автоматика.

Розташовуються документи, в яких зустрічаються слова, зазначені у запиті. Розпізнаються всі форми слів російської, зазвичай, регістр літер ігнорується.

У запиті можна використовувати символ "*" чи "?". Знаком "?" у ключовому слові замінюється один символ, місце якого може бути підставлена ​​будь-яка буква, а знаком " * " - послідовність символів.

Наприклад, запит автомат* дозволить знайти документи, що включають автоматичні слова, автоматика і т.д.

Складний запит

Часто виникає необхідність комбінування ключових слів для більш конкретної інформації. І тут використовуються додаткові слова-зв'язки, функції, оператори, символи, комбінації операторів, розділені дужками.

Наприклад, запит музика & (beatles бітлз) означає, що користувач шукає документи, що містять слова музика та beatles або музика та бітлз.

Список пошукових серверів та каталогів

Адреса Опис
www.excite.com Пошуковий сервер з оглядами вузлів та путівниками
www.alta-vista.com Пошуковий сервер, є можливості розширеного пошуку
www.hotbot.com Пошуковий сервер
www.ifoseek.com Пошуковий сервер (простий у використанні)
www.ipl.org Internet Publik library, публічна бібліотека, що функціонує у рамках проекту "Всесвітнє село"
www.wisewire.com WiseWire - організація пошуку із застосуванням штучного інтелекту
www.webcrawler.com WebCrawler - пошуковий сервер, простий у користуванні
www.yahoo.com КаталогWeb та інтерфейс для звернення до повнотекстового пошуку на сервері AltaVista
www.aport.ru Апорт - російськомовний пошуковий сервер
www.yandex.ru Яндекс - російськомовний пошуковий сервер
www.rambler.ru Рамблер - російськомовний пошуковий сервер
Довідкові ресурси Інтернет
www.yellow.com Жовті сторінки Інтернет
monk.newmail.ru Пошукові системи різного профілю
www.top200.ru 200 кращих Web-сайтів
www.allru.net
www.ru Каталог російських ресурсів Інтернет
www.allru.net/z09.htm Освітні ресурси
www.students.ru Сервер російського студентства
www.cdo.ru/index_new.asp Центр дистанційного навчання
www.open.ac.uk Відкритий університет Великобританії
www.ntu.edu Національний університет США
www.translate.ru Електронний перекладач текстів
www.pomorsu.ru/guide.library.html Список посилань на мережеві бібліотеки
www.elibrary.ru Наукова електронна бібліотека
www.citforum.ru Електронна бібліотека
www.infamed.com/psy Психологічні тести
www.pokoleniye.ru Web-сайт Федерації Інтернет освіти
www.metod.narod.ru Освітні ресурси
www.spb.osi.ru/ic/distant Дистанційне навчання в Інтернет
www.examen.ru Іспити та тести
www.kbsu.ru/~book/ Підручник інформатики
Mega.km.ru Енциклопедії та словники

Професійний пошук інформації в Інтернет

Пошук інформації є одним із найпоширеніших і одночасно найскладніших завдань, з якими доводиться стикатися в Мережі будь-якому користувачеві. Однак якщо для рядового члена мережевого співтовариства знання методів ефективного інформаційного пошуку є бажаною, але далеко не обов'язковою якістю, то для професіоналів інформаційної діяльності вміння швидко орієнтуватися в ресурсах Інтернет і знаходити необхідні джерела належить до базових кваліфікаційних навичок.

Причина складнощів, що виникають при інформаційному пошуку в Інтернеті, визначається двома головними факторами. По-перше, кількість джерел у Мережі надзвичайно велика. Наприкінці 2001 року приблизні підрахунки вказували орієнтовну цифру в 7,5 мільярдів документів, розміщених на серверах по всьому світу. По-друге, масив інформації в Мережі не тільки колосальний за обсягом, а й вкрай динамічний. За ті півхвилини, що ви витратили на читання перших рядків цього розділу, у віртуальному всесвіті з'явилося близько сотні нових або змінених документів, десятки були переміщені на нові адреси, а одиниці - назавжди припинили своє існування. Інтернет ніколи не спить, як ніколи не спить наша планета, по якій безперервно котиться хвиля ділової активності людства в точній відповідності зі зміною часових поясів.

На відміну від стабільного та контрольованого фонду документів у бібліотеці, в Мережі ми маємо справу з гігантським і безперервно змінним інформаційним масивом, пошук даних у якому є дуже складним процесом. Ситуація часто дуже нагадує відоме завдання пошуку голки в копиці сіна, і часом відомості, що становлять величезну цінність, залишаються незатребуваними тільки через труднощі їхнього розшуку.

Навички інформаційних розвідок у тій чи іншій мірі мають більшість користувачів глобальних комп'ютерних мереж. І дилетанти, і професіонали найчастіше користуються одними й тими самими інструментами. Проте результати розвідок і витрачений ними час різняться дуже значною мірою.

Завдання даного розділу полягає у детальному ознайомленні з інструментами та методами інформаційного пошуку та виробленні стійких навичок професійного пошуку в Мережі всіх видів даних: від текстів у будь-яких форматах, до відео та анімації.

Знайти потрібну та актуальну інформацію в Інтернеті часом дуже непросто. Кількість інформаційного сміття в Мережі зростає як снігова куля, і дістатися даних, які вам дійсно необхідні, використовуючи традиційні Яндекс і Google, іноді просто неможливо. Книга, яку ви тримаєте в руках, дозволить збільшити ефективність вашого пошуку інформації в Інтернеті у багато разів. Тут описані прийоми, пошукові сайти та програми для спеціалізованого пошуку інформації. Розглянуто сучасні різновиди інтернет-пошуку: універсальний пошук, вертикальний пошук, метапошукові системи, побудова персональних пошукових систем, пошук аудіовізуального контенту, пошук прихованого Інтернету. Для всіх розглянутих систем наведено їх характеристику та поради щодо максимально ефективного використання.

Вступ

Інтернет-пошук – важливий елемент роботи у Мережі. Точна кількість веб-ресурсів сучасного інтернету навряд чи комусь точно відома. У будь-якому випадку рахунок йде на мільярди. Для того щоб можна було використовувати інформацію, необхідну в даний конкретний момент, не важливо, в робочих або розважальних цілях, спочатку потрібно її знайти в океані ресурсів, що постійно поповнюється. Це зовсім не просте завдання, оскільки інформація в сучасній Мережі не структурована, що створює проблеми її знаходження. Невипадково своєрідними «вікнами» у цей інформаційний простір стали саме інтернет-пошуковики.

Навряд чи серед інтернет-користувачів знайдуться люди, які ніколи не використовували великі універсальні пошукові машини. Назви Google, Яндекс та пари-трійки інших великих машин на слуху у всіх. Вони чудово справляються з повсякденними завданнями інтернет-пошуку, і найчастіше користувачі навіть намагаються шукати їм заміну. У той же час, кількість пошукових інтернет-машин у наш час обчислюється тисячами. Причини такого розмаїття альтернативних машин мають різне коріння. Одні проекти намагаються безпосередньо конкурувати із лідерами глобального ринку за рахунок ретельної роботи з національними інтернет-ресурсами. Інші пропонують можливості складання запиту, які відсутні у відомих пошукових систем. Значна кількість альтернативних машин спеціалізується на пошуку по певній тематичній області або певному типу контенту, досягаючи у вирішенні цих завдань вражаючих результатів. Як би там не було, включення таких пошукачів у власний арсенал засобів інтернет-пошуку може помітно підвищити його якість. Тут, правда, існує один нюанс: треба знати про такі машини та вміти користуватися їхніми можливостями.

Припускаємо, що читачі цієї книги вже досить добре знайомі з технікою пошуку за допомогою універсальних пошукових систем. Добре настільки, що відчули обмеження, пов'язані з їх застосуванням. Швидше за все, такі люди вже намагалися шукати та застосовувати ті чи інші додаткові інструменти. Друковане слово не оминає тему інтернет-пошуку: і статті періодично з'являються, і книги виходять. Ось тільки герої у них, як правило, одні й ті самі – кілька провідних універсальних пошукових систем. Наша книга відрізняється тим, що робиться спроба охопити весь спектр сучасних пошукових рішень. Тут ви знайдете описи та рекомендації щодо використання кращих сучасних сервісів, орієнтованих на вирішення найпоширеніших пошукових завдань. Ця книга для людей, які багато працюють в інтернеті і використовують Мережу для пошуку потрібної інформації – будь то бізнес, навчання чи хобі.

Для того щоб інтернет-пошук був успішним, мають бути виконані дві умови: запити мають бути добре сформульовані та задавати їх потрібно у відповідних місцях. Іншими словами, від користувача вимагається, з одного боку, вміння перекладати свої пошукові інтереси на мову пошукового запиту, а з іншого – гарне знання пошукових систем, доступних інструментів пошуку, їх переваг та недоліків, що дозволить вибирати в кожному конкретному випадку найбільш підходящі засоби пошуку. .

В даний час не існує жодного ресурсу, що задовольняє всім вимогам до інтернет-пошуку. Тому при серйозному підході до пошуку неминуче доводиться задіяти різні інструменти, використовуючи кожен у найкращому разі.

Глава 1

Універсальні інтернет-пошуковики

Універсальні інтернет-пошуковики - це основний і найвідоміший засіб інтернет-пошуку. Такі пошукові системи забезпечують максимальне охоплення різних ресурсів. Саме до універсального типу відносяться найбільші та найпопулярніші пошукові машини. Це дійсно потужні рішення з великою кількістю можливостей та інструментів, про які часто не знають багато користувачів. Розуміння особливостей та можливостей універсального пошуку дозволяє дізнатися сильні та слабкі сторони таких систем та усвідомлено вибирати максимально ефективні інструменти пошуку.

Ринок універсальних пошукових систем досить великий. У цьому розділі ми розглянемо лише найпотужніші машини, здатні гідно працювати із запитами російською мовою. Відкривають розділ розповіді про лідерів російського пошуку – системи Google.ru та Яндекс. Про кожного з цих пошукачів написано книги та безліч статей. Ми зосередимося на основних характеристиках, що мають значення для кінцевого користувача, а також спробуємо визначити їхні сильні сторони.

Компанію їм складає нова пошукова розробка корпорації Microsoft – система Bing, яка поки що помітно обділена увагою, а також корисна і досить потужна пошукова система Exalead, перевагою якої є хороша підтримка пошуку в європейських інтернет-ресурсах. Ця система – поки що рідкісний гість у пошуковому арсеналі наших користувачів, тому вона розглядається докладніше за інших.

У цьому розділі під час огляду систем Google та Яндекс ми зосередимося лише на можливостях веб-пошуку, а пошук у спеціалізованих базах цих проектів розглядається у наступних розділах, присвячених пошуку зображень та відео. Для інших універсальних пошукових систем відомості про мультимедіа-пошук наводяться відразу при знайомстві з ними.

Оскільки три з чотирьох героїв цього розділу мають закордонне походження, одразу зазначимо, що ми аналізуємо можливості лише їхніх російських версій. Справа в тому, що деякі функції зарубіжних систем, особливо експериментальні, найчастіше доступні лише в оригінальних, як правило, англомовних версіях сервісів.

Google

Пошуковик Google заслужено вважається світовим лідером сучасного інтернет-пошуку. Заснована в 1998 році компанія Google досі залишається серед провідних законодавців мод у сфері інтернет-пошуку та веб-сервісів.

Розробники Google завжди відрізнялися підвищеною увагою до вдосконалення алгоритмів свого пошуковика, а також розумним консерватизмом в області інтерфейсу користувача. Можливості складання запиту на Google можна назвати класичними, та й способи відображення результатів пошуку стали своєрідним стандартом. Останнім часом розробники Google зробили серйозні зміни в цих областях - надто вже старомодно стала виглядати найбільша пошукова система на тлі молодих конкурентів.

Google має одну з найбільших у світі індексних баз, що забезпечує широке охоплення джерел інформації. Індексна інформація Google зведена до декількох вертикальних баз. Крім найбільш відомої бази «Веб», це кілька мультимедіа-баз («Малюнки», «Відео»), база «Новини», що працюють з джерелами актуальної інформації та повідомленнями на RSS-стрічках, а також база «Блоги», що індексує мережеві щоденники. Крім того, Google пропонує широкий вибір додаткових ресурсів, серед яких варто відзначити картографічний сервіс, каталог сайтів, службу питань та відповідей. Ці ресурси можна також розглядати як інструменти пошуку.

В базі "Веб" для складання запиту Google пропонує режими простого та розширеного пошуку. У режимі простого пошуку з додаткових інструментів доступна лише віртуальна клавіатура. Розширений пошук пропонує більше можливостей. Оскільки форма розширеного пошуку є практично у всіх пошукових продуктах Google, зупинимося на ній докладніше (рис. 1.1).

Яндекс

Офіційно представлений широкому загалу в 1997 році пошуковик Яндекс успішно розвивався і через десять років вперше потрапив до десяти найбільших пошукових машин світу. У російському сегменті інтернету він домігся лідируючих позицій, які поки не збирається поступатися, незважаючи на зростаючу конкуренцію. Відмінними рисами Яндекса з початку існування стали власні оригінальні алгоритми визначення релевантності результатів пошуку, гнучкі інструменти роботи з текстом запитів та облік особливостей морфології російської мови при їх обробці.

Яндекс спирається на власні індексні бази. Крім пошуку за веб-документами, система пропонує непоганий вибір спеціалізованих ресурсів і додаткових сервісів. Яндекс зараз працює із зображеннями, відео, новинами, блогами та словниками. Потужні пошукові можливості закладено також у власному картографічному сервісі та системі пошуку товарів. Окрім того, Яндекс веде власний каталог веб-сайтів. Сильною стороною Яндекса є розвинена програма локального пошуку, що є особливо актуальним для наших користувачів. Яндекс надає можливість доступу до своїх баз стороннім розробникам. Як наслідок, чимало російських проектів альтернативного інтернет-пошуку так чи інакше використовують ресурси Яндекса. Крім звичайної системи пошуку, пропонується і скорочений варіант Яндекса, доступний за адресою ya.ru. Інтерфейс цієї версії складається лише з поля введення запиту та кнопки початку пошуку.

Пошук у веб-документах пропонує режими простого та розширеного пошуку. Простий пошук не надає жодних фільтрів, що компенсується можливістю автоматичного розбору запитів природною мовою, впевненою обробкою щодо довгих запитів, а також системою автоматичного доповнення запиту. Максимальна довжина запиту – сорок слів.

Форма розширеного пошуку для складання запиту пропонує лише одне поле. Логічні оператори, які пов'язують слова запиту, пропонується вводити вручну, благо. Яндекс має досить докладну мову запитів. Інші інструменти форми розширеного пошуку – це різні фільтри (1.4).

Bing

Історію інтернет-пошуку від Microsoft просто не назвеш. На сервісах, що послідовно пропонуються публіці, неодноразово змінювалися алгоритми, використовувані бази даних і, звичайно ж, назви. До початку 2000-х пошуковик не мав власних баз і працював із зовнішніми індексами від AltaVista, Inktomi і Looksmart. Початкове ім'я MSN Search використовувалося до 2006 року, а потім на кілька років зміна назв пошуковика стала для Microsoft традицією.

Разом з остаточним переходом на пошук у власних індексних MSN Search була перейменована спочатку в Windows Live Live Search. Нарешті, на початку літа 2009 року на зміну Live Search прийшов новий пошуковий проект Bing.

"Bing дозволить інакше поглянути на пошук інформації в інтернеті та допоможе користувачам у прийнятті важливих рішень", - саме такою заявою розпочинався прес-реліз Microsoft, присвячений запуску Bing. Прагнення розробників були зрозумілі: пошукові системи від Microsoft, незважаючи на всі старання, на Заході стабільно поступалися за популярністю лідерам - Google і Yahoo!. Якщо ж говорити про російськомовні версії попередніх пошукових проектів Microsoft, то за кількістю і якістю посилань вони набагато поступалися великим російським пошуковикам. У спробі наздогнати конкурентів розробники Bing зробили ставку на поліпшення якості пошуку та впровадження нових технологій, багато з яких були придбані разом із фірмами, що їх створили.

Слід зазначити, що російськомовна версія Bing, як більшість інших локалізованих версій, позбавлена ​​низки додаткових функцій, наприклад пошуку магазинах. Оскільки вони, по суті, працюють лише у Північній. Америці, докладно зупинятися на них немає сенсу.

Exalead

Однією з особливостей Європи, у тому числі й у сфері інтернет-пошуку є велика кількість національних мов. Пошуковик, який претендує на місце провідного в Європі, просто зобов'язаний добре індексувати національні сегменти інтернету та якісно обробляти запити численними європейськими мовами – як найбільшими, так і менш поширеними. Саме в цій галузі європейська технологія може отримати серйозну конкурентну перевагу порівняно з потужними заокеанськими конкурентами. На роль такої європейської пошукової системи в даний час серйозно претендує система Exalead. Цей проект був розроблений у рамках дослідницької програми Quaere, що фінансується Євросоюзом.

Exalead має власні індексні бази. Основні пошукові ресурси системи – це бази веб-документів, зображень, відео та новин. Стартова сторінка Exalead пропонує можливість персонального налаштування. На цій сторінці можна розмістити посилання на свої улюблені сайти – вони відображатимуться у вигляді графічних мініатюр-скриншотів. Щоправда, для цього доведеться безкоштовно зареєструвати обліковий запис, а також дозволити браузеру зберігати кукі-файли Exalead.

Веб-пошук Exalead пропонує режими простого та розширеного пошуку. Форма розширеного пошуку, як і в Bing, відкривається прямо на сторінці видачі Зазначимо, що Exalead пропонує не просто звичну форму з набором додаткових полів, а складне меню, що грає роль майстра з уточнення запиту (рис. 1.7). При виборі того чи іншого пункту в меню майстра до рядка запиту додаються нові елементи, а за потреби оператори та спецсимволи.