Що таке пошуковий робот? Функції пошукового робота "Яндекса" та Google. Пошукові роботи Google, Яндекса, інших ПС та сервісів

Пошуковий робот (бот, павук, spider, crawler) - це спеціальна програма пошукача, призначена для сканування сайтів в Інтернеті.

Багато хто не знає, що скануючі боти просто збирають і зберігають інформацію. Вони не займаються її опрацюванням. Це роблять інші програми.

Якщо у вас є бажання подивитися на сайт очима пошукового робота, можна це зробити через панель вебмайстра.

Подивитися як Google можна через панель вебмайстра. Там потрібно додати свій сайт і потім можна буде переглянути на сторінці:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ua

Подивитися як Яндекс можна за допомогою збереженої копії сторінки. Для цього знаходимо потрібну сторінку в пошуку Яндекса, тиснемо "збережена копія" і далі "подивитися текстову версію".

Нижче наведу список пошукових роботів, які ходять на наші сайти. Одні з них індексують сайти, інші стежать за контекстною рекламою. Є спеціалізовані роботи, які займаються певними вузькими завданнями. Наприклад, індексують картинки чи новини.

Знаючи «в обличчя» робота, можна заборонити або дозволити йому повзати сайтом, тим самим можна знизити навантаження на сервер. Ну чи захистити свою інформацію від потрапляння в мережу.

Пошукові роботи Яндекса

У пошуковій системі Яндекс десятка півтора відомих нам пошукових роботів. Список ботів, який мені вдалося розкопати, в тому числі з офіційного хелпу, нижче.

YandexBot - основний робот, що індексує;
YandexMedia - робот, що індексує мультимедійні дані;
YandexImages - індексатор Яндекс.Картинок;
YandexCatalog — «простукувала» Яндекс.Каталогу, використовується для тимчасового зняття з публікації недоступних сайтів у каталозі;
YaDirectFetcher - робот Яндекс.Директа;
YandexBlogs - робот пошуку по блогах, що індексує пости та коментарі;
YandexNews - робот Яндекс.Новин;
YandexWebmaster – приходить додавання сайту через форум AddURL;
YandexPagechecker - валідатор мікророзмітки;
YandexFavicons - індексатор фавіконок
YandexMetrika - робот Яндекс.Метрики;
YandexMarket - робот Яндекс.Маркета;
YandexCalendar - робот Яндекс.Календаря.

Пошукові роботи (роботи) Google

Googlebot - основний робот, що індексує;
Googlebot Nes - індексатор новин;
Googlebot Images - індексатор картинок;
Googlebot Video - Робот для відео даних;
Google Mobile – індексатор мобільного контенту;
Google Mobile AdSense - робот мобільного AdSense
Google AdSense - робот AdSense
Google AdsBot – бот перевірки якості цільової сторінки
Mediapartners-Google - робот AdSense

Роботи інших пошукових систем

Так само, в логах свого сайту, ви можете натрапити на деяких роботів інших пошукових систем.

Рамблер - StackRambler
Мейл.ру - Mail.Ru
Yahoo! - Slurp (або Yahoo! Slurp)
AOL - Slurp
MSN — MSNBot
Live - MSNBot
Ask - Teoma
Alexa - ia_archiver
Lycos — Lycos
Aport — Aport
Вебальта - WebAlta (WebAlta Crawler/2.0)

Крім роботів пошуковиків, сайтами бігає величезна армія всяких лівих павуків. Це різні парсери, які збирають інформацію з сайтів, як правило, з корисливою метою їх творців.

Одні крадуть контент, інші картинки, треті зламують сайти і розставляють нишком посилання. Якщо ви помітили, що подібний парсер присмоктався до вашого сайту - закрийте йому доступ усіма можливими способами, у тому числі через

Щодня в інтернеті з'являється безліч нових матеріалів: створюються сайти, оновлюються старі веб-сторінки, завантажуються фотографії та відеофайли. Без невидимих ​​пошукових роботів неможливо було б знайти у всесвітньому павутинні жоден із цих документів. Альтернативи подібним роботизованим програмам на даний момент не існує. Що таке пошуковий робот, навіщо він потрібен та як функціонують?

Що таке пошуковий робот

Пошуковий робот сайтів (пошукових систем) – це автоматична програма, яка здатна відвідувати мільйони веб-сторінок, швидко переміщаючись інтернетом без втручання оператора. Боти постійно сканують простір знаходять нові інтернет-сторінки та регулярно відвідують уже проіндексовані. Інші назви пошукових роботів: павуки, краулери, боти.

Навіщо потрібні пошукові роботи

Основна функція, яку виконують пошукові роботи, - індексація веб-сторінок, а також текстів, зображень, аудіо- та відеофайлів, що знаходяться на них. Боти перевіряють посилання, дзеркала сайтів (копії) та оновлення. Роботи також здійснюють контроль HTML-коду на предмет відповідності нормам Всесвітньої організації, яка розробляє та впроваджує технологічні стандарти для Всесвітньої павутини.

Що таке індексація і навіщо вона потрібна

Індексація - це, власне, і є процесом відвідування певної веб-сторінки пошуковими роботами. Програма сканує тексти, розміщені на сайті, зображення, відео, вихідні посилання, після чого сторінка з'являється у результатах пошуку. У деяких випадках сайт не може бути просканований автоматично, тоді він може бути доданий до пошукової системи вручну веб-майстром. Як правило, це відбувається за відсутності на певну (часто тільки недавно створену) сторінку.

Як працюють пошукові роботи

Кожна пошукова система має власний робот, при цьому пошуковий робот Google може значно відрізнятися за механізмом роботи від аналогічної програми "Яндекса" або інших систем.

Взагалі принцип роботи робота полягає в наступному: програма «приходить» на сайт за зовнішніми посиланнями і, починаючи з головної сторінки, «читає» веб-ресурс (у тому числі переглядаючи ті службові дані, які не бачить користувач). Бот може переміщатися між сторінками одного сайту, так і переходити на інші.

Як програма вибирає, який Найчастіше «подорож» павука починається з сайтів новин або великих ресурсів, каталогів і агрегаторів з великою масою посилань. Пошуковий робот безперервно сканує сторінки одну за одною, на швидкість та послідовність індексації впливають такі фактори:

  • внутрішні: перелінування (внутрішні посилання між сторінками одного і того ж ресурсу), розмір сайту, правильність коду, зручність для користувачів тощо;
  • зовнішні: загальний обсяг маси посилань, яка веде на сайт.

Насамперед пошуковий робот шукає на будь-якому сайті файл robots.txt. Подальша індексація ресурсу проводиться, виходячи з інформації, отриманої саме від цього документа. Файл містить точні інструкції для "павуків", що дозволяє підвищити шанси відвідування сторінки пошуковими роботами, а отже, і досягти якнайшвидшого потрапляння сайту у видачу "Яндекса" або Google.

Програми-аналоги пошукових роботів

Часто поняття «пошуковий робот» плутають з інтелектуальними, користувальницькими або автономними агентами, "мурахами" або "хробаками". Значні відмінності є лише проти агентами, інші визначення позначають подібні види роботів.

Так, агенти можуть бути:

  • інтелектуальними: програми, що переміщуються від сайту до сайту, самостійно вирішуючи, як чинити далі; вони мало поширені в Інтернеті;
  • автономними: такі агенти допомагають користувачеві у виборі продукту, пошуку або заповненні форм, це так звані фільтри, які мало відносяться до мережних програм.
  • користувальницькими: програми сприяють взаємодії користувача зі Всесвітнім павутинням, це браузери (наприклад, Opera, IE, Google Chrome, Firefox), месенджери (Viber, Telegram) або поштові програми (MS Outlook або Qualcomm).

"Мурахи" та "хробаки" більше схожі з пошуковими "павуками". Перші утворюють між собою мережу і злагоджено взаємодіють подібно до справжньої мурашиної колонії, "хробаки" здатні самовідтворюватися, в іншому діють так само, як і стандартний пошуковий робот.

Різновиди пошукових роботів

Розрізняють безліч різновидів пошукових роботів. Залежно від призначення програми вони бувають:

  • «Дзеркальними» – переглядають дублікати сайтів.
  • Мобільними – націлені на мобільні версії інтернет-сторінок.
  • Швидкодіючими – фіксують нову інформацію оперативно, переглядаючи останні оновлення.
  • Посилочними – індексують посилання, підраховують їх кількість.
  • Індексаторами різних типів контенту – окремих програм для тексту, аудіо- та відеозаписів, зображень.
  • "Шпигунські" - шукають сторінки, які ще не відображаються в пошуковій системі.
  • «Дятлами» – періодично відвідують сайти, щоб перевірити їхню актуальність та працездатність.
  • Національними – переглядають веб-ресурси, розташовані на доменах однієї країни (наприклад, .ru, .kz або .ua).
  • Глобальними – індексують усі національні сайти.

Роботи основних пошукових систем

Існують також окремі роботи пошукових систем. Теоретично їх функціональність може істотно відрізнятися, але практично програми практично ідентичні. Основні відмінності індексації інтернет-сторінок роботами двох основних пошукових систем полягають у наступному:

  • Суворість перевірки.Вважається, що механізм пошукового робота "Яндекса" дещо суворіше оцінює сайт на відповідність стандартам Всесвітнього павутиння.
  • Збереження цілісності сайту.Пошуковий робот Google індексує сайт цілком (у тому числі медіаконтент), "Яндекс" може переглядати сторінки вибірково.
  • Швидкість перевірки нових сторінок. Google додає новий ресурс у пошукову видачу протягом кількох днів, у випадку з "Яндексом" процес може розтягнутися на два тижні і більше.
  • Частота переіндексації.Пошуковий робот "Яндекса" перевіряє наявність оновлень пару разів на тиждень, а Google - один раз на 14 днів.

Інтернет, звичайно, не обмежується двома пошуковими системами. Інші пошукові системи мають своїх роботів, які дотримуються власних параметрів індексації. Крім того, існує кілька павуків, які розроблені не великими пошуковими ресурсами, а окремими командами або веб-майстрами.

Поширені помилки

Всупереч поширеній думці, "павуки" не обробляють отриману інформацію. Програма лише сканує та зберігає веб-сторінки, а подальшою обробкою займаються зовсім інші роботи.

Також багато користувачів вважають, що пошукові роботи негативно впливають і «шкідливі» інтернету. Справді, окремі версії павуків можуть значно перевантажувати сервера. Має місце і людський фактор - веб-майстер, який створював програму, може припускатися помилок у налаштуваннях робота. Все ж більшість діючих програм добре спроектовані і професійно управляються, а будь-які проблеми, що виникають, оперативно усуваються.

Як керувати індексацією

Пошукові роботи є автоматичними програмами, але процес індексації може частково контролювати веб-майстра. У цьому значно допомагає зовнішня та ресурсна. Крім того, можна вручну додати новий сайт до пошукової системи: великі ресурси мають спеціальні форми реєстрації веб-сторінок.

Переглядаючи серверні логи, іноді можна спостерігати надмірний інтерес до сайтів з боку пошукових роботів. Якщо боти корисні (наприклад, що індексують боти ПС), залишається лише спостерігати, навіть якщо збільшується навантаження на сервер. Але є ще безліч другорядних роботів, доступ яких до сайту не обов'язковий. Для себе та для вас, дорогий читачу, я зібрав інформацію та переробив її у зручну табличку.

Хто такі пошукові роботи

Пошуковий бот, або як їх ще називають, робот, краулер, павук — ні що інше, як програма, яка здійснює пошук і сканування вмісту сайтів, переходячи за посиланнями на сторінках. Пошукові роботи є не тільки у пошукових систем. Наприклад, сервіс Ahrefs використовує павуків, щоб покращити дані щодо зворотних посилань, Facebook здійснює веб-скрапінг коду сторінок для відображення репостів посилань із заголовками, картинкою, описом. Веб-скрапінг – це збір інформації з різних ресурсів.

Використання імен павуків у robots.txt

Як бачимо, будь-який серйозний проект, пов'язаний із пошуком контенту, має своїх павуків. І іноді гостро постає завдання обмежити доступ деяким павукам до сайту чи його окремим розділам. Це можна зробити через файл robots.txt у кореневій директорії сайту. Докладніше про налаштування роботи я писав раніше, рекомендую ознайомитися.

Зверніть увагу – файл robots.txt та його директиви можуть бути проігноровані пошуковими роботами. Директиви є лише рекомендаціями для роботів.

Задати директиву для пошукового робота можна, використовуючи секцію - звернення до користувача цього робота. Секції для різних павуків поділяються одним порожнім рядком.

User-agent: Googlebot Allow: /

User-agent: Googlebot

Allow : /

Вище наведено приклад звернення до основної пошукової роботи Google.

Спочатку я планував додати до таблиці записи про те, як ідентифікують себе пошукові роботи в логах сервера. Але так як для SEO ці дані мають мало значення і для кожного токена агента може бути кілька видів записів, було вирішено обійтися лише назвою ботів та їх призначенням.

Пошукові роботи G o o g l e User-agent Функції
Googlebot Основний краулер-індексатор сторінок для ПК та оптимізованих для смартфонів
Mediapartners-Google Робот рекламної мережі AdSense
APIs-Google Агент користувача APIs-Google
AdsBot-Google Перевіряє якість реклами на веб-сторінках, призначених для ПК
AdsBot-Google-Mobile Перевіряє якість реклами на веб-сторінках для мобільних пристроїв.
Googlebot-Image (Googlebot) Індексує зображення на сторінках сайту
Googlebot-News (Googlebot) Шукає сторінки для додавання до Google Новини
Googlebot-Video (Googlebot) Індексує відеоматеріали
AdsBot-Google-Mobile-Apps Перевіряє якість реклами в додатках для пристроїв Android, працює за тими ж принципами, що й звичайний AdsBot
Пошукові роботи Я ндекс User-agent Функції
Yandex При вказівці даного токена агента в robots.txt звернення йде до всіх бот Яндекса
YandexBot Основний індексуючий робот
YandexDirect Завантажує інформацію про контент сайтів-партнерів РСЯ
YandexImages Індексує зображення сайтів
YandexMetrika Робот Яндекс.Метрики
YandexMobileBot Завантажує документи для аналізу на наявність верстки під мобільні пристрої
YandexMedia Робот, що індексує мультимедійні дані
YandexNews Індексатор Яндекс.Новин
YandexPagechecker Валідатор мікророзмітки
YandexMarket Робот Яндекс.Маркета;
YandexCalenda Робот Яндекс.Календаря
YandexDirectDyn Генерує динамічні банери (Директ)
YaDirectFetcher Завантажує сторінки з рекламними оголошеннями для перевірки їх доступності та уточнення тематики (РМЯ)
YandexAccessibilityBot Завантажує сторінки для перевірки їх доступності користувачам
YandexScreenshotBot Робить знімок (скриншот) сторінки
YandexVideoParser Павук сервісу Яндекс.Відео
YandexSearchShop Завантажує YML-файли каталогів товарів
YandexOntoDBAPI Робот об'єктної відповіді, що завантажує динамічні дані
Інші популярні пошукові боти User-agent Функції
Baiduspider Спайдер китайської пошукової системи Baidu
Cliqzbot Робот анонімної пошукової системи Cliqz
AhrefsBot Пошуковий бот сервісу Ahrefs (посилальний аналіз)
Genieo Робот сервісу Genieo
Bingbot Краулер пошукової системи Bing
Slurp Краулер пошукової системи Yahoo
DuckDuckBot Веб-краулер ПС DuckDuckGo
facebot Робот Facebook для веб-краулінгу
WebAlta (WebAlta Crawler/2.0) Пошуковий краулер ПС WebAlta
BomboraBot Сканує сторінки, задіяні у проекті Bombora
CCBot Краулер на основі Nutch, який використовує проект Apache Hadoop
MSNBot Бот ПС MSN
Mail.Ru Краулер пошукової системи Mail.Ru
ia_archiver Скраппіт дані для сервісу Alexa
Teoma Бот сервісу Ask

Пошукових ботів дуже багато, я відібрав лише найпопулярніших та найвідоміших. Якщо є боти, з якими ви стикалися через агресивне та наполегливе сканування сайтів, прошу в коментарях вказати це, я додам їх також до таблиці.

Яндекс сьогодні є найпопулярнішою пошуковою системою російськомовного Інтернету, якою щодня користується понад мільйон людей. Така популярність пояснюється тим, що база Яндекса містить величезну кількість проіндексованих сторінок Інтернету, що містять найрізноманітнішу і часом унікальну інформацію. Разом з алгоритмом пошуку це призводить до високої релевантності документів, знайдених на запит користувача і, зрештою, до задоволення інформаційної потреби пользователя.

На 17.07.09 Яндексом було проіндексовано 3558614259 веб-сторінок. Отримання інформації з сайтів Інтернету та відправлення її до бази пошукової системи – завдання спеціального робота-індексатора. Багато в чому завдяки високій швидкості його роботи на сьогоднішній день Яндекс має таку велику базу документів для пошуку.

Історія роботів Яндекса

Яндекс з'явився 1996 року. Але не як пошукова система, а у вигляді декількох відокремлених продуктів. Наприклад, Яndex.Site – програма, яка здійснює пошук на сайті, Яndex.CD – програма пошуку документів на CD-диску.

Сама пошукова система виникла восени 1997 року. 23 вересня на виставці Softool Яндекс був офіційно представлений вже як повнофункціональна пошукова система Інтернету. З того часу обсяг Рунета безперервно зростав, що змушувало вдосконалювати алгоритми індексування та пошуку інформації.

Тому в 1999 році було створено новий пошуковий робот, який, крім значного збільшення швидкості індексації, дозволив користувачам шукати інформацію по різних зонах документа – в URL, у заголовках, посиланнях тощо.

Наразі офіційно анонсовано 11 роботів Яндекса, кожен з яких спеціалізується на певному завданні.

Роботи Яндекса

Робот кожної пошукової системи має своє ім'я. Наприклад, у Рамблера - StackRambler/2.0, у Гугла - Googlebot/2.1. Яндекс у своєму складі має кілька спеціалізованих роботів, які виконують певні завдання. Ось яких роботів Яндекса можна зустріти:

  • Yandex/1.01.001 (compatible; Win16; I) - основний індексуючий робот Яндекса. Це найважливіший робот, функція якого – пошук та індексування інформації, знайденої на теренах російського Інтернету. Для всіх seo-фахівців дуже важливо відстежувати появу на своїх сайтах робота-індексатора. Зазвичай робот заходить з наступних ip-адрес: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Тому, побачивши в логах свого сайту заповітне слово yandex, зверніть увагу на ip-адресу, тому що в Інтернеті зараз існує достатня велика кількість сервісів тестування сайту, які дозволяють заходити на сторінки, представляючись як user agent: Yandex/1.01.001 (compatible ;I) Може виявитися, що зовсім і не Яндекс відвідав Ваш сайт.
  • Yandex/1.01.001 (compatible; Win16; P) - індексатор картинок, які згодом будуть доступні у пошуку на http://images.yandex.ru. Для пошукової системи найпростішим шляхом визначення, чи відповідає зображення запиту користувача, є аналіз тега alt. Другий шлях, який, як і перший, швидше за все, використовує сервіс Яндекс.Картинки – аналіз імені файлу. Наприклад, подивіться на чудові лотоси на сторінці http://en.npftravel.ru/news/issue_117.html. Жодної згадки слова «лотос» у тілі документа, проте картинка таки була знайдена на запит «лотос» завдяки тому, що файл має ім'я lotos.jpg!
  • Yandex/1.01.001 (compatible; Win16; H) - робот, що визначає дзеркала сайтів. Завдання цього робота – визначення ступеня схожості двох документів. Якщо документи дуже схожі один на одного, у результатах видачі Яндекс швидше за все покаже лише один сайт.
  • Yandex/1.03.003 (compatible; Win16; D) - робот, на сторінку при додаванні її через форму «Додати URL», визначає доступність сторінки для індексації.
  • Yandex/1.03.000 (compatible; Win16; M) - робот, що звертається під час відкриття сторінки за посиланням «Знайдені слова».
  • YaDirectBot/1.0 (compatible; Win16; I) - робот, що індексує сторінки сайтів, що беруть участь у Рекламній мережі Яндекса.
  • Yandex/1.02.000 (compatible; Win16; F) - робот, що індексує іконки сайтів (favicons), які показуються потім у результатах пошуку ліворуч від посилання на знайдений сайт.
  • Крім того, у Яндекса є група роботів, які визначають, чи доступний в даний момент сайт або документ, на який стоїть посилання у відповідному сервісі.

  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) - «простукувала» Яндекс.Каталогу. Якщо веб-сайт недоступний протягом декількох днів, він знімається з публікації. Як тільки сайт починає відповідати, він автоматично з'являється у каталозі.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) - «простуківка» Яндекс.Закладок. Посилання на недоступні сайти позначаються сірим кольором.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) - «простукивалка» Яндекс.Директа. Вона перевіряє коректність посилань із оголошень перед модерацією. Жодних автоматичних дій не робиться.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) - «простукувала» Яндекс.Новин. Вона формує звіт для контент-менеджера, який оцінює масштаб проблем і, за потреби, пов'язується з партнером.
  • На відміну від роботів першої групи, ці роботи не забирають вміст сторінки, а фіксують лише відповідь сервера. Тому вони роблять дещо інший запит до сервера. Наприклад, відвідування робота Dyatel може бути зафіксовано у логах сервера у вигляді рядка наступного змісту:

    213.180.193.53 - - "HEAD/HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".

    Як видно, використовується директива Head, що запитує тільки заголовки сервера. В даному випадку сайт доступний, працює, тому що віддався статусний код 200 ОК.

    Також окрім перелічених роботів, Яндекс має у своєму складі так званого «швидкого робота» - частота індексації ним документа більша у кілька разів, ніж у звичайного робота-індексатора. За заявою головного редактора компанії "Яндекс" Олени Колмановської: "Швидкий робот потрібен для індексації актуальних документів, найбільш затребуваних користувачами".

    Дізнатися, чи відвідував сайт швидкий робот, можна лише одним шляхом – у результатах пошуку поряд з адресою сторінки сайту має з'явитися невелика приписка, що означає, скільки годин тому сторінку відвідав швидкий робот. Наприклад, "5 годин тому".

    Процес індексації документа

    Процес індексації документа роботами пошукових систем у загальному випадку починається з додавання сайту до форми на спеціальній сторінці. Для Яндекса це сторінка http://webmaster.yandex.ru/. Тут потрібно ввести лише адресу сайту, ніяких додаткових даних не потрібно вносити. А ось у Рамблері, наприклад, потрібно вказувати ще й назву сайту, короткий опис сайту, що реєструється, і контактна особа.

    Якщо сайт додається вперше, то Яндекс видасть повідомлення:

    «Адреса http://example.com/ успішно додана. У міру обходу робота він буде проіндексований і стане доступним для пошуку.

    Якщо сайт вже відвідував робот-індексатор, то з'явиться повідомлення:

    Документ http://example.com/ вже проіндексований та доступний для пошуку.
    Ви можете переглянути, які сторінки сайту http://example.com/ доступні в Яндексі до теперішнього часу (сторінок).

    Після додавання нового сайту через форму, його відразу відвідає робот Yandex/1.03.003 (compatible; Win16; D). Він визначить доступність сайту для індексування, а також встановить, чи задовольняє сайт вимогам Яндекса, основною з яких є вимога російськомовності ресурсу. Тому, як приклад, може виникнути така ситуація:

    Адреса http://www.example.com/ не було внесено до бази Яндекса, оскільки сайт http://www.example.com/ знаходиться поза доменами країн СНД, причому наш робот не зміг розпізнати в ньому російський текст.

    Якщо все добре, то в логах сайту можна буде виявити рядок:

    213.180.206.223 - - "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
    213.180.206.223 - - "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

    Видно, що спочатку робот звернувся до файлу robots.txt, щоб визначити, чи не заборонено сайт до індексації. Потім уже звернувся до головної сторінки.

    Після додавання сайту на сторінці http://webmaster.yandex.ru/ менш ніж за два дні сайт відвідає робот-індексатор Yandex/1.01.001 (compatible; Win16; I). І ще через деякий час сайт буде доступним для пошуку в Яндексі.

    Можливі перешкоди під час індексації документа

    Є кілька причин, що перешкоджають правильній індексації сайту в Яндексі.

  • Технічні неполадки:
      a. Некоректна робота сервера, віддача 404 помилок. b. великий час відповіді сервера (Наприклад, через його велике завантаження. Також великий час відповіді характерний для безкоштовних хостингів)
  • Штучна заборона індексації:
      a. заборона індексування окремих сторінок у файлі robots.txt b. заборона індексування за допомогою meta-тегів
  • Інше:
      a. дуже маленький розмір сторінки (Яндекс не індексує файли менше ніж 1 кб) b. ресурс не містить російського тексту
  • Слід зазначити, що Яндекс індексує не лише документи HTML. Крім них, доступними для індексації є документи наступних типів: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Також Яндекс індексує сайти, що створені на основі Flash-технологій. А ось Рамблер індексує лише файли html, htm, shtml, а динамічні сторінки та flash сайти індексує погано.

    Переглянути, в якому вигляді зберігається web-сторінка в базі Яндекса, можна в такий спосіб.

  • Спочатку потрібно зробити так, щоб сторінка потрапила у видачу. Найпростіше скористатися «розширеним пошуком Яндекса». Вписати в поле "перебувають на сайті" url сайту, наприклад, www.seonews.ru і далі у вікно пошуку ввести слово з необхідної сторінки, наприклад, "майстер-клас".
  • Знайти в результатах пошуку потрібну сторінку та натиснути на посилання «Знайдені слова».
  • Далі у верхній частині документа натиснути на посилання «збережена копія»:
  • У новому вікні відкриється так звана збережена копія Яндекса. Можна подивитися та порівняти з оригіналом документа. Може виявитися, що деякі слова Яндекс не проіндексовані.
  • Неіндексація деяких елементів сторінки може бути викликана кількома причинами:

  • Текст укладено у тег. Це спеціальний тег, який забороняє індексацію тексту роботу Яндекса.
  • Текст розташований у скрипті, тобто між тегами
  • Текст розташований у коментарях
  • Висновок

    Кожному, хто веде в Інтернеті серйозний проект, слід розуміти основні принципи роботи роботів-індексаторів пошукових систем. Знання про те, коли робот приходить на сайт, що індексує, що не індексує, дозволить уникнути багатьох проблем, насамперед технічних, вже на стадії створення сайту і далі – при його супроводі.

    Щоб не ставити питання, чому в черговий раз сайт пропав з видачі за деяким запитом, перш за все, варто проаналізувати, а що ж на даний момент проіндексував робот на сайті? Чи не могло виявитися так, що деяка інформація стала недоступною роботі з тих чи інших причин?

    Знання основним моментів процесу індексування документа дозволить правильно здійснити реєстрацію ресурсу в пошуковій системі та грамотно здійснювати його подальше просування, щоб користувачі завжди знаходили Ваш сайт на просторах Інтернету.

    Видалення сайту повністю

    Щоб видалити сайт з пошукових систем та заборонити всім роботам надалі його сканувати, розмістіть у кореневому каталозі сервера файл robots.txt.

    User-agent: *
    Disallow: /

    Щоб видалити сайт лише з Google і заборонити пошуковому роботу Google надалі його сканувати, розмістіть у кореневому каталозі сервера файл robots.txt з таким змістом:

    User-agent: Googlebot
    Disallow: /

    Для кожного порту потрібно створити власний файл robots.txt. Зокрема, якщо використовуються протоколи http та https, для кожного з них потрібні окремі файли robots.txt. Наприклад, щоб дозволити пошуковій роботі Google індексувати всі сторінки http і заборонити сканувати https, файли robots.txt повинні виглядати так.

    Для протоколу http (http://yourserver.com/robots.txt):

    User-agent: *
    Allow: /

    Для протоколу https (https://yourserver.com/robots.txt):

    User-agent: *
    Disallow: /

    Якщо файл robots.txt залишиться в кореневому каталозі веб-сервера, Google не буде сканувати сайт або його каталоги. Якщо у Вас немає доступу до кореневого каталогу сервера, можна помістити файл robots.txt на одному рівні з файлами, які потрібно видалити. Після того як Ви це зробите та скористаєтеся системою автоматичного видалення URL, сайт буде тимчасово, на 180 днів, видалений з індексу Google незалежно від того, чи буде видалено файл robots.txt після обробки запиту. (Якщо залишити файл robots.txt на тому ж рівні, URL потрібно видаляти за допомогою автоматичної системи кожні 180 днів.)

    Видалення частини сайту

    Варіант 1. Robots.txt

    Щоб видалити каталоги або окремі сторінки сайту, можна розмістити файл robots.txt у кореневому каталозі сервера. Про те, як створити файл robots.txt, розповідається в Стандарті винятків для роботів. Створюючи файл robots.txt, зважайте на наступні моменти. Приймаючи рішення про те, які сторінки сканувати на тому чи іншому хості, пошуковий робот Google діє відповідно до першого запису у файлі robots.txt, де параметр User-agent починається зі слова Googlebot. Якщо такого запису немає, виконується перше правило, у якому User-agent - "*". Крім того, Google дозволяє використовувати файл robots.txt більш гнучко за рахунок застосування зірочок. У шаблонах заборони символ * може означати будь-яку послідовність символів. Шаблон може закінчуватися символом "$", який означає кінець імені.

    Щоб видалити всі сторінки того чи іншого каталогу (наприклад, "lemurs"), додайте у файл robots.txt такий запис:

    User-agent: Googlebot
    Disallow: /lemurs

    Щоб видалити всі файли певного типу (наприклад, .gif), додайте у файл robots.txt такий запис:

    User-agent: Googlebot
    Disallow: /*.gif$

    Щоб видалити сторінки, що динамічно створюються, додайте у файл robots.txt такий запис:

    User-agent: Googlebot
    Disallow: /*?

    Варіант 2. Мета-теги

    Інший стандарт, більш зручний для роботи зі сторінками, передбачає використання на сторінці формату HTML мета-тегу, що забороняє роботам індексувати сторінку. Цей стандарт описано на сторінці.

    Щоб заборонити всім роботам індексувати сторінку сайту, додайте до розділу цієї сторінки наступний мета-тег:

    Щоб заборонити індексувати сторінку лише роботам Google, а іншим дозволити, використовуйте наступний тег:

    Щоб дозволити роботам індексувати сторінку, але заборонити переходити за зовнішніми посиланнями, використовуйте наступний тег:

    Примітка. Якщо терміновий запит і очікувати наступного сканування Google неможливо, скористайтеся автоматичною системою видалення URL. Щоб запустити цей автоматичний процес, веб-майстер повинен спочатку вставити в код сторінки HTML відповідні метатеги. Після цього каталоги будуть тимчасово, на 180 днів, видалені з індексу Google незалежно від того, чи видаліть файл robots.txt або метатеги після обробки запиту.

    Видалення фрагментів (сніппетів)

    Фрагмент (Сніппет) – це текст, який показується під назвою сторінки у списку результатів пошуку та описує зміст сторінки.

    Щоб заборонити Google виводити фрагменти з Вашої сторінки, додайте до розділу наступний тег:

    Примітка. При видаленні фрагментів видаляються також збережені в кеші сторінки.

    Видалення збережених у кеші сторінок

    Google автоматично створює і архівує знімок кожної сторінки. Наявність таких збережених у кеші версій дозволяє кінцевим користувачам знаходити сторінки, навіть якщо вони недоступні (через тимчасову несправність на сервері, де розміщена сторінка). Користувачі бачать збережені в кеші сторінки в тому вигляді, як вони були в момент сканування роботом Google. Вгорі сторінки виводиться повідомлення про те, що це збережена версія кешу. Щоб отримати доступ до такої сторінки, користувач повинен вибрати посилання «Збережено в кеші» на сторінці результатів пошуку.

    Щоб заборонити всім пошуковим системам виводити це посилання на Ваш сайт, додайте до розділу наступний тег:

    Примітка. Якщо терміновий запит і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстр повинен спочатку вставити в код HTML сторінки відповідні метатеги.

    Видалення картинки із системи пошуку картинок Google

    Щоб видалити зображення з індексу зображення Google, розмістіть файл robots.txt у кореневому каталозі сервера. (Якщо це неможливо, помістіть його на рівні каталогу).

    Приклад: Якщо ви бажаєте видалити з індексу Google зображення sobaki.jpg, розміщене на Вашому сайті за адресою www.vash-sajt.ru/kartinki/sobaki.jpg, створіть сторінку www.vash-sajt.ru/robots.txt і додайте на неї наступний текст:

    User-agent: Googlebot-Image
    Disallow: /images/sobaki.jpg

    Щоб видалити з індексу всі наявні на сайті картинки, розмістіть у кореневому каталозі сервера файл robots.txt з таким змістом:

    User-agent: Googlebot-Image
    Disallow: /

    Це стандартний протокол, який дотримується більшість сканерів; він дозволяє видалити з індексу сервер чи каталог. Додаткову інформацію про robots.txt представлено на сторінці

    Крім того, Google дозволяє використовувати файл robots.txt більш гнучко за рахунок використання зірочок. У шаблонах заборони символ * може означати будь-яку послідовність символів. Шаблон може закінчуватися символом "$", який означає кінець імені. Щоб видалити всі файли певного типу (наприклад, щоб залишити картинки у форматі.jpg, а у форматі.gif видалити), додайте у файл robots.txt такий запис:

    User-agent: Googlebot-Image
    Disallow: /*.gif$

    Примітка. Якщо терміновий запит і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстр повинен спочатку створити файл robots.txt і помістити його на відповідному сайті.

    Якщо файл robots.txt залишиться в кореневому каталозі веб-сервера, Google і надалі не скануватиме сайт або його каталоги. Якщо у Вас немає доступу до кореневого каталогу сервера, можна помістити файл robots.txt на одному рівні з файлами, які потрібно видалити. Після того як Ви це зробите та скористаєтеся системою автоматичного видалення URL, тимчасово, на 180 днів, будуть видалені каталоги, вказані у файлі robots.txt, з індексу Google незалежно від того, чи видаліте файл robots.txt після обробки запиту. (Якщо залишити файл robots.txt на тому ж рівні, URL потрібно видаляти за допомогою автоматичної системи кожні 180 днів.)