Пошуковий робот (бот, павук, spider, crawler) - це спеціальна програма пошукача, призначена для сканування сайтів в Інтернеті.
Багато хто не знає, що скануючі боти просто збирають і зберігають інформацію. Вони не займаються її опрацюванням. Це роблять інші програми.
Якщо у вас є бажання подивитися на сайт очима пошукового робота, можна це зробити через панель вебмайстра.
Подивитися як Google можна через панель вебмайстра. Там потрібно додати свій сайт і потім можна буде переглянути на сторінці:
https://www.google.com/webmasters/tools/googlebot-fetch?hl=ua
Подивитися як Яндекс можна за допомогою збереженої копії сторінки. Для цього знаходимо потрібну сторінку в пошуку Яндекса, тиснемо "збережена копія" і далі "подивитися текстову версію".
Нижче наведу список пошукових роботів, які ходять на наші сайти. Одні з них індексують сайти, інші стежать за контекстною рекламою. Є спеціалізовані роботи, які займаються певними вузькими завданнями. Наприклад, індексують картинки чи новини.
Знаючи «в обличчя» робота, можна заборонити або дозволити йому повзати сайтом, тим самим можна знизити навантаження на сервер. Ну чи захистити свою інформацію від потрапляння в мережу.
Пошукові роботи ЯндексаУ пошуковій системі Яндекс десятка півтора відомих нам пошукових роботів. Список ботів, який мені вдалося розкопати, в тому числі з офіційного хелпу, нижче.
YandexBot - основний робот, що індексує;
YandexMedia - робот, що індексує мультимедійні дані;
YandexImages - індексатор Яндекс.Картинок;
YandexCatalog — «простукувала» Яндекс.Каталогу, використовується для тимчасового зняття з публікації недоступних сайтів у каталозі;
YaDirectFetcher - робот Яндекс.Директа;
YandexBlogs - робот пошуку по блогах, що індексує пости та коментарі;
YandexNews - робот Яндекс.Новин;
YandexWebmaster – приходить додавання сайту через форум AddURL;
YandexPagechecker - валідатор мікророзмітки;
YandexFavicons - індексатор фавіконок
YandexMetrika - робот Яндекс.Метрики;
YandexMarket - робот Яндекс.Маркета;
YandexCalendar - робот Яндекс.Календаря.
Googlebot - основний робот, що індексує;
Googlebot Nes - індексатор новин;
Googlebot Images - індексатор картинок;
Googlebot Video - Робот для відео даних;
Google Mobile – індексатор мобільного контенту;
Google Mobile AdSense - робот мобільного AdSense
Google AdSense - робот AdSense
Google AdsBot – бот перевірки якості цільової сторінки
Mediapartners-Google - робот AdSense
Так само, в логах свого сайту, ви можете натрапити на деяких роботів інших пошукових систем.
Рамблер - StackRambler
Мейл.ру - Mail.Ru
Yahoo! - Slurp (або Yahoo! Slurp)
AOL - Slurp
MSN — MSNBot
Live - MSNBot
Ask - Teoma
Alexa - ia_archiver
Lycos — Lycos
Aport — Aport
Вебальта - WebAlta (WebAlta Crawler/2.0)
Крім роботів пошуковиків, сайтами бігає величезна армія всяких лівих павуків. Це різні парсери, які збирають інформацію з сайтів, як правило, з корисливою метою їх творців.
Одні крадуть контент, інші картинки, треті зламують сайти і розставляють нишком посилання. Якщо ви помітили, що подібний парсер присмоктався до вашого сайту - закрийте йому доступ усіма можливими способами, у тому числі через
Щодня в інтернеті з'являється безліч нових матеріалів: створюються сайти, оновлюються старі веб-сторінки, завантажуються фотографії та відеофайли. Без невидимих пошукових роботів неможливо було б знайти у всесвітньому павутинні жоден із цих документів. Альтернативи подібним роботизованим програмам на даний момент не існує. Що таке пошуковий робот, навіщо він потрібен та як функціонують?
Що таке пошуковий роботПошуковий робот сайтів (пошукових систем) – це автоматична програма, яка здатна відвідувати мільйони веб-сторінок, швидко переміщаючись інтернетом без втручання оператора. Боти постійно сканують простір знаходять нові інтернет-сторінки та регулярно відвідують уже проіндексовані. Інші назви пошукових роботів: павуки, краулери, боти.
Навіщо потрібні пошукові роботиОсновна функція, яку виконують пошукові роботи, - індексація веб-сторінок, а також текстів, зображень, аудіо- та відеофайлів, що знаходяться на них. Боти перевіряють посилання, дзеркала сайтів (копії) та оновлення. Роботи також здійснюють контроль HTML-коду на предмет відповідності нормам Всесвітньої організації, яка розробляє та впроваджує технологічні стандарти для Всесвітньої павутини.
Індексація - це, власне, і є процесом відвідування певної веб-сторінки пошуковими роботами. Програма сканує тексти, розміщені на сайті, зображення, відео, вихідні посилання, після чого сторінка з'являється у результатах пошуку. У деяких випадках сайт не може бути просканований автоматично, тоді він може бути доданий до пошукової системи вручну веб-майстром. Як правило, це відбувається за відсутності на певну (часто тільки недавно створену) сторінку.
Як працюють пошукові роботиКожна пошукова система має власний робот, при цьому пошуковий робот Google може значно відрізнятися за механізмом роботи від аналогічної програми "Яндекса" або інших систем.
Взагалі принцип роботи робота полягає в наступному: програма «приходить» на сайт за зовнішніми посиланнями і, починаючи з головної сторінки, «читає» веб-ресурс (у тому числі переглядаючи ті службові дані, які не бачить користувач). Бот може переміщатися між сторінками одного сайту, так і переходити на інші.
Як програма вибирає, який Найчастіше «подорож» павука починається з сайтів новин або великих ресурсів, каталогів і агрегаторів з великою масою посилань. Пошуковий робот безперервно сканує сторінки одну за одною, на швидкість та послідовність індексації впливають такі фактори:
- внутрішні: перелінування (внутрішні посилання між сторінками одного і того ж ресурсу), розмір сайту, правильність коду, зручність для користувачів тощо;
- зовнішні: загальний обсяг маси посилань, яка веде на сайт.
Насамперед пошуковий робот шукає на будь-якому сайті файл robots.txt. Подальша індексація ресурсу проводиться, виходячи з інформації, отриманої саме від цього документа. Файл містить точні інструкції для "павуків", що дозволяє підвищити шанси відвідування сторінки пошуковими роботами, а отже, і досягти якнайшвидшого потрапляння сайту у видачу "Яндекса" або Google.
Часто поняття «пошуковий робот» плутають з інтелектуальними, користувальницькими або автономними агентами, "мурахами" або "хробаками". Значні відмінності є лише проти агентами, інші визначення позначають подібні види роботів.
Так, агенти можуть бути:
- інтелектуальними: програми, що переміщуються від сайту до сайту, самостійно вирішуючи, як чинити далі; вони мало поширені в Інтернеті;
- автономними: такі агенти допомагають користувачеві у виборі продукту, пошуку або заповненні форм, це так звані фільтри, які мало відносяться до мережних програм.
- користувальницькими: програми сприяють взаємодії користувача зі Всесвітнім павутинням, це браузери (наприклад, Opera, IE, Google Chrome, Firefox), месенджери (Viber, Telegram) або поштові програми (MS Outlook або Qualcomm).
"Мурахи" та "хробаки" більше схожі з пошуковими "павуками". Перші утворюють між собою мережу і злагоджено взаємодіють подібно до справжньої мурашиної колонії, "хробаки" здатні самовідтворюватися, в іншому діють так само, як і стандартний пошуковий робот.
Різновиди пошукових роботівРозрізняють безліч різновидів пошукових роботів. Залежно від призначення програми вони бувають:
- «Дзеркальними» – переглядають дублікати сайтів.
- Мобільними – націлені на мобільні версії інтернет-сторінок.
- Швидкодіючими – фіксують нову інформацію оперативно, переглядаючи останні оновлення.
- Посилочними – індексують посилання, підраховують їх кількість.
- Індексаторами різних типів контенту – окремих програм для тексту, аудіо- та відеозаписів, зображень.
- "Шпигунські" - шукають сторінки, які ще не відображаються в пошуковій системі.
- «Дятлами» – періодично відвідують сайти, щоб перевірити їхню актуальність та працездатність.
- Національними – переглядають веб-ресурси, розташовані на доменах однієї країни (наприклад, .ru, .kz або .ua).
- Глобальними – індексують усі національні сайти.
Існують також окремі роботи пошукових систем. Теоретично їх функціональність може істотно відрізнятися, але практично програми практично ідентичні. Основні відмінності індексації інтернет-сторінок роботами двох основних пошукових систем полягають у наступному:
- Суворість перевірки.Вважається, що механізм пошукового робота "Яндекса" дещо суворіше оцінює сайт на відповідність стандартам Всесвітнього павутиння.
- Збереження цілісності сайту.Пошуковий робот Google індексує сайт цілком (у тому числі медіаконтент), "Яндекс" може переглядати сторінки вибірково.
- Швидкість перевірки нових сторінок. Google додає новий ресурс у пошукову видачу протягом кількох днів, у випадку з "Яндексом" процес може розтягнутися на два тижні і більше.
- Частота переіндексації.Пошуковий робот "Яндекса" перевіряє наявність оновлень пару разів на тиждень, а Google - один раз на 14 днів.
Інтернет, звичайно, не обмежується двома пошуковими системами. Інші пошукові системи мають своїх роботів, які дотримуються власних параметрів індексації. Крім того, існує кілька павуків, які розроблені не великими пошуковими ресурсами, а окремими командами або веб-майстрами.
Поширені помилкиВсупереч поширеній думці, "павуки" не обробляють отриману інформацію. Програма лише сканує та зберігає веб-сторінки, а подальшою обробкою займаються зовсім інші роботи.
Також багато користувачів вважають, що пошукові роботи негативно впливають і «шкідливі» інтернету. Справді, окремі версії павуків можуть значно перевантажувати сервера. Має місце і людський фактор - веб-майстер, який створював програму, може припускатися помилок у налаштуваннях робота. Все ж більшість діючих програм добре спроектовані і професійно управляються, а будь-які проблеми, що виникають, оперативно усуваються.
Як керувати індексацієюПошукові роботи є автоматичними програмами, але процес індексації може частково контролювати веб-майстра. У цьому значно допомагає зовнішня та ресурсна. Крім того, можна вручну додати новий сайт до пошукової системи: великі ресурси мають спеціальні форми реєстрації веб-сторінок.
Переглядаючи серверні логи, іноді можна спостерігати надмірний інтерес до сайтів з боку пошукових роботів. Якщо боти корисні (наприклад, що індексують боти ПС), залишається лише спостерігати, навіть якщо збільшується навантаження на сервер. Але є ще безліч другорядних роботів, доступ яких до сайту не обов'язковий. Для себе та для вас, дорогий читачу, я зібрав інформацію та переробив її у зручну табличку.
Хто такі пошукові роботиПошуковий бот, або як їх ще називають, робот, краулер, павук — ні що інше, як програма, яка здійснює пошук і сканування вмісту сайтів, переходячи за посиланнями на сторінках. Пошукові роботи є не тільки у пошукових систем. Наприклад, сервіс Ahrefs використовує павуків, щоб покращити дані щодо зворотних посилань, Facebook здійснює веб-скрапінг коду сторінок для відображення репостів посилань із заголовками, картинкою, описом. Веб-скрапінг – це збір інформації з різних ресурсів.
Використання імен павуків у robots.txtЯк бачимо, будь-який серйозний проект, пов'язаний із пошуком контенту, має своїх павуків. І іноді гостро постає завдання обмежити доступ деяким павукам до сайту чи його окремим розділам. Це можна зробити через файл robots.txt у кореневій директорії сайту. Докладніше про налаштування роботи я писав раніше, рекомендую ознайомитися.
Зверніть увагу – файл robots.txt та його директиви можуть бути проігноровані пошуковими роботами. Директиви є лише рекомендаціями для роботів.
Задати директиву для пошукового робота можна, використовуючи секцію - звернення до користувача цього робота. Секції для різних павуків поділяються одним порожнім рядком.
User-agent: Googlebot Allow: /
User-agent: Googlebot Allow : / |
Вище наведено приклад звернення до основної пошукової роботи Google.
Спочатку я планував додати до таблиці записи про те, як ідентифікують себе пошукові роботи в логах сервера. Але так як для SEO ці дані мають мало значення і для кожного токена агента може бути кілька видів записів, було вирішено обійтися лише назвою ботів та їх призначенням.
Пошукові роботи G o o g l eGooglebot | Основний краулер-індексатор сторінок для ПК та оптимізованих для смартфонів |
Mediapartners-Google | Робот рекламної мережі AdSense |
APIs-Google | Агент користувача APIs-Google |
AdsBot-Google | Перевіряє якість реклами на веб-сторінках, призначених для ПК |
AdsBot-Google-Mobile | Перевіряє якість реклами на веб-сторінках для мобільних пристроїв. |
Googlebot-Image (Googlebot) | Індексує зображення на сторінках сайту |
Googlebot-News (Googlebot) | Шукає сторінки для додавання до Google Новини |
Googlebot-Video (Googlebot) | Індексує відеоматеріали |
AdsBot-Google-Mobile-Apps | Перевіряє якість реклами в додатках для пристроїв Android, працює за тими ж принципами, що й звичайний AdsBot |
Yandex | При вказівці даного токена агента в robots.txt звернення йде до всіх бот Яндекса |
YandexBot | Основний індексуючий робот |
YandexDirect | Завантажує інформацію про контент сайтів-партнерів РСЯ |
YandexImages | Індексує зображення сайтів |
YandexMetrika | Робот Яндекс.Метрики |
YandexMobileBot | Завантажує документи для аналізу на наявність верстки під мобільні пристрої |
YandexMedia | Робот, що індексує мультимедійні дані |
YandexNews | Індексатор Яндекс.Новин |
YandexPagechecker | Валідатор мікророзмітки |
YandexMarket | Робот Яндекс.Маркета; |
YandexCalenda | Робот Яндекс.Календаря |
YandexDirectDyn | Генерує динамічні банери (Директ) |
YaDirectFetcher | Завантажує сторінки з рекламними оголошеннями для перевірки їх доступності та уточнення тематики (РМЯ) |
YandexAccessibilityBot | Завантажує сторінки для перевірки їх доступності користувачам |
YandexScreenshotBot | Робить знімок (скриншот) сторінки |
YandexVideoParser | Павук сервісу Яндекс.Відео |
YandexSearchShop | Завантажує YML-файли каталогів товарів |
YandexOntoDBAPI | Робот об'єктної відповіді, що завантажує динамічні дані |
Baiduspider | Спайдер китайської пошукової системи Baidu |
Cliqzbot | Робот анонімної пошукової системи Cliqz |
AhrefsBot | Пошуковий бот сервісу Ahrefs (посилальний аналіз) |
Genieo | Робот сервісу Genieo |
Bingbot | Краулер пошукової системи Bing |
Slurp | Краулер пошукової системи Yahoo |
DuckDuckBot | Веб-краулер ПС DuckDuckGo |
facebot | Робот Facebook для веб-краулінгу |
WebAlta (WebAlta Crawler/2.0) | Пошуковий краулер ПС WebAlta |
BomboraBot | Сканує сторінки, задіяні у проекті Bombora |
CCBot | Краулер на основі Nutch, який використовує проект Apache Hadoop |
MSNBot | Бот ПС MSN |
Mail.Ru | Краулер пошукової системи Mail.Ru |
ia_archiver | Скраппіт дані для сервісу Alexa |
Teoma | Бот сервісу Ask |
Пошукових ботів дуже багато, я відібрав лише найпопулярніших та найвідоміших. Якщо є боти, з якими ви стикалися через агресивне та наполегливе сканування сайтів, прошу в коментарях вказати це, я додам їх також до таблиці.
Яндекс сьогодні є найпопулярнішою пошуковою системою російськомовного Інтернету, якою щодня користується понад мільйон людей. Така популярність пояснюється тим, що база Яндекса містить величезну кількість проіндексованих сторінок Інтернету, що містять найрізноманітнішу і часом унікальну інформацію. Разом з алгоритмом пошуку це призводить до високої релевантності документів, знайдених на запит користувача і, зрештою, до задоволення інформаційної потреби пользователя.
На 17.07.09 Яндексом було проіндексовано 3558614259 веб-сторінок. Отримання інформації з сайтів Інтернету та відправлення її до бази пошукової системи – завдання спеціального робота-індексатора. Багато в чому завдяки високій швидкості його роботи на сьогоднішній день Яндекс має таку велику базу документів для пошуку.
Історія роботів ЯндексаЯндекс з'явився 1996 року. Але не як пошукова система, а у вигляді декількох відокремлених продуктів. Наприклад, Яndex.Site – програма, яка здійснює пошук на сайті, Яndex.CD – програма пошуку документів на CD-диску.
Сама пошукова система виникла восени 1997 року. 23 вересня на виставці Softool Яндекс був офіційно представлений вже як повнофункціональна пошукова система Інтернету. З того часу обсяг Рунета безперервно зростав, що змушувало вдосконалювати алгоритми індексування та пошуку інформації.
Тому в 1999 році було створено новий пошуковий робот, який, крім значного збільшення швидкості індексації, дозволив користувачам шукати інформацію по різних зонах документа – в URL, у заголовках, посиланнях тощо.
Наразі офіційно анонсовано 11 роботів Яндекса, кожен з яких спеціалізується на певному завданні.
Роботи ЯндексаРобот кожної пошукової системи має своє ім'я. Наприклад, у Рамблера - StackRambler/2.0, у Гугла - Googlebot/2.1. Яндекс у своєму складі має кілька спеціалізованих роботів, які виконують певні завдання. Ось яких роботів Яндекса можна зустріти:
Крім того, у Яндекса є група роботів, які визначають, чи доступний в даний момент сайт або документ, на який стоїть посилання у відповідному сервісі.
На відміну від роботів першої групи, ці роботи не забирають вміст сторінки, а фіксують лише відповідь сервера. Тому вони роблять дещо інший запит до сервера. Наприклад, відвідування робота Dyatel може бути зафіксовано у логах сервера у вигляді рядка наступного змісту:
213.180.193.53 - - "HEAD/HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)".
Як видно, використовується директива Head, що запитує тільки заголовки сервера. В даному випадку сайт доступний, працює, тому що віддався статусний код 200 ОК.
Також окрім перелічених роботів, Яндекс має у своєму складі так званого «швидкого робота» - частота індексації ним документа більша у кілька разів, ніж у звичайного робота-індексатора. За заявою головного редактора компанії "Яндекс" Олени Колмановської: "Швидкий робот потрібен для індексації актуальних документів, найбільш затребуваних користувачами".
Дізнатися, чи відвідував сайт швидкий робот, можна лише одним шляхом – у результатах пошуку поряд з адресою сторінки сайту має з'явитися невелика приписка, що означає, скільки годин тому сторінку відвідав швидкий робот. Наприклад, "5 годин тому".
Процес індексації документаПроцес індексації документа роботами пошукових систем у загальному випадку починається з додавання сайту до форми на спеціальній сторінці. Для Яндекса це сторінка http://webmaster.yandex.ru/. Тут потрібно ввести лише адресу сайту, ніяких додаткових даних не потрібно вносити. А ось у Рамблері, наприклад, потрібно вказувати ще й назву сайту, короткий опис сайту, що реєструється, і контактна особа.
Якщо сайт додається вперше, то Яндекс видасть повідомлення:
«Адреса http://example.com/ успішно додана. У міру обходу робота він буде проіндексований і стане доступним для пошуку.
Якщо сайт вже відвідував робот-індексатор, то з'явиться повідомлення:
Документ http://example.com/ вже проіндексований та доступний для пошуку.
Ви можете переглянути, які сторінки сайту http://example.com/ доступні в Яндексі до теперішнього часу (сторінок).
Після додавання нового сайту через форму, його відразу відвідає робот Yandex/1.03.003 (compatible; Win16; D). Він визначить доступність сайту для індексування, а також встановить, чи задовольняє сайт вимогам Яндекса, основною з яких є вимога російськомовності ресурсу. Тому, як приклад, може виникнути така ситуація:
Адреса http://www.example.com/ не було внесено до бази Яндекса, оскільки сайт http://www.example.com/ знаходиться поза доменами країн СНД, причому наш робот не зміг розпізнати в ньому російський текст.
Якщо все добре, то в логах сайту можна буде виявити рядок:
213.180.206.223 - - "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 - - "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"
Видно, що спочатку робот звернувся до файлу robots.txt, щоб визначити, чи не заборонено сайт до індексації. Потім уже звернувся до головної сторінки.
Після додавання сайту на сторінці http://webmaster.yandex.ru/ менш ніж за два дні сайт відвідає робот-індексатор Yandex/1.01.001 (compatible; Win16; I). І ще через деякий час сайт буде доступним для пошуку в Яндексі.
Можливі перешкоди під час індексації документаЄ кілька причин, що перешкоджають правильній індексації сайту в Яндексі.
- a. Некоректна робота сервера, віддача 404 помилок. b. великий час відповіді сервера (Наприклад, через його велике завантаження. Також великий час відповіді характерний для безкоштовних хостингів)
- a. заборона індексування окремих сторінок у файлі robots.txt b. заборона індексування за допомогою meta-тегів
- a. дуже маленький розмір сторінки (Яндекс не індексує файли менше ніж 1 кб) b. ресурс не містить російського тексту
Слід зазначити, що Яндекс індексує не лише документи HTML. Крім них, доступними для індексації є документи наступних типів: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Також Яндекс індексує сайти, що створені на основі Flash-технологій. А ось Рамблер індексує лише файли html, htm, shtml, а динамічні сторінки та flash сайти індексує погано.
Переглянути, в якому вигляді зберігається web-сторінка в базі Яндекса, можна в такий спосіб.
Неіндексація деяких елементів сторінки може бути викликана кількома причинами:
Кожному, хто веде в Інтернеті серйозний проект, слід розуміти основні принципи роботи роботів-індексаторів пошукових систем. Знання про те, коли робот приходить на сайт, що індексує, що не індексує, дозволить уникнути багатьох проблем, насамперед технічних, вже на стадії створення сайту і далі – при його супроводі.
Щоб не ставити питання, чому в черговий раз сайт пропав з видачі за деяким запитом, перш за все, варто проаналізувати, а що ж на даний момент проіндексував робот на сайті? Чи не могло виявитися так, що деяка інформація стала недоступною роботі з тих чи інших причин?
Знання основним моментів процесу індексування документа дозволить правильно здійснити реєстрацію ресурсу в пошуковій системі та грамотно здійснювати його подальше просування, щоб користувачі завжди знаходили Ваш сайт на просторах Інтернету.
Видалення сайту повністюЩоб видалити сайт з пошукових систем та заборонити всім роботам надалі його сканувати, розмістіть у кореневому каталозі сервера файл robots.txt.
User-agent: *
Disallow: /
Щоб видалити сайт лише з Google і заборонити пошуковому роботу Google надалі його сканувати, розмістіть у кореневому каталозі сервера файл robots.txt з таким змістом:
User-agent: Googlebot
Disallow: /
Для кожного порту потрібно створити власний файл robots.txt. Зокрема, якщо використовуються протоколи http та https, для кожного з них потрібні окремі файли robots.txt. Наприклад, щоб дозволити пошуковій роботі Google індексувати всі сторінки http і заборонити сканувати https, файли robots.txt повинні виглядати так.
Для протоколу http (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
Для протоколу https (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
Якщо файл robots.txt залишиться в кореневому каталозі веб-сервера, Google не буде сканувати сайт або його каталоги. Якщо у Вас немає доступу до кореневого каталогу сервера, можна помістити файл robots.txt на одному рівні з файлами, які потрібно видалити. Після того як Ви це зробите та скористаєтеся системою автоматичного видалення URL, сайт буде тимчасово, на 180 днів, видалений з індексу Google незалежно від того, чи буде видалено файл robots.txt після обробки запиту. (Якщо залишити файл robots.txt на тому ж рівні, URL потрібно видаляти за допомогою автоматичної системи кожні 180 днів.)
Видалення частини сайтуВаріант 1. Robots.txt
Щоб видалити каталоги або окремі сторінки сайту, можна розмістити файл robots.txt у кореневому каталозі сервера. Про те, як створити файл robots.txt, розповідається в Стандарті винятків для роботів. Створюючи файл robots.txt, зважайте на наступні моменти. Приймаючи рішення про те, які сторінки сканувати на тому чи іншому хості, пошуковий робот Google діє відповідно до першого запису у файлі robots.txt, де параметр User-agent починається зі слова Googlebot. Якщо такого запису немає, виконується перше правило, у якому User-agent - "*". Крім того, Google дозволяє використовувати файл robots.txt більш гнучко за рахунок застосування зірочок. У шаблонах заборони символ * може означати будь-яку послідовність символів. Шаблон може закінчуватися символом "$", який означає кінець імені.
Щоб видалити всі сторінки того чи іншого каталогу (наприклад, "lemurs"), додайте у файл robots.txt такий запис:
User-agent: Googlebot
Disallow: /lemurs
Щоб видалити всі файли певного типу (наприклад, .gif), додайте у файл robots.txt такий запис:
User-agent: Googlebot
Disallow: /*.gif$
Щоб видалити сторінки, що динамічно створюються, додайте у файл robots.txt такий запис:
User-agent: Googlebot
Disallow: /*?
Варіант 2. Мета-теги
Інший стандарт, більш зручний для роботи зі сторінками, передбачає використання на сторінці формату HTML мета-тегу, що забороняє роботам індексувати сторінку. Цей стандарт описано на сторінці.
Щоб заборонити всім роботам індексувати сторінку сайту, додайте до розділу цієї сторінки наступний мета-тег:
Щоб заборонити індексувати сторінку лише роботам Google, а іншим дозволити, використовуйте наступний тег:
Щоб дозволити роботам індексувати сторінку, але заборонити переходити за зовнішніми посиланнями, використовуйте наступний тег:
Примітка. Якщо терміновий запит і очікувати наступного сканування Google неможливо, скористайтеся автоматичною системою видалення URL. Щоб запустити цей автоматичний процес, веб-майстер повинен спочатку вставити в код сторінки HTML відповідні метатеги. Після цього каталоги будуть тимчасово, на 180 днів, видалені з індексу Google незалежно від того, чи видаліть файл robots.txt або метатеги після обробки запиту.
Видалення фрагментів (сніппетів)Фрагмент (Сніппет) – це текст, який показується під назвою сторінки у списку результатів пошуку та описує зміст сторінки.
Щоб заборонити Google виводити фрагменти з Вашої сторінки, додайте до розділу наступний тег:
Примітка. При видаленні фрагментів видаляються також збережені в кеші сторінки.
Видалення збережених у кеші сторінокGoogle автоматично створює і архівує знімок кожної сторінки. Наявність таких збережених у кеші версій дозволяє кінцевим користувачам знаходити сторінки, навіть якщо вони недоступні (через тимчасову несправність на сервері, де розміщена сторінка). Користувачі бачать збережені в кеші сторінки в тому вигляді, як вони були в момент сканування роботом Google. Вгорі сторінки виводиться повідомлення про те, що це збережена версія кешу. Щоб отримати доступ до такої сторінки, користувач повинен вибрати посилання «Збережено в кеші» на сторінці результатів пошуку.
Щоб заборонити всім пошуковим системам виводити це посилання на Ваш сайт, додайте до розділу наступний тег:
Примітка. Якщо терміновий запит і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстр повинен спочатку вставити в код HTML сторінки відповідні метатеги.
Видалення картинки із системи пошуку картинок GoogleЩоб видалити зображення з індексу зображення Google, розмістіть файл robots.txt у кореневому каталозі сервера. (Якщо це неможливо, помістіть його на рівні каталогу).
Приклад: Якщо ви бажаєте видалити з індексу Google зображення sobaki.jpg, розміщене на Вашому сайті за адресою www.vash-sajt.ru/kartinki/sobaki.jpg, створіть сторінку www.vash-sajt.ru/robots.txt і додайте на неї наступний текст:
User-agent: Googlebot-Image
Disallow: /images/sobaki.jpg
Щоб видалити з індексу всі наявні на сайті картинки, розмістіть у кореневому каталозі сервера файл robots.txt з таким змістом:
User-agent: Googlebot-Image
Disallow: /
Це стандартний протокол, який дотримується більшість сканерів; він дозволяє видалити з індексу сервер чи каталог. Додаткову інформацію про robots.txt представлено на сторінці
Крім того, Google дозволяє використовувати файл robots.txt більш гнучко за рахунок використання зірочок. У шаблонах заборони символ * може означати будь-яку послідовність символів. Шаблон може закінчуватися символом "$", який означає кінець імені. Щоб видалити всі файли певного типу (наприклад, щоб залишити картинки у форматі.jpg, а у форматі.gif видалити), додайте у файл robots.txt такий запис:
User-agent: Googlebot-Image
Disallow: /*.gif$
Примітка. Якщо терміновий запит і дочекатися наступного сеансу сканування сайту роботом Google неможливо, скористайтеся системою автоматичного видалення URL. Щоб запустити цей автоматичний процес, веб-майстр повинен спочатку створити файл robots.txt і помістити його на відповідному сайті.
Якщо файл robots.txt залишиться в кореневому каталозі веб-сервера, Google і надалі не скануватиме сайт або його каталоги. Якщо у Вас немає доступу до кореневого каталогу сервера, можна помістити файл robots.txt на одному рівні з файлами, які потрібно видалити. Після того як Ви це зробите та скористаєтеся системою автоматичного видалення URL, тимчасово, на 180 днів, будуть видалені каталоги, вказані у файлі robots.txt, з індексу Google незалежно від того, чи видаліте файл robots.txt після обробки запиту. (Якщо залишити файл robots.txt на тому ж рівні, URL потрібно видаляти за допомогою автоматичної системи кожні 180 днів.)