Команди для robots txt. Як редагувати файл txt robots. Що таке файл robots txt, навіщо він потрібен і за що він відповідає

Файл sitemap.xml та правильний robots.txt для сайту – це два обов'язкові документи, які сприяють швидкому та повноцінному індексуванню всіх необхідних сторінок веб-ресурсу пошуковими роботами. Правильна індексація сайту в Яндексі та Google – запорука успішного просування блогу в пошукових системах.

Як зробити карту сайту у форматі XML і для чого вона потрібна я вже писав. А зараз поговоримо про те, як створити правильний robots.txt для сайту на Вордпрес і для чого він взагалі потрібен. Детальну інформацію про цей файл можна отримати у самих Яндекса та Гугла, відповідно і . Я ж торкнуся самої суті і торкнуся основних параметрів robots.txt для WordPress на прикладі свого файлу.

Навіщо потрібний файл robots.txt для сайту

Стандарт robots.txt з'явився ще у січні 1994 року. Скануючи веб-ресурс, пошукові роботи насамперед шукають текстовий файл robots.txt, розташований у кореневій папці сайту чи блогу. З його допомогою ми можемо вказати для роботів різних пошукових систем певні правила, за якими вони проводитимуть індексацію сайту.

Правильне налаштування robots.txt дозволить:

  • виключити з індексу дублікати та різні сміттєві сторінки;
  • накласти заборону на індексацію сторінок, файлів та папок, які ми хочемо приховати;
  • взагалі відмовити в індексації деяким пошуковим роботам (наприклад, Yahoo, щоб приховати від конкурентів інформацію про вхідні посилання);
  • вказати головне дзеркало сайту (з www або без www);
  • вказати шлях до карти сайту sitemap.xml.

Як створити правильний robots.txt для сайту

Для цієї мети існують спеціальні генератори та плагіни, але правильніше це зробити вручну.

Треба просто створити звичайний текстовий файл під назвою robots.txt, скориставшись будь-яким текстовим редактором (наприклад, Блокнотом або Notepad++) і завантажити його на хостинг до кореневої папки блогу. У цьому вся файлі треба прописати певні директиви, тобто. правила індексації для роботів Яндекса, Гугла та ін.

Якщо ліньки морочитися з цим, то нижче я наведу приклад, на мій погляд, правильного robots.txt для WordPress з мого блогу. Можна використовувати його, замінивши ім'я домену у трьох місцях.

Правила створення та директиви robots.txt

Для успішної пошукової оптимізації блогу треба знати деякі правила створення robots.txt:

  • Відсутність або порожній файл robots.txt означатиме, що пошукачам дозволено індексувати весь вміст веб-ресурсу.
  • robots.txt повинен відкриватися на адресу ваш сайт.ru/robots.txt , віддаючи роботу код відповіді 200 OK і мати розмір не більше 32 Кб. Файл, який не вдасться відкрити (наприклад, через 404 помилки) або більшого розміру, вважатиметься вирішальним.
  • Кількість директив у файлі не повинна перевищувати 1024. Довжина одного рядка – не більше 1024 символів.
  • Правильний файл robots.txt може мати кілька інструкцій, кожна з яких повинна починатися з директиви User-agent і повинна містити хоча б одну директиву Disallow. Зазвичай пишуть інструкції в robots.txt для Google та всіх інших роботів та окремо для Яндекса.

Основні директиви robots.txt:

User-agent – ​​вказує, якому пошуковому роботу адресовано інструкцію.

Символ “*” означає, що це стосується всіх робіт, наприклад:

User-agent: *

Якщо нам потрібно створити правило в robots.txt для Яндекса, то пишемо:

User-agent: Yandex

Якщо вказана директива для конкретного робота, директива User-agent: * не враховується.

Disallow та Allow – відповідно, забороняють та дозволяють роботам індексацію зазначених сторінок. Усі адреси треба зазначати від кореня сайту, тобто. починаючи з третього слішу. Наприклад:

  • Заборона індексації всього сайту всім роботам:

    User-agent: *
    Disallow: /

  • Заборонено індексувати Яндексу всі сторінки, що починаються з /wp-admin:

    User-agent: Yandex
    Disallow: /wp-admin

  • Порожня директива Disallow дозволяє індексувати все і аналогічна Allow. Наприклад, дозволяю індексувати Яндексу весь сайт:

    User-agent: Yandex
    Disallow:

  • І навпаки, забороняю індексувати всі сторінки всім пошуковим роботам:

    User-agent: *
    Allow:

  • Директиви Allow та Disallow з одного блоку User-agent сортуються за довжиною префікса URL та виконуються послідовно. Якщо для однієї сторінки сайту підходить кілька директив, то виконується остання у списку. Тепер використання директив роботом порядок їх написання немає значення. Якщо директиви мають префікси однакової довжини, то першою виконується Allow. Такі правила набули чинності з 8.03.12 року. Наприклад, дозволяє індексувати тільки сторінки, що починаються з /wp-includes:

    User-agent: Yandex
    Disallow: /
    Allow: /wp-includes

Sitemap – вказує адресу карти сайту XML. На одному сайті може бути кілька директив Sitemap, які можуть бути вкладені. Всі адреси файлів Sitemap треба вказати у robots.txt, щоб прискорити індексацію сайту:

Sitemap: http://сайт/sitemap.xml.gz
Sitemap: http://сайт/sitemap.xml

Host – повідомляє роботу-дзеркальника, яке дзеркало сайту вважати головним.

Якщо сайт доступний за кількома адресами (наприклад, з www і без www), це створює повні дублі сторінок, за які можна потрапити під фільтр. Також у цьому випадку може бути проіндексована не основна сторінка, а основна, навпаки, буде виключена з індексу пошукової системи. Щоб цього не допустити, служить директива Host, яка призначена у файлі robots.txt тільки для Яндекса і може бути тільки одна. Пишеться вона після Disallow та Allow і виглядає так:

Host: сайт

Crawl-delay – задає затримку між закачуванням сторінок за секунди. Використовується, якщо велике навантаження і сервер не встигає обробляти запити. На молодих сайтах краще директиву Crawl-delay не використовувати. Пишеться вона так:

User-agent: Yandex
Crawl-delay: 4

Clean-param – підтримується лише Яндексом та служить для усунення дублікатів сторінок зі змінними, склеюючи їх в одну. Тим самим робот Яндекса не багато разів закачуватиме схожі сторінки, наприклад, пов'язані з реферальними посиланнями. Я поки що цією директивою не користувався, але в допомозі robots.txt для Яндекса, за посиланням на початку статті, можна ознайомитися з цією директивою докладно.

Спецсимволи * і $ використовуються в robots.txt для вказівки шляхів директив Disallow та Allow:

  • Спецсимвол "*" означає будь-яку послідовність символів. Наприклад, Disallow: /*?* означає заборону будь-які сторінки, де у адресі зустрічається “?”, незалежно від цього, які символи йдуть до і після цього символу. За промовчанням спецсимвол “*” додається до кінця кожного правила, навіть якщо він не прописаний спеціально.
  • Символ "$" скасовує "*" на кінці правила і означає строгу відповідність. Наприклад, директива Disallow: /*?$ заборонятиме індексацію сторінок, що закінчуються знаком “?”.

Приклад robots.txt для WordPress

Ось приклад мого файлу robots.txt для блогу на движку Вордпрес:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */ trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?.ru/sitemap.xml..xml

Щоб не морочити собі голову зі створенням правильного robots.txt для WordPress, ви можете використовувати цей файл. Проблем із індексацією немає. У мене стоїть скрипт захисту від копіювання, тому буде зручніше готовий robots.txt завантажити та завантажити його на свій хостинг. Тільки не забудьте замінити ім'я мого сайту своє в директивах Host і Sitemap.

Корисні додатки щодо правильного настроювання файлу robots.txt для WordPress

Якщо на вашому блозі Вордпрес встановлені деревоподібні коментарі, вони створюють дублі сторінок виду ?replytocom= . У robots.txt такі сторінки закриті директивою Disallow: /*?* . Але це не вихід і заборони краще видалити, а з відпусткоюто боротися іншим способом. Яким, .

Таким чином, актуальний robots.txt на липень 2014 виглядає так:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru User-agent: Googlebot-Image Allow: /wp-content /uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml

У ньому додатково прописані правила для роботов-индесаторов картинок.

User-agent: Mediapartners-Google
Disallow:

Якщо ви плануєте просувати сторінки категорій або тегів, варто їх відкрити для роботів. Наприклад, на блозі сайт рубрики не закриті від індексації, тому що в них публікуються лише невеликі анонси статей, що зовсім незначно щодо дублювання контенту. А якщо використовувати висновок цитат у стрічку блогу, які заповнюватимуться унікальними анонсами, то дублювання взагалі не буде.

Якщо ви не використовуєте вказаний вище плагін, можна вказати у файлі robots.txt заборону індексації тегів, категорій та архівів. Наприклад, додавши такі рядки:

Disallow: /author/
Disallow: /tag
Disallow: /category/*/*
Disallow: /20*

Не забудьте зробити перевірку файлу robots.txt на панелі Яндекс.Вебмайстер, після чого повторно завантажте його на хостинг.

Якщо у вас є якісь додатки щодо налаштування robots.txt, пишіть про це у коментарях. А зараз подивіться відео про те, що таке та як створити правильний robots.txt для сайту, як зробити у файлі robots.txt заборону на індексацію та виправити помилки.

Вітаю вас, шановні читачі SEO блогу Pingo. У цій статті я хочу викласти своє уявлення про те, як правильно скласти robots.txt для сайту. Свого часу мене дуже дратувало, що інформація в інтернеті з цього питання є досить уривчастою. Через це доводилося повзати за великою кількістю ресурсів, постійно фільтруючи інформацію, що повторюється, і вичленюючи нову.

Таким чином, тут я постараюся відповісти на більшість питань, починаючи з визначення та закінчуючи прикладами реальних завдань, які вирішує цей інструмент. Якщо щось забуду – відпишіться у коментарях про це – досліджу питання та доповню матеріал.

Robots.txt - що це, навіщо потрібен і де живе?

Отже, спочатку лікнеп для тих, кому ця тема незнайома зовсім.

Robots.txt – текстовий файл, що містить інструкції з індексації сайту для роботів пошукових систем. У цьому файлі вебмастер може визначити параметри індексації свого сайту як для всіх роботів одразу, так і для кожної пошукової системи окремо (наприклад, для гугла).

Де знаходиться robots.txt?Він розміщується в кореневій папці FTP сайту, і, по суті, є звичайним документом у форматі txt, редагування якого можна здійснювати через будь-який текстовий редактор (особисто я віддаю перевагу Notepad++). Вміст файлу роботів можна побачити, ввівши в адресному рядку браузера http://www.ваш-сайт.ru/robots.txt. Якщо, звісно, ​​він існує.

Як створити robots.txt для сайту?Достатньо зробити звичайний текстовий файл із таким ім'ям та завантажити його на сайт. Про те, як його правильно налаштувати та скласти, буде сказано нижче.

Структура та правильне налаштування файлу robots.txt

Як повинен виглядати правильний файл txt robots для сайту? Структуру можна описати так:

1. Директива User-agent

Що писати в цьому розділі? Ця директива визначає те, для якого саме робота призначені наведені нижче інструкції. Наприклад, якщо вони призначені для всіх роботів, достатньо наступної конструкції:

У синтаксисі файлу robots.txt знак "*" рівноцінний словосполучення "що завгодно". Якщо ж потрібно встановити інструкції для конкретної пошукової системи або робота, то на місці зірочки з попереднього прикладу пишеться його назва, наприклад:

User-agent: YandexBot

Кожен пошуковик існує цілий набір роботів, виконують ті чи інші функції. Роботи пошукової системи Яндекс описані. У загальному плані є таке:

  • Yandex – вказівка ​​на роботів Яндекс.
  • GoogleBot - основний робот, що індексує.
  • MSNBot - основний робот Bing, що індексує.
  • Aport – роботи Aport.
  • Mail.Ru – роботи ПС Mail.

Якщо є директива для конкретної пошукової системи чи робота, загальні ігноруються.

2. Директива Allow

Дозволяє окремі сторінки розділу, якщо, скажімо, раніше він повністю закритий індексацією. Наприклад:

User-agent: *
Disallow: /
Allow: /відкрита-сторінка.html

У цьому прикладі ми забороняємо до індексації весь сайт, крім сторінки poni.html

Служить ця директива певною мірою для вказівки на винятки із правил, заданих директивою Disallow. Якщо таких ситуацій немає, то директива може не використовуватися зовсім. Вона не дозволяє відкрити сайт для індексації, як багато хто думає, тому що якщо немає заборони виду Disallow: /, то він відкритий за замовчуванням.

2. Директива Disallow

Є антиподом директиви Allow і закриває від індексації окремі сторінки, розділи чи сайт повністю. Є аналогом тега noindex. Наприклад:

User-agent: *
Disallow: /закрита-сторінка.html

3. Директива Host

Використовується лише для Яндекса та вказує на основне дзеркало сайту. Виглядає так.

Основне дзеркало без www:

Основне дзеркало з www:

Host: www.site.ru

Сайт на https:

Host: https://site.ru

Не можна записувати директиву host у файл двічі. Якщо ж через якусь помилку це сталося, то обробляється та директива, яка йде першою, а друга – ігнорується.

4. Директива Sitemap

Використовується для вказівки шляху до XML-картки сайту sitemap.xml (якщо вона є). Синтаксис наступний:

Sitemap: http://www.site.ru/sitemap.xml

5. Директива Clean-param

Використовується для закриття індексації сторінок з параметрами, які можуть бути дублями. Дуже корисна на мій погляд директива, яка відсікає параметричний хвіст урлів, залишаючи тільки кістяк, який є родоначальною адресою сторінки.

Особливо часто трапляється така проблема при роботі з каталогами та інтернет-магазинами.

Скажімо, у нас є сторінка:

http://www.site.ru/index.php

І ця сторінка у процесі роботи може обростати клонами виду.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Для того, щоб позбавитися різних варіантів цього спаму, достатньо вказати наступну конструкцію:

Clean-param: option /index.php

Синтаксис із прикладу, гадаю, зрозумілий:

Clean-param: # вказуємо директиву
option # вказуємо спамний параметр
/index.php # вказуємо кістяк урла зі спамним параметром

Якщо параметрів кілька, то просто перераховуємо їх через амперсант(&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # урл з двома параметрами
Clean-param: option&big /index.php # вказано два параметри через амперсант

Приклад взятий простий, що пояснює саму суть. Особливо завдяки цьому параметру хочеться сказати при роботі з CMS Bitrix.

Директива Crawl-Delay

Дозволяє задати тайм-аут на завантаження сторінок сайту роботом Яндекс. Використовується при великій завантаженості сервера, коли він просто не встигає швидко віддавати вміст. На мій погляд, це анахронізм, який вже не враховується, і який можна не використовувати.

Crawl-delay: 3.5 #таймаут у 3,5 секунди

Синтаксис

  • # - використовується для написання коментарів:
  • User-agent: * # директива відноситься до всіх робіт

  • * - означає будь-яку послідовність символів, значення:
  • Disallow: /page* # заборона всіх сторінок, що починаються на page

    Disallow: /*page # заборона всіх сторінок, що закінчуються на page

    Disallow: /cgi-bin/*.aspx # заборона всіх aspx сторінок у папці cgi-bin

  • $ - обрізання правила, антипід знака зірочки:
  • Disallow: /page$ # буде закрито тільки сторінку /page, а не /page.html або pageline.html

Приклад файлу robots.txt

З метою закріплення розуміння вищеописаної структури та правил наведемо стандартний robots txt для CMS Data Life Engine.

User-agent: * # директиви призначені для всіх пошукових систем
Disallow: /engine/go.php # забороняємо окремі розділи та сторінки
Disallow: /engine/download.php #
Disallow: /user/ #
Disallow: /newposts/ #
Disallow: /*subaction=userinfo # закриваємо сторінки з окремими параметрами
Disallow: /*subaction=newposts #
Disallow: /*do=lastcomments #
Disallow: /*do=feedback #
Disallow: /*do=register #
Disallow: /*do=lostpassword #
Host: www.сайт # вказуємо головне дзеркало сайту
Sitemap: https://сайт/sitemap.xml # вказуємо шлях до карти сайту
User-agent: Aport # вказуємо спрямованість правил на ПС Aport
Disallow: / # припустимо, не хочемо ми з ними дружити

Перевірка robots.txt

Як перевірити robots txt на коректність складання? Стандартний варіант - валідатор Яндекса - http://webmaster.yandex.ru/robots.xml. Вводимо шлях до вашого файлу роботс або відразу вставляємо його вміст у текстове поле. Вводимо список урлів, які ми хочемо перевірити – закриті чи відкриті вони згідно з заданими директивами – натискаємо «Перевірити» та вуаля! Профіт.

Виводиться статус сторінки - чи відкрита вона для індексації чи закрита. Якщо закрито, то вказується, яким саме правилом. Щоб дозволити індексацію такої сторінки, потрібно доопрацювати правило, яке вказує валідатор. Якщо файл має синтаксичні помилки, то валідатор також про це повідомить.

Генератор robots.txt - створення онлайн

Якщо вивчати синтаксис бажання або часу немає, але необхідність закрити спамні сторінки сайту є, то можна скористатися будь-яким безкоштовним онлайн генератором, який дозволить створити robots txt для сайту всього кількома кліками. Потім вам залишиться лише завантажити файл та завантажити його до себе на сайт. При роботі з ним вам необхідно проставити галочки у очевидних налаштувань, а також вказати сторінки, які ви хочете закрити від індексації. Решта генератора зробить за вас.

Готові файли для популярних CMS

Файл robots.txt для сайту на 1C Бітрікс

User-Agent: *
Disallow: /bitrix/
Disallow: /personal/
Disallow: /upload/
Disallow: /*login*
Disallow: /*auth*
Disallow: /*search
Disallow: /*?sort=
Disallow: /*gclid=
Disallow: /*register=
Disallow: /*?per_count=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*logout=
Disallow: /*back_url_admin=
Disallow: /*print=
Disallow: /*backurl=
Disallow: /*BACKURL=
Disallow: /*back_url=
Disallow: /*BACK_URL=
Disallow: /*ADD2BASKET
Disallow: /*ADD_TO_COMPARE_LIST
Disallow: /*DELETE_FROM_COMPARE_LIST
Disallow: /*action=BUY
Disallow: /*set_filter=y
Disallow: /*?mode=matrix
Disallow: /*?mode=listitems
Disallow: /*openstat
Disallow: /*from=adwords
Disallow: /*utm_source
Host: www.site.ru

Robots.txt для DataLife Engine (DLE)

User-agent: *
Disallow: /engine/go.php
Disallow: /engine/download.php
Disallow: /engine/classes/highslide/
Disallow: /user/
Disallow: /tags/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*subaction=newposts
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Disallow: /*do=lostpassword
Disallow: /*do=addnews
Disallow: /*do=stats
Disallow: /*do=pm
Disallow: /*do=search
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml

Robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: *print
Disallow: /*utm_source
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml

Robots.txt для Wordpress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /wp-login.php
Disallow: /wp-register.php
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml

Robots.txt для Ucoz

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=
Disallow: /google
Disallow: /

Детальна інструкція про створення файлу robots.txt для сайту. Robots.txt є одним із найнеобхідніших аспектів повноцінної пошукової оптимізації сайту. Дотримуючись умов грамотного використання цього файлу, можна досягти певного позитивного ефекту на сайті. Можлива вказівка ​​різноманітних інструкцій для більшості PS. Які вказують пошуковому боту необхідні обмеження чи дозволи на сканування сторінок, каталогів чи розділів сайту.

Зміст статті:

Файл Robots.txt – основне визначення

Robots.txt має певні стандарти винятків для пошукових агентів (ботів), який був прийнятий у січні 1944 року. Правилам цього файлу добровільно дотримуються найпоширеніші PS. Файл може складатися з одного або кількох правил, кожне з яких блокує або дозволяє пошуковій роботі доступ до певних шляхів на сайті.

За замовчуванням цього файлу немає на сайті, що дає всім PS повний дозвіл на індексування всього вмісту сайту. Такий дозвіл може призвести до потрапляння в індекс пошукових систем важливих технічних сторінок сайту, яких там не повинно бути.

Для чого потрібний Robots.txt на сайті - його вплив на просування в пошукових системах

Robots.txt - це найважливіший фактор пошукової оптимізації сайту. Завдяки правильно прописаному набору правил для пошукових роботів можна досягти певного підвищення ранжування сайту в пошуку. Що дають такі інструкції:

  1. Замкнено на індексування певних сторінок, розділів, каталогів сайту.
  2. Виключення сторінок, що не містять корисного контенту.
  3. Виключення дублів сторінок та інше.

Для більшості сайтів такі обмеження на індексування просто необхідні для невеликих повносторінкових необов'язкові. Проте певні директиви необхідно додавати кожному сайту. Наприклад, заборони на індексацію:

  1. Сторінок реєстрації, входу до адмінки, відновлення пароля.
  2. Технічні каталоги.
  3. Rss – стрічки сайту.
  4. Replytocom та іншого.

Як створити правильний Robors.txt самостійно

Труднощі при створенні файлу Robots.txt не можуть виникнути навіть у початківців. Достатньо слідувати певній послідовності дій:

  1. Robots.txt – текстовий документ і створюється будь-яким доступним текстовим редактором.
  2. Розширення файлу має бути обов'язковим.txt.
  3. Назва обов'язково robots.
  4. На одному сайті, дозволено лише один такий файл.
  5. Розміщується лише у кореневому каталозі сайту.

Вам необхідно скористатися звичайним текстовим редактором (блокнотом як альтернативою). Створюємо документ формату .txt та назвою robots. Потім зберігаємо та переносимо цей документ за допомогою FTP клієнта у кореневий каталог сайту. Це основні дії, які необхідно виконати.

Створення Robots.txt за допомогою онлайн-сервісів

Цей метод найпростіший і найшвидший, підійде тим хто боїться самостійно створювати Robots.txt або просто лінується. Сервісів пропонують створення цього файлу безліч. Але варто враховувати деякі нюанси щодо цього способу. Наприклад:

  1. Необхідно заздалегідь врахувати, що Ви хочете заборонити, чи дозволити агенту.
  2. Необхідно обов'язково перевірити готовий файл перед завантаженням його на сайт.
  3. Будьте уважні, адже некоректно створений файл Robots.txt online призведе до плачевної ситуації. Таким чином у пошук можуть потрапити технічні та інші сторінки сайту, яких там бути в апріорі не повинно.

Все-таки, краще витратити час і зусилля для створення коректного роботу користувача. Таким чином можна відтворити чітко обґрунтовану структуру заборон та дозволів, що відповідає вашому сайту.

Редагування та правильний синтаксис файлу Robots.txt

Після успішно створеного Robots.txt, його можна спокійно редагувати та змінювати як Вам завгодно. При цьому слід врахувати деякі правила та грамотний синтаксис. Через деякий час ви неодноразово змінюватимете цей файл. Але не забувайте, після проведення редагування, Вам необхідно буде вивантажити цей файл на сайт. Тим самим оновивши його для пошукових роботів.

Написати Robots.txt дуже просто, причина цього досить проста структура оформлення файлу. Головне при написанні правил використовувати суворо певний синтаксис. Цим правилам добровільно дотримуються, майже всі основні ПС. Ось список деяких правил, щоб уникнути більшості помилок у файлі Robots.txt:

  1. В одному рядку не повинно бути більше однієї зазначеної директиви.
  2. Кожне правило починається з нового рядка.
  3. Вимкнено пробіл на початку рядка.
  4. Допустимі коментарі після символу #.
  5. Порожній Роботс буде вважатися повним дозволом на індексацію.
  6. Назва цього файлу можлива лише у допустимому форматі «robots».
  7. Розмір файлу не повинен перевищувати 32кб.
  8. У директивах Allow та Disallow припустимо лише одне правило. Порожнє значення після Allow: або Disallow: рівносильні повному дозволу.
  9. Усі правила мають бути прописані у нижньому регістрі.
  10. Файл має бути доступним завжди.
  11. Порожній рядок після вказаних правил вказує на повне закінчення правил директиви User-agent.
  12. Бажано прописувати правила кожної ПС окремо.
  13. Якщо правило це директорія сайту, то обов'язково ставте сліш перед її початком.
  14. Кавичок у рядку або у правилі бути не повинно.
  15. Необхідно враховувати строгу структуру правил, що відповідає Вашому сайту не більше.
  16. Robots.txt повинен бути мінімалістичним і чітко відображати переданий зміст.

Грамотне налаштування файлу Robots.txt - правильне написання команд

Щоб отримати позитивний результат при використанні роботів, необхідно правильно його налаштувати. Всім основним командам даного файлу з інструкціями слідують наймасштабніші пошукові системи Google and Yandex. Інші PS можуть ігнорувати деякі інструкції. Як зробити robots.txt найбільш чуйним для більшості пошукачів? Тут необхідно розуміння основних правил роботи з цим файлом, про які йшлося вище.
Розглянемо основні команди:

User-Agent: *- Інструкції стосуватимуться всіх ps роботів. Також можливо вказати певні пошукові системи окремо наприклад: User-Agent: GoogleBot і User-Agent: YandexBot. Таким чином, коректно позначаються правила для важливих ПС.

Disallow:- повністю забороняє обхід та індексацію (сторінки, каталогу чи файлів).

Allow:- повністю дозволяє обхід та індексацію (сторінки, каталогу чи файлів).

Clean-param:- Потрібен для виключення сторінок сайту з динамічним контентом. Завдяки цьому правилу можна позбутися дублів контенту на сайті.

Crawl-delay:— правило вказує інтервал часу п-ботам для розвантаження документів із сайту. Дозволяє значно зменшити навантаження на сервер. Наприклад: «Crawl-delay: 5» - скаже спробу, що завантаження документів з сайту можливе не частіше одного разу в 5 секунд.

Host: ваш_сайт.ru- Відповідає за головне дзеркало сайту. У цій директиві потрібно прописати пріоритетну версію сайту.

Sitemap: http://ваш_сайт.ru/sitemap.xml— як Ви могли здогадатися, ця директива підказує п-боту про наявність Sitemap на сайті.

# - дозволяє залишати коментарі. Коментувати можна лише після знака решітки. Розміщувати її можна як у новому рядку, так і продовженням директиви. Всі ці варіанти ігноруватимуться ботами при проході інструкцій.

Приклади Robots.txs для всіх основних систем керування контентом (CMS)

Щоб скопіювати інструкції, необхідно натиснути кнопку з підказкою.

WordPress (WP)

User-Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content

Disallow: /category

Disallow: /archive

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Host: site.ru
»


HostCMS

User-agent: *

Disallow: captcha.php

Disallow: download_file.php

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Joomla

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /xmlrpc/

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Joomla 3

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /xmlrpc/

MODx Evo

User-agent: *

Disallow: /assets/cache/

Disallow: /assets/docs/

Disallow: /assets/export/

Disallow: /assets/import/

Disallow: /assets/modules/

Disallow: /assets/plugins/

Disallow: /assets/snippets/

Disallow: /install/

Disallow: /manager/

Disallow: /index.php

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

NetCat

User-Agent: *

Disallow: /install/

Disallow: /links/

Disallow: /netcat/

Disallow: /netcat_files/

Disallow: /*.swf

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

MODx

User-agent: *

Disallow: /assets/cache/

Disallow: /assets/docs/

Disallow: /assets/export/

Disallow: /assets/import/

Disallow: /assets/modules/

Disallow: /assets/plugins/

Disallow: /assets/snippets/

Disallow: /install/

Disallow: /manager/

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

OpenCart

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

Disallow: /index.php?route=product/manufacturer

Disallow: /index.php?route=product/compare

Disallow: /index.php?route=product/category

Host: vash_sait.ru (або www.vash_sait.ru)

UMI

User-Agent: *

Disallow: /emarket/addToCompare

Disallow: /emarket/basket

Disallow: /go_out.php

Disallow: /images

Disallow: /images/lizing

Disallow: /images/ntc

Disallow: /files

Disallow: /users

Disallow: /admin

Disallow: /search

Disallow: /install-temp

Disallow: /install-static

Disallow: /install-libs

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

Amiro.CMS

User-agent: *

Disallow: /admin

Disallow: /_admin/

Disallow: /members

Disallow: /search

Disallow: /subscribe

Disallow: /users

Disallow: /*offset=0

Disallow: /*forum_ext=

Disallow: /*_print_version=

Disallow: /*action=export_rss

Disallow: /*action=search

Disallow: /*action=view_posts

Disallow: /*display_form=

Host: site.ru
Sitemap: http://site.ru/sitemap.xm

Bitrix

User-agent: *

Disallow: /*index.php$

Disallow: /bitrix/

Disallow: /auth/

Disallow: /personal/

Disallow: /upload/

Disallow: /search/

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*/gallery/*order=*

Disallow: /*?print=

Disallow: /*&print=

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

Disallow: /*?action=

Disallow: /*action=ADD_TO_COMPARE_LIST

Disallow: /*action=DELETE_FROM_COMPARE_LIST

Disallow: /*action=ADD2BASKET

Disallow: /*action=BUY

Disallow: /*bitrix_*=

Disallow: /*backurl=*

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

Disallow: /*print_course=Y

Disallow: /*COURSE_ID=

Disallow: /*?COURSE_ID=

Disallow: /*?PAGEN

Disallow: /*PAGEN_1=

Disallow: /*PAGEN_2=

Disallow: /*PAGEN_3=

Disallow: /*PAGEN_4=

Disallow: /*PAGEN_5=

Disallow: /*PAGEN_6=

Disallow: /*PAGEN_7=

Disallow: /*PAGE_NAME=search

Disallow: /*PAGE_NAME=user_post

Disallow: /*PAGE_NAME=detail_slide_show

Disallow: /*SHOWALL

Disallow: /*show_all=

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

Drupal

User-agent: *

Disallow: /database/

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /sites/

Disallow: /themes/

Disallow: /scripts/

Disallow: /updates/

Disallow: /profiles/

Disallow: /profile

Disallow: /profile/*

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /contact/

Disallow: /logout/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: *register*

Disallow: *login*

Disallow: /top-rated-

Disallow: /messages/

Disallow: /book/export/

Disallow: /user2userpoints/

Disallow: /myuserpoints/

Disallow: /tagadelic/

Disallow: /referral/

Disallow: /aggregator/

Disallow: /files/pin/

Disallow: /your-votes

Disallow: /comments/recent

Disallow: /*/edit/

Disallow: /*/delete/

Disallow: /*/export/html/

Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$

Disallow: /*/outline$

Disallow: /*/revisions$

Disallow: /*/contact$

Disallow: /*downloadpipe

Disallow: /node$

Disallow: /node/*/track$

Disallow: /*?page=0

Disallow: /*section

Disallow: /*order

Disallow: /*?sort*

Disallow: /*&sort*

Disallow: /*votesupdown

Disallow: /*calendar

Disallow: /*index.php

Host: vash_sait.ru (або www.vash_sait.ru)
Sitemap: http://шлях до вашої карти XML формату

Як перевірити Robots.txt за допомогою Google або Yandex

Як не дивно для перевірки цього файлу, необхідні лише панелі вебмайстра Google або Yandex. Що значно полегшує пошук помилок.

Вебмайстер Google- Вибираємо в лівому меню "Сканування" і потім вкладку "Інструмент перевірки файлу Robots.txt". Потім у нижньому рядку вікна, що з'явилося, допишіть назву файлу. Потім натисніть на «Перевірити» і подивіться як бот гугла бачить Ваш роботс.

Вебмайстер Yandex— у лівому меню вибираємо «Інструменти» та «Аналіз Robots.txt». Після цього у вікні просто натисніть на кнопку «Перевірити».

Варто відзначити, що онлайн валідаторів для перевірки цього файлу дуже багато. Я розповів про найдоступніші, які знаходяться завжди під рукою.

Висновок

Написати один ідеальний robots для всіх сайтів неможливо. Причина цього самі сайти, деякі з яких зроблені руками, інші розташовані на різних CMS. У всіх веб-сайтів різна структура каталогів та іншого. Тому кожен Вебмайстер просто повинен створити свій унікальний набір правил для п-ботів. Такий файл відповідатиме Вашим пріоритетам і не дозволить потрапити у пошук конфіденційної інформації. Завдяки цьому в індексі знаходитиметься якісний контент без зайвого сміття.

  • Читайте статті на цю тему:

robots.txt – це звичайний текстовий файл, розміщений на сайті та призначений для роботів пошукових систем. У цьому файлі можна вказати параметри індексування свого сайту для всіх роботів пошукових систем відразу або кожної пошукової системи окремо.

Всі пошукові роботи під час заходу на сайт в першу чергу шукають файл robots.txt.

Як створити?

Зробити файл robots.txt дуже просто - створюєте звичайний текстовий документ, називаєте його robots, не помилитеся в регістрі літер або в самих літерах, назва має бути саме такою. Якщо не плануєте забороняти індексування сторінок сайту, створений файл можна залишити порожнім. Якщо плануєте - просто заповнюєте документ відповідно до прийнятих 1994 року загальних стандартів. Після цього необхідно завантажити файл у кореневий каталог вашого сайту, щоб файл відкривався за посиланням http://www.site.ru/robots.txt. Всі.

Що закривати від індексації?
Правила заповнення файлу robots.txt

Отже, у файлі robots.txt кожна команда чи директива має прописуватися окремим рядком. Кількість команд не обмежена.

  • Директива user-agent

    Перше, з чого слід почати заповнення файлу - вказати, для якого робота будуть команди, для цього пишемо в першому рядку:

    якщо ваші інструкції призначені для роботів Яндекса:

    User-agent: yandex

    для роботів Google:

    User-agent: googlebot

    для всіх роботів без винятку:
  • Директива Disallow та Allow

    Команда Disallowзабороняє роботу індексувати той чи інший файл чи папку.

    Наприклад,

    забороняє індексувати файли цієї папки:

    Disallow: /cgi-bin/

    забороняє індексувати цей файл:

    Disallow: /company.html

    заборона на індексацію всього сайту:

    Перевірте ваш сайт – це одна з найчастіших причин неіндексування сайту.

    Важливо!Неправильно вказувати кілька директив в одному рядку:

    Disallow: /cgi-bin/ /cell/ /bot/

    Директива Allowнавпаки – знімає заборону на індексацію деяких файлів. Приклад її використання:

    User-agent: Yandex
    Allow: /cgi-binDisallow: /

    Такий запис у файлі забороняє завантажувати роботу Яндекса все, окрім сторінок, що починаються з "/cgi-bin".

    Важливо!Якщо у файлі вказали директиву, але не вказали параметри для неї, значення будуть такі:

    заборони на індексацію сайту немає:
    весь сайт заборонено до індексації:
  • Директива sitemap

    Якщо у вас є карта сайту у форматі sitemaps.xml, вкажіть шлях до неї у спеціальній директиві Sitemap(якщо кілька файлів, вкажіть все):

    Sitemap: http://site.ru/sitemaps1.xml
    Sitemap: http://site.ru/sitemaps2.xml

  • Директива Host

    Цей запис використовується роботами Яндекса. Визначте та вкажіть у директиві Host головне дзеркало вашого сайту:

    Host: www.site.ru

    Часто веб-початківці забувають, що сайт з www і без (www.site.ru і site.ru) є дзеркалами один одного. Тому обов'язково вкажіть, яка адреса є пріоритетною з www або без.

    Директива Hostне гарантує вибір зазначеного головного дзеркала, але Яндекс враховує її з високим пріоритетом.

Приклад заповнення robots.txt

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /language/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Host: sait.ru
Sitemap: http://site.ru/sitemaps.xml

Перевірка файлу robots.txt

Для перевірки файлу, що вийшов, можна скористатися Яндекс.Вебмайстром. Або замовте у нас повний SEO-аудит, і ми перевіримо не лише цей файл, але й інші важливі параметри.

Всім привіт! Почну з важливого оголошення. У нашому блозі запускається проект «Технічний аудит під мікроскопом» і цей матеріал відкриває цикл статей, присвячених цій темі. Про що йтиметься сьогодні? Як правильно написати robots.txt для сайту з нуля.

Текст раджу прочитати тим, хто хоче навчитися створювати текстовий файл самостійно, та розглянути принцип його роботи зсередини. Інформація також стане в нагоді власникам веб-проектів, які прагнуть просунути свій сайт у ТОП.

У статті нижче «під мікроскопом» розглянуто такі питання:

Щоб написати статтю, я витратила близько 37 годин, вивчила понад 20 джерел, відвідала кілька форумів веб-майстрів. Тому кожне слово неодноразово перевірено та перевірено ще раз.

Тож почнемо. Щоб ввести вас у тему та дати загальне уявлення про robots.txt, пропоную за традицією звернутися до асоціацій. Уявіть, що ви власник будинку, і, як водиться у приватному секторі, до вас постійно хтось із сусідів приходить у гості. Як ви можете вчинити? Взагалі не відчиняти двері нікому або впускати деяких, які симпатичніші. При цьому ви можете надати в розпорядження гостей весь будинок або окремі кімнати, закривши всі особисті апартаменти.

За таким принципом і працює robots.txt: щось для когось відчиняє, а кудись когось не пускає. Подробиці читайте далі у статті.

Robots.txt: що означає і як працює

Знайомство з індексним файлом логічно розпочати з пояснення терміна.

Robots.txt- Текстовий документ, який говорить пошукачам, на які дані та сторінки сайту звертати увагу (індексувати, обробляти), а на які ні. Його ще називають «стандартом/протоколом винятків для роботів». Він діє для протоколів https, http та FTP, використовує кодування UTF-8 Unicode.

Практично всі популярні пошукові системи дотримуються даних стандартів: Google, Ask, Yandex, AOL, Yahoo!, Bing та ін. Хоча, варто відзначити, що Google сприймає їх як «рекомендації», а не як «команду». Тобто, як я розумію, хочу дотримуватись, хочу – ні.

Де знаходиться файл robots.txt? Його розміщують у кореневому каталозі веб-проекту. Візуально він виглядає так:

https://site.com.ua/robots.txt.

Принцип роботи robots.txt

Говорячи простими словами, наявність robots.txt допомагає встановити діалог між веб-проектом та пошуковими системами (як перекладач на переговорах). При цьому власник ресурсу вирішує, куди відкрити доступ і куди заборонити вхід.

Таким чином, після сканування індексного файлу розвиток подій йде по одному з 3-х сценаріїв, тобто. пошукові системи отримують:

  • повний доступ до всього веб-ресурсу;
  • частковий перепустку, тобто. тільки до дозволених сторінок та даних;
  • абсолютна заборона на вхід, де сайт повністю закритий для обробки.

Щоб показати, як відбувається індексація веб-проекту з robots.txt і без нього, зробила інфографіку.

Щоб зрозуміти важливість файлу, потрібно знати принцип роботи пошукових систем. Отже, як вони діють?

Робот пошукача заходить на сайт і насамперед шукає robots.txt. Якщо його немає або складено неправильно, то пошукова система починає «керувати парадом» самостійно. Тобто, сканує все поспіль: і потрібне, і непотрібне. За такого підходу обробка веб-ресурсу затягується надовго і при цьому не факт, що важливі сторінки будуть першими в черзі. Навіщо такі складнощі?

Крім того, за 1 відвідування роботи обробляють певну кількість ресурсів. Який із цього слідує висновок? Менше сторінок для сканування, більше проіндексованих та, отже, більше трафік. Швидка індексація також допомагає захистити новий контент та відстежити, як ті чи інші заходи вплинули на позиції у видачі.

5 основних директив для написання robots.txt

Перш ніж почати створювати файл robots.txt, потрібно ознайомитись із основними командами (директивами), які знадобляться для написання списку заборон.

Є 5 базових команд:

USER-AGENT

Вказує, для якого пошуковика призначаються команди, які йдуть після неї. Можна використовувати символ * і тоді вказівки стосуватимуться всіх пошукових систем. З цієї директиви починається будь-який індексний файл. Якщо її не прописано, пошуковий робот вважає, що всі двері для нього відчинені.

Наприклад:

User-agent: Google – команди для Google
User-agent: Yandex – команди для Яндекс
User-agent: * – команди для всіх пошукових систем

Зверніть увагу, якщо робот виявив назву свого пошукача після директиви User-agent, він проігнорує всі вказівки з розділу «User-agent: *».

Пошукові системи мають кілька роботів, для кожного з яких потрібно прописувати команди окремо.

Розглянемо базові роботи найпопулярніших пошукових систем Google і Яндекс:
1. Google:

  • Googlebot- Основний робот пошуковика;
  • Googlebot-Image- Сканує зображення;
  • Googlebot-Video- Перевіряє відеофайли;
  • Googlebot-Mobile- Обробляє сторінки для мобільних гаджетів;
  • Adsbot-Google- Перевіряє якість реклами на ресурсах для ПК;
  • Googlebot-News– шукає сторінки, щоб додати до Google Новини.

2. Yandex:

  • Yandex– означає, що команди відносяться до всіх робот Яндекс;
  • YandexBot- Базовий робот пошуковика;
  • YandexImages- Обробляє картинки;
    YandexNews –індексатор сторінок, призначених для Яндекс Новини;
  • YandexMedia- Сканує мультимедійні дані;
  • YandexMobileBot– перевіряє документи щодо верстки під мобільні девайси.

Запам'ятайте, що при написанні файлу robots.txt секції для різних роботів потрібно розділяти 1 порожнім рядком.

Як пам'ятка:

DISALLOW та ALLOW

Тут усе просто. Директива Allow дозволяє пошуковим роботам сканувати ресурс, Disallow - забороняє. Розглянемо докладніше, як вони працюють.

Якщо у файлі robots.txt прописати заборонну команду Disallow або Allow, можна:

  • закрити/відкрити доступ роботів до всього сайту, використовуючи слеш;

Disallow: /
Allow: /

  • заборонити/дозволити сканування певних сторінок, прописавши адресу.

Disallow: /admin/
Allow: /admin/

  • відкрити/закрити вхід до конкретного файлу, вказавши шлях:

Disallow: /razdel/file
Allow: /razdel/file

  • заборонити/дозволити обробляти документи певного типу, використовуючи *:

Disallow: /*png*
Allow: /*png*

Зверніть увагу, щоб закрити/відкрити сторінки сайту для індексації, після даних директив robots.txt пишеться не повна адреса, а лише та частина, яка йде після домену сайту.

Як бачите, все справді просто. Як у математиці: знаєш формулу – вирішиш завдання.

Щоб закріпити матеріал, давайте розберемо приклад:

User-agent: *
Disallow: /
Allow: / blog/
Allow: / *.gift *

Що ми бачимо у фрагменті цього robots.txt: доступ відкритий для всіх пошукових систем, закритими для сканування є всі сторінки, крім одного розділу "blog" і файлів типу ".gift".

Завантажуйте картинку нижче, щоб не забути:

Що можна закрити за допомогою файлів robots.txt та Disallow?

Все, звичайно, залежить від побажань власника веб-проекту, але є кілька загальних рекомендацій.

За допомогою robots.txt радять заборонити індексацію ресурсів з:

  • адміністративною частиною (іншими словами, адмінку);
  • особистими даними користувачів;
  • корисним, неактуальним чи неунікальним контентом (чек-лист для перевірки);
  • багаторівневими формами реєстрації, зворотного зв'язку, замовлення та кошиком;
  • тегами, результатами пошуку по сайту, фільтрами.

Робимо висновок – у файлі robots.txt потрібно закрити ті сторінки сайту, які не важливі, не потрібні або не повинні бути показані користувачам та пошуковикам.

До речі, стаття про контент: «2 види візуального контенту»

SITEMAP

Ще один директив, який має бути написаний у файлі robots.txt – Sitemap. Навіщо він служить? Щоб показати пошуковим роботам шлях до Карти сайту. Розберемо питання у деталях.

Карта сайту– це файл у форматі xml із кодуванням UTF8, який зберігається в кореневій директорії веб-ресурсу. Він є своєрідним каталогом з посиланнями, що ведуть на різні сторінки. При складанні Карти важливо вносити тільки ті ресурси, які потребують індексу, крім динамічних URL-адрес та тегів.

Основні вимоги до файлу дивіться нижче:

Як директива Sitemap допомагає в індексації?

Згадуємо принцип роботи пошукових роботів: зайшли на сайт, відкинули закриті сторінки і далі, якщо немає цієї команди, починають хаотично нишпорити по сайту. Оскільки час на сканування одного веб-проекту обмежений, робот може не дійти до дійсно важливих ресурсів. Особливо це стосується «великих» сайтів, де багато сторінок та переходів за посиланнями.

Цікаво буде прочитати: «Покупка вічних посилань: 4 кроки від хаосу до порядку»

Тут і приходить на допомогу директива Sitemap. Вона проводить робота до Карти сайту, де вказано, які ресурси потрібно проіндексувати і які є найважливішими, а також як часто повинна оновлюватися інформація. Така індексація 100% якісніша і швидше в 3,14 рази.

Ось як виглядає готова Карта сайту (фрагмент):

Як створити карту сайту?

Ідеальний варіант скористатися безкоштовними онлайн-генераторами.

Ось список протестованих мною сервісів:

  • XML-Sitemaps.com.Безкоштовно створює Sitemap для сайтів, що містять до 500 сторінок. Час роботи – 2-3 хвилини. Пропонує завантажити файл у форматі XML Document. Не потребує реєстрації. Інтерфейс англійською мовою.
  • mysitemapgeneration. Для безкоштовного пакету обмеження – до 500 сторінок. Створення Карти сайту займає лише кілька хвилин. Готовий файл у форматі xml надсилається на пошту. Сайт русифікований, простий та зрозумілий. Реєструватися не потрібно.
  • Xml Sitemap Generator. Англомовний ресурс із лімітом до 2000 сторінок. Завантажити файл можна у кількох форматах: xml, rss, html, txt. Створення Карти сайту відбувається також швидко та без реєстрації.
  • Majento.Російськомовний оперативний сайт, який не вимагає реєстрації. Ліміти безкоштовного пакету: до 1000 сторінок, 5 разів на добу для однієї IP-адреси. Можна визначити параметри звіту та встановити фільтр на сторінки з певним розширенням. Готову Карту сайту можна завантажити у форматі xml.

Всі послуги справляються зі створенням Sitemap на відмінно. Крім представлених онлайн-генераторів, є безліч інших: Small Seo Tools, Screamingfrog, xSitemap.com, Free Sitemap Generator і т.д. Вибирайте найоптимальніший для себе та робіть Карти сайту без проблем.

Дізнайтесь також про 5 кращих сервісів для роботи копірайтера з текстом

У готовому файлі, крім URL-адрес, ви побачите кілька команд, розшифрувати які допоможе наступна картинка:

Мапа сайту готова. Що далі?

Потрібно повідомити про це пошукові системи. Звичайно, пошукові системи згодом самі виявлять цей файл, але для прискорення процесу краще відразу показати їм шлях.

Ось 2 найпростіші способи розповісти пошуковим роботам про Карту сайту:

  1. Додати посилання на адресу файлу, використовуючи панель інструментів веб-майстрів від Google та Yandex. В Яндекс.Вебмайстер потрібно: натиснути на вкладку «Індексування», далі на «Файли Sitemap» та ввести URL-адресу. Для Google: відкриваємо Google Search Console, клацаємо на "Сканування", потім на "Файли Sitemap", вставляємо та відправляємо адресу.
  2. Вставити у файл robots.txt посилання на розташування файлу Sitemap. Візуально це виглядає так: Sitemap: https://site.com/sitemap.xml

Важлива порада у висновку – бажано додавати Sitemap після кожної публікації нової інформації на сайті.

Як ще прискорити індексацію читайте:
«Як розмістити та прискорити індексацію статті? 5 секретів успіху »

HOST

Останньою невід'ємною частиною robots.txt була директива Host. Вона показувала пошуковому роботу, яке дзеркало (аліас) веб-проекту є основним: з префіксом www або без. Сприймалася дана команда тільки пошуковою системою Yandex і була актуальною виключно для сайтів, що мають «копії».

Примітка: дзеркало сайту є повною або частковою копією інтернет-проекту, яка має свій домен і знаходиться на окремому ресурсі.

Виглядало це приблизно так:

Чому все в минулому часі, спитайте ви. Відповідь проста – 20 березня 2018 року Яндекс офіційно оголосив про відмову від директиви Host. Тепер дана команда має бути замінена редиректом 301 через файл htaccess. Директиву Host потрібно просто видалити з індексного файлу. Хоча, якщо вона є, нічого страшного не станеться, т.к. Яндекс тепер її просто ігнорує.

Використання редиректу 301 визначення основного сайту є універсальним способом, т.к. сприймається всіма пошуковими роботами. Детально, як поставити 301 редирект буде розказано в наступній статті. Слідкуйте за новинками у блозі, відвідуючи сайт або через стрічку новин у