Robots txt-inhoud. Hoe het robots txt-bestand te bewerken

Ik heb excuses voorbereid van “mijn verjaardag was op de 21e” tot “magnetische stormen” :)
Maar eigenlijk heb ik het verprutst tijdens het schrijven.

Niet toestaan zonder een waarde op te geven = toestemming om de site te indexeren.

Valeria Okerednyuk

Gecorrigeerd.

Mevrouw Yanovska

Wanneer begin je het verschil tussen crawlen en indexeren te begrijpen? De hulp van Google op robots.txt is al gecorrigeerd, maar iedereen schrijft dat indexeren verboden is. De richtlijnen in het robots.txt-bestand zijn adviserend van aard en alleen bedoeld voor scannen.

Eerlijk genoeg, maar niet in de context van robots.txt en de mensen die het nodig hebben.
Die. het uiteindelijke doel is om te voorkomen dat de pagina in de index terechtkomt. Mensen zullen dan het “verbod op indexeren” duidelijker begrijpen en dit zal waar zijn (als de crawler de pagina niet kan crawlen, kan hij deze dus ook niet indexeren). We beginnen op basis van het publiek dat deze informatie nodig heeft.

Mevrouw Yanovska

Een vreemd antwoord, ik dacht dat hier materialen werden gepubliceerd die overeenkwamen met het referentiemateriaal van zoekmachines.
In het geval van Google kunnen dergelijke pagina's waarvan het crawlen in robots.txt is geblokkeerd, in de index voorkomen, zij het in verborgen resultaten.
Bij de implementatie van de nieuwe Google-console waren veel webmasters aangenaam verrast door de melding “Geïndexeerd ondanks blokkering in het robots.txt-bestand.”

https://yandex.ru/support/w... - Yandex-hulp. In de video zeggen ze "verbod op het indexeren van de hele site." Logischerwijs kunnen pagina's die de crawler niet kan crawlen, niet door de indexer worden geïndexeerd. Maar de laatste actie in het geval van Yandex is dat een pagina met een verbod op robots.txt niet in de index wordt opgenomen.

In het geval van Google is alles anders, zoals aangegeven in het artikel.

Wat betreft de nieuwe console: heeft u het over de rebranding van GWT naar Google Search Console in 2015 (of zo)? Als dat zo was, had Google robots.txt nog eerder kunnen negeren.

Lezer

Dyakuyu, mriav over zo'n beeld

Vertel me dit alsjeblieft, ik kom er niet uit.

1. Hoe verschillen de teams?
Disallow: /wp-admin/ van Disallow: /wp-admin of Disallow: /wp-

2. Het lijkt erop dat de instructies van Google zeggen dat je css- en js-bestanden niet voor bots kunt verbergen, maar welke opdracht is geschikt? Iedereen raadt anders aan:
Toestaan: /*/*.js of Toestaan: /*.js of Toestaan: *.js of /wp-content/*.js

3. Afbeeldingen moeten ook worden geopend voor indexering om te kunnen worden geïndexeerd. Feit is dat WordPress bij het publiceren van afbeeldingen automatisch voor elke afbeelding (URL) een eigen pagina aanmaakt, zo'n pagina als je er via een directe link naartoe gaat, is alleen leeg met een foto. Dus wat te doen? De Yoast-plug-in raadt aan dat als u deze URL's nooit gebruikt, u ze het beste kunt deactiveren en omleiden naar het media-object zelf. Die. zij raden aan om bijlage-URL's om te leiden naar het bijlagebestand. Dit doen ze als u omleiding inschakelt. Ik heb deze omleiding nu uitgeschakeld en ik heb een extra sitemap met fotopagina's, maar het is interessant dat om de een of andere reden niet alle foto's aanwezig zijn. Hier is de pagina: https://www.nsdancing.com/a...
Wat raad je aan om te doen?

4. Het lijkt erop dat je in het robots-bestand ook alle afbeeldingsbestanden moet openen voor indexering, maar met welk commando? Op internet zijn er een heleboel mogelijkheden:
Toestaan: /wp-content/uploads/ of Toestaan: /wp-content/*.jpg of Toestaan: /wp-*.jpg of Toestaan: /*.jpg of Toestaan: *.jpg

5. Zoals aanbevolen door specialisten bij het opzetten van een bestand voor robots.txt, verschijnt elke keer dat ik de opdracht Allow: /wp-admin/admin-ajax.php invoeg, later een fout in de Google Search-console met een 400-serverantwoord voor dit specifieke commando. Wat moet ik doen?

Vertel me alsjeblieft wat het beste is. Bedankt!

Elke blog heeft hier zijn eigen antwoord op. Daarom raken nieuwkomers op het gebied van zoekmachinepromotie vaak in de war, zoals deze:

Wat voor soort robots ti ex ti?

Bestand robots.txt of indexbestand- een regulier tekstdocument in UTF-8-codering, geldig voor de http-, https- en FTP-protocollen. Het bestand geeft aanbevelingen voor zoekrobots: welke pagina's/bestanden moeten worden gecrawld. Als het bestand tekens bevat in een andere codering dan UTF-8, kunnen zoekrobots deze verkeerd verwerken. De regels in het robots.txt-bestand zijn alleen geldig voor de host, het protocol en het poortnummer waar het bestand zich bevindt.

Het bestand moet zich in de hoofdmap bevinden als een tekstdocument en beschikbaar zijn op: https://site.com.ua/robots.txt.

In andere bestanden is het gebruikelijk om BOM (Byte Order Mark) te markeren. Dit is een Unicode-teken dat wordt gebruikt om de volgorde in bytes te bepalen bij het lezen van informatie. Het codekarakter ervan is U+FEFF. Aan het begin van het robots.txt-bestand wordt de bytereeksmarkering genegeerd.

Google heeft een maximale grootte ingesteld voor het robots.txt-bestand: het mag niet meer dan 500 KB wegen.

Oké, als je geïnteresseerd bent in puur technische details: het robots.txt-bestand is een beschrijving in Backus-Naur-vorm (BNF). Hierbij worden de regels van RFC 822 gebruikt.

Bij het verwerken van regels in het robots.txt-bestand ontvangen zoekrobots een van de volgende drie instructies:

gedeeltelijke toegang: scannen van individuele website-elementen is beschikbaar;
volledige toegang: u kunt alles scannen;
volledig verbod: de robot kan niets scannen.

Bij het scannen van het robots.txt-bestand ontvangen robots de volgende reacties:

2xx - de scan was succesvol;
3xx - de zoekrobot volgt de omleiding totdat hij een ander antwoord ontvangt. Meestal zijn er vijf pogingen voor de robot om een ander antwoord te ontvangen dan een 3xx-antwoord, waarna een 404-fout wordt geregistreerd;
4xx — de zoekrobot denkt dat het mogelijk is om de gehele inhoud van de site te crawlen;
5xx — worden beoordeeld als tijdelijke serverfouten, scannen is volledig verboden. De robot heeft toegang tot het bestand totdat hij een nieuw antwoord ontvangt. De Google-zoekrobot kan bepalen of het antwoord van ontbrekende pagina's op de site correct of onjuist is geconfigureerd, dat wil zeggen of de pagina in plaats van een 404-fout een 5xx-antwoord retourneert. in dit geval wordt de pagina verwerkt met responscode 404.

Het is nog niet bekend hoe het robots.txt-bestand wordt verwerkt, dat ontoegankelijk is vanwege serverproblemen met internettoegang.

Waarom heb je een robots.txt-bestand nodig?

Soms mogen robots bijvoorbeeld niet bezoeken:

pagina's met persoonlijke informatie van gebruikers op de site;
pagina's met verschillende formulieren voor het verzenden van informatie;
spiegelsites;
pagina's met zoekresultaten.

Belangrijk: zelfs als de pagina zich in het robots.txt-bestand bevindt, bestaat de mogelijkheid dat deze in de zoekresultaten verschijnt als er een link naar wordt gevonden op de site of ergens op een externe bron.

Zo zien robots van zoekmachines een site met en zonder robots.txt-bestand:

Zonder robots.txt kan informatie die voor nieuwsgierige blikken verborgen moet blijven, in de zoekresultaten terechtkomen, en hierdoor zullen zowel u als de site eronder lijden.

Dit is hoe de robot van de zoekmachine het robots.txt-bestand ziet:

Google heeft het robots.txt-bestand op de site gedetecteerd en de regels gevonden waarmee de pagina's van de site moeten worden gecrawld

Een robots.txt-bestand maken

Met Kladblok, Kladblok, Sublime of een andere teksteditor.

User-agent - visitekaartje voor robots

User-agent: een regel over welke robots de instructies moeten bekijken die worden beschreven in het robots.txt-bestand. Er zijn momenteel 302 zoekrobots bekend

Er staat dat we regels in robots.txt specificeren voor alle zoekrobots.

Voor Google is Googlebot de belangrijkste robot. Als we alleen hiermee rekening willen houden, ziet de invoer in het bestand er als volgt uit:

In dit geval zullen alle andere robots de inhoud crawlen op basis van hun richtlijnen voor het verwerken van een leeg robots.txt-bestand.

Voor Yandex is de belangrijkste robot... Yandex:

Andere speciale robots:

Googlebot-Nieuws— om naar nieuws te zoeken;
Mediapartners-Google— voor de AdSense-service;
AdsBot-Google— om de kwaliteit van de landingspagina te controleren;
YandexAfbeeldingen— Yandex.Images-indexer;
Googlebot-afbeelding- voor foto's;
Yandex Metrika— Yandex.Metrica-robot;
Yandex Media— een robot die multimediagegevens indexeert;
YaDirectFetcher— Yandex.Direct-robot;
Googlebot-Video— voor video;
Googlebot-Mobiel- voor mobiele versie;
YandexDirectDyn— dynamische robot voor het genereren van banners;
YandexBlogs– een blogzoekrobot die berichten en reacties indexeert;
YandexMarkt— Yandex.Market-robot;
YandexNieuws– Yandex.News-robot;
YandexDirect— downloadt informatie over de inhoud van partnersites van het Advertentienetwerk om hun onderwerpen te verduidelijken voor de selectie van relevante advertenties;
YandexPagechecker— validator voor micro-markeringen;
YandexKalender- Yandex.Calendar-robot.

Niet toestaan - “stenen” plaatsen

Het is de moeite waard om het te gebruiken als de site bezig is met verbeteringen en u niet wilt dat deze in de huidige staat in de zoekresultaten verschijnt.

Het is belangrijk om deze regel te verwijderen zodra de site klaar is voor gebruikers om deze te bekijken. Helaas vergeten veel webmasters dit.

Voorbeeld. Hoe u een Disallow-regel instelt om robots te adviseren de inhoud van een map niet te bekijken /papka/:

Deze regel verbiedt het indexeren van alle bestanden met de extensie .gif

Toestaan - wij sturen de robots

Met Toestaan kunt u elk bestand/richtlijn/pagina scannen. Stel dat u wilt dat robots alleen pagina's kunnen bekijken die beginnen met /catalog, en alle andere inhoud kunnen sluiten. In dit geval wordt de volgende combinatie voorgeschreven:

Regels voor Toestaan en Niet toestaan worden gesorteerd op de lengte van het URL-voorvoegsel (van klein naar groot) en opeenvolgend toegepast. Als er meer dan één regel overeenkomt met een pagina, selecteert de robot de laatste regel in de gesorteerde lijst.

Host - selecteer een mirrorsite

Host is een van de verplichte regels voor robots.txt; het vertelt de Yandex-robot welke van de mirrors van de site in aanmerking moet komen voor indexering.

Een sitemirror is een exacte of bijna exacte kopie van een site, beschikbaar op verschillende adressen.

De robot raakt niet in de war bij het vinden van sitespiegelservers en begrijpt dat de hoofdspiegelserver is gespecificeerd in het robots.txt-bestand. Het siteadres wordt aangegeven zonder het voorvoegsel ‘http://’, maar als de site op HTTPS draait, moet het voorvoegsel ‘https://’ worden opgegeven.

Hoe deze regel te schrijven:

Een voorbeeld van een robots.txt-bestand als de site op het HTTPS-protocol draait:

Sitemap - medische sitemap

Sitemap vertelt robots dat alle site-URL's die nodig zijn voor indexering zich bevinden op http://site.ua/sitemap.xml. Bij elke crawl kijkt de robot welke wijzigingen in dit bestand zijn aangebracht en werkt hij snel de informatie over de site in de databases van zoekmachines bij.

Crawl-delay - stopwatch voor zwakke servers

Crawl-delay is een parameter die kan worden gebruikt om de periode in te stellen waarna sitepagina's worden geladen. Deze regel is relevant als u een zwakke server heeft. In dit geval kunnen er lange vertragingen optreden wanneer zoekrobots toegang krijgen tot de sitepagina's. Deze parameter wordt gemeten in seconden.

Clean-param - jager op dubbele inhoud

Clean-param helpt bij het omgaan met get-parameters om duplicatie van inhoud te voorkomen die mogelijk beschikbaar is op verschillende dynamische adressen (met vraagtekens). Dergelijke adressen verschijnen als de site verschillende sorteringen, sessie-ID's, enzovoort heeft.

Stel dat de pagina beschikbaar is op de volgende adressen:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

In dit geval ziet het robots.txt-bestand er als volgt uit:

Hier ref geeft aan waar de link vandaan komt, dus deze staat helemaal aan het begin geschreven, en pas dan wordt de rest van het adres aangegeven.

Maar voordat u verdergaat met het referentiebestand, moet u nog enkele tekens leren kennen die worden gebruikt bij het schrijven van een robots.txt-bestand.

Symbolen in robots.txt

De hoofdtekens van het bestand zijn “/, *, $, #”.

Door te gebruiken schuine streep "/" we laten zien dat we onszelf willen beschermen tegen detectie door robots. Als er bijvoorbeeld één schuine streep in de Disallow-regel staat, verbieden we het scannen van de hele site. Met behulp van twee schuine streeptekens kunt u voorkomen dat een specifieke map wordt gescand, bijvoorbeeld: /catalog/.

Deze vermelding zegt dat we het scannen van de volledige inhoud van de catalogusmap verbieden, maar als we /catalog schrijven, verbieden we alle links op de site die beginnen met /catalog.

Sterretje "*" betekent elke reeks tekens in het bestand. Het wordt na elke regel geplaatst.

Deze vermelding zegt dat alle robots geen bestanden met de extensie .gif in de map /catalog/ mogen indexeren

Dollarteken «$» beperkt de acties van het asterisk-teken. Als u de volledige inhoud van de catalogusmap wilt blokkeren, maar u kunt geen URL's blokkeren die /catalog bevatten, ziet de vermelding in het indexbestand er als volgt uit:

Rooster "#" gebruikt voor opmerkingen die een webmaster voor zichzelf of andere webmasters achterlaat. De robot houdt er geen rekening mee bij het scannen van de site.

Bijvoorbeeld:

Hoe een ideale robots.txt eruit ziet

Het bestand opent de inhoud van de site voor indexering, de host wordt geregistreerd en er wordt een sitemap aangegeven, waardoor zoekmachines altijd de adressen kunnen zien die moeten worden geïndexeerd. De regels voor Yandex worden afzonderlijk gespecificeerd, omdat niet alle robots de hostinstructies begrijpen.

Maar haast u niet om de inhoud van het bestand naar uzelf te kopiëren - elke site moet unieke regels hebben, die afhankelijk zijn van het type site en het CMS. Daarom is het de moeite waard om alle regels te onthouden bij het invullen van het robots.txt-bestand.

Hoe u uw robots.txt-bestand kunt controleren

Als je wilt weten of het robots.txt-bestand correct is ingevuld, controleer dit dan in de webmastertools Googlen en Yandex. Voer eenvoudigweg de broncode van het robots.txt-bestand in het formulier in via de link en specificeer de site die moet worden gecontroleerd.

Hoe u het robots.txt-bestand niet invult

Vaak worden bij het invullen van een indexbestand vervelende fouten gemaakt, die verband houden met gewone onoplettendheid of haast. Hieronder vindt u een overzicht van de fouten die ik in de praktijk tegenkwam.

2. Verschillende mappen/mappen in één Disallow-instructie schrijven:

Zo'n invoer kan zoekrobots in verwarring brengen; ze begrijpen misschien niet wat ze precies niet mogen indexeren: de eerste map of de laatste, dus je moet elke regel afzonderlijk schrijven.

3. Het bestand zelf moet worden aangeroepen alleen robots.txt, en niet Robots.txt, ROBOTS.TXT of iets anders.

4. U kunt de User-agent-regel niet leeg laten. U moet aangeven welke robot rekening moet houden met de regels die in het bestand zijn geschreven.

5. Extra tekens in het bestand (slashes, asterisken).

6. Pagina's toevoegen aan het bestand die niet in de index mogen staan.

Niet-standaard gebruik van robots.txt

Naast directe functies kan het indexbestand een platform worden voor creativiteit en een manier om nieuwe medewerkers te vinden.

Hier is een site waar robots.txt zelf een kleine site is met werkelementen en zelfs een advertentieblok.

Het bestand wordt vooral door SEO-bureaus gebruikt als platform voor het zoeken naar specialisten. Wie weet er nog meer van het bestaan ervan? :)

En Google heeft een speciaal bestand mensen.txt, zodat je niet nadenkt over discriminatie van leer- en vleesspecialisten.

Conclusies

Met behulp van Robots.txt kun je instructies geven om robots te zoeken, reclame maken voor jezelf, je merk en op zoek gaan naar specialisten. Dit is een geweldig veld voor experimenten. Het belangrijkste is om te onthouden dat u het bestand correct invult en dat u typische fouten opmerkt.

Regels, ook wel richtlijnen genoemd, ook wel instructies genoemd in het robots.txt-bestand:

User-agent - een regel over welke robots de instructies moeten bekijken die worden beschreven in robots.txt.
Disallow geeft aanbevelingen over welke informatie niet mag worden gescand.
Sitemap vertelt robots dat alle site-URL's die nodig zijn voor indexering zich op http://site.ua/sitemap.xml bevinden.
De host vertelt de Yandex-robot welke van de sitespiegels in aanmerking moeten komen voor indexering.
Met Toestaan kunt u elk bestand/richtlijn/pagina scannen.

Tekenen bij het compileren van robots.txt:

Het dollarteken "$" beperkt de acties van het asterisk-teken.
Met de schuine streep “/” geven we aan dat we het willen verbergen voor detectie door robots.
Het sterretje "*" betekent een willekeurige reeks tekens in het bestand. Het wordt na elke regel geplaatst.
De hash "#" wordt gebruikt om commentaar aan te geven dat een webmaster voor zichzelf of voor andere webmasters schrijft.

Gebruik het indexbestand verstandig - en de site zal altijd in de zoekresultaten verschijnen.

Eerst zal ik je vertellen wat robots.txt is.

Robots.txt– een bestand dat zich in de hoofdmap van de site bevindt, waar speciale instructies voor zoekrobots zijn geschreven. Deze instructies zijn nodig zodat de robot bij het betreden van de site geen rekening houdt met de pagina/sectie, met andere woorden: we sluiten de pagina af voor indexering.

Waarom heb je robots.txt nodig?

Het robots.txt-bestand wordt beschouwd als een belangrijke vereiste voor SEO-optimalisatie van absoluut elke website. Het ontbreken van dit bestand kan een negatieve invloed hebben op de belasting door robots en trage indexering, en bovendien zal de site niet volledig worden geïndexeerd. Dienovereenkomstig hebben gebruikers geen toegang tot pagina's via Yandex en Google.

Impact van robots.txt op zoekmachines?

Zoekmachines(vooral Google) zal de site indexeren, maar als er geen robots.txt-bestand is, dan, zoals ik al zei, niet alle pagina's. Als er zo'n bestand is, laten de robots zich leiden door de regels die in dit bestand zijn gespecificeerd. Bovendien zijn er verschillende soorten zoekrobots, terwijl sommige rekening kunnen houden met de regel, terwijl andere deze negeren. In het bijzonder houdt de GoogleBot-robot geen rekening met de Host- en Crawl-Delay-richtlijnen, houdt de YandexNews-robot onlangs geen rekening meer met de Crawl-Delay-richtlijn, en negeren de YandexDirect- en YandexVideoParser-robots algemeen aanvaarde richtlijnen in robots.txt (maar houd rekening met degenen die speciaal voor hen zijn geschreven).

De site wordt het meest geladen door robots die inhoud van uw site laden. Dienovereenkomstig, als we de robot vertellen welke pagina's moeten worden geïndexeerd en welke moeten worden genegeerd, en met welke tijdsintervallen de inhoud van de pagina's moet worden geladen (dit geldt meer voor grote sites met meer dan 100.000 pagina's in de zoekmachine-index). Dit maakt het voor de robot veel gemakkelijker om inhoud van de site te indexeren en te downloaden.

Bestanden die niet nodig zijn voor zoekmachines zijn onder meer bestanden die bij het CMS horen, bijvoorbeeld in Wordpress – /wp-admin/. Daarnaast zijn ajax- en json-scripts verantwoordelijk voor pop-upformulieren, banners, captcha-uitvoer, enzovoort.

Voor de meeste robots raad ik ook aan om alle Javascript- en CSS-bestanden te blokkeren voor indexering. Maar voor GoogleBot en Yandex is het beter om dergelijke bestanden te indexeren, omdat ze door zoekmachines worden gebruikt om het gemak van de site en de ranking ervan te analyseren.

Wat is een robots.txt-richtlijn?

Richtlijnen– dit zijn de regels voor zoekrobots. De eerste standaarden voor het schrijven van robots.txt verschenen in 1994 en de uitgebreide standaard in 1996. Zoals u echter al weet, ondersteunen niet alle robots bepaalde richtlijnen. Daarom heb ik hieronder beschreven waar de belangrijkste robots zich door laten leiden bij het indexeren van websitepagina's.

Wat betekent User-agent?

Dit is de belangrijkste richtlijn die bepaalt welke zoekrobots verdere regels zullen volgen.

Voor alle robots:

Voor een specifieke bot:

User-agent: Googlebot

Het register in robots.txt is niet belangrijk, je kunt zowel Googlebot als googlebot schrijven

Google-zoekrobots

Yandex-zoekrobots


	De belangrijkste indexeringsrobot van Yandex
	Gebruikt in de Yandex.Images-service
	Gebruikt in de Yandex.Video-service
	Multimediagegevens
	Blog zoeken
	Een zoekrobot die toegang krijgt tot een pagina wanneer deze wordt toegevoegd via het formulier 'URL toevoegen'
	robot die websitepictogrammen indexeert (favicons)
	Yandex.Direct
	Yandex.Metrica
	Gebruikt in de Yandex.Catalog-service
	Gebruikt in de Yandex.News-service
YandexImageResizer	Zoekrobot voor mobiele diensten

Zoekrobots Bing, Yahoo, Mail.ru, Rambler

Disallow- en Allow-richtlijnen

Sta niet toe dat secties en pagina's van uw site worden geïndexeerd. Dienovereenkomstig opent Allow ze integendeel.

Er zijn enkele eigenaardigheden.

Ten eerste zijn de extra operatoren *, $ en #. Waar worden ze voor gebruikt?

“*” – dit is een willekeurig aantal karakters en hun afwezigheid. Standaard staat het al aan het einde van de regel, dus het heeft geen zin om het opnieuw te plaatsen.

“$” – geeft aan dat het personage ervoor als laatste moet komen.

“#” – opmerking, de robot houdt geen rekening met alles wat na dit symbool komt.

Voorbeelden van het gebruik van Disallow:

Niet toestaan: *?s=

Niet toestaan: /categorie/

Dienovereenkomstig zal de zoekrobot pagina's sluiten zoals:

Maar pagina's als deze staan open voor indexering:

Nu moet u begrijpen hoe nestregels worden uitgevoerd. De volgorde waarin richtlijnen worden geschreven is absoluut belangrijk. De overerving van regels wordt bepaald door welke mappen zijn gespecificeerd. Dat wil zeggen dat als we willen voorkomen dat een pagina/document wordt geïndexeerd, het schrijven van een richtlijn voldoende is. Laten we eens kijken naar een voorbeeld

Dit is ons robots.txt-bestand

Niet toestaan: /template/

Deze richtlijn kan ook overal worden gespecificeerd, en er kunnen verschillende sitemapbestanden worden gespecificeerd.

Hostrichtlijn in robots.txt

Deze richtlijn is nodig om de hoofdspiegel van de site aan te geven (vaak met of zonder www). Houd er rekening mee dat de hostrichtlijn wordt gespecificeerd zonder het http://-protocol, maar met het https://-protocol. De richtlijn wordt alleen in aanmerking genomen door zoekrobots van Yandex en Mail.ru, en andere robots, waaronder GoogleBot, zullen geen rekening houden met de regel. Host moet één keer worden opgegeven in het robots.txt-bestand

Voorbeeld met http://

Host: website.ru

Voorbeeld met https://

Crawl-delay-richtlijn

Stelt het tijdsinterval in voor het indexeren van sitepagina's door een zoekrobot. De waarde wordt aangegeven in seconden en milliseconden.

Voorbeeld:

Het wordt meestal gebruikt in grote online winkels, informatiesites en portalen, waar het siteverkeer vanaf 5.000 per dag bedraagt. Het is noodzakelijk dat de zoekrobot binnen een bepaalde tijd een indexeringsverzoek doet. Als deze richtlijn niet wordt gespecificeerd, kan dit een ernstige belasting van de server veroorzaken.

De optimale waarde voor crawlvertraging is voor elke site verschillend. Voor zoekmachines Mail, Bing en Yahoo kan de waarde worden ingesteld op een minimumwaarde van 0,25, 0,3, aangezien deze robots van zoekmachines uw site één keer per maand, twee maanden, enzovoort (zeer zelden) kunnen crawlen. Voor Yandex is het beter om een hogere waarde in te stellen.

Als de belasting van uw site minimaal is, heeft het geen zin om deze richtlijn te specificeren.

Clean-param-richtlijn

De regel is interessant omdat deze de crawler vertelt dat pagina's met bepaalde parameters niet geïndexeerd hoeven te worden. Er zijn twee argumenten opgegeven: pagina-URL en parameter. Deze richtlijn wordt ondersteund door de Yandex-zoekmachine.

Voorbeeld:

Niet toestaan: /admin/

Niet toestaan: /plugins/

Niet toestaan: /zoeken/

Niet toestaan: /winkelwagen/

Niet toestaan: *sort=

Niet toestaan: *bekijk=

User-agent: GoogleBot

Niet toestaan: /admin/

Niet toestaan: /plugins/

Niet toestaan: /zoeken/

Niet toestaan: /winkelwagen/

Niet toestaan: *sort=

Niet toestaan: *bekijk=

Toestaan: /plugins/*.css

Toestaan: /plugins/*.js

Toestaan: /plugins/*.png

Toestaan: /plugins/*.jpg

Toestaan: /plugins/*.gif

Gebruikersagent: Yandex

Niet toestaan: /admin/

Niet toestaan: /plugins/

Niet toestaan: /zoeken/

Niet toestaan: /winkelwagen/

Niet toestaan: *sort=

Niet toestaan: *bekijk=

Toestaan: /plugins/*.css

Toestaan: /plugins/*.js

Toestaan: /plugins/*.png

Toestaan: /plugins/*.jpg

Toestaan: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

In het voorbeeld hebben we de regels voor 3 verschillende bots opgeschreven.

Waar robots.txt toevoegen?

Toegevoegd aan de hoofdmap van de site. Bovendien, zodat u de link kunt volgen:

Hoe robots.txt controleren?

Yandex-webmaster

Op het tabblad Extra selecteert u Robots.txt-analyse en klikt u vervolgens op Controleren

Google Zoekconsole

Op het tabblad Scannen kiezen Robots.txt-bestandsinspectietool en klik vervolgens op controleren.

Conclusie:

Het robots.txt-bestand moet aanwezig zijn op elke website die wordt gepromoot, en alleen met de juiste configuratie kunt u de noodzakelijke indexering verkrijgen.

En tot slot, als je vragen hebt, stel ze dan in de reacties onder het artikel en ik vraag me ook af: hoe schrijf je robots.txt?

Het sitemap.xml-bestand en de juiste robots.txt voor de site zijn twee verplichte documenten die bijdragen aan de snelle en volledige indexering van alle noodzakelijke pagina's van een webbron door zoekrobots. Correcte site-indexering in Yandex en Google is de sleutel tot succesvolle blogpromotie in zoekmachines.

Ik heb al geschreven hoe je een sitemap in XML-formaat maakt en waarom deze nodig is. Laten we het nu hebben over hoe u de juiste robots.txt voor een WordPress-site kunt maken en waarom dit in het algemeen nodig is. Gedetailleerde informatie over dit bestand kunt u respectievelijk bij Yandex en Google zelf verkrijgen. Ik kom tot de kern en bespreek de basisinstellingen voor robots.txt voor WordPress, waarbij ik mijn bestand als voorbeeld gebruik.

Waarom heb je een robots.txt-bestand nodig voor een website?

De robots.txt-standaard verscheen in januari 1994. Bij het scannen van een webbron zoeken zoekrobots eerst naar het tekstbestand robots.txt, dat zich in de hoofdmap van de site of blog bevindt. Met zijn hulp kunnen we bepaalde regels specificeren voor robots van verschillende zoekmachines waarmee ze de site zullen indexeren.

Als u robots.txt correct instelt, kunt u:

sluit duplicaten en diverse ongewenste pagina's uit van de index;
het indexeren van pagina's, bestanden en mappen die we willen verbergen verbieden;
weigeren over het algemeen indexering voor sommige zoekrobots (bijvoorbeeld Yahoo, om informatie over inkomende links voor concurrenten te verbergen);
geef de hoofdspiegel van de site aan (met www of zonder www);
geef het pad naar de sitemap sitemap.xml op.

Hoe u de juiste robots.txt voor een site maakt

Hiervoor bestaan speciale generatoren en plug-ins, maar het is beter om dit handmatig te doen.

U hoeft alleen maar een gewoon tekstbestand te maken met de naam robots.txt, met behulp van een teksteditor (bijvoorbeeld Kladblok of Kladblok++) en dit te uploaden naar uw hosting in de hoofdmap van uw blog. In dit bestand moeten bepaalde richtlijnen worden geschreven, d.w.z. indexeringsregels voor robots van Yandex, Google, enz.

Als je te lui bent om je hiermee bezig te houden, dan zal ik hieronder, vanuit mijn standpunt, een voorbeeld geven van de juiste robots.txt voor WordPress van mijn blog. U kunt er gebruik van maken door de domeinnaam op drie plaatsen te vervangen.

Regels en richtlijnen voor het maken van Robots.txt

Voor een succesvolle zoekmachineoptimalisatie van een blog moet je enkele regels kennen voor het maken van robots.txt:

Het ontbrekende of lege robots.txt-bestand betekent dat zoekmachines alle inhoud van de webbron mogen indexeren.
robots.txt zou moeten openen op het adres uw site.ru/robots.txt, waardoor de robot een responscode van 200 OK krijgt en niet groter is dan 32 KB. Een bestand dat niet kan worden geopend (bijvoorbeeld vanwege een 404-fout) of groter is, wordt als oké beschouwd.
Het aantal richtlijnen in het bestand mag niet groter zijn dan 1024. De lengte van één regel mag niet groter zijn dan 1024 tekens.
Een geldig robots.txt-bestand kan meerdere instructies bevatten, die elk moeten beginnen met een User-agent-richtlijn en ten minste één Disallow-richtlijn moeten bevatten. Meestal schrijven ze instructies in robots.txt voor Google en alle andere robots en afzonderlijk voor Yandex.

Basis robots.txt-richtlijnen:

User-agent – geeft aan aan welke zoekrobot de instructie is gericht.

Het symbool “*” betekent dat dit voor alle robots geldt, bijvoorbeeld:

User-agent: *

Als we een regel in robots.txt voor Yandex moeten maken, schrijven we:

Gebruikersagent: Yandex

Als er een richtlijn is gespecificeerd voor een specifieke robot, wordt er geen rekening gehouden met de User-agent: * richtlijn.

Disallow en Allow – verbied en sta robots respectievelijk toe om de opgegeven pagina’s te indexeren. Alle adressen moeten worden opgegeven vanaf de hoofdmap van de site, d.w.z. beginnend vanaf de derde schuine streep. Bijvoorbeeld:

Verbiedt alle robots om de hele site te indexeren:
User-agent: *
Niet toestaan: /
Het is Yandex verboden om alle pagina's te indexeren die beginnen met /wp-admin:
Gebruikersagent: Yandex
Niet toestaan: /wp-admin
Met de lege Disallow-richtlijn kan alles worden geïndexeerd en is vergelijkbaar met Allow. Ik sta Yandex bijvoorbeeld toe de hele site te indexeren:
Gebruikersagent: Yandex
Niet toestaan:
En omgekeerd verbied ik alle zoekrobots om alle pagina's te indexeren:
User-agent: *
Toestaan:
Toestaan- en Disallow-instructies uit hetzelfde User-agent-blok worden gesorteerd op lengte van het URL-voorvoegsel en opeenvolgend uitgevoerd. Als meerdere richtlijnen geschikt zijn voor één pagina van de site, wordt de laatste in de lijst uitgevoerd. Nu doet de volgorde waarin ze worden geschreven er niet toe als de robot richtlijnen gebruikt. Als de richtlijnen voorvoegsels van dezelfde lengte hebben, wordt Allow eerst uitgevoerd. Deze regels zijn op 8 maart 2012 in werking getreden. Het staat bijvoorbeeld toe dat alleen pagina's die beginnen met /wp-includes worden geïndexeerd:
Gebruikersagent: Yandex
Niet toestaan: /
Toestaan: /wp-includes

Sitemap – Specificeert het XML-sitemapadres. Eén site kan meerdere sitemaprichtlijnen hebben, die kunnen worden genest. Alle sitemapbestandsadressen moeten worden opgegeven in robots.txt om de site-indexering te versnellen:

Sitemap: http://site/sitemap.xml.gz
Sitemap: http://site/sitemap.xml

Host – vertelt de spiegelrobot welke websitespiegel als de belangrijkste moet worden beschouwd.

Als de site op meerdere adressen toegankelijk is (bijvoorbeeld met www en zonder www), ontstaan er compleet dubbele pagina's, die door het filter kunnen worden opgevangen. Ook in dit geval is het mogelijk niet de hoofdpagina die wordt geïndexeerd, maar wordt de hoofdpagina daarentegen uitgesloten van de index van de zoekmachine. Om dit te voorkomen, gebruikt u de Host-richtlijn, die in het robots.txt-bestand alleen voor Yandex bedoeld is en er kan er maar één zijn. Het is geschreven na Disallow en Allow en ziet er als volgt uit:

Gastheer: website

Crawl-delay – stelt de vertraging tussen het downloaden van pagina's in seconden in. Wordt gebruikt als er sprake is van zware belasting en de server geen tijd heeft om verzoeken te verwerken. Op jonge sites is het beter om de Crawl-delay-richtlijn niet te gebruiken. Het is als volgt geschreven:

Gebruikersagent: Yandex
Kruipvertraging: 4

Clean-param - alleen ondersteund door Yandex en wordt gebruikt om dubbele pagina's met variabelen te elimineren en ze samen te voegen tot één pagina. De Yandex-robot zal dus niet vaak soortgelijke pagina's downloaden, bijvoorbeeld pagina's die zijn gekoppeld aan verwijzingslinks. Ik heb deze richtlijn nog niet gebruikt, maar in de hulp op robots.txt voor Yandex volgt u de link aan het begin van het artikel, u kunt deze richtlijn in detail lezen.

De speciale tekens * en $ worden in robots.txt gebruikt om de paden van de Disallow- en Allow-richtlijnen aan te geven:

Het speciale teken “*” betekent een willekeurige reeks tekens. Disallow: /*?* betekent bijvoorbeeld een verbod op alle pagina's waar “?” in het adres voorkomt, ongeacht welke tekens vóór en na dit teken komen. Standaard wordt het speciale teken “*” toegevoegd aan het einde van elke regel, zelfs als dit niet specifiek is opgegeven.
Het “$”-symbool annuleert de “*” aan het einde van de regel en betekent strikte matching. De Disallow: /*?$ richtlijn verbiedt bijvoorbeeld het indexeren van pagina's die eindigen met het teken “?”.

Voorbeeld robots.txt voor WordPress

Hier is een voorbeeld van mijn robots.txt-bestand voor een blog op de WordPress-engine:

User-agent: * Niet toestaan: /cgi-bin Niet toestaan: /wp-admin Niet toestaan: /wp-includes Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Niet toestaan: /wp-content/themes Niet toestaan: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Niet toestaan: /cgi-bin Niet toestaan: /wp-admin Niet toestaan: /wp-includes Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Niet toestaan: /wp-content/themes Niet toestaan: /trackback Niet toestaan: */ trackback Niet toestaan: */*/trackback Niet toestaan: /feed/ Niet toestaan: */*/feed/*/ Niet toestaan: */feed Niet toestaan: /*?* Niet toestaan: /?.ru/sitemap.xml..xml

User-agent: * Niet toestaan: /cgi-bin Niet toestaan: /wp-admin Niet toestaan: /wp-includes Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Niet toestaan: /wp-content/themes Niet toestaan: / trackback Niet toestaan: */trackback Niet toestaan: */*/trackback Niet toestaan: /feed/ Niet toestaan: */*/feed/*/ Niet toestaan: */feed Niet toestaan: /*?* Niet toestaan: /?s= User-agent: Yandex Niet toestaan: /cgi-bin Niet toestaan: /wp-admin Niet toestaan: /wp-includes Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Niet toestaan: /wp-content/themes Niet toestaan: /trackback Niet toestaan: */ trackback Niet toestaan: */*/trackback Niet toestaan: /feed/ Niet toestaan: */*/feed/*/ Niet toestaan: */feed Niet toestaan: /*?* Niet toestaan: /?.ru/sitemap.xml..xml

Om jezelf niet voor de gek te houden bij het maken van de juiste robots.txt voor WordPress, kun je dit bestand gebruiken. Er zijn geen problemen met indexeren. Ik heb een kopieerbeveiligingsscript, dus het is handiger om kant-en-klare robots.txt te downloaden en naar uw hosting te uploaden. Vergeet niet om de naam van mijn site te vervangen door de jouwe in de Host- en Sitemap-richtlijnen.

Handige toevoegingen voor het goed instellen van het robots.txt bestand voor WordPress

Als boomreacties op uw WordPress-blog zijn geïnstalleerd, creëren ze dubbele pagina's van het formulier ?replytocom= . In robots.txt worden dergelijke pagina's gesloten met de Disallow: /*?* richtlijn. Maar dit is geen oplossing en het is beter om de verboden op te heffen en Replytocom op een andere manier te bestrijden. Wat, .

De huidige robots.txt vanaf juli 2014 ziet er dus als volgt uit:

User-agent: * Disallow: /wp-includes Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes User-agent: Yandex Disallow: /wp -inclusief Disallow: /wp-feed Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru User-agent: Googlebot-Image Toestaan: /wp-content /uploads/ User-agent: YandexImages Toestaan: /wp-content/uploads/ Sitemap: http://site.ru/sitemap.xml

Het bevat bovendien de regels voor beeldindexeringsrobots.

User-agent: Mediapartners-Google
Niet toestaan:

Als u van plan bent categorie- of tagpagina's te promoten, moet u deze openstellen voor robots. Op een blogwebsite zijn categorieën bijvoorbeeld niet uitgesloten van indexering, omdat ze alleen kleine aankondigingen van artikelen publiceren, wat vrij onbeduidend is in termen van het dupliceren van inhoud. En als je gebruik maakt van de weergave van citaten in de blogfeed, die gevuld zijn met unieke aankondigingen, dan zal er helemaal geen sprake zijn van duplicatie.

Als u de bovenstaande plug-in niet gebruikt, kunt u in uw robots.txt-bestand opgeven dat indexering van tags, categorieën en archieven wordt verboden. Voeg bijvoorbeeld de volgende regels toe:

Niet toestaan: /auteur/
Niet toestaan: /tag
Niet toestaan: /category/*/*
Niet toestaan: /20*

Vergeet niet het robots.txt-bestand in het Yandex.Webmaster-paneel te controleren en het vervolgens opnieuw naar uw hosting te uploaden.

Als je aanvullingen hebt om robots.txt te configureren, schrijf hierover dan in de reacties. Bekijk nu een video over wat het is en hoe u de juiste robots.txt voor een site kunt maken, hoe u indexering in het robots.txt-bestand kunt verbieden en fouten kunt corrigeren.

Leestijd: 7 minuut(en)

Bijna elk project dat bij ons binnenkomt voor audit of promotie bevat een onjuist robots.txt-bestand, en vaak ontbreekt dit zelfs helemaal. Dit gebeurt omdat iedereen zich bij het maken van een bestand laat leiden door zijn verbeeldingskracht, en niet door de regels. Laten we eens kijken hoe we dit bestand correct kunnen samenstellen, zodat zoekrobots er effectief mee kunnen werken.

Waarom moet u robots.txt configureren?

Robots.txt is een bestand in de hoofdmap van een site dat de robots van zoekmachines vertelt tot welke secties en pagina's van de site ze toegang hebben en welke niet.

Het instellen van robots.txt is een belangrijk onderdeel van de zoekresultaten van zoekmachines; correct geconfigureerde robots verhogen ook de prestaties van de site. Het ontbreken van Robots.txt zal zoekmachines er niet van weerhouden uw site te crawlen en te indexeren, maar als u dit bestand niet heeft, kunt u twee problemen ondervinden:

De zoekrobot zal de hele site lezen, wat het crawlbudget zal “ondermijnen”. Het crawlbudget is het aantal pagina's dat een zoekrobot in een bepaalde periode kan crawlen.

Zonder een robotsbestand heeft de zoekmachine toegang tot concept- en verborgen pagina's, tot honderden pagina's die worden gebruikt om het CMS te beheren. Het zal ze indexeren, en als het gaat om de noodzakelijke pagina’s die directe inhoud aan bezoekers bieden, zal het crawlbudget ‘opraken’.

De index kan de inlogpagina van de site en andere beheerdersbronnen bevatten, zodat een aanvaller deze gemakkelijk kan volgen en een ddos-aanval kan uitvoeren of de site kan hacken.

Hoe zoekrobots een site met en zonder robots.txt zien:

Robots.txt-syntaxis

Voordat we de syntaxis gaan begrijpen en robots.txt gaan instellen, gaan we eerst kijken hoe het “ideale bestand” eruit zou moeten zien:

Maar je moet het niet meteen gebruiken. Elke site vereist meestal zijn eigen instellingen, omdat we allemaal een andere sitestructuur en een ander CMS hebben. Laten we elke richtlijn in volgorde bekijken.

User-agent

User-agent - definieert een zoekrobot die de instructies moet volgen die in het bestand worden beschreven. Als u iedereen tegelijk wilt aanspreken, gebruikt u het *-pictogram. U kunt ook contact opnemen met een specifieke zoekrobot. Yandex en Google bijvoorbeeld:

Met behulp van deze richtlijn begrijpt de robot welke bestanden en mappen niet mogen worden geïndexeerd. Als u wilt dat uw hele site openstaat voor indexering, laat u de waarde Disallow leeg. Om alle inhoud op de site na Disallow te verbergen, plaatst u “/”.

We kunnen de toegang tot een specifieke map, bestand of bestandsextensie voorkomen. In ons voorbeeld nemen we contact op met alle zoekrobots en blokkeren we de toegang tot de bitrix, zoekmap en de pdf-extensie.

Toestaan

Toestaan dat pagina's en gedeelten van de site worden geïndexeerd. In het bovenstaande voorbeeld nemen we contact op met de Google-zoekrobot, blokkeren de toegang tot de bitrix, zoekmap en de pdf-extensie. Maar in de bitrix-map forceren we het openen van 3 mappen voor indexering: componenten, js, tools.

Host - sitespiegel

Een mirrorsite is een duplicaat van de hoofdsite. Mirrors worden voor verschillende doeleinden gebruikt: het wijzigen van het adres, beveiliging, het verminderen van de belasting van de server, enz.

Gastheer is een van de belangrijkste regels. Als deze regel wordt opgeschreven, begrijpt de robot met welke spiegels van de site rekening moet worden gehouden bij het indexeren. Deze richtlijn is nodig voor Yandex- en Mail.ru-robots. Andere robots zullen deze regel negeren. Host wordt slechts één keer geregistreerd!

Voor de protocollen ‘https://’ en ‘http://’ zal de syntaxis in het robots.txt-bestand anders zijn.

Sitemap - sitemap

Een sitemap is een vorm van sitenavigatie die wordt gebruikt om zoekmachines over nieuwe pagina's te informeren. Met behulp van de sitemaprichtlijn laten we de robot ‘met geweld’ zien waar de kaart zich bevindt.

Symbolen in robots.txt

In het bestand gebruikte symbolen: “/, *, $, #”.

Functionaliteit controleren na het instellen van robots.txt

Nadat u Robots.txt op uw website heeft geplaatst, moet u deze toevoegen en controleren in de webmaster van Yandex en Google.

Yandex-controle:

Volg de link https://webmaster.yandex.ru/tools/robotstxt/.
Selecteer: Indexeringsinstellingen - Robots.txt-analyse.

Google-controle:

Ga naar https://support.google.com/webmasters/answer/6062598.
Selecteer: Scannen - Robots.txt-bestandsinspectietool.

Zo kun je jouw robots.txt controleren op fouten en indien nodig de nodige aanpassingen maken.

De inhoud van het bestand moet in hoofdletters worden geschreven.
Er hoeft slechts één bestand of map te worden opgegeven in de Disallow-richtlijn.
De regel "User-agent" mag niet leeg zijn.
User-agent moet altijd vóór Disallow komen.
Vergeet niet een schuine streep toe te voegen als u het indexeren van een directory wilt uitschakelen.
Voordat u een bestand naar de server uploadt, moet u het controleren op syntaxis- en spelfouten.