Bestrijding van dubbele pagina's. Correcte methoden voor het verwijderen van dubbele pagina's Laten we eerst eens kijken naar de tag #more

Wist u dat u op elke website duplicaten kunt vinden? Natuurlijk, als niemand ze eerder heeft overwonnen. Ik zal je nu vertellen hoe je ze voor één keer kunt verwijderen en... niet voor altijd natuurlijk, aangezien er nieuwe verschijnen. Dit probleem moet voortdurend in de gaten worden gehouden. Een tijdige reactie op bestaande duplicaten, en het voorkomen van nieuwe, zal de moeite waard zijn, geloof me.

Een kleine samenvatting (“In eerdere afleveringen”): we hebben er al over geleerd, over hoe ze de site bedreigen; over degenen die natuurlijk niet gevonden willen worden. Ze willen het je opleggen.

Alle gevolgen van dubbele content zijn duidelijk, maar dit maakt het er niet eenvoudiger op. Dit betekent dat u moet vechten en de controle over de indexering van de site in eigen handen moet nemen.

Methoden voor het omgaan met interne duplicaten

404-fout

Dit is een eenvoudige verwijdering van een dubbele pagina. Deze methode is alleen geschikt als de pagina geen enkel voordeel oplevert voor sitebezoekers. Bovendien kunt u deze pagina verwijderen uit de index in Google Webmaster. Het is belangrijk dat er geen andere pagina's op de site linken naar de verwijderde pagina, anders zal de robot proberen deze steeds opnieuw te indexeren en regelmatig een indexeringsfout in de webmaster genereren, en een 404() op de site. Als alles correct is gedaan, zal de pagina na een tijdje in de vergetelheid raken.

Plus: geen dubbele pagina – geen probleem.

Minus: de pagina zou volkomen nutteloos moeten zijn (waarom zulke dingen maken?), en er mogen geen links naar zijn.

301 omleiding

Het betekent dat de pagina permanent is verplaatst (in tegenstelling tot 302, wat betekent dat de pagina tijdelijk is verplaatst). Een 301-redirect is geschikt als de dubbele pagina niet geheel nutteloos is, maar juist verkeer genereert en backlinks heeft. Het brengt gewicht over van de ene pagina naar de andere. Maar in tegenstelling tot wat vaak wordt gedacht, wordt het gewicht niet volledig overgedragen; een deel ervan gaat nog steeds verloren. In het bestand kunt u een 301-redirect registreren .htaccess, in het algemeen zal het zo zijn:

RedirectPermanent /oude pagina http://www.site.ru/nieuwe-pagina/

Een 301-redirect is niet alleen geschikt voor het omgaan met dubbele inhoud, maar ook voor tijdelijke pagina's (bijvoorbeeld promotiepagina's op een site die niet worden gearchiveerd, maar eenvoudigweg worden verwijderd en een 404-fout weergeven), die weer backlinks kunnen hebben. Het is beter om dergelijke pagina's om te leiden naar andere, meest relevante pagina's op de site. Als er geen zijn, kunt u naar de hoofdpagina gaan.

Plus: lijmt pagina's aan elkaar, is universeel en is ook zeer geschikt voor het oplossen van het probleem van een site met www en zonder www.

Minus: Een 301-omleiding zorgt ervoor dat de pagina waarvandaan deze is verzonden, niet meer beschikbaar is. Maar als je dit nodig hebt, dan is dit helemaal geen minpunt.

Rel=canoniek

Sinds 2009 heeft Google, en later Yandex, deze tag geïntroduceerd. Het vertelt zoekrobots welke van 2 of meer pagina's moet worden gerangschikt. Canoniek staat in de tag geschreven elk van de pagina's waarvoor het wordt toegepast. Het ziet er zo uit:

Het is belangrijk dat elk van de canonieke pagina's (d.w.z. waarop de tag rel=canonical is geschreven) naar dezelfde pagina verwijst (die zal worden gerangschikt), maar in geen geval naar zichzelf, anders gaat de hele betekenis verloren. Wanneer de robot op een pagina komt met de tag rel=canonical, lijkt het erop dat deze pagina wordt gekoppeld aan de pagina die in de tag is aangegeven, waardoor ze aan elkaar worden gelijmd. Dus als u cache:site.ru/stranitsa-duplicatet in Google typt en de cache voor site.ru/kanon ziet, hebt u alles correct gedaan.

Plus: Er zullen twee of meer pagina's beschikbaar zijn voor gebruikers op de site, maar slechts één pagina zal beschikbaar zijn voor zoekmachines, en dit gebeurt zonder enige vorm van fraude.

Minus: Ik zie geen nadelen. Wie kan het vertellen?

Robots.txt

Dubbele pagina's kunnen ook worden verboden in het robots.txt-bestand. Ze worden dus niet geïndexeerd door zoekrobots, maar zijn beschikbaar op de site.

Plus: gebruiksgemak.

Minus: u moet zorgvuldig begrijpen wat u moet verbieden en hoe u dit in robots.txt kunt weergeven, om niet per ongeluk de indexering van een deel van de site of de hele site te verbieden. Bovendien verwijdert het verbieden van reeds geïndexeerde pagina's in robots.txt ze niet uit de index; dit zal handmatig in Webmaster moeten gebeuren, wat volkomen lastig is als er veel van dergelijke pagina's zijn.

Vandaar de conclusie: ‘ongewenste’ pagina’s kun je het beste vooraf verbieden en zorgvuldig doen.

Meta-robots

U kunt de site-indexering ook beheren met behulp van meta-robots: INDEX/GEENINDEX En VOLG/NIET VOLG. Meestal is de standaardwaarde voor elke pagina INDEX, FOLLOW, wat betekent: de pagina wordt geïndexeerd en de robot volgt de links ervan. Om van een dubbele pagina af te komen, kunt u deze insluiten in de tags NOINDEX,NOFOLLOW (de pagina is niet geïndexeerd en de robot volgt de links ervan niet), maar nog beter - NOINDEX, FOLLOW (de pagina is niet geïndexeerd , maar de robot volgt de links die erop staan ).

Er is een speciale plug-in in WordPress - WordPress Meta Robots - deze helpt u bij het instellen van meta-robots voor elke pagina of post.

Het insluiten van een pagina in de NOINDEX, FOLLOW-tags is goed voor pagina's met nummering (dit is een van de manieren om duplicaten erop te bestrijden).

Plus: deze metatag is zelfs eenvoudiger dan robots.txt, omdat deze op een aparte pagina is geschreven en je niet per ongeluk de indexering van een hele sectie verhindert.

minus: Idealiter zouden robots natuurlijk correct moeten begrijpen wat u hen wilt overbrengen. Maar soms komen pagina's met NOINDEX toch in de index terecht.

Een pagina verwijderen uit de index in Google Webmaster

Deze tool voor het verwijderen van pagina's bevindt zich in Webmaster > Siteconfiguratie > Robottoegang > URL verwijderen. Dit instrument moet als laatste en het beste worden gebruikt in combinatie met andere maatregelen. Voor het verwijderen van pagina’s (voor Google) kunnen verschillende zaken als basis dienen: als de pagina’s een 404-foutmelding geven, als ze verboden zijn in robots.txt of het gebruik van meta-robots. Als de pagina's nergens verboden zijn, zal Google ze uiteraard verwijderen als u daarom vraagt, maar slechts voor 90 dagen.

Plus: het versnellen van het verwijderen van pagina's uit de index als u ze al ergens hebt verbannen.

Minus: arbeidsintensief, omdat elke URL handmatig aan de verwijderingswachtrij wordt toegevoegd, en dit kan veel tijd in beslag nemen. Dus als er veel onnodige pagina's in de index staan, is het handmatig verwijderen van deze pagina's geen optie.

Blokkeerparameters in Google Webmaster

Laten we naar gaan Webmaster> Siteconfiguratie> URL-parameters

Hier vindt u een lijst met dynamische parameters die de Google-robot op uw site heeft gedetecteerd, evenals de regels voor het indexeren ervan. Standaard beslist Google zelf of pagina's met dynamische parameters in de adressen worden geïndexeerd (het verbod op indexeren met andere middelen, zoals robots.txt, wordt hier niet weergegeven). Indexering kan worden uitgeschakeld door de optie “Nee” te selecteren, wat inhoudt dat het toevoegen van parameters aan het pagina-adres de inhoud ervan niet verandert, dat wil zeggen dat er een duplicaat ontstaat.

Plus: u kunt eenvoudig voorkomen dat pagina’s met dynamische parameters worden geïndexeerd, wat meestal lastig is (bijv. antwoord op com op WP). In deze tool kun je ook parameters vinden waarvan je niet wist dat ze op de site bestonden.

Minus: Alleen Google heeft begrip voor een dergelijk verbod, wat betekent dat Yandex nog steeds pagina's met dynamische parameters zal indexeren, tenzij er andere maatregelen worden genomen (dezelfde robots.txt).

In september 2011 introduceerde Google rel=Prev en rel=Next, die zijn ontworpen om webmasters te helpen omgaan met dubbele inhoud wanneer ze genummerde pagina's hebben.

Net als alle andere metagegevens worden deze tags erin geschreven pagina's. De essentie is dit:

Plus: Je vertelt Google dat je genummerde pagina's hebt, zodat Google deze niet als duplicaten telt.

Minus: Nogmaals, deze tags worden momenteel alleen ondersteund door Google. Sommige mensen beschouwen deze methode niet geschikt voor het omgaan met duplicaten, omdat het gewicht van alle pagina's met rel=Prev en rel=Next gelijkmatig wordt verdeeld, dat wil zeggen dat de 15e pagina theoretisch dezelfde kans heeft om op de ranglijst te komen als de 1e.

Externe duplicaten bestrijden

Externe duplicaten worden meestal niet gemaakt door webmasters, maar zij zijn degenen die met dit fenomeen te maken krijgen. En hier zijn enkele manieren.

Metatags voor bronkenmerken

In november 2010 introduceerde Google metatags voor bronkenmerken. Het wordt gebruikt voor nieuws en recensies, die vaak opnieuw op verschillende sites worden gepubliceerd. De metatag voor het bronkenmerk ziet er als volgt uit:

Deze tag wordt in de tag geplaatst pagina die de tekst kopieert en de inhoud aangeeft originele bron.

Plus: Deze metatag lost het probleem van talrijke externe duplicaten op.

Minus: Metatags voor bronkenmerken worden alleen ondersteund door Google.

Rel-canoniek tussen domeinen

Het systeem is hetzelfde als rel-canoniek binnen de site: een duplicaat canoniseert de originele bron van elke tekst, nieuws.

Plus: Ongeacht de aanwezigheid van externe duplicaten, wordt uw site niet beïnvloed.

Minus: alleen Google wordt ondersteund (ik heb dit al ergens gehoord).

Geniet van het ontvangen van backlinks

Iedereen weet dat het erg moeilijk kan zijn om inhouddieven zover te krijgen dat ze deze van hun sites verwijderen. Daarom kunt u troost voor uzelf vinden: backlinks van hun sites, aangezien veel dieven niet alleen links naar uw site achterlaten in de tekst van gekopieerde artikelen, maar ze ook niet blokkeren voor indexering. Daarom (en niet alleen om deze reden natuurlijk) vergeten we niet om interne links tussen onze pagina's en artikelen te creëren.

Eindelijk

Links naar dubbele pagina's

Wanneer dubbele pagina's worden 'geëlimineerd', moet u stoppen met het linken naar deze pagina's vanuit zowel externe bronnen als de site zelf. Als u een 301-omleiding (of rel=canonical) heeft ingesteld: link naar de pagina waarnaar deze is doorverwezen om maximaal effect te krijgen. Door te voorkomen dat een pagina wordt geïndexeerd, maar er vanuit externe bronnen naar te linken, verzendt u tegenstrijdige instructies naar zoekmachines, wat problemen kan veroorzaken.

Doe niets

U kunt eenvoudigweg uw ogen sluiten voor dubbele inhoud en hopen dat zoekmachines zelf zullen begrijpen wat er moet worden geïndexeerd en wat niet. Dit is een goede oplossing als u slechts een paar dubbele pagina's heeft, maar het kan een probleem zijn als uw site groot is en veel dubbele pagina's heeft, of als uw site genadeloos wordt gekopieerd. Uiteindelijk is het aan jou.

Nog laatste woorden? Ieder van ons wil uniek zijn en waarom zijn onze sites, in tegenstelling tot wie dan ook, slechter? Ze moeten ook uniek zijn, dus kopieer ze niet en laat anderen dat ook niet doen! En ja, abonneer je op updates!

Aanleiding voor het schrijven van dit artikel was opnieuw een telefoontje van een accountant die in paniek was voordat hij de BTW-aangifte indiende. Het afgelopen kwartaal heb ik veel tijd besteed aan het opruimen van de duplicaten van tegenpartijen. En opnieuw zijn ze hetzelfde en nieuw. Waar?

Ik besloot tijd te besteden aan het aanpakken van de oorzaak, niet het gevolg. De situatie is vooral relevant wanneer automatische uploads worden geconfigureerd via uitwisselingsplannen van het besturingsprogramma (in mijn geval UT 10.3) naar de bedrijfsboekhoudingsafdeling (in mijn geval 2.0).

Enkele jaren geleden zijn deze configuraties geïnstalleerd en is er een automatische uitwisseling tussen deze configuraties geconfigureerd. We werden geconfronteerd met het probleem van de originaliteit van het bijhouden van een register van tegenpartijen door de verkoopafdeling, die om de een of andere reden dubbele tegenpartijen begon te creëren (met dezelfde INN/KPP/Naam) (ze verspreidden dezelfde tegenpartij in verschillende groepen ). De boekhoudafdeling drukte haar "fi" uit en besloot - het maakt ons niet uit wat ze hebben, combineer de kaarten bij het laden in één. Ik moest ingrijpen in het proces van het overbrengen van objecten met behulp van de uitwisselingsregels. Voor tegenpartijen hebben we de zoekopdracht op interne identificatie verwijderd en de zoekopdracht op INN+KPP+Naam verlaten. Maar zelfs hier kwamen valkuilen naar voren in de vorm van mensen die graag de namen van tegenpartijen hernoemen (als gevolg daarvan worden door de regels zelf duplicaten in de BP gecreëerd). We kwamen allemaal bij elkaar, bespraken, besloten, waren ervan overtuigd dat duplicaten onaanvaardbaar zijn op de UT, verwijderden ze en keerden terug naar de standaardregels.

Het is alleen zo dat na het ‘kammen’ van de duplicaten in de UT en BP, de interne identificatiegegevens van veel aannemers verschillend waren. En aangezien de standaard uitwisselingsregels uitsluitend zoeken naar objecten op basis van de interne identificatiecode, arriveerde bij het volgende deel van de documenten een nieuwe tegenpartij van de tegenpartij in de ZP (als deze identificatiegegevens verschillend waren). Maar Universal XML Data Interchange zou niet universeel zijn als dit probleem niet kon worden omzeild. Omdat Omdat het onmogelijk is om de identificatie van een bestaand object met standaardmiddelen te wijzigen, kunt u deze situatie omzeilen met behulp van een speciaal informatieregister “Correspondentie van objecten voor uitwisseling”, dat in alle standaardconfiguraties van 1C beschikbaar is.

Om nieuwe duplicaten te voorkomen, werd het algoritme voor het verwijderen van duplicaten als volgt:

1. In de BP, met behulp van de verwerking “Dubbele elementen zoeken en vervangen” (dit is standaard, het kan worden overgenomen uit de Trade Management-configuratie of op de ITS-schijf, of u kunt de meest geschikte selecteren uit de vele variaties op Infostart zelf) Ik vind een duplicaat, bepaal het juiste element, klik op vervanging uitvoeren.

2. Ik krijg de interne identificatie van het enige (na vervanging) object van onze take (ik heb hiervoor een speciaal eenvoudige verwerking geschetst, zodat de interne identificatie automatisch naar het klembord wordt gekopieerd).

3. Ik open het register ‘Conformiteit ruilobjecten’ op de UT en maak via mijn eigen link een selectie.

Dubbele pagina's zijn een van de vele redenen voor lagere posities in de zoekresultaten en zelfs onder het filter vallen. Om dit te voorkomen, moet u voorkomen dat ze in de index van zoekmachines terechtkomen.

Er zijn verschillende manieren om de aanwezigheid van duplicaten op een site vast te stellen en deze te verwijderen, maar de ernst van het probleem is dat duplicaten niet altijd nutteloze pagina's zijn; ze horen gewoon niet in de index te staan.

We zullen dit probleem nu oplossen, maar eerst zullen we ontdekken wat duplicaten zijn en hoe ze ontstaan.

Wat zijn dubbele pagina's

Dubbele pagina's zijn een kopie van de inhoud van de canonieke (hoofd)pagina, maar met een andere url. Het is belangrijk op te merken dat ze zowel volledig als gedeeltelijk kunnen zijn.

Volledige duplicatie is een exacte kopie, maar met een eigen adres, waarvan het verschil kan worden gemanifesteerd in een schuine streep, de afkorting www, vervanging van parameters index.php?, pagina=1, pagina/1, enz.

Gedeeltelijke duplicatie manifesteert zich in het onvolledig kopiëren van inhoud en wordt geassocieerd met de structuur van de site, wanneer artikelcatalogusaankondigingen, archieven, inhoud uit de zijbalk, pagineringspagina's en andere end-to-end-elementen van de bron op de canonieke pagina worden geïndexeerd. Dit is inherent aan de meeste CMS en online winkels, waarbij de aanwezigheid van een catalogus een integraal onderdeel is van de structuur.

We hebben al gesproken over de gevolgen van het voorkomen van duplicaten, en dit gebeurt als gevolg van de verdeling van referentiemassa tussen duplicaten, vervanging van pagina's in de index, verlies van uniekheid van inhoud, enz.

Hoe dubbele pagina's op een website te vinden

Om duplicaten te vinden, kunt u de volgende methoden gebruiken:

Google-zoekbalk. Met behulp van de bouwsite:myblog.ru, waarbij myblog.ru uw URL is, worden pagina's uit de hoofdindex geïdentificeerd. Om duplicaten te zien, moet je naar de laatste pagina met zoekresultaten gaan en op de regel "verborgen resultaten weergeven" klikken;
Commando "Geavanceerd zoeken" in Yandex. Door het adres van uw site in een speciaal venster aan te geven en een van de zinnen van het geïndexeerde artikel dat wordt gecontroleerd tussen aanhalingstekens in te voeren, zouden we slechts één resultaat moeten krijgen. Als er meer zijn, zijn dit duplicaten;
werkbalk voor webmasters in PS;
handmatig, door slash, www, html, asp, php, hoofdletters en kleine letters in de adresbalk in te voegen. In alle gevallen moet er een doorverwijzing plaatsvinden naar de pagina met het hoofdadres;
speciale programma's en diensten: Xenu, MegaIndex, enz.

Dubbele pagina's verwijderen

Er zijn ook verschillende manieren om duplicaten te elimineren. Ieder van hen heeft de impact en gevolgen ervan, dus het is niet nodig om over het meest effectieve te praten. Houd er rekening mee dat fysieke vernietiging van het geïndexeerde duplicaat geen oplossing is: zoekmachines zullen zich dit nog steeds herinneren. Daarom is de beste methode om met duplicaten om te gaan het voorkomen ervan met behulp van de juiste instellingen voor de site.

Hier volgen enkele manieren om duplicaten te verwijderen:

Robots.txt instellen. Hiermee kunt u voorkomen dat bepaalde pagina's worden geïndexeerd. Maar als Yandex-robots gevoelig zijn voor dit bestand, legt Google zelfs pagina's vast die erdoor worden gesloten, zonder in het bijzonder rekening te houden met de aanbevelingen ervan. Bovendien is het erg moeilijk om geïndexeerde duplicaten te verwijderen met Robots.txt;
301 omleiding. Het helpt om opnames samen te voegen met de canonieke pagina. De methode werkt, maar is niet altijd nuttig. Het kan niet worden gebruikt in gevallen waarin duplicaten onafhankelijke pagina's moeten blijven, maar niet mogen worden geïndexeerd;
Een 404-fout toewijzen geïndexeerde duplicaten. De methode is erg goed om ze te verwijderen, maar het zal enige tijd duren voordat het effect optreedt.

Als u niets aan elkaar kunt lijmen of niets kunt verwijderen, maar u wilt geen paginagewicht verliezen en gestraft worden door zoekmachines, dan kunt u gebruik maken van rel canoniek href-attribuut.

Het rel canonieke attribuut om duplicaten te bestrijden

Ik zal beginnen met een voorbeeld. De online winkel heeft twee pagina's met productkaarten met identieke inhoud, maar op de ene zijn de producten in alfabetische volgorde gerangschikt en op de andere op kosten. Beide zijn nodig en omleiding is niet toegestaan. Tegelijkertijd is dit voor zoekmachines een duidelijke dubbelganger.

In dit geval is het rationeel om de tag te gebruiken link rel canoniek, wat verwijst naar een canonieke pagina die wordt geïndexeerd, maar de niet-primaire pagina blijft beschikbaar voor gebruikers.

Dit gebeurt als volgt: in het hoofdblok van de code van dubbele pagina's wordt een link aangegeven “link rel=”canonical” href=”http://site.ru/osnovnaya stranitsa”/”, waarbij stranitsa het adres is van de canonieke pagina.

Met deze aanpak kan de gebruiker vrijelijk elke pagina van de site bezoeken, maar de robot, nadat hij het rel canonieke attribuut in de code heeft gelezen, zal alleen degene gaan indexeren waarvan het adres in de link wordt aangegeven.

Dit attribuut kan nuttig zijn en voor pagina's met paginering. In dit geval maken ze een ‘Alles weergeven’-pagina (een soort ‘voetdoek’) en beschouwen deze als canoniek, en de pagineringspagina’s sturen de robot er via rel canonical naartoe.

De keuze van de methode om paginaduplicatie tegen te gaan, hangt dus af van de aard van de pagina voorkomen en noodzaak aanwezigheid op de site.

Bestrijding van dubbele pagina's

De eigenaar vermoedt misschien niet eens dat sommige pagina's op zijn site kopieën hebben - meestal is dit het geval. De pagina's gaan open, alles is in orde met de inhoud, maar als je alleen maar op de pagina let, zul je merken dat de adressen voor dezelfde inhoud verschillend zijn. Wat betekent het? Voor live gebruikers helemaal niets, omdat ze geïnteresseerd zijn in de informatie op de pagina's, maar zielloze zoekmachines ervaren dit fenomeen heel anders - voor hen zijn dit totaal verschillende pagina's met dezelfde inhoud.

Zijn dubbele pagina's schadelijk? Dus als een gewone gebruiker de aanwezigheid van duplicaten op uw site niet eens kan opmerken, zullen zoekmachines dit onmiddellijk vaststellen. Welke reactie mag je van hen verwachten? Omdat de kopieën in wezen als verschillende pagina's worden gezien, is de inhoud ervan niet langer uniek. En dit heeft nu al een negatieve impact op de rankings.

Bovendien vervaagt de aanwezigheid van duplicaten het beeld dat de optimalisatie op de landingspagina probeerde te concentreren. Door duplicaten kan het zijn dat het op een compleet andere pagina terechtkomt dan waar ze het naartoe wilden verplaatsen. Dat wil zeggen dat het effect van interne links en externe links aanzienlijk kan worden verminderd.

In de overgrote meerderheid van de gevallen is de oorzaak te wijten aan duplicaten; door onjuiste instellingen en gebrek aan aandacht van de optimalisatie worden duidelijke kopieën gegenereerd. Dit is het probleem met veel CMS'en, bijvoorbeeld Joomla. Het is moeilijk om een universeel recept te vinden om het probleem op te lossen, maar u kunt proberen een van de plug-ins te gebruiken om kopieën te verwijderen.

Het voorkomen van onduidelijke duplicaten, waarbij de inhoud niet geheel identiek is, is meestal te wijten aan de schuld van de webmaster. Dergelijke pagina's zijn vaak te vinden op sites van online winkels, waar pagina's met productkaarten slechts in een paar zinnen met een beschrijving verschillen, en de rest van de inhoud, bestaande uit end-to-end blokken en andere elementen, hetzelfde is.

Veel experts beweren dat een klein aantal duplicaten de site niet zal schaden, maar als er meer dan 40-50% is, kan de bron tijdens de promotie met ernstige problemen worden geconfronteerd. Hoe dan ook, zelfs als er niet veel kopieën zijn, is het de moeite waard om ze te verwijderen, zodat u gegarandeerd van problemen met duplicaten afkomt.

Kopieerpagina's zoeken Er zijn verschillende manieren om dubbele pagina's te vinden, maar eerst moet u contact opnemen met verschillende zoekmachines en zien hoe zij uw site zien. U hoeft alleen maar het aantal pagina's in de index van elke pagina te vergelijken. Dit is vrij eenvoudig te doen, zonder gebruik te maken van extra middelen: voer in Yandex of Google gewoon host:uwsite.ru in de zoekbalk in en kijk naar het aantal resultaten.

Als na zo'n eenvoudige controle de hoeveelheid 10-20 keer sterk verschilt, kan dit met enige waarschijnlijkheid wijzen op de inhoud van duplicaten in een van hen. Kopieerpagina's zijn misschien niet de oorzaak van dit verschil, maar het geeft niettemin aanleiding tot verder en grondiger zoeken. Als de site klein is, kunt u handmatig het aantal echte pagina's tellen en deze vervolgens vergelijken met indicatoren van zoekmachines.

U kunt zoeken naar dubbele pagina's via de URL in de zoekresultaten van de zoekmachine. Als ze over CNC moeten beschikken, zullen pagina's met URL's die onbegrijpelijke tekens bevatten, zoals "index.php?s=0f6b2903d", onmiddellijk opvallen tussen de algemene lijst.

Een andere manier om de aanwezigheid van duplicaten met behulp van zoekmachines vast te stellen, is door tekstfragmenten te doorzoeken. De procedure voor een dergelijke controle is eenvoudig: u moet van elke pagina een tekstfragment van 10-15 woorden van elke pagina in de zoekbalk invoeren en vervolgens het resultaat analyseren. Als er twee of meer pagina's in de zoekresultaten staan, dan zijn er kopieën, maar als er maar één resultaat is, dan heeft deze pagina geen duplicaten en hoeft u zich geen zorgen te maken.

Het is logisch dat als de site uit een groot aantal pagina's bestaat, een dergelijke controle voor de optimalisatie een onmogelijke taak kan worden. Om de tijdskosten te minimaliseren, kunt u speciale programma's gebruiken. Een van deze tools, die waarschijnlijk bekend is bij ervaren professionals, is het Link Sleuth-programma van Xenu.

Om de site te controleren, moet u een nieuw project openen door "Check URL" te selecteren in het menu "Bestand", voer het adres in en klik op "OK". Hierna begint het programma met het verwerken van alle site-URL's. Aan het einde van de controle moet u de ontvangen gegevens naar een handige editor exporteren en naar duplicaten gaan zoeken.

Naast de bovenstaande methoden hebben de panelen Yandex.Webmaster en Google Webmaster Tools tools voor het controleren van pagina-indexering die kunnen worden gebruikt om naar duplicaten te zoeken.

Methoden voor het oplossen van het probleem Nadat alle duplicaten zijn gevonden, moeten ze worden geëlimineerd. Dit kan ook op meerdere manieren, maar elk specifiek geval vereist zijn eigen methode, en het is mogelijk dat u ze allemaal moet gebruiken.

Kopieerpagina's kunnen handmatig worden verwijderd, maar deze methode is waarschijnlijk alleen geschikt voor duplicaten die handmatig zijn gemaakt vanwege de onzorgvuldigheid van de webmaster.
De 301-omleiding is ideaal voor het samenvoegen van kopiepagina's waarvan de URL's verschillen in de aan- en afwezigheid van www.
De oplossing voor het probleem met duplicaten met behulp van de canonieke tag kan worden gebruikt voor onduidelijke kopieën. Bijvoorbeeld voor productcategorieën in een online winkel met duplicaten die qua sortering verschillen op basis van verschillende parameters. Canonical is ook geschikt voor gedrukte versies van pagina's en andere soortgelijke gevallen. Het wordt heel eenvoudig toegepast: het attribuut rel=”canonical” wordt gespecificeerd voor alle kopieën, maar niet voor de hoofdpagina, die het meest relevant is. De code zou er ongeveer zo uit moeten zien: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/, en moet binnen de head-tag staan.
Het opzetten van het robots.txt-bestand kan helpen in de strijd tegen duplicaten. De Disallow-richtlijn blokkeert de toegang tot duplicaten voor zoekrobots. Meer over de syntaxis van dit bestand leest u in onze nieuwsbrief.

Wat zijn dubbele pagina's- dit zijn pagina's met absoluut dezelfde inhoud en verschillende URL's.

Er kunnen verschillende redenen zijn voor dubbele pagina’s op een website, maar bijna allemaal houden ze op de een of andere manier verband met het contentmanagementsysteem van de site. Het is het beste om maatregelen te nemen om te voorkomen dat er dubbele pagina's verschijnen tijdens het maken van de site. Als uw site al functioneert, controleer dan op dubbele pagina's, anders kunnen ernstige problemen met indexering en SEO niet worden vermeden.

Er zijn verschillende manieren om dubbele websitepagina's te verwijderen. Sommige kunnen helpen bij het bestrijden van bestaande kopieën van pagina's, terwijl andere kunnen helpen voorkomen dat deze in de toekomst verschijnen.

Hoe vind ik dubbele pagina's op een website?

Maar eerst moet u controleren of uw bron dubbele pagina's bevat en, zo ja, welk type pagina's dit zijn. Hoe dit te doen?

Methode 1. Zoekopdracht “site:”

U kunt de opdracht "site:" gebruiken. Met deze opdracht worden zoekresultaten voor een specifieke site geretourneerd. Door site:www.uwsite.com/pagina1 in te voeren, ziet u of er duplicaten van deze pagina in de zoekopdracht voorkomen.

Methode 2. Zoeken op artikelfragment

We selecteren een klein stukje tekst van de pagina waarvoor we duplicaten zoeken en plakken dit in de zoekopdracht. De zoekresultaten tonen onmiddellijk alle geïndexeerde duplicaten van de gewenste pagina.

Hoe om te gaan met dubbele pagina's?

301 omleiding

Een van de meest effectieve, maar tegelijkertijd de moeilijkste methoden om met duplicaten om te gaan, is een 301-omleiding. Deze plakt de opgegeven pagina's aan elkaar en de duplicaten verdwijnen na verloop van tijd uit de index van de zoekmachine.

Wanneer een zoekrobot een dubbele pagina met een 301-omleiding tegenkomt, zal de webserver deze automatisch doorsturen naar de originele pagina. Alle omleidingen worden geschreven in het .htaccess-bestand, dat zich in de hoofdmap van de site bevindt. U moet geen 301-omleiding (permanente omleiding) gebruiken als u van plan bent de kopieerpagina in de toekomst op een of andere manier te gebruiken. Hiervoor kunt u gebruik maken van een 302-redirect (tijdelijk). Dan blijven de pagina's niet aan elkaar plakken.

Bij gebruik van een 301-omleiding om te verwijderen dubbele pagina's Vanuit de index moet u allereerst beslissen over de hoofdspiegel van de site. Als hoofdspiegel geven we bijvoorbeeld aan http://site.ru Het enige dat u hoeft te doen, is het wijzigen in het adres van uw website

301 Omleiding van www.site.ru naar site.ru

Om dit te doen, moet u de volgende regels toevoegen aan het .htaccess-bestand (het bestand bevindt zich in de hoofdmap van de site) onmiddellijk na RewriteEngine On:

RewriteCond %(HTTP_HOST) ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

301-omleiding van site.ru/index.php naar site.ru

RewriteRule ^index\.php$ http://site.ru/

Op een vergelijkbare manier kunt u duplicaten verwijderen, zoals:

http://site.ru/index
http://site.ru/index.html
http://site.ru/index.htm

Als u bijvoorbeeld de pagina's http://site.ru en http://site.ru/page123 wilt samenvoegen, dan moet het volgende in het .htaccess-bestand worden geschreven:

Omleiding 301 /pagina123 http://site.ru

Wanneer u nu probeert toegang te krijgen tot de pagina http://site.ru/page123, wordt u doorgestuurd naar de hoofdpagina.

Een andere manier om het origineel aan te geven is door het zogenaamde op dubbele pagina's te schrijven. canonieke links. Dit zijn links met het attribuut rel=canoniek Met andere woorden, in het hoofdblok van zo'n pagina staat geschreven:

Als zoekmachines zo'n link tegenkomen, begrijpen ze welke van de vele kopieën van de pagina's het origineel is en indexeren ze deze.

In het bovenstaande voorbeeld had de site bijvoorbeeld twee dubbele pagina's:

http://site.ru/load
http://site.ru/load/

Door het rel=canonical attribuut op te geven op de pagina http://site.ru/load, laten we zoekmachines zien dat deze pagina de hoofdpagina is en dat deze pagina geïndexeerd moet worden.

Sommige CMS (bijvoorbeeld Joomla!) kunnen dergelijke links automatisch maken, op andere wordt deze bewerking uitgevoerd door verschillende plug-ins. Maar zelfs als alle nieuw aangemaakte dubbele pagina's op uw site canonieke links hebben, zal dit het probleem van bestaande duplicaten niet helpen oplossen.

robots.txt

Gedeeltelijk wordt het probleem van dubbele pagina's opgelost door het robots.txt-bestand, dat aanbevelingen bevat voor zoekmachines met een lijst met bestanden en mappen die niet geïndexeerd mogen worden. Waarom gedeeltelijk? Omdat dit bestand aanbevelingen bevat en geen regels, en sommige zoekmachines deze aanbevelingen negeren.

Om Yandex bijvoorbeeld oude dubbele pagina's uit de index te laten verwijderen, volstaat het om de juiste regels te schrijven die hun indexering in robots.txt verbieden. Bij Google is de situatie iets ingewikkelder. Dezelfde regels zullen moeten worden opgenomen in een speciale toolkit van Google, speciaal ontworpen voor webmasters. In Google moet de webmaster de linkparameters instellen die we nodig hebben in het gedeelte 'Crawlen'.

Bij het maken van robots.txt moeten we de Disallow-richtlijn gebruiken.

Corrigeer robots.txt voor Joomla

User-agent: *
Niet toestaan: /administrator/
Niet toestaan: /cache/
Niet toestaan: / omvat /
Niet toestaan: /taal/
Niet toestaan: /bibliotheken/
Niet toestaan: /media/
Niet toestaan: /modules/
Niet toestaan: /plugins/
Niet toestaan: /templates/
Niet toestaan: /tmp/
Sitemap: http://site.ru/sitemap.xml Gebruikersagent: Yandex
Niet toestaan: /administrator/
Niet toestaan: /cache/
Niet toestaan: / omvat /
Niet toestaan: /taal/
Niet toestaan: /bibliotheken/
Niet toestaan: /media/
Niet toestaan: /modules/
Niet toestaan: /plugins/
Niet toestaan: /templates/
Niet toestaan: /tmp/
Niet toestaan: /xmlrpc/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Corrigeer robots.txt voor Wordpress

User-agent: *
Niet toestaan: /wp-admin
Niet toestaan: /wp-includes
Niet toestaan: /wp-content/cache
Niet toestaan: /wp-content/themes
Niet toestaan: /trackback
Niet toestaan: */trackback
Niet toestaan: */*/trackback
Niet toestaan: */*/feed/*/
Niet toestaan: */feed
Niet toestaan: /*?*
Niet toestaan: /tag
Sitemap: http://site.ru/sitemap.xml Gebruikersagent: Yandex
Niet toestaan: /wp-admin
Niet toestaan: /wp-includes
Niet toestaan: /wp-content/plugins
Niet toestaan: /wp-content/cache
Niet toestaan: /wp-content/themes
Niet toestaan: /trackback
Niet toestaan: */trackback
Niet toestaan: */*/trackback
Niet toestaan: */*/feed/*/
Niet toestaan: */feed
Niet toestaan: /*?*
Niet toestaan: /tag
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Wat betekenen deze lijnen:

User-agent: *- de regels die onder deze regel worden beschreven, zijn van toepassing op alle zoekrobots
Gebruikersagent: Yandex- de regels zijn alleen van toepassing op de Yandex-robot
Toestaan:- indexering toestaan (meestal niet geschreven)
Niet toestaan: Het is verboden pagina's te indexeren waarvan de adressen bevatten wat in de regel wordt beschreven.
Host: site.ru- Hoofdsitespiegel
Sitemap:- link naar XML-sitemap
"*" - elke reeks tekens in het paginaadres

Bestrijding van dubbele pagina's in Wordpress

We hebben hierboven al besproken wat het robots.txt-bestand voor Wordpress zou moeten zijn. Laten we het nu hebben over plug-ins waarmee u met duplicaten kunt omgaan en die over het algemeen onmisbaar zijn voor een website-optimalisatie op deze engine.

Yoast SEO- Een van de meest populaire plug-ins voor Wordpress, waarmee u het probleem van duplicaten kunt oplossen. Met zijn hulp kun je Wordpress dwingen canonieke links te registreren, het indexeren van gepagineerde pagina's (categorieën) uitschakelen, auteurarchieven verbergen, /categorie/ uit de URL verwijderen en nog veel meer.

Alles in één SEO-pakket- Een vergelijkbare plug-in, niet minder populair en met vergelijkbare functies. Welke je moet gebruiken, is aan jou.

Hoe dubbele pagina's in Joomla te verwijderen

Hoewel Joomla! ondersteunt het automatisch aanmaken van canonieke links; sommige duplicaten kunnen nog steeds worden opgenomen in de zoekmachine-index. Om duplicaten in Joomla! je kunt robots.txt en 301-omleiding gebruiken. Het juiste rorbots.txt-bestand wordt hierboven beschreven.

Om CNC (door mensen leesbare URL's) in Joomla in te schakelen, hernoem je htaccess.txt naar .htaccess en voeg je het daar onmiddellijk toe na RewriteEngine On:

RewriteCond %(HTTP_HOST) ^www.site.ru$
RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %(THE_REQUEST) ^(3,9)\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://site.ru/

En vink ook in de site-instellingen de volgende vakjes aan:

Op deze manier verwijderen we duplicaten zoals www.site.ru en site.ru /index.php omdat dit CMS dit probleem heeft met duplicaten. En zoekmachines indexeren vaak pagina's zoals site.ru/index.php. Nu, na alle manipulaties, wordt de bezoeker bij het proberen toegang te krijgen tot een pagina, bijvoorbeeld www.site.ru, doorgestuurd naar de hoofdpagina, d.w.z. site.ru.

Onder de plug-ins voor Joomla kan ik aanbevelen JL Geen dubbelspel- plug-in verwijdert dubbele pagina's in de com_content-component. Een 301-redirect naar de juiste pagina of een 404-fout is mogelijk.

Speciale services voor het maken van robots.txt en .htaccess

Als u net begint met het bouwen van websites, probeer dan de diensten van gespecialiseerde diensten te gebruiken die u zullen helpen geldige robots.txt- en .htaccess-bestanden te genereren:

seolib.ru- Hierop kunt u niet alleen uw robots.txt maken, maar ook testen

htaccess.ru - een van de meest populaire services waar u verschillende parameters voor het gegenereerde .htaccess-bestand kunt maken en selecteren