Duplikaatide kontrollimine. Kuidas leida dubleerivaid lehti. Kust tulevad topeltlehed?

Kättesaadavus sisemised lehe duplikaadid võib põhjustada saidi indekseerimise vigu ja isegi tühistada edutamise tulemused. Näiteks kui reklaamitud lehel on duplikaadid, saab üks neist pärast järgmist värskendust tulemustes soovitud lehe asendada. Ja sellega kaasneb tavaliselt märkimisväärne positsioonide langus, kuna erinevalt reklaamitud lehelt ei ole kahekordsel lingi massil.

Kust tulevad topeltlehed?

Nagu ma just mainisin, võivad võtted olla selged või ebaselged.
Kustutatud duplikaadid on täpselt sama sisuga lehed, millel on erinevad URL-id. Näiteks prindileht ja selle tavaline originaal, seansi identifikaatoritega lehed, samad lehed erinevate laienditega (.html, .php, .htm). Enamiku selgeid duplikaate genereerib saidi mootor, kuid on ka neid, mis tekivad veebihalduri tähelepanematuse tõttu. Näiteks avalehe erinevad URL-id – kuni viimase ajani oli ühe meie kliendi jaoks täiesti staatilise saidi (ilma mootorita) “nägu” saadaval kolmel erineval URL-il: site.ru/, site.ru/index .html ja sait ru/default.html. Väga sageli tekivad pärast saidi kujunduse ja struktuuri muutmist selged duplikaadid – kõik lehed saavad uued URL-id, kuid töötavad ka vanad aadressid ning sellest tulenevalt pääseb igale lehele ligi 2 erinevat URL-i.

Hägused duplikaadid on väga sarnase sisuga lehed:
–kus sisuosa on mahult palju väiksem kui läbiv osa: galeriilehed (kus lehe sisu ise koosneb vaid ühest pildist ja ülejäänud on pidevad plokid), tootelehed, kus on vaid ühe lausega tootekirjeldus jne.
– leheküljed, millel korratakse osaliselt (või täielikult, kuid erinevas järjekorras) sama sisu. Näiteks veebipoodide tootekategooriate lehed, millel on samad tooted sorteeritud erinevate näitajate järgi (hinna, uudsuse, hinnangu jne järgi) või kategooriate leheküljed, kus samad tooted ristuvad samade ja samade kirjeldustega. . Nagu ka saidiotsingu leheküljed, uudisteadetega lehed (kui sama teadet kasutatakse mitmel lehel) jne.

Kuidas teha kindlaks, kas saidil on duplikaate?

Sisemiste duplikaatide olemasolu veebisaidil saate määrata Yandexi otsingu abil. Selleks peate täpsema otsingu otsinguribale sisestama tekstiosa lehelt, mida kahtlustatakse duplikaatidena (tekst tuleb sisestada jutumärkidesse), märkides reale "saidil" oma domeeni. Kõik leitud lehed võivad olla üksteise selged või ebaselged duplikaadid:

Duplikaate saate tuvastada ka Google'i otsingu abil. Selleks peate sisestama otsitava lehe tekstiosa jutumärkides otsinguribale ja märkima tühikuga eraldatuna otsinguala - site:examplesite.ru. Duplikaatide kontrollimise taotluse näide:

"Pikk kümne kuni viieteistkümne sõna pikkune lause lehelt, millel kahtlustame duplikaate ja mis tahame seda kinnitada või ümber lükata" site:examplesite.ru

Kui on duplikaate, näeb see välja järgmine:

Kuidas vabaneda dubleerivatest lehtedest?

Optimaalne viis duplikaatidest vabanemiseks sõltub sellest, kuidas duplikaat saidil ilmus ja kas see on vaja registrisse jätta (näiteks kui see on tootekategooria või galerii leht).

Keela käsk failis Robots.txt

direktiiv "Keela" kasutatakse lehtede indekseerimise keelamiseks otsingurobotite poolt ja juba indekseeritud lehtede eemaldamiseks andmebaasist. See on parim valik duplikaatide käsitlemiseks juhtudel, kui duplikaatlehed asuvad rangelt kindlates kataloogides või kui URL-i struktuur võimaldab sulgeda palju duplikaate ühe reegliga.
Näiteks kui peate sulgema kõik kaustas www.examplesite.ru/search/ asuva saidi otsingutulemustega lehed, peate lihtsalt reegli failis Robots.txt kirjutama:

Veel üks näide. Kui märk "?" on seansi identifikaator, saate ühe reegliga takistada kõigi seda märki sisaldavate lehtede indekseerimist:

Sel viisil saate keelata selgete duplikaatide indekseerimise: printida lehed, seansi identifikaatori lehed jne, saidiotsingu lehed jne.
Käskkirja „Keela” kirjeldus Yandexi abijaotises
Lehtede blokeerimise ja kustutamise reeglite kirjeldus Google'i abis

Märgendi rel=canonical

Tag rel=kanooniline kasutatakse selleks, et näidata robotitele, milline lehekülg duplikaatide rühmast peaks otsingus osalema. Seda lehte nimetatakse kanooniline.
Kanoonilise lehe robotitele näitamiseks peate kirjutama selle URL-i mittepõhilehtedele:

See duplikaatidest vabanemise meetod on suurepärane, kui duplikaate on üsna palju, kuid neid on URL-i olemuse tõttu võimatu failis Robots.txt ühe reegliga sulgeda.

301 ümbersuunamine

301 alaline ümbersuunamine kasutatakse kasutajate ümbersuunamiseks ja robotite otsimiseks ühelt lehelt teisele. Seda meetodit tuleks kasutada juhul, kui mõnel lehel on mootori või saidi struktuuri muutmise tulemusena muudetud URL-e ja sama leht on saadaval nii vana kui ka uue URL-i juures. 301 ümbersuunamine annab otsingurobotidele märku, et leht on oma aadressi jäädavalt uueks muutnud, mille tulemusena kantakse vana lehe kaal üle uuele (enamikul juhtudel).

Saate seadistada ümbersuunamise ühelt lehelt teisele, kirjutades htaccess-faili järgmise reegli:

Ümbersuunamine 301 /category/old-page.html http://www.melodina.ru/category/new-page.html

Saate ka kohandada massiline ümbersuunamineühelt tüüpi lehelt teisele, kuid see eeldab, et neil on sama URL-i struktuur.

Kuidas teha 301 ümbersuunamist Devaka.ru ajaveebis .

Loovus

On juhtumeid, kui lehed, millel on märke ebaselgetest duplikaatidest, sisaldavad tegelikult kasulikku teavet ja te ei soovi neid registrist eemaldada. Mida sel juhul teha? Muutke, lisage või ainulaadset sisu.
Näiteks, kui probleem ebaselgete duplikaatidega tekkis liiga mahuka navigeerimise tõttu, tuleb otsida võimalusi sisuosa suurendamiseks või .

Tihti juhtub, et sama kategooria tootekirjeldustega lehed on üksteisega väga sarnased. Sellist teksti ei ole alati võimalik unikaalseks muuta ja seda ei ole soovitatav indekseerimiseks sulgeda (see vähendab sisuosa). Sel juhul saame soovitada lisada lehtedele mõned huvitavad plokid: tooteülevaated, loetelu erinevustest teistest toodetest jne.

Kui palju samu tooteid samade kirjeldustega kuvatakse erinevates kategooriates, võite kasutada ka loomingulist lähenemist. Oletame, et on olemas kottide veebipood, kus samu tooteid kuvatakse korraga mitmes kategoorias. Näiteks Chaneli naiste sangaga nahast kotti saab korraga kuvada 4 kategoorias: naiste kotid, nahkkotid, sangaga kotid ja Chaneli kotid. Selles pole midagi halba, kuna kott sobib tõepoolest kõigisse 4 kategooriasse, kuid kui kõigis nendes kategooriates kuvatakse kotti kirjeldav reklaam, võib see olla kahjulik (eriti kui on palju kattuvaid tooteid). Lahenduseks on, et kategoorialehtedel kuulutusi ei kuvata üldse või vähendatakse need miinimumini ja muudetakse automaatselt kirjeldusi olenevalt kategooriatest, milles toodet kuvatakse.
Näide: stiilne [naiste] [nahast] must kott [sangaga] igaks päevaks.

Olen kohanud palju erinevaid võimalusi sisemiste duplikaatide jaoks erineva keerukusega saitidel, kuid ei olnud probleemi, mida ei oleks võimalik lahendada. Peaasi, et duplikaatide probleemi ei lükata edasi enne, kui vajalikud lehed hakkavad registrist välja kukkuma ja sait hakkab liiklust kaotama.

Rääkisime replytocomi veebisaidi dubleerivatest lehtedest. Lubage mul teile meelde tuletada eelmise artikli olemust. Asi on selles, et te ei tohiks muuta oma ajaveebi teed robotites suletuks. Soovitatav on vastupidi teha robotid avatuks, et robot tuleks sisse, vaataks, näeks silti ega indekseeriks topeltlehti.

Kui need lehtede koopiad suletakse, indekseerib see robot tõenäoliselt sarnased duplikaadid. Soovitav on seda meeles pidada! Järgmisena meenutagem, kuidas me otsisime Google'i otsingumootoris Replitoki abil koopiaid. Ma mäletan:

site:teie saidi replytocom, st. minu näites näeb see välja selline sait: replytocomi sait

Kuidas leida oma ajaveebis korduvaid lehti

Suurepärane. Nüüd otsime teisi lehtede koopiaid ja üksikasjalikumaid koopiaid: voog, kategooria, silt, kommentaarileht, leht, trackback, manuse_id, manus

Otsime neid samamoodi nagu dubleerivaid lehti koopiate abil. Teeme kõike sarnaselt, nimelt läheme ja sisestame otsingumootorisse mis tahes ajaveebi, näiteks site:realnodengi.ru voog

Klõpsates nuppu "Kuva peidetud tulemused", näeme:

22-leheküljeline duplikaadid. Mida tähendab sööt? See on arusaamatu lisa artikli aadressi lõpus. Mis tahes postituse jaoks vajutage klahvikombinatsiooni ctr + u ja tõenäoliselt näete lõpus kanalite linki. Teisisõnu, sellised lingid tuleb eemaldada. Sisestame selle saidi robotid, näeme:

See tähendab, mida meie pole tarvis. Mida me peaksime tegema?Sellised keelud on soovitatav robotites eemaldada. Et robot nende juurde ei läheks ega neid “igaks juhuks” indekseerima ei hakkaks.

Suurepärane! Kontrollisime voo lehti.

Võtame teise saidi, näiteks reall-rabota.ru, ja sisestame lehe. Saame site:real-rabota.ru lehe:

Näeme, et sellel saidil on 61 dubleerivat lehte. Sa pead neist lahti saama. Loodan, et nende blogide autorid minu analüüsi peale ei solvu?

Tehke sarnane analüüs oma ajaveebide ja mitte ainult nende koopiate, vaid ka teiste ülaltoodud koopiate jaoks, nagu kategooria, silt jne.

Niisiis, kuidas? Kas olete oma tulemusega rahul?

Tõenäoliselt ei leia te kõigi nende sõnade koopiaid. See on muidugi suurepärane! Kuid te peate vabanema neist, mis teil on! Mõtleme, kuidas?

Kuidas eemaldada dubleerivaid veebisaidilehti probleemide lahendamisel

Esiteks, minge minu robotite juurde ja kopeerige see enda jaoks, asendades selle vastavalt veebisait teie saidi nimele. Vahetatud? Suurepärane! Arvan, et paljudel ajaveebidel olid sellised keelud nagu ülaltoodud saidil.

Teiseks, kirjutage oma .htaccess-failis ümber järgmised read:

See fail asub teie juurkaustas, mida kõige sagedamini nimetatakse public_html. Tavaliselt avan selleks programmi, kannan soovitud faili töölauale, avan selle faili Notepad ++ tarkvaraga, teen vajalikud muudatused ja asendan vana faili uuega.

Pärast uue faili üleslaadimist peaks teie .htaccess välja nägema umbes selline:

Kolmandaks, kleepige see pärast funktsiooni.php /*** ADD metarobotid noindex,nofollow FOR PAGES ***/ funktsioon my_meta_noindex () ( if (is_paged() // Kõik ja mis tahes leheküljed) (kaja "".""."\n";) ) add_action ("wp_head", "my_meta_noindex", 3); // lisage oma noindex, nofollow päisesse

Neljandaks, minge laiendusse Kõik ühes SEO paketis ja tehke seda:

Kui teil on mõni muu pistikprogramm, näiteks SEO, pange umbes sarnase tähendusega jaotistesse noindex.

Viiendaks, minge jaotises "Valikud" jaotisse "Seaded-Arutelud" ja eemaldage märkeruudust märkeruut Kommentaaride jaotus:

Kokkuvõtteks pakun üksikasjalikku videot võtete kohta.

See pole veel kõik, ikka on palju dubleerivaid lehti ja muud prügi. See tuleb eemaldada. Seda pole alati lihtne ise teha, nii et mõnikord peate pöörduma professionaali poole. Kuid te ei leia seda alati ega pöördu alati selle poole.

Siit on soovitav kõik üksikasjad ise välja uurida. Seda saab teha kas isikliku suhtluse või materjaliga tutvumise kaudu. Pean silmas videokursust. Minu arvates on parem videokursus, sest... teid treenib daam teie monitori ees!

Ma tõin selle kursuse põhjusega, õppisin seda. Mulle isiklikult meeldis. Varem näitas Yandex mulle 1220 indekseeritud lehekülge, kuigi tegelikkuses on neid 250. Nüüd, peale puhastamist, näitab Yandex 490, Google 530. Nõus, need numbrid on tegelikele lähemal!

Kuid nii kummaline kui see ka ei tundu, langevad need arvud paljudel saitidel 200 000 või enama võtte võrra. Ilma naljata! Sarnaste näitajatega saidid võib peagi otsingumootor keelata. Aga lähme tagasi rajale. Tsiteerin Aleksandri sõnu:

Lisateavet selle kõige kohta leiate Borisovi veebisaidilt, klõpsake lihtsalt kursusega pilti.

Põhimõtteliselt on töö tehtud, duplikaatlehed kustutatakse peale indekseerimist, aga mitte kohe, tuleb paar kuud oodata! Edu oma ressursi reklaamimisel! Kui tead teisi võimalusi dubleerivate veebilehtede eemaldamiseks, kirjuta kommentaaridesse, uurime koos!

Anekdoot igas artiklis.

Tere pärastlõunast sõbrad! Juba väga pikka aega on blogi lugejad palunud mul teha postitus, kuidas replytocomist lahti saada. See teema on asjakohane, kuna selle tulemusel on registris tohutult palju sarnaseid kommentaariparameetritega lehti. Asi on selles, et paljud blogid luuakse WordPressi CMS-is, mis kannatab kommentaaride dubleerimise all. Seetõttu otsustasin anda kogu teabe mitte ainult replytocomi kohta. Selles artiklis selgitan dubleeriva sisu mõistet, annan meetodi saidilt dubleerivate lehtede leidmiseks ja selgitan, miks peate neist lahti saama. Ja järgmises postituses näitan, kuidas neid eemaldada.

Dubleeriv sisu saidil

Vastuvõtt võib olla erinev – vaikne ja nakkav. 🙂 Tõsiselt, duplikaatleht on saidi dokument, millel võib olla täielikult või osaliselt sama sisu. Loomulikult on igal pildil oma aadress (lehe URL). Selge duplikaatleht võib ilmneda järgmistel põhjustel.

saidi omaniku poolt kunstlikult loodud erivajaduste jaoks. Näiteks prinditavad lehed, mis võimaldavad kaubandusliku saidi kasutajal kopeerida teavet valitud toote/teenuse kohta.
genereerib ressursimootor, kuna see on nende kehasse sisse ehitatud. Mõned kaasaegsed CMS-id kuvavad sarnaseid lehti teiste URL-idega, mis asuvad nende erinevates kataloogides.
ilmuvad saiti haldava veebihalduri vigade tõttu. Näiteks võib ressursil olla kaks identset erinevate aadressidega põhilehte (näiteks site.ru ja site.ru/index.php).
tekivad saidi struktuuri muutuste tõttu. Näiteks uue malli loomisel erineva URL-süsteemiga saavad uued vana sisuga lehed hoopis teistsugused aadressid.

Hägusad duplikaadid saadakse lehtedelt, mis sisu osaliselt dubleerivad. Sellistel lehtedel on saidimalli ühine osa, kuid need erinevad väikese sisu poolest. Näiteks võivad sellised väikesed duplikaadid olla ressursilehed, millel on otsingutulemused või artikli üksikud elemendid (näiteks pildid – see juhtub väga sageli paljudes ajaveebimallides).

Järgmisele joonisele olen kokku kogunud WordPressi mootoriga ajaveebile omased enimlevinud duplikaatlehtede variandid (arvestamata erinevaid pistikprogramme ja mallifunktsioone, mis samuti sageli dubleerivaid dokumente loovad):

Dubleerivate lehtede olemasolu saidil võib viidata sellele, et veebihaldur ei ole nende olemasolust teadlik või ta lihtsalt ei tea, kuidas nendega toime tulla. Kuid peate nendega võitlema, kuna need põhjustavad otsingumootorite reklaamimisel mitmesuguseid vigu ja probleeme. Räägime sellest nüüd.

Miks on vaja dubleerivaid lehti eemaldada?

Kuid hoolimata sellest, kui passiivsed on duplikaatlehed, võivad nad mängida olulist rolli mis tahes veebisaidi või ajaveebi omanikus. Niisiis, miks on dubleeritud sisu nii ohtlik? Siin on peamised probleemid, mis tekivad duplikaatide korral.

Saidi indekseerimise halvenemine. Ma nimetan seda probleemi nr 1. Fakt on see, et olenevalt allikast ja veebihalduri vigadest võib saidi lehel olla üks kuni mitu või enam duplikaati. Näiteks võib peamisel olla kaks või kolm duplikaati ja replytocomi üldlevinud ajaveebipostitusi kopeeritakse vastavalt kommentaaride arvule. Ja kui ajaveeb on populaarne, on "vasakpoolsete" lehtede arv tohutu. Ja otsingumootoritele (eriti Google) ei meeldi duplikaadid ja seetõttu langetavad nad sageli saidi enda positsiooni.

Vastava lehe väljavahetamine. Otsingumootori algoritm võib pidada duplikaati asjakohasemaks kui algset reklaamitavat lehte (). Seega ei sisalda otsingutulemused sihtlehte, vaid selle klooni. Kuid sellel kloonil on täiesti erinevad tähtsusetud parameetrid (lingimahl, ), mis aja jooksul saidi otsingumootori poolkuus pessimiseerivad.

Niisiis, teeme ülaltoodu kokkuvõtte. Dubleerivad lehed segavad saidi tavapärast indekseerimist, muutuvad asjakohase lehe otsingumootori vale valiku allikaks ja võtavad ära loomulike välislinkide mõju. Samuti levitavad duplikaadid valesti sisemise lingi mahla, võttes reklaamitud lehtedelt võimu ja muutes käitumisnäitajaid:

Üldiselt on duplikaadid otsingumootorite reklaamimisel suur pahe ja optimeerija õudusunenägu. 🙂

Kuidas tuvastada ja kontrollida dubleerivaid lehti

Duplikaatlehtede leidmiseks ja kontrollimiseks on erinevaid viise. Need nõuavad erineval tasemel CMS-i teadmisi ja arusaamist otsinguindeksi toimimisest. Ma näitan teile kõige lihtsamat viisi. See ei tähenda, et lihtsalt sellepärast, et see on lihtne, pole see täpne. Selle abiga saab hõlpsasti leida saidi dubleerivaid dokumente. Ja mis kõige tähtsam, see meetod ei nõua eriteadmisi ega võta palju aega.

Oma veebisaidi dubleerivate lehtede leidmiseks ja kontrollimiseks peate kasutama Yandexi (Google) täpsemat otsingut või sisestama kohe otsinguribale spetsiaalse päringu. Vaatame kõigepealt esimest võimalust.

Saidi duplikaatide kontrollimine täpsema otsingu abil

Yandexi täpsem otsing võimaldab teil saada täpsemaid tulemusi tänu päringuparameetrite täpsustamisele. Meie puhul vajame ainult kahte parameetrit - saidi aadressi ja selle lehe tekstiosa, millelt otsime duplikaate. Esmalt valime meie veebisaidi lehel oleva teksti (näiteks võetakse täiesti võõras ressurss), mida kontrollime duplikaatide suhtes. Seejärel läheme Yandexi täpsemasse otsingusse ja sisestame sisuosa ja saidi aadressi sobivatesse kohtadesse:

Järgmisena klõpsame hinnalisel sõnal "Leia" ja vene otsingumootor hakkab tulemusi genereerima. See ei ole see, mida tavaliselt näeme – see koosneb ainult meie ressursi pealkirjadest ja katkenditest. Veelgi enam, kui otsingutulemustes on ainult üks otsingutulemus, siis on kõik korras – sellel lehel pole dubleerivat sisu. Kui saadud sirbis on mitu tulemust, peate labida välja võtma:

Minu näites leidis otsingumootor mitu ebaselget duplikaati – teatud kategooriate lehekülgede arvust. Kohe on näha, et sellel saidil oli salatiretsepti kohta esiletõstetud tekstiga leht selgelt paigutatud korraga erinevatesse jaotistesse. Ja kuna selle ressursi jaoks lehekülgede indekseerimise keeldu ei olnud, ilmusid registrisse igasugused duplikaadid.

Nüüd vaatame samu samme välismaise otsingumootori jaoks. Me läheme Google'i täpsema otsingu lehele ja teeme samad toimingud:

Olles täpsemas otsingus täitnud kõik vajaliku, saame uuritava saidi indekseerimise vastavalt määratud tekstiosale:

Nagu näha, indekseeris Google ka uuritava lehe ebatäpsed duplikaadid – tulemustes ilmuvad kõik sama kategooria lehed.

Põhimõtteliselt saate samad tulemused ilma täpsemat otsingut kasutamata. Selleks peate Google'i või Yandexi lihtsas versioonis sisestama järgmise päringu. Ja see on teine viis duplikaatide määramiseks.

Topeltlehtede leidmine spetsiaalse päringu abil

Täpsemat otsingut kasutades leiate hõlpsalt kõik antud teksti duplikaadid. Loomulikult ei saa me seda meetodit kasutades topeltlehti, mis ei sisalda teksti. Näiteks kui duplikaat luuakse “kõvera” malli abil, mis mingil põhjusel näitab teisel lehel pilti, mis on algsel lehel. Siis ei saa ülalkirjeldatud meetodil sellist duplikaati leida. Sel juhul peate kasutama teist meetodit.

Selle olemus on lihtne - spetsiaalse operaatori abil taotleme kogu meie saidi (või eraldi lehe) indekseerimist ja seejärel vaatame duplikaate otsides tulemusi käsitsi. Siin on selle päringu süntaksireeglid:

Kui täpsustame päringus avalehe aadressi, saame lihtsalt otsinguroboti poolt indekseeritud lehtede loendi. Kui näitame konkreetse lehe aadressi, saame selle lehe indekseeritud duplikaatide loendi. Yandexis on need kohe nähtavad. Kuid Google'is on kõik veidi keerulisem - kõigepealt näitavad nad meile neid lehti, mis on peamistes otsingutulemustes:

Selle tulemusena antakse meile nimekiri duplikaatidest, mille Google on indekseerinud ja linkinud alglehele (pildil number 1). Minu näites olid need duplikaadid 2. ja 3. positsiooniga lehed.

Teisel positsioonil on duubel, mis on selle dokumendi tagasikäik ( automaatne teavitus selle väljaande teistele saitidele). Asi on kindlasti vajalik, kuid selle olemasolu indeksis pole soovitav. Selle saidi omanik mõistab seda väga hästi ja on seetõttu ette näinud saidi trackbackide indekseerimise keelu. Sellele viitab kiri "Veebilehe kirjeldus pole faili robots.txt piirangute tõttu saadaval." Kui vaatate otsingumootorite juhiseid (robots.txt), näete järgmist pilti:

Tänu viimastele direktiividele viitas saidi autor trackbackide indekseerimise keelule. Kuid kahjuks paneb Google oma registrisse kõik, mis kätte jõuab. Ja siin peate lihtsalt duplikaadid andmebaasist kustutama. Sellest räägime teises dubleeritud sisu käsitlevas artiklis.

Kolmas positsioon näitab paljude blogijate armastatud replytocomi. See saadakse blogide ja veebisaitide kommenteerimise abil. Ja tänu temale on lihtsalt tohutu hunnik duplikaate - tavaliselt on see arv ligikaudu võrdne ressursi kommentaaride arvuga. Meie näites on see atribuut, nagu ka trackback, indekseerimiseks suletud. Kuid Google pani ta ka oma registrisse. Seda tuleb ka käsitsi puhastada.

Muide, kui me oma päringut pisut muudame, saame samad tulemused, mis annab tekstiosa abil täpsema otsingu duplikaatide kohta:

Niisiis, sõbrad, kergitasin selles artiklis eesriide dubleerivate lehtede kontseptsiooni ning nende eduka otsimise ja kontrollimise ees. Käsitletud materjali koondamiseks soovitan vaadata minu selleteemalist videot. Selles näitasin selgelt mitte ainult tänast materjali kahes osas, vaid lisasin ka muid dubleeritud sisu näiteid:

Järgmises artiklis saate teada. Näeme!

Lugupidamisega, teie Maxim Dovzhenko

- kes töötab veebisaidi reklaamimisega. See võib luua kaks identset kodulehte, mis erinevad aadressi poolest.

Otsingumootori algoritmid töötavad automaatselt ja sageli juhtub, et duplikaati peab süsteem asjakohasemaks kui algset lehte. Selle tulemusena ei kuvata väljundis originaali, vaid selle duplikaati. Duublil on omakorda muid parameetreid, mis mõjutavad hiljem saidi pessimiseerimist.

Duplikaatlehtede leidmiseks ja kontrollimiseks on erinevaid viise. Need nõuavad töövõtjalt erineval määral CMS-teadmisi, aga ka arusaamist otsinguindeksi toimimisest. Proovime teile näidata lihtsaimat viisi saidi dubleerivate lehtede kontrollimiseks. Märgime kohe, et see meetod ei ole väga täpne. Kuid samal ajal võimaldab see meetod otsida saidi dubleerivaid lehti ega võta palju aega.

Nüüd vaatame, kuidas seda teha ainult Google'i süsteemis. Põhimõtteliselt pole protseduur erinev, peate tegema samu toiminguid, mis Yandexis.

Yandexi otsingumootor pakub kohe duplikaatide loendit, kuid Google'is peate duplikaatide nägemiseks lisaks klõpsama nuppu "Kuva peidetud tulemused", kuna ekraanil kuvatakse sageli algne leht.

Pildilt näete, et peamistes otsingutulemustes on saidi 1 lehekülg ja see on ka originaal. Kuid registris on ka teisi lehti, mis on duplikaadid. Nende nägemiseks peate klõpsama lingil "Kuva peidetud tulemused". Selle tulemusena saame nimekirja, kus originaal on numbril 1 ja seejärel on juba duplikaadid paigutatud. Sageli tuleb duplikaate käsitsi puhastada.

Kuidas kontrollida saidil dubleerivaid lehti

Allolevas artiklis püüame täna käsitleda paljusid lehtede dubleerimise probleemiga seotud küsimusi, mis põhjustab duplikaate, kuidas neist lahti saada ja üldiselt, miks on vaja duplikaatidest vabaneda.

Esiteks mõistame, mis on peidetud mõiste "duplikaatsisu" all. Tihti juhtub, et mõnel lehel võib olla osaliselt või täielikult sama sisu. On selge, et igal üksikul lehel on oma aadress.

Duplikaatide põhjused:

— saidi omanikud loovad ise konkreetsetel eesmärkidel duplikaate. Oletame, et see võib olla prinditav leht, mis võimaldab kaubandusliku saidi külastajal kopeerida teatud toote või teenuse kohta vajalikku teavet.

- need genereerib Interneti-ressursi mootor, kuna see on nende kehasse manustatud. Teatud hulk kaasaegseid CMS-e suudab kuvada sarnaseid lehti erinevate URL-idega, mis asuvad erinevates kataloogides.

— veebisaidi reklaamimisega tegeleva veebimeistri tehtud vead. See võib luua kaks identset kodulehte, mis erinevad aadressi poolest.

— saidi struktuuri muutmine. Kui loote uue malli erineva URL-i süsteemiga, saavad uued vana sisu sisaldavad lehed erinevad aadressid.

Oleme loetlenud selgete duplikaatide esinemise võimalikud põhjused, kuid on ka hägusaid, st osalisi. Sageli on sarnastel lehtedel ressursimalli sarnane osa, kuid nende sisu on veidi erinev. Sellised duplikaadid võivad olla saidi lehed, millel on sama otsingutulemus või eraldi artikli element. Enamasti on sellised elemendid pildid.

Peate vabanema topeltlehtedest. Ei, see ei ole viirus, kuid see kasvab aja jooksul, kuigi see ei sõltu ressursist endast. Duplikaadid on sageli ebaprofessionaalse veebihalduri või saidi vale koodi tagajärg.

Oluline on teada, et duplikaadid võivad ressurssi oluliselt kahjustada. Milliseid tagajärgi võib duplikaatide olemasolu saidil kaasa tuua? Esiteks on see ressursside indekseerimise halvenemine. Nõus, et selline olukord ei tee saidi omanikku eriti õnnelikuks. Kui ressursi reklaamimisele kulutatakse pidevalt raha ja aega, hakkab ressurss oma populaarsust kaotama mõne päevaga. Probleemi sügavus sõltub võtete arvust.

Juhtub, et avalehel võib olla paar duplikaati. Blogidega on asjad veidi teisiti. Tänu replytocomile võib kommentaaride kopeerimise tõttu tekkida tohutul hulgal duplikaate. Selgub, et mida populaarsem on ajaveeb, seda rohkem duplikaate see sisaldab. Otsingumootorid, eriti Google, omakorda langetavad selliste duplikaatide olemasolu tõttu ressursi positsiooni.

Otsingumootori algoritmid töötavad automaatselt ja sageli juhtub, et duplikaati peab süsteem asjakohasemaks kui algset lehte. Selle tulemusena ei kuvata väljundis originaali, vaid selle duplikaati. Duublil on omakorda muid parameetreid, mis mõjutavad hiljem saidi pessimiseerimist.

Mis me teha saame? Dubleerivad lehed muutuvad saidi indekseerimise tõeliseks takistuseks, samuti põhjuseks, miks otsingumootor valib valesti asjakohase lehe ja vähendab loomulike linkide mõju. Lisaks jaotavad duplikaadid sisemist kaalu valesti, vähendades reklaamitud lehtede tugevust ja muutes käitumisnäitajaid.

Kuidas kontrollida saidil dubleerivaid lehti?

Oma ressursi duplikaatide otsimiseks ja kontrollimiseks sisestage lihtsalt otsingumootori täpsemasse otsingusse spetsiaalne päring. Kui kasutate Yandexis otsingu täiustatud versiooni, saate üsna üksikasjalikud tulemused tänu sellele, et päringule on võimalik sisestada täpsustavad parameetrid.

Vajame ressursi aadressi ja seda osa tekstist, mille duplikaati tahame leida. Selleks peame valima oma lehel tekstifragmendi ning seejärel sisestama kopeeritud teksti ja saidi aadressi Yandexi süsteemi täpsemasse otsingusse. Nüüd peate klõpsama nuppu "Leia", mille järel süsteem alustab otsingut.

Tulemusi ei kuvata nagu tavaliselt. Saitide loend sisaldab ainult meie ressursi pealkirju ja katkendeid. Kui süsteem annab ühe tulemuse, tähendab see, et sellel lehel pole duplikaate. Kuid mitme tulemuse saavutamisel peate töötama.

Nüüd vaatame, kuidas seda teha ainult Google'i süsteemis. Põhimõtteliselt pole protseduur erinev, peate tegema samu toiminguid, mis Yandexis.

Täpsem otsing muudab konkreetse tekstiosa kõigi duplikaatide leidmise lihtsaks. Loomulikult ei saa me sel viisil dubleerivaid lehti, mis ei sisalda määratud teksti. Peab ütlema, et kui duubel tehti kõvera malliga, siis see näitab ainult näiteks pilti originaalist teisel lehel. Muidugi, kui duplikaat ei sisalda teksti, siis pole seda ülalkirjeldatud meetodil võimalik kindlaks teha. See nõuab teist meetodit.

Teine meetod eristub ka oma lihtsuse poolest. Peate kasutama spetsiaalset operaatorit ja taotlema oma saidi või selle üksikute lehtede indekseerimist. Pärast seda peate duplikaatide leidmiseks tulemusi käsitsi vaatama.

Nõutava päringu süntaksireeglid:

Olukorras, kus otsingusse sisestatakse lihtsalt avalehe aadress, kuvatakse meile otsinguroboti abil indekseeritud lehtede loend. Kui aga täpsustame konkreetse lehe aadressi, kuvab süsteem selle lehe juba indekseeritud duplikaadid.

Yandexi otsingumootor pakub kohe duplikaatide loendit, kuid Google'is peate duplikaatide nägemiseks lisaks klõpsama nuppu "Kuva peidetud tulemused", kuna ekraanil kuvatakse sageli algne leht.

Nagu pildilt näha, on meil põhiotsingutulemustes üks saidi leht ja see on ka originaal. Kuid registris on ka teisi lehti, mis on duplikaadid. Nende nägemiseks peate klõpsama lingil "Kuva peidetud tulemused". Selle tulemusena saame nimekirja, kus originaal on numbril 1 ja seejärel on juba duplikaadid paigutatud. Sageli tuleb duplikaate käsitsi puhastada.

Otsingualgoritmid arenevad pidevalt, nad suudavad sageli ise tuvastada dubleerivad leheküljed ega kaasata selliseid dokumente põhiotsingusse. Saidiülevaateid tehes puutume aga pidevalt kokku tõsiasjaga, et algoritmid pole veel kaugeltki täiuslikud duplikaatide tuvastamisel.

Mis on dubleerivad lehed?

Veebisaidi dubleerivad lehed on lehed, mille sisu langeb täielikult või osaliselt kokku mõne muu võrgus juba olemasoleva lehe sisuga.

Selliste lehtede aadressid võivad olla peaaegu identsed.

Paarismängud:

domeeniga, mis algab www-ga ja ilma www-ta, näiteks www.site.ru ja site.ru.
kaldkriipsuga lõpus, näiteks site.ru/seo/ ja site.ru/seo
koos.php või.html lõpus, site.ru/seo.html ja site.ru/seo.php

Sama lehte, millel on mitu aadressi, millel on näidatud erinevused, tajutakse mitme erineva leheküljena - üksteise suhtes duplikaatidena.

Mis on duplikaadid?

Enne saidi dubleerivate lehtede otsimise protsessi alustamist peate otsustama, et neid on kahte tüüpi, mis tähendab, et nende otsimise ja nendega tegelemise protsess on mõnevõrra erinev. Seega eristavad nad eelkõige:

Täielikud võtted- kui sama leht asub kahel või enamal aadressil.
Osalised duplikaadid- kui teatud osa sisust dubleeritakse mitmel leheküljel, kuid need ei ole enam täielikud koopiad.

Duplikaatide põhjused

Esiteks peate välja selgitama, miks teie saidil on duplikaadid. Seda saab põhimõtteliselt URL-i järgi mõista.

Duplikaadid võivad luua ID-seansse. Neid kasutatakse kasutaja tegevuste jälgimiseks või ostukorvi lisatud kaupade teabe analüüsimiseks;
CMS-i (mootori) omadused. WordPressis pole tavaliselt dubleerivaid lehti, kuid Joomla genereerib tohutul hulgal duplikaate;
Parameetritega URL-id põhjustavad sageli saidi struktuuri ebaõiget rakendamist;
Kommentaarid;
Prinditavad lehed;
Erinevus on aadressis: www - mitte www. Isegi praegu segavad otsingurobotid domeene nii www-ga kui ka mitte-www-ga. Selle eest tuleb ressursi õigeks rakendamiseks hoolt kanda.

Duplikaatide mõju veebisaidi reklaamimisele

Duplikaadid on SEO seisukohast ebasoovitavad, kuna otsingumootorid kehtestavad sellistele saitidele sanktsioone ja saadavad need filtritesse, mille tulemusena langeb lehtede ja kogu saidi järjestus, sealhulgas otsingutulemustest eemaldamine.
Duplikaadid segavad lehe sisu reklaamimist, mõjutades reklaamitud lehtede asjakohasust. Kui on mitu identset lehte, siis ei saa otsingumootor aru, millist neist peaks reklaamima ning selle tulemusena ei jõua ükski neist otsingutulemustes kõrgele kohale.
Duplikaadid vähendavad saidi sisu ainulaadsust: see on hajutatud kõigi duplikaatide vahel. Vaatamata sisu ainulaadsusele tajub otsingumootor teist lehte esimesega võrreldes ebaunikaalsena, alandab teise lehe reitingut, mis mõjutab paremusjärjestust (saitide sortimine otsingutulemuste järgi).
Duplikaatide tõttu kaob peamiste reklaamitud lehtede kaal: see jagatakse kõigi samaväärsete lehtede vahel.
Otsingurobotid kulutavad rohkem aega saidi kõigi lehtede indekseerimiseks, indekseerides duplikaate.

Kuidas leida dubleerivaid lehti

Otsingumootorite tööpõhimõttest lähtudes saab selgeks, et ühele lehele peaks vastama ainult üks link ja üks teave peaks olema ainult ühel saidi lehel. Siis tekivad soodsad tingimused vajalike lehtede reklaamimiseks ning otsingumootorid suudavad Sinu sisu adekvaatselt hinnata. Selleks tuleb leida ja kõrvaldada duplikaadid.

XENU programm (täiesti tasuta)

Programm Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html) töötab võrguteenustest sõltumatult kõigil saitidel, sealhulgas saitidel, mida otsingumootorid ei indekseeri. Saate seda kasutada ka saitide kontrollimiseks, millel pole veebihalduri tööriistades kogutud statistikat.

Duplikaatide otsimine toimub pärast saidi skannimist programmiga XENU, kasutades korduvaid pealkirju ja metakirjeldusi.

Screaming Frog SEO Spider (osaliselt tasuta)

Programmi aadress on https://www.screamingfrog.co.uk/seo-spider/. See programm töötab samamoodi nagu XENU, kuid värvilisem. Programm skannib tasuta kuni 500 veebisaidi linki, ulatuslikum skannimine nõuab tasulist tellimust. Ise kasutan.

Programm Netpeak Spider (tasutakse prooviversiooniga)

Yandexi veebimeister

Duplikaatide otsimiseks võite pärast saidi statistika kogumist kasutada Yandex.Webmasterit. Konto tööriistade vahekaardil Indekseerimine > Lehed otsingus saate vaadata jaotist „Välistatud lehed” ja uurida, miks need registrist eemaldati. Üks kustutamise põhjusi on dubleeritud sisu. Kogu teave on saadaval iga lehe aadressi all.

Google'i otsingukonsool

Google Webmaster Console'il on ka duplikaatotsingu tööriist. Avage oma sait Google'i veebihalduri konsoolis. Vahekaardil Otsinguvaade > HTML-i optimeerimine näete dubleerivaid pealkirju ja metakirjeldusi, kui neid on. Tõenäoliselt on need duplikaadid (osalised või täielikud).

Otsi keel

Otsingupäringu keelt kasutades saate kuvada kõigi otsingutulemustes olevate saidilehtede loendi (Google'is ja Yandexis operaator "site:") ja otsida duplikaate "oma silmadega".

Interneti-teenused

On teenuseid, mis kontrollivad veebis veebisaidi dubleerivaid lehti. Näiteks teenus Siteliner.com (http://www.siteliner.com/). Sealt leiate katkisi linke ja duplikaate. Tellimusega saate vaadata kuni 25 000 lehekülge ja tasuta 250 lehekülge.

Vene teenus Saitreport.ru võib aidata duplikaatide leidmisel. Teenindusaadress: https://saitreport.ru/poisk-dublej-stranic

Veebisaidi dubleerivate lehtede eemaldamine

Duplikaatidega tegelemiseks pole nii palju võimalusi, kuid kõik need nõuavad spetsialistide arendajate kaasamist või vastavate teadmiste omamist. Tegelikult taandub duplikaatide "juurimise" arsenal järgmisele:

Nende füüsiline eemaldamine on hea lahendus staatiliste duplikaatide jaoks.
Duplikaatide indekseerimise keeld – sobib peamiste sihtlehtede sisu osaliselt dubleerivate teenuselehtede vastu võitlemiseks.
.htaccess konfiguraatori failis – hea lahendus URL-i hierarhia reff-siltide ja vigade korral.
Märgendi „ ” installimine on parim valik lehekülgede, filtrite ja sortimise ning utm-lehtede jaoks.
Märgi “meta name=”robots” content=”noindex, nofollow” installimine – lahendus trükitud versioonidele, toodete arvustuste vahelehtedele.

Duplikaatlehtede kontroll-loend

Sageli peitub probleemi lahendus mootori enda häälestamises ja seetõttu pole optimeerija põhiülesanne mitte niivõrd kõrvaldamine, kuivõrd osaliste ja täielike võtete täieliku loendi väljaselgitamine ning tegijale pädeva tehnilise spetsifikatsiooni esitamine.

Pidage meeles järgmist.

Täielikud duplikaadid on siis, kui sama leht asub kahel või enamal aadressil. Osalised duplikaadid on siis, kui teatud sisuosa dubleeritakse mitmel leheküljel, kuid need ei ole enam täielikud koopiad.
Täielikud ja osalised duplikaadid võivad alandada saidi positsiooni otsingutulemustes mitte ainult URL-i skaalal, vaid ka kogu domeenis.
Täielikke duplikaate pole raske leida ja kõrvaldada. Enamasti sõltub nende ilmumise põhjus saidi CMS-i funktsioonidest ja saidi arendaja SEO oskustest.
Osalisi duplikaate on raskem leida ja need ei põhjusta pingereas järske kaotusi, kuid teevad seda järk-järgult ja saidi omanikule märkamatult.
Osaliste ja täielike dubleerivate lehtede leidmiseks saate kasutada otsingutulemuste jälgimist otsinguoperaatorite, spetsiaalsete parserprogrammide, Google'i otsingukonsooli ja saidi käsitsi otsingu abil.
Saidi duplikaatidest vabastamine taandub nende füüsilisele kustutamisele, duplikaatide indekseerimise keelamisele failis „robots.txt”, 301 ümbersuunamise seadistamisele, „rel=canonical” ja „meta name=”robots” content=”noindexi installimisele, nofollow" sildid."