Kandungan pendua: kaedah pengenalan dan penghapusan. Halaman yang serupa (pendua). Cara mengenal pasti kandungan pendua

Ramai pemilik tapak web memberi tumpuan terutamanya pada memastikan kandungan itu unik berbanding sumber lain. Walau bagaimanapun, anda tidak seharusnya melupakan kehadiran kandungan pendua dalam tapak yang sama. Ini juga mempunyai kesan yang kuat pada kedudukan.

Apakah kandungan pendua

Kandungan berulang, atau pendua, ialah blok teks yang banyak yang bertepatan dalam tapak pada halaman yang berbeza. Ini tidak semestinya dilakukan dengan niat jahat - lebih kerap ia berlaku atas sebab teknikal, dibincangkan secara terperinci di bawah.

Bahayanya ialah kandungan pendua selalunya tidak dapat dilihat dengan mata kasar, tetapi enjin carian melihatnya dengan sempurna dan bertindak balas dengan sewajarnya.

Dari manakah kandungan pendua berasal dan dari manakah ia paling biasa?

Sebab utama fenomena ini:

Mengubah struktur tapak;
Penggunaan yang disengajakan untuk tujuan tertentu (katakan, versi cetakan);
Tindakan salah pengaturcara dan juruweb;
Masalah dengan CMS.

Sebagai contoh, situasi biasa berlaku: replytocom (balas komen) dalam WordPress secara automatik menjana halaman baharu dengan URL yang berbeza, tetapi bukan kandungan.

Biasanya, kandungan pendua diperhatikan apabila membuat pengumuman artikel di halaman lain tapak, menyiarkan ulasan, serta apabila terdapat perihalan produk, kategori dan tajuk yang sama.

Mengapa kandungan pendua tidak baik

Kandungan berulang mempunyai analog dari bidang ekonomi - overdraf bank. Di sinilah belanjawan yang dipanggil merangkak dibelanjakan. Ini ialah bilangan halaman sumber yang boleh dirangkak oleh enjin carian dalam tempoh masa tertentu. Sumber itu sangat berharga, dan lebih baik membelanjakannya pada halaman yang benar-benar penting dan relevan daripada berpuluh-puluh pendua teks yang sama.

Oleh itu, kandungan pendua memburukkan pengoptimuman enjin carian. Selain itu, pautan semula jadi hilang dan jus pautan diedarkan secara salah dalam tapak. Dan juga halaman yang benar-benar relevan diganti.

Cara mencari kandungan pendua pada tapak web (secara manual, program dan perkhidmatan)

Terdapat program khas untuk analisis sumber. Daripada jumlah ini, pengguna terutamanya menyerlahkan Netpeak Spider. Ia mencari salinan lengkap halaman, padanan mengikut tajuk atau perihalan atau tajuk. Pilihan lain ialah Screaming Frog, yang mempunyai fungsi yang sama dan pada asasnya berbeza hanya dalam antara muka. Terdapat juga aplikasi Xenu`s Link Sleuth, yang berfungsi dengan cara yang serupa dengan enjin carian dan mampu menyisir tapak untuk pendua dengan agak cekap.

Malangnya, tiada alat yang boleh menjejaki semua pendua teks sepenuhnya. Oleh itu, kemungkinan besar, anda perlu melakukan pemeriksaan manual. Berikut ialah senarai kemungkinan faktor yang menyebabkan masalah:

Kami mengetahui cara mencari kandungan pendua. Dan pembantu terbaik dalam memeranginya ialah ubah hala 301, teg URL Kanonik, arahan dalam robots.txt dan parameter Nofollow dan Noindex sebagai sebahagian daripada teg meta "robot".

Satu cara untuk menyemak dengan cepat sama ada terdapat kandungan pendua pada tapak ialah carian lanjutan dalam Yandex atau Google. Anda mesti memasukkan alamat tapak dan sekeping teks dari halaman yang anda memutuskan untuk menyemak. Anda juga boleh menggunakan banyak program untuk menyemak keunikan teks:

Text.Ru;
eTXT Anti-plagiarisme;
Advego Plagitus;
Kandungan-Tonton.

Cara menangani dan membersihkan kandungan pendua

Sistem bantuan Google yang sama memberikan beberapa petua untuk mengelakkan masalah ini daripada berlaku.

301. Apabila membuat perubahan struktur pada sumber, anda mesti menentukan ubah hala 301 dalam fail htaccess.
Gunakan standard rujukan tunggal.
Kandungan khusus wilayah lebih baik diletakkan pada domain peringkat atas daripada pada subdomain atau subdirektori.
Tetapkan kaedah pengindeksan pilihan anda menggunakan Konsol Carian.
Jangan gunakan templat. Daripada meletakkan teks hak cipta pada setiap halaman, lebih baik buat pautan yang akan membawa ke halaman berasingan dengan teks ini.
Apabila membangunkan halaman baharu, pastikan halaman tersebut ditutup daripada pengindeksan sehingga ia bersedia sepenuhnya.
Fahami betul-betul cara kandungan anda dipaparkan - mungkin terdapat perbezaan dalam paparan di blog dan forum.
Jika terdapat banyak artikel serupa di laman web ini, lebih baik sama ada menggabungkan kandungannya menjadi satu keseluruhan atau unikkan setiap satu.

Enjin carian tidak mengenakan sebarang sekatan terhadap tapak yang mempunyai kandungan pendua atas sebab teknikal (tidak seperti mereka yang melakukan ini dengan sengaja untuk memanipulasi hasil carian atau mengelirukan pelawat).

Selepas pendua telah dialih keluar, yang tinggal hanyalah mengalih keluar pendua daripada hasil carian. Yandex melakukan ini sendiri, dengan syarat fail robots.txt dikonfigurasikan dengan betul. Bagi Google: anda perlu menetapkan peraturan secara manual dalam Juruweb, pada tab "Parameter URL".

Kesimpulan

Memerangi kandungan pendua di tapak web adalah aspek penting dalam aktiviti pemilik mana-mana tapak web. Terdapat beberapa sebab untuk kejadiannya, dan sama banyak cara untuk menghapuskannya.

Walau bagaimanapun, peraturan utama kekal: siarkan kandungan asal secara eksklusif, tanpa mengira jenis tapak. Walaupun ia adalah kedai rantaian yang besar dengan beribu-ribu muka surat.

TERIMA PENGUMUMAN POS YANG SERUPA KE EMAIL ANDA

Langgan dan terima tidak lebih daripada sekali seminggu sesuatu yang menarik dari dunia pemasaran internet, SEO, promosi laman web, kedai dalam talian, membuat wang di laman web.

“Saya telah pun menyentuh topik halaman pendua dan hari ini kita akan membincangkan perkara ini dengan lebih terperinci.

Apa dah jadi muka surat pendua? Ini adalah halaman dengan teks yang serupa atau serupa yang tersedia di URL yang berbeza. Contohnya, pendua yang sangat biasa bagi halaman utama sumber

Di bawah ini kita akan melihat beberapa pilihan biasa untuk menduplikasi kandungan, tetapi sekarang mari kita bercakap tentang cara ia mempengaruhi muka surat yang serupa untuk promosi laman web.

Enjin carian telah lama belajar untuk menentukan keunikan teks dengan urutan aksara, iaitu, dengan ayat yang disusun secara identik, dari mana urutan huruf dan ruang diambil. Jika kandungannya tidak unik (dicuri), maka robot akan dengan mudah memikirkannya, dan apabila teks bukan unik ditemui dengan kerap, maka prospek sumber sedemikian berada di bawah penapis AGS agak tinggi.

Mari bayangkan kerja robot carian. Apabila melawat laman web, perkara pertama yang dia lihat ialah fail. robots.txt dan menerima arahan daripadanya: apa yang perlu diindeks dan apa yang ditutup untuk pengindeksan. Tindakan seterusnya ialah mengakses fail sitemap.xml, yang akan menunjukkan robot peta tapak dengan semua laluan yang dibenarkan. Baca artikel - "Fail Sitemap.xml untuk enjin carian Google dan Yandex." Setelah menerima semua maklumat yang diperlukan, robot bergerak untuk melaksanakan fungsi biasa.

Setelah melawat halaman tertentu, dia "menyerap" kandungannya dan membandingkannya dengan maklumat yang sudah tersedia dalam otak elektroniknya, yang dikumpulkan dari seluruh hamparan Internet. Setelah mendapati teks itu tidak unik, enjin carian tidak akan mengindeks halaman ini dan akan membuat nota dalam buku notanya di mana ia merekodkan URL "menyinggung". Seperti yang anda mungkin sudah meneka, dia tidak akan kembali ke halaman ini lagi, supaya tidak membuang masa berharganya.

Katakan halaman itu sangat unik dan robot telah mengindeksnya, tetapi selepas mengikuti URL seterusnya sumber yang sama, halaman itu berakhir pada halaman dengan teks yang sama sepenuhnya atau sebahagiannya. Apakah yang akan dilakukan oleh enjin carian dalam keadaan sedemikian? Sudah tentu, dia juga tidak akan mengindeks ujian yang serupa, walaupun yang asal berada di tapak yang sama, tetapi pada URL yang berbeza. Robot itu mungkin tidak berpuas hati dengan masa yang terbuang dan pasti akan membuat nota dalam buku notanya. Sekali lagi, jika kejadian sedemikian berulang berulang kali, sumber itu mungkin tidak disukai oleh enjin carian.

Kesimpulan No 1. Halaman serupa yang terletak di URL berbeza mengambil masa yang diperuntukkan kepada robot untuk mengindeks tapak. Ia masih tidak akan mengindeks halaman pendua, tetapi ia akan menghabiskan sebahagian daripada had masa untuk berkenalan dengannya dan mungkin tidak mempunyai masa untuk mendapatkan kandungan yang benar-benar unik.

Kesimpulan No 2. Kandungan pendua akan menjejaskan promosi tapak web anda dalam enjin carian secara negatif. Enjin carian tidak menyukai teks bukan unik!

Kesimpulan No 3. Anda pasti perlu menyemak projek anda untuk halaman pendua untuk mengelakkan masalah yang disenaraikan di atas.

Ramai orang langsung tidak mengambil berat tentang "kesucian" kandungan mereka. Kerana ingin tahu, saya menyemak beberapa laman web dan agak terkejut dengan keadaan yang mempunyai halaman pendua. Di blog seorang wanita, saya tidak menemui fail robots.txt langsung.

Anda perlu serius memerangi kandungan pendua dan mulakan dengan mengenal pastinya.

Contoh kandungan pendua biasa dan cara untuk menyelesaikan masalah

Halaman utama pendua. Contoh:

http://site.com
http://site.com/index.php.

Dalam kes ini, isu ini diselesaikan menggunakan ubah hala 301 - "arahan" untuk pelayan melalui fail .htaccess.

Satu lagi contoh pendua halaman utama:

http://site.com
http://www.site.com

Untuk mengelakkan pertindihan sedemikian, anda boleh mendaftarkan cermin utama tapak dalam fail robots.txt dalam arahan - "Hos" untuk Yandex:

Hos: site.com

Dan juga mengambil kesempatan 301 ubah hala dan arahkan Yandex dan enjin carian Google ke cermin utama tapak menggunakan alat juruweb.

Contoh pendua halaman utama yang hampir mengejutkan saya apabila mencari penyelesaian kelihatan seperti ini:

http://site.com
http://site.com/

Saya membaca di suatu tempat bahawa garis miring pada penghujung pautan ke halaman utama mencipta pendua dan enjin carian melihat pautan dengan dan tanpa garis miring sebagai URL berbeza yang membawa kepada halaman dengan teks yang sama. Apa yang membimbangkan saya bukanlah kemungkinan pertindihan itu sendiri, tetapi kehilangan berat halaman utama dalam keadaan sedemikian.

Saya mula menggali. Atas permintaan kepada pelayan di URL di atas, saya menerima kod respons 200. Kod 200 bermaksud - "Permintaan pengguna berjaya diproses dan respons pelayan mengandungi data yang diminta." Ia berikutan daripada ini bahawa ia masih berganda pada muka.

Saya juga cuba melakukan 301 redirect (pengalihan semula), tetapi arahan tidak berfungsi, dan saya masih menerima kod respons 301 yang dikehendaki. Penyelesaian kepada masalah itu adalah ketiadaan masalah itu sendiri. Ini adalah permainan kata-kata. Ternyata penyemak imbas moden sendiri memasukkan aksara "/" di hujung baris, menjadikannya tidak kelihatan, yang secara automatik menjadikan dua kali ganda mustahil. Macam ni!

Nah, satu lagi contoh pendua halaman utama:

http://site.com
https://site.com

Ada kalanya, disebabkan ralat juruweb atau gangguan enjin carian, atau dalam keadaan lain, pautan di bawah protokol https:// selamat berakhir dalam indeks. Apa yang perlu dilakukan dalam kes sedemikian dan bagaimana untuk mengelakkan ini pada masa hadapan? Sudah tentu, anda perlu mengalih keluar pautan dengan protokol https:// daripada carian, tetapi anda perlu melakukan ini secara manual menggunakan alat juruweb:

Dalam enjin carian Yandex, webmaster — tapak saya — padam URL:

penting! Arahan yang ditulis dalam fail robots.txt melarang robot carian daripada mengimbas teks, yang melindungi tapak daripada pendua, tetapi arahan yang sama tidak melarang URL halaman pengindeksan.

Baca lebih lanjut dalam artikel:

Terdapat satu lagi cara yang agak berkesan untuk mengenal pasti "klon" menggunakan enjin carian itu sendiri. Di Yandex, anda perlu memasukkan dalam medan carian: link.site.com “Ujian serpihan”. Contoh:

Yandex menemui 2 perlawanan kerana saya tidak menyekat kategori daripada pengindeksan dan oleh itu terdapat padanan dengan pengumuman di halaman utama. Tetapi jika untuk blog masakan penyertaan kategori dalam carian adalah wajar, maka untuk topik lain, seperti SEO, tidak ada keperluan sedemikian dan lebih baik menutup kategori dari pengindeksan.

Anda boleh menyemak menggunakan carian Google seperti ini: site:site.com “Serpihan teks.” Contoh:

Program dan perkhidmatan dalam talian untuk mencari pendua kandungan dalaman dan luaran menggunakan serpihan teks

Dalam artikel ini saya tidak akan membuat semakan terperinci mengenai program dan perkhidmatan popular; Saya hanya akan memberi tumpuan kepada yang saya sendiri sentiasa gunakan.

Untuk mencari pendua dalaman dan luaran, saya menasihati anda untuk menggunakan perkhidmatan dalam talian www.miratools.ru. Sebagai tambahan kepada pemeriksaan teks, perkhidmatan ini termasuk pelbagai ciri menarik.

Program untuk mencari pendua - Advego Plagiatus. Program yang sangat popular, saya sendiri menggunakannya sepanjang masa. Fungsi program adalah mudah; untuk menyemak teks, hanya salin dan tampal ke dalam tetingkap program dan klik pada mula.

Selepas menyemak, laporan akan dibentangkan tentang keunikan peratusan teks yang disemak dengan pautan ke sumber padanan:

Selain itu, serpihan teks tertentu yang mana program mendapati padanan akan diserlahkan dengan latar belakang kuning:

Program yang sangat bagus, gunakannya dan pastikan anda melanggan kemas kini blog.

jumpa lagi!

Yang ikhlas, Kirillov Vitaly

1. Pengenalan kepada masalah

Pada masa ini, masalah pertindihan maklumat di Internet semakin meruncing. Selalunya, pertindihan sedemikian dilakukan dengan sengaja, melanggar hak cipta. Penyerang menggunakan kandungan berhak cipta untuk mengisi laman web mereka sendiri untuk memanfaatkan diri mereka sendiri.

Pertindihan maklumat ini memburukkan keputusan enjin carian, akibatnya yang terakhir secara aktif memerangi fenomena ini. Sesungguhnya, jika pengguna menerima 10 dokumen yang sama atas permintaan ("identiti" ditentukan oleh pengguna dengan ), ini tidak mungkin menambah populariti pada enjin carian. Beberapa tahun yang lalu, situasi seperti itu diperhatikan di Rambler, akibatnya enjin carian kehilangan sebahagian daripada kedudukannya. Walau bagaimanapun, Rambler kini menapis dan menyembunyikan pendua.

Perlu juga diperhatikan bahawa kandungan pendua menyumbat indeks enjin carian, menjadikannya lebih sukar untuk memberikan jawapan pantas kepada pengguna. Pada masa yang sama, semua dokumen perlu diindeks secara berkala, dan penampilan dokumen baharu dengan kandungan bukan asal jelas membahayakan kelajuan pengindeksan.

2. Teori untuk menentukan "pendua kabur"

a. Apakah "pengambilan kabur"

Mula-mula anda perlu memutuskan terminologi. Belum ada kata sepakat mengenai perkara ini, dan oleh itu terminologi ini hanya berdasarkan akal sehat.

Dokumen web berganda (pendua).– salinan tepat dokumen web. "Pendua kabur" dokumen web– dokumen web yang sebahagiannya telah diubah dalam kandungan dan/atau dalam pemformatan (menggunakan tag html lain untuk mereka bentuk halaman).

Kami akan mentafsir "dokumen web pendua" hanya dari sudut pandangan enjin carian, bukan pengguna. Oleh itu, kami tidak akan menganggap fenomena sedemikian sebagai "penulisan salinan", i.e. menulis semula teks khusus untuk enjin carian menggunakan perkataan yang berbeza, tetapi mengekalkan makna umum. Teks sedemikian akan sentiasa asli untuk enjin carian, kerana Komputer belum dapat membezakan maksud teks.

Terdapat beberapa kaedah asas untuk mengenal pasti pendua.

b. Kaedah perkataan deskriptif

Kaedah ini berfungsi mengikut prinsip berikut.

Pertama, sampel kecil (lebih kurang 2000-3000 patah perkataan) dibentuk. Sampel mesti memenuhi syarat berikut:

Dengan bantuannya, anda boleh menerangkan sepenuhnya hampir semua dokumen di Internet.
- perihalan dokumen tidak boleh berlebihan

Oleh itu, untuk membentuk sampel, anda perlu membuang perkataan yang paling dan paling kurang biasa, i.e. tidak mengambil kira kata henti dan pelbagai istilah sempit bertema. Juga, kata sifat tidak termasuk dalam sampel, kerana ia tidak membawa beban semantik dalam bahasa Rusia.

Seterusnya, setiap dokumen dibandingkan dengan sampel dan vektor dikira, dimensinya sama dengan bilangan perkataan dalam sampel. Komponen vektor boleh mengambil dua nilai – 0 atau 1. 0 – jika perkataan daripada sampel tiada dalam dokumen, 1 – jika perkataan itu muncul dalam dokumen. Seterusnya, dokumen disemak untuk penduaan dengan membandingkan vektor mereka.

Menggunakan algoritma ini, Yandex mengenal pasti pendua kabur.

c. Kaedah kayap

Kaedah kayap adalah seperti berikut. "Checksum" dikira untuk semua subchain bagi teks yang dianalisis. Checksum (atau "tandatangan") ialah nombor unik yang dikaitkan dengan beberapa teks dan/atau fungsi untuk mengiranya. Fungsi pengiraan jumlah semak boleh mempunyai beberapa matlamat: contohnya, "tidak boleh dipecahkan" (meminimumkan kemungkinan teks sumber boleh diteka daripada nilai jumlah semak) atau "tidak boleh berulang" (meminimumkan kemungkinan dua teks berbeza boleh mempunyai perkara yang sama. checksum)- Majalah elektronik "Spamtest" No. 27.

Algoritma berikut untuk mengira jumlah semak biasanya digunakan: fnv, md5, crc. Selepas mengira jumlah semak, sampel rawak dibina daripada set yang terhasil. Berdasarkan sampel ini, dokumen tersebut boleh dibandingkan dengan dokumen lain yang sampelnya juga telah diprakira.

Kaedah pengiraan ini agak intensif sumber dan boleh dielakkan dengan mengubah sedikit teks, kerana, pertama sekali, kayap bergantung pada jarak antara perkataan.

Kini kaedah kayap telah berkembang kepada algoritma "kayap super", yang menggunakan set jumlah semak terhad. Percubaan di ROMIP membawa kepada keputusan berikut - 84 kayap, 6 super kayap melebihi 14 kayap setiap satu. Teks dianggap sebagai padanan jika sekurang-kurangnya dua super kayap daripada 6 padanan.

Pegawai telah berulang kali menyatakan bahawa Yandex bukan pengulas dan tidak akan melawan masalah kecurian kandungan dalam talian.

Inilah jawapan rasmi daripada A. Sadovsky:

... Carian Yandex, apabila mengesan pendua, cuba menentukan dokumen asal. Algoritma sedia ada, sudah tentu, tidak sempurna dan kami sedang berusaha untuk memperbaikinya. Bagi peraturan undang-undang, enjin carian belum dapat mengenal pasti pengarang teks tersebut. Jika kandungan yang diusik dialih keluar daripada rangkaian (contohnya, akibat daripada tindakan pemegang hak cipta), Yandex juga akan mengalih keluarnya daripada pangkalan data semasa robot merangkaknya. Proses ini boleh dipercepatkan dengan menggunakan borang http://webmaster.yandex.ru/delurl.xml

Sekarang mari kita lihat apakah "dokumen pendua" untuk Yandex? Penulis menawarkan tafsiran berikut. (Jika teks di bawah kelihatan biasa kepada anda, maka jangan fikir buruk, penulis tidak lama dahulu cuba membincangkan masalah ini secara aktif di forum)))

Terdapat dua jenis pendua: "pendua kabur" dan "pendua lengkap."

"Pendua kabur" bergantung pada coretan, i.e. sebenarnya ditentukan oleh permintaan pengguna. Ini berlaku seperti berikut.

1. Pengguna menetapkan permintaan.
2. Yandex mengira kaitan tapak dengan permintaan dan meletakkan kedudukan tapak, tetapi belum menunjukkannya kepada pengguna.
3. Seterusnya, Yandex membandingkan coretan dokumen yang dipilih untuk mengenal pasti pendua (mungkin coretan dibandingkan menggunakan kaedah kayap).
4. Dan akhirnya, ia menghasilkan hasil yang ditapis, mengalih keluar beberapa pendua (mengikut prinsip apakah dokumen tertentu yang ditinggalkan tidak jelas; mungkin dokumen yang paling relevan dipilih, dan bersama-sama dengannya, dokumen yang paling kurang serupa dengannya disertakan dalam keputusan; mungkin hanya rujukan memainkan peranan persekitaran tapak).

Kewujudan penapis jenis ini secara tidak langsung dibuktikan oleh kata-kata Sadovsky (jawatan No. 9) dan fakta bahawa keputusan dengan tetapan carian yang berbeza (khususnya, bilangan serpihan yang dipaparkan dengan perkataan pertanyaan) adalah berbeza.

Dengan tetapan "paparkan tidak lebih daripada 5 serpihan", terdapat lebih banyak tapak dalam hasil carian berbanding tetapan "paparkan tidak lebih daripada 1 serpihan". Mari cuba pertanyaan "Dalam & kedua & bab & abstrak & ditumpukan kepada & amalan & pemasaran & aktiviti & organisasi & pada & contoh & pelayan & dux" (pertanyaan ditetapkan tanpa petikan!) - dalam kes pertama (paparan 1 serpihan dalam coretan) dalam tapak keluaran 21, dalam yang kedua (5 serpihan) – 27 tapak.

Semuanya di sini adalah logik - apabila satu petikan dipaparkan dalam coretan, coretan adalah lebih serupa daripada apabila 5 petikan dipaparkan dalam coretan. Contohnya, dalam kes kedua, coretan tapak kedua berbeza daripada coretan tapak pertama dan ketiga.

Sekarang mari kita berurusan dengan "pendua lengkap". Penulis percaya bahawa pendua tersebut ditentukan pada masa halaman diindeks. Ini mudah, kerana ia segera membolehkan anda memotong sampah dan tidak menambah maklumat pendua ke pangkalan data enjin carian.

Kaedah untuk mengenal pasti pendua ialah "kaedah perkataan deskriptif" (dibincangkan di atas).

Halaman yang dikenal pasti sebagai pendua lengkap dibuang daripada pangkalan data. Ini sering berlaku dengan halaman satu tapak (contohnya, katalog produk, apabila terdapat maklumat yang kurang bermakna daripada perkataan dalam bahagian navigasi). Atas dasar apa Yandex membuang pendua tertentu tidak diketahui, kemungkinan besar, berdasarkan gabungan tanda seperti: faktor sementara, "penilaian sumber", kepercayaan pada sumber, dll.

Bagaimanakah Yandex menentukan sumber asal sekiranya "pendua kabur" dikesan dan adakah ia menentukannya? Mari cuba fikirkan...

Mula-mula, mari kita serlahkan faktor yang mungkin menunjukkan sumber asal kandungan...

Tarikh pembuatan dokumen
- kaitan dokumen dengan permintaan
- "percaya pada sumber" (contohnya, anda boleh mempercayai sumber yang mempunyai kedudukan yang baik dalam Katalog Yandex dan trafik tinggi)
- menghubungkan antara pendua (contohnya, jika semua pendua merujuk kepada dokumen yang sama, ia adalah sumber asal)

Mari cuba percubaan kecil. Mari kita lihat halaman href=http://zoom.cnews.ru/ru/publication/index.php?art_id80=1523 dan frasa "Reka bentuk Lumix FZ50 adalah serupa dengan pendahulunya 8 megapiksel FZ30." Jelas ini adalah yang asli. Sekarang mari kita lihat siapa lagi yang menggunakan teks artikel: mari kita tetapkan pertanyaan menggunakan parameter rd=0. Tanpa rd, hanya tapak No. 1 dan No. 5 muncul dalam keputusan.

Ciri-ciri tapak adalah seperti berikut (perhatikan bahawa ia hanya memaut ke halaman pertama, selebihnya tidak mempunyai pautan balik):

Stanitsa	TIC	Bahagian katalog	PR	halaman PR
zoom.cnews.ru/ru/publication/index.php?art_id80=1523	3800	ya	6	4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50	170	ya	5	0
www.apitcomp.ru/analytic/genre3/page637	700	ya	4	0
www.toplist.ru/card/35859	110	Tidak	3	0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316	0	Tidak	1	0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323	0	Tidak	0	0
www.media.nrd.ru/index.php?showtopic=3323&st=100	40	Tidak	0	0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523	0	Tidak	0	0

Ambil perhatian bahawa coretan untuk semua tapak adalah sama.

Pada pandangan pertama, tidak jelas mengapa Yandex menapis semua tapak kecuali yang kelima. Laman web ini jelas tidak berwibawa di mata Yandex. Adalah lebih logik untuk meninggalkan halaman dari laman web www.apitcomp.ru dalam hasil carian - tapak itu lebih berwibawa, atau meninggalkan halaman dari forum (kedudukan 6 dan 7).

Mari kita semak halaman http://www.3dnews.ru/digital/lumix_fz50/ dan frasa "Pada zaman kita, apabila pembeli lapar akan ciri-ciri yang baik." Tapak yang ditunjukkan tanpa rd=0 diserlahkan dalam huruf tebal, dan sumbernya berwarna merah, yang, dengan cara itu, ditapis!

Halaman	TIC	YACA	L.S.	LP	PR	PR halaman
saturn-plus.ru/	70	ya	54	20349	3	3
saturn.24online.ru/	0	Tidak	1	1	0	0
www.3dnews.ru/digital/lumix_fz50/print	11000	ya	0	0	6	2
fotomag.com.ua/handbook14.html	400	ya	0	0	4	0
Deshevshe.net.ua/ua/review-73/4.html	80	Tidak	0	0	4	0
Ephotolink.ru/?mod=articles&act=show&sort=date&page=9	1400	ya	0	0	4	1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html	0	Tidak	0	0	0	0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&…	4300	ya	0	0	6	0
www.velc.ru/podderjka/stati/lumix_fz50/	120	ya	0	0	3	0
Ephotolink.tkat.ru/?mod=articles&id_article=21007	10	Tidak	0	0	3	0
www.ru-coding.com/rss.php?p=501	130	ya	0	0	3	0
www.toprunet.com/article.php?id=6388	200	Tidak	0	0	3	0
www.dphotographer.com.ua/camera/from/2/	90	Tidak	0	0	4	0
www.asmedia.ru/news/id8242.html	400	Tidak	0	0	3	0
www.mega-bit.ru/obzor/read/?id=70	40	Tidak	0	0	3	0
www.audiovideophoto.ru/panasonic1.html	0	Tidak	0	0	0	0
www.foto-piter.ru/news/2006/12/01/127/	10	Tidak	0	0	2	0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html	20	Tidak	0	0	1	0
www.novoe.nnov.ru/articles/?parent_id=33	0	Tidak	0	0	0	0
iwy.com.ua/top.php?p=326	0	Tidak	0	0	0	0
www.5-uglov.ru/articles_view.php?id_news=1222	90	ya	0	0	3	0
www.techhome.ru/catalog/photo/article_17112.html	950	ya	0	0	5	3
www.panasonic-spb.ru/articles_view.php?id_news=1222	0	Tidak	0	0	1	0
new-articles.ru/page_215.html	40	Tidak	0	0	3	0
www.ekvator-hifi.ru/articles_view.php?id_news=1222	10	Tidak	0	0	1	0
shop.key.ru/shop/goods/36608/	230	Tidak	3	18	4	0
www.pc-shop.kz/index.php?g_id=1711		Tidak	0	0	3	0
Portalink.ru/portal/ecamera/infoat_15269.htm	110	Tidak	0	0	3	3
www.rusdoc.ru/articles/13085/	1100	ya	3	13	5	1
www.docs.com.ru/articles.php?p=509	220	Tidak	0	0	4	0
e-libed.ru/a31/	0	Tidak	1	17	0	0
dvdlink.ru/portal/Ecamera/infoat_15269.htm	140	Tidak	0	0	3	0
www.articlesearch.ru/a3b856d85.html	0	Tidak	0	0	0	0
www.bestarticles.ru/a31/	0	Tidak	1	5	2	0
www.temu.ru/a31/	0	Tidak	0	0	2	0

LP – halaman rujukan, LS – tapak rujukan, Halaman PR – PR halaman, PR – PR halaman utama tapak.

Gambarnya serupa - kriteria penapisan tidak jelas sepenuhnya. Walau bagaimanapun, jika kita melihat coretan, kita akan melihat bahawa halaman di tapak uaport.net, www.megastoke.ru, portalink.ru mempunyai coretan yang agak berbeza daripada coretan tapak lain dan oleh itu tapak pertama dan ketiga tidak ditapis.

Apa yang boleh saya katakan pada akhirnya? Pertama sekali, sudah tentu, anda masih perlu banyak mencuba dan menganalisis, tetapi sudah jelas bahawa keputusan untuk menapis "pendua kabur" adalah berdasarkan analisis banyak faktor, yang utama adalah keaslian coretan itu.

4. Google dan kandungan pendua

Google berusaha untuk membalas permintaan pengguna hanya dengan tapak dengan kandungan yang segar dan unik.

Google percaya bahawa pengguna tidak mahu melihat pendua dalam hasil carian, jadi dokumen sedemikian disembunyikan dalam hasil cadangan. Jika pengguna masih mahu melihat pendua (contohnya, juruweb yang ingin mengetahui siapa yang mencuri kandungan daripada tapaknya), maka dia harus menambahkan parameter “&filter=0” pada penghujung URL.

Google percaya bahawa mengenal pasti pengarang kandungan akan membantu meningkatkan carian. Bagaimanapun, beliau menyatakan bahawa kaedah menentukan sumber asal seperti merekodkan tarikh penciptaan dokumen atau mendaftar kandungan oleh pengarang dalam perkhidmatan khas adalah tidak berkesan. Buat masa ini, Google memberi tumpuan kebanyakannya pada kuasa sumber dan bilangan pautan masuk. Oleh itu, sangat mungkin sumber yang terkenal meminjam artikel, contohnya, dari sumber khusus, kemudian majoriti mengetahui tentang artikel itu dari sumber yang terkenal dan meletakkan pautan kepadanya; akhirnya Google akan mengenal pasti tapak yang terkenal sebagai sumber utama...

Dalam kes kandungan pendua pada satu tapak (contohnya, halaman asal dan halaman cetakan), Google mencadangkan agar juruweb menggunakan robots.txt secara aktif. Anda juga dicadangkan untuk berhenti menggunakan ID sesi, kerana ini juga boleh menyebabkan kandungan pendua. Itu. Enjin carian boleh mengindeks halaman yang sama, tetapi dengan url yang berbeza dan nilai parameter sessid yang berbeza.

5. Perkara yang anda boleh buat percubaan dan cara terbaik untuk melakukannya

Jadi, kami telah menjelaskan perkara utama mengenai masalah pendua kandungan. Prinsip operasi penapis (khususnya Yandex) agak mudah, tetapi agak sukar untuk menentukan dengan tepat bagaimana pelbagai faktor diambil kira.

Berikut ialah perkara yang anda perlu semak secara eksperimen:

Bagaimanakah pendua ditapis pada masa dikeluarkan? Atas dasar apa?
- Kaedah "perkataan deskriptif" - bagaimanakah sampel perkataan terbentuk dan bagaimana vektor dibandingkan?
- Atas dasar apakah "pendua lengkap" dibuang?

Pilihan berikut boleh dicadangkan:

Kami membuat satu laman web dengan kandungan asli. Kami spam sedikit supaya ia diindeks. Seterusnya, kami mencipta beberapa klon (pendua). Klon boleh dibuat dalam pelbagai cara: mencampurkan perkataan sumber asal, menulis semula mereka, mengambil perenggan individu. Klon boleh diletakkan di tapak individu (pada pengehosan biasa dan biasa) dan pada halaman dalaman tapak. Anda sebahagiannya boleh spam klon. Kemudian kami menilai keputusan secara spekulatif dan membuat kesimpulan.
- Anda boleh menentukan prinsip "pendua kabur" ditapis menggunakan kaedah yang diterangkan di atas, i.e. hanya dengan menganalisis tapak yang ditapis.

6. Bacaan lanjut

Kandungan pendua, atau ringkasnya pendua, ialah halaman di tapak anda yang sepenuhnya (pendua jelas) atau sebahagian (pendua kabur) sama antara satu sama lain, tetapi setiap satu mempunyai URL yang berbeza. Satu halaman boleh mempunyai satu atau beberapa pendua.

Bagaimanakah kandungan pendua muncul di tapak web?

Untuk pengambilan yang jelas dan tidak jelas, terdapat beberapa sebab mengapa ia berlaku. Pendua jelas mungkin berlaku atas sebab berikut:

Ia muncul kerana CMS tapak. Contohnya, menggunakan replytocom dalam WordPress, apabila menambah komen baharu secara automatik mencipta halaman baharu yang berbeza hanya dalam URL.
Akibat ralat juruweb.
Disebabkan oleh perubahan dalam struktur tapak. Contohnya, apabila melaksanakan templat yang dikemas kini dengan URL baharu.
Dibuat oleh pemilik tapak untuk fungsi tertentu. Contohnya, halaman dengan versi teks yang boleh dicetak.

Pendua yang tidak jelas pada tapak anda mungkin muncul atas sebab berikut:

Mengapakah kandungan pendua berbahaya kepada tapak web?

Memberi kesan negatif terhadap promosi dalam hasil carian. Robot carian mempunyai sikap negatif terhadap kandungan pendua dan boleh menurunkan kedudukan mereka dalam hasil carian kerana kekurangan keunikan, dan oleh itu kegunaan untuk pelanggan. Tidak ada gunanya membaca perkara yang sama pada halaman laman web yang berbeza.
Boleh menggantikan halaman yang benar-benar berkaitan. Robot boleh memilih untuk memulangkan halaman pendua jika ia menganggap kandungannya lebih berkaitan dengan permintaan. Pada masa yang sama, pendua, sebagai peraturan, mempunyai penunjuk faktor tingkah laku dan/atau jisim pautan yang lebih rendah daripada halaman yang anda promosikan secara sengaja. Ini bermakna bahawa double akan ditunjukkan dalam kedudukan yang lebih teruk.
Membawa kepada kehilangan pautan semula jadi. Apabila pengguna membuat pautan bukan kepada prototaip, tetapi kepada pendua.
Menggalakkan pengedaran berat pautan dalaman yang salah. Pendua menarik sebahagian daripada berat daripada halaman yang dipromosikan, yang juga menghalang promosi dalam enjin carian.

Bagaimana untuk menyemak sama ada anda mempunyai pendua atau tidak?

Untuk mengetahui sama ada halaman tapak mempunyai pendua atau tidak, terdapat beberapa cara.

Adakah anda menemui sebarang pendua? Kami membaca cara meneutralkannya:

ubah hala ke-301 Kaedah ini dianggap paling boleh dipercayai apabila menyingkirkan pendua yang tidak perlu di tapak web anda. Intipati kaedah ini adalah untuk mengalihkan robot carian dari halaman pendua ke halaman utama. Oleh itu, robot melangkau dua kali ganda dan berfungsi hanya dengan halaman yang diperlukan tapak. Lama kelamaan, selepas menyediakan ubah hala ke-301, halaman pendua terperangkap dan terkeluar daripada indeks.
Tag . Di sini kami menunjukkan kepada enjin carian halaman mana yang merupakan halaman utama kami, bertujuan untuk pengindeksan. Untuk melakukan ini, pada setiap pengambilan anda perlu memasukkan kod khas untuk robot carian , yang akan mengandungi alamat halaman utama. Untuk mengelak daripada melakukan kerja sedemikian secara manual, terdapat pemalam khas.
Larang dalam robots.txt. Fail robots.txt ialah sejenis arahan untuk robot carian, yang menunjukkan halaman mana yang perlu diindeks dan yang tidak. Untuk melarang pengindeksan dan memerangi pendua, arahan Disallow digunakan. Di sini, seperti semasa menyediakan ubah hala 301, adalah penting untuk menetapkan larangan dengan betul.

Bagaimana untuk mengalih keluar pendua daripada indeks enjin carian?

Bagi Yandex, ia secara bebas mengalih keluar pendua daripada indeks jika fail robots.txt dikonfigurasikan dengan betul. Tetapi untuk Google anda perlu menetapkan peraturan dalam tab "Parameter URL" melalui Juruweb Google.

Jika anda menghadapi sebarang masalah untuk menyemak dan menghapuskan kandungan pendua, anda boleh menghubungi pakar kami pada bila-bila masa. Kami akan menemui semua elemen yang mencurigakan, sediakan ubah hala 301, robots.txt, rel="canonical", buat tetapan dalam Google. Secara umum, kami akan menjalankan semua kerja untuk memastikan tapak web anda berfungsi dengan berkesan.

Kandungan pendua adalah salah satu masalah utama kedudukan laman web yang rendah dalam enjin carian. Masalah ini disebabkan oleh kehadiran di tapak halaman yang sama sepenuhnya atau sebahagiannya antara satu sama lain. Sememangnya, untuk enjin carian, kehadiran halaman sampah di tapak web menimbulkan masalah yang serius, kerana mereka perlu menghabiskan kuasa pelayan untuk memprosesnya. Tidak masuk akal untuk enjin carian membazirkan sumber fizikal untuk mengindeks kandungan yang tidak berguna itu. Oleh itu, mereka melawan tapak sedemikian dengan menggunakan penapis kepada mereka atau menurunkannya dalam kedudukan, yang membawa kepada kedudukan rendah untuk pertanyaan yang dinaikkan pangkat.

Pendua dan SEO

Kehadiran halaman pendua di tapak membawa kepada perkara berikut:

Jus pautan yang berguna dibazirkan pada halaman yang tidak berguna ini.
Selepas kemas kini seterusnya, halaman pendua menggantikan halaman sasaran dan ia kehilangan kedudukan.
Kandungan pendua mengurangkan keunikan semua halaman di mana ia disiarkan.
Memandangkan enjin carian melawan halaman sedemikian dengan mengalih keluarnya daripada carian, ia juga mungkin mengecualikan halaman yang dipromosikan.

Klasifikasi pendua dan penyelesaian untuk menghapuskannya

Pendua boleh lengkap atau separa. Pendua lengkap adalah apabila halaman benar-benar serupa. Sehubungan itu, pendua separa adalah apabila halaman tidak sepadan sepenuhnya. Pendua lengkap dihapuskan melalui robots.txt dan menyediakan 301 ubah hala. Pendua separa dihapuskan dengan membuat pengeditan yang diperlukan di tapak.

Berikut ialah senarai senarai semak yang perlu anda lalui untuk mengenal pasti dan menyelesaikan masalah pendua:

Cari pendua halaman utama tapak. Sebagai contoh, mungkin terdapat pilihan halaman utama berikut: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http:// /domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Seperti yang anda lihat, terdapat banyak pilihan, tetapi pilihan yang optimum ialah http://www.domen.com/. Untuk menghapuskan salinan lain halaman utama, ubah hala 301 dan penutupan dalam robots.txt digunakan (dalam kes struktur seperti https://www.domen.com/.
Menyemak asas (peraturan emas SEO) - setiap halaman hanya boleh diakses di satu alamat. Alamat tidak boleh berbeza-beza seperti berikut: http://www.domen.com/stranica1/stranica2/ dan http://www.domen.com/stranica2/stranica1/.
Menyemak kehadiran pembolehubah dalam URL. Mereka tidak sepatutnya berada dalam alamat halaman. Sebagai contoh, menjana URL seperti: http://www.domen.ru/index.php?dir=4567&id=515 ialah ralat. URL yang betul ialah: http://www.domen.ru/dir/4567/id/515.
Menyemak kehadiran pengecam sesi dalam URL. Sebagai contoh, URL seperti http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 tidak boleh diterima. URL sedemikian mengandungi bilangan salinan yang tidak terhingga bagi setiap halaman. Oleh itu, adalah perlu untuk menutup semua pengecam sesi dalam robots.txt.