โรบ็อตการค้นหาคืออะไร? ฟังก์ชั่นของหุ่นยนต์ค้นหา "Yandex" และ Google หุ่นยนต์ค้นหาของ Google, Yandex, เครื่องมือค้นหาและบริการอื่น ๆ

โรบ็อตการค้นหา (บอท สไปเดอร์ สไปเดอร์ โปรแกรมรวบรวมข้อมูล) เป็นโปรแกรมเครื่องมือค้นหาพิเศษที่ออกแบบมาเพื่อสแกนเว็บไซต์บนอินเทอร์เน็ต

หลายๆ คนไม่รู้ว่าการสแกนบอทเป็นเพียงการรวบรวมและจัดเก็บข้อมูล พวกเขาไม่ประมวลผลมัน โปรแกรมอื่นก็ทำแบบนี้

หากคุณต้องการดูไซต์ผ่านสายตาของโรบ็อตการค้นหา คุณสามารถทำได้ผ่านแผงควบคุมของผู้ดูแลเว็บ

คุณสามารถดูวิธีการทำงานของ Google ได้ผ่านแผงควบคุมของผู้ดูแลเว็บ คุณต้องเพิ่มเว็บไซต์ของคุณจากนั้นจึงดูที่หน้าได้:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru

คุณสามารถดูยานเดกซ์ผ่านสำเนาของเพจที่บันทึกไว้ ในการดำเนินการนี้ให้ค้นหาหน้าที่ต้องการในการค้นหา Yandex คลิก "สำเนาที่บันทึกไว้" จากนั้น "ดูเวอร์ชันข้อความ"

ด้านล่างนี้คือรายการโรบ็อตการค้นหาที่เยี่ยมชมเว็บไซต์ของเรา บางแห่งจัดทำดัชนีเว็บไซต์ บางแห่งตรวจสอบการโฆษณาตามบริบท มีหุ่นยนต์เฉพาะทางที่ทำงานแคบบางอย่าง ตัวอย่างเช่น พวกเขาจัดทำดัชนีรูปภาพหรือข่าวสาร

เมื่อรู้จักหุ่นยนต์จากการมองเห็น คุณสามารถห้ามหรือปล่อยให้มันคลานไปรอบ ๆ ไซต์ได้ ซึ่งจะช่วยลดภาระบนเซิร์ฟเวอร์ หรือปกป้องข้อมูลของคุณจากการเข้าสู่เครือข่าย

หุ่นยนต์ค้นหายานเดกซ์

เครื่องมือค้นหา Yandex มีหุ่นยนต์ค้นหาโหลครึ่งที่เรารู้จัก รายชื่อบอทที่ฉันขุดได้ รวมถึงจากความช่วยเหลืออย่างเป็นทางการอยู่ด้านล่าง

YandexBot เป็นหุ่นยนต์จัดทำดัชนีหลัก
YandexMedia เป็นหุ่นยนต์ที่สร้างดัชนีข้อมูลมัลติมีเดีย
YandexImages - ตัวสร้างดัชนี Yandex.Images;
YandexCatalog - เครื่องมือ "แตะ" สำหรับ Yandex.Catalog ใช้เพื่อลบไซต์ที่ไม่พร้อมใช้งานออกจากการเผยแพร่ในแคตตาล็อกชั่วคราว
YaDirectFetcher - หุ่นยนต์ Yandex.Direct;
YandexBlogs เป็นหุ่นยนต์ค้นหาบล็อกที่จัดทำดัชนีโพสต์และความคิดเห็น
YandexNews - หุ่นยนต์ Yandex.News;
YandexWebmaster – เกิดขึ้นเมื่อเพิ่มไซต์ผ่านฟอรัม AddURL
YandexPagechecker - เครื่องมือตรวจสอบมาร์กอัปขนาดเล็ก
YandexFavicons - ตัวสร้างดัชนี favicon
YandexMetrika - หุ่นยนต์ Yandex.Metrica;
YandexMarket - หุ่นยนต์ Yandex.Market;
YandexCalendar เป็นหุ่นยนต์ Yandex.Calendar

โรบ็อตการค้นหาของ Google (บอท)

Googlebot เป็นหุ่นยนต์จัดทำดัชนีหลัก
Googlebot Nes - เครื่องมือสร้างดัชนีข่าว
Googlebot Images - เครื่องมือสร้างดัชนีรูปภาพ
Googlebot Video - หุ่นยนต์สำหรับข้อมูลวิดีโอ
Google Mobile - ตัวสร้างดัชนีเนื้อหามือถือ
Google Mobile AdSense - หุ่นยนต์ AdSense บนมือถือ
Google AdSense - หุ่นยนต์ AdSense
Google AdsBot – บอทตรวจสอบคุณภาพของหน้า Landing Page
Mediapartners-Google - โรบ็อตของ AdSense

โรบ็อตของเครื่องมือค้นหาอื่นๆ

นอกจากนี้ ในบันทึกของไซต์ของคุณ คุณอาจสะดุดกับโรบ็อตของเครื่องมือค้นหาอื่นๆ

แรมเบลอร์ - สแต็คแรมเบลอร์
Mail.ru - Mail.Ru
ยาฮู! — Slurp (หรือ Yahoo! Slurp)
AOL - สเลอปี้
เอ็มเอสเอ็น - เอ็มเอสเอ็นบอต
ถ่ายทอดสด - MSNBot
ถาม - เตโอมา
อเล็กซ่า - ia_archiver
ไลคอส - ไลคอส
ปอร์ต - ปอร์ต
Webalta - WebAlta (โปรแกรมรวบรวมข้อมูล WebAlta/2.0)

นอกจากบอทเสิร์ชเอ็นจิ้นแล้ว ยังมีกองทัพแมงมุมปีกซ้ายจำนวนมากวิ่งไปรอบๆ ไซต์อีกด้วย เหล่านี้คือตัวแยกวิเคราะห์ต่างๆ ที่รวบรวมข้อมูลจากไซต์ต่างๆ ซึ่งโดยปกติแล้วจะมีจุดประสงค์เพื่อจุดประสงค์ที่เห็นแก่ตัวของผู้สร้าง

บ้างก็ขโมยเนื้อหา บ้างก็ขโมยรูปภาพ บ้างก็แฮ็กเว็บไซต์และแอบวางลิงก์ หากคุณสังเกตเห็นว่า parser ดังกล่าวได้แนบตัวเองกับไซต์ของคุณ ให้บล็อกการเข้าถึงทุกวิถีทางที่เป็นไปได้ รวมทั้งผ่านทางด้วย

ทุกวันมีเนื้อหาใหม่จำนวนมากปรากฏบนอินเทอร์เน็ต: เว็บไซต์ถูกสร้างขึ้น, อัปเดตหน้าเว็บเก่า, อัปโหลดไฟล์รูปภาพและวิดีโอ หากไม่มีโรบ็อตการค้นหาที่มองไม่เห็น ก็จะไม่สามารถค้นหาเอกสารเหล่านี้บนเวิลด์ไวด์เว็บได้ ขณะนี้ไม่มีทางเลือกอื่นนอกจากโปรแกรมหุ่นยนต์ดังกล่าว โรบ็อตการค้นหาคืออะไร เหตุใดจึงจำเป็น และทำงานอย่างไร

หุ่นยนต์ค้นหาคืออะไร

โปรแกรมรวบรวมข้อมูลเว็บไซต์ (เครื่องมือค้นหา) เป็นโปรแกรมอัตโนมัติที่สามารถเยี่ยมชมหน้าเว็บนับล้านหน้า เคลื่อนย้ายผ่านอินเทอร์เน็ตได้อย่างรวดเร็วโดยไม่ต้องมีการแทรกแซงจากผู้ปฏิบัติงาน บอทจะสแกนพื้นที่อย่างต่อเนื่อง ค้นหาหน้าอินเทอร์เน็ตใหม่ๆ และเยี่ยมชมหน้าที่มีการจัดทำดัชนีไว้แล้วเป็นประจำ ชื่ออื่นๆ สำหรับโรบ็อตการค้นหา: สไปเดอร์ โปรแกรมรวบรวมข้อมูล บอท

ทำไมเราต้องมีโรบ็อตการค้นหา?

ฟังก์ชั่นหลักที่โรบ็อตการค้นหาทำคือการจัดทำดัชนีหน้าเว็บ รวมถึงข้อความ รูปภาพ ไฟล์เสียง และวิดีโอที่อยู่ในนั้น บอทตรวจสอบลิงก์ ไซต์มิเรอร์ (สำเนา) และการอัปเดต โรบอตยังตรวจสอบโค้ด HTML เพื่อให้สอดคล้องกับมาตรฐานขององค์การโลก ซึ่งพัฒนาและนำมาตรฐานเทคโนโลยีไปใช้สำหรับเวิลด์ไวด์เว็บ

การจัดทำดัชนีคืออะไรและเหตุใดจึงต้องมี?

ที่จริงแล้ว การจัดทำดัชนีคือกระบวนการในการเยี่ยมชมหน้าเว็บใดหน้าหนึ่งโดยโรบ็อตการค้นหา โปรแกรมจะสแกนข้อความที่โพสต์บนเว็บไซต์ รูปภาพ วิดีโอ ลิงก์ขาออก หลังจากนั้นเพจจะปรากฏในผลการค้นหา ในบางกรณี ไม่สามารถรวบรวมข้อมูลไซต์ได้โดยอัตโนมัติ ดังนั้นผู้ดูแลเว็บจึงสามารถเพิ่มไซต์ลงในเครื่องมือค้นหาได้ด้วยตนเอง โดยทั่วไป เหตุการณ์นี้จะเกิดขึ้นเมื่อคุณไม่มีเพจใดเพจหนึ่ง (ซึ่งมักเพิ่งสร้างใหม่) หายไป

โรบ็อตการค้นหาทำงานอย่างไร

เครื่องมือค้นหาแต่ละรายการมีบอทของตัวเอง ในขณะที่หุ่นยนต์ค้นหาของ Google อาจมีความแตกต่างอย่างมากในกลไกการทำงานของมันจากโปรแกรม Yandex หรือระบบอื่น ๆ ที่คล้ายกัน

โดยทั่วไป หลักการทำงานของหุ่นยนต์มีดังนี้: โปรแกรม "มา" ไปยังไซต์ผ่านลิงก์ภายนอก และเริ่มต้นจากหน้าหลัก "อ่าน" ทรัพยากรบนเว็บ (รวมถึงการดูข้อมูลบริการเหล่านั้นที่ผู้ใช้ไม่ได้ ดู). บอทสามารถย้ายไปมาระหว่างหน้าต่างๆ ของไซต์หนึ่งและไปยังไซต์อื่นๆ ได้

วิธีที่โปรแกรมเลือกว่าอันไหน บ่อยครั้งที่ "การเดินทาง" ของสไปเดอร์เริ่มต้นด้วยไซต์ข่าวหรือแหล่งข้อมูลขนาดใหญ่ ไดเร็กทอรี และผู้รวบรวมที่มีลิงก์จำนวนมาก โรบ็อตการค้นหาจะรวบรวมข้อมูลหน้าต่างๆ อย่างต่อเนื่อง ความเร็วและความสม่ำเสมอของการจัดทำดัชนีจะขึ้นอยู่กับปัจจัยต่อไปนี้:

ภายใน: การเชื่อมโยง (ลิงก์ภายในระหว่างหน้าต่างๆ ของแหล่งข้อมูลเดียวกัน) ขนาดไซต์ ความถูกต้องของโค้ด ความเป็นมิตรต่อผู้ใช้ และอื่นๆ
ภายนอก: จำนวนลิงก์ทั้งหมดที่นำไปสู่ไซต์

ก่อนอื่น โรบ็อตการค้นหาจะค้นหาไฟล์ robots.txt บนเว็บไซต์ใดๆ การจัดทำดัชนีทรัพยากรเพิ่มเติมจะดำเนินการตามข้อมูลที่ได้รับจากเอกสารนี้โดยเฉพาะ ไฟล์นี้มีคำแนะนำที่ชัดเจนสำหรับ "สไปเดอร์" ซึ่งช่วยให้คุณสามารถเพิ่มโอกาสที่โรบ็อตการค้นหาจะเข้าชมเพจได้ ดังนั้นเพื่อให้แน่ใจว่าไซต์นั้นเข้าสู่ผลลัพธ์ของ Yandex หรือ Google โดยเร็วที่สุด

โปรแกรมที่คล้ายกับหุ่นยนต์ค้นหา

แนวคิดของ "หุ่นยนต์ค้นหา" มักสับสนกับตัวแทนอัจฉริยะ ผู้ใช้หรืออัตโนมัติ "มด" หรือ "เวิร์ม" มีความแตกต่างอย่างมีนัยสำคัญเมื่อเปรียบเทียบกับตัวแทนเท่านั้น คำจำกัดความอื่น ๆ แสดงถึงหุ่นยนต์ประเภทเดียวกัน

ดังนั้นตัวแทนสามารถ:

ทางปัญญา: โปรแกรมที่ย้ายจากไซต์หนึ่งไปอีกไซต์หนึ่ง ตัดสินใจอย่างอิสระว่าจะทำอะไรต่อไป มันไม่ธรรมดามากบนอินเทอร์เน็ต
เป็นอิสระ: ตัวแทนดังกล่าวช่วยให้ผู้ใช้เลือกผลิตภัณฑ์ ค้นหา หรือกรอกแบบฟอร์ม สิ่งเหล่านี้เรียกว่าตัวกรอง ซึ่งแทบไม่เกี่ยวข้องกับโปรแกรมเครือข่าย
กำหนดเอง: โปรแกรมอำนวยความสะดวกในการโต้ตอบของผู้ใช้กับเวิลด์ไวด์เว็บ ได้แก่ เบราว์เซอร์ (เช่น Opera, IE, Google Chrome, Firefox), โปรแกรมส่งข้อความด่วน (Viber, Telegram) หรือโปรแกรมอีเมล (MS Outlook หรือ Qualcomm)

"มด" และ "หนอน" มีความคล้ายคลึงกับการค้นหา "แมงมุม" มากกว่า อดีตสร้างเครือข่ายระหว่างกันและโต้ตอบกันอย่างกลมกลืนเหมือนอาณานิคมมดจริง ในขณะที่ "เวิร์ม" สามารถสืบพันธุ์ได้เอง มิฉะนั้นพวกมันก็ทำหน้าที่ในลักษณะเดียวกับหุ่นยนต์ค้นหามาตรฐาน

ประเภทของโรบ็อตการค้นหา

โรบ็อตการค้นหามีหลายประเภท ขึ้นอยู่กับวัตถุประสงค์ของโปรแกรม ได้แก่:

“มิเรอร์” - ดูไซต์ที่ซ้ำกัน
มือถือ - มุ่งเป้าไปที่หน้าอินเทอร์เน็ตเวอร์ชันมือถือ
รวดเร็ว - บันทึกข้อมูลใหม่อย่างรวดเร็ว ดูการอัปเดตล่าสุด
การอ้างอิง - ลิงก์ดัชนีนับจำนวน
ตัวสร้างดัชนีเนื้อหาประเภทต่างๆ - โปรแกรมแยกสำหรับการบันทึกข้อความ เสียงและวิดีโอ รูปภาพ
“สปายแวร์” - ค้นหาหน้าที่ยังไม่แสดงในเครื่องมือค้นหา
“นกหัวขวาน” - เยี่ยมชมเว็บไซต์เป็นระยะเพื่อตรวจสอบความเกี่ยวข้องและประสิทธิภาพ
ระดับชาติ - ดูทรัพยากรบนเว็บที่อยู่บนโดเมนของประเทศหนึ่ง (เช่น .ru, .kz หรือ .ua)
Global - จัดทำดัชนีเว็บไซต์ระดับชาติทั้งหมด

หุ่นยนต์ของเครื่องมือค้นหาสำคัญ ๆ

นอกจากนี้ยังมีโรบ็อตเครื่องมือค้นหาแยกต่างหากอีกด้วย ตามทฤษฎีแล้วฟังก์ชันการทำงานอาจแตกต่างกันอย่างมาก แต่ในทางปฏิบัติโปรแกรมเกือบจะเหมือนกัน ความแตกต่างที่สำคัญระหว่างการจัดทำดัชนีหน้าอินเทอร์เน็ตโดยโรบ็อตของเครื่องมือค้นหาหลักทั้งสองมีดังนี้:

ความเข้มงวดในการตรวจสอบเชื่อกันว่ากลไกหุ่นยนต์ค้นหา Yandex จะประเมินไซต์ค่อนข้างเข้มงวดมากขึ้นเพื่อให้สอดคล้องกับมาตรฐานเวิลด์ไวด์เว็บ
การรักษาความสมบูรณ์ของเว็บไซต์โรบ็อตการค้นหาของ Google จัดทำดัชนีเว็บไซต์ทั้งหมด (รวมถึงเนื้อหาสื่อ) ในขณะที่ยานเดกซ์สามารถเลือกดูหน้าเว็บต่างๆ ได้
ความเร็วในการตรวจสอบหน้าใหม่ Google เพิ่มแหล่งข้อมูลใหม่ในผลการค้นหาภายในสองสามวัน ในกรณีของ Yandex กระบวนการอาจใช้เวลาสองสัปดาห์หรือมากกว่านั้น
ความถี่ของการจัดทำดัชนีใหม่โรบ็อตค้นหา Yandex จะตรวจสอบการอัปเดตสัปดาห์ละสองครั้ง และ Google จะตรวจสอบทุกๆ 14 วัน

แน่นอนว่าอินเทอร์เน็ตไม่ได้จำกัดอยู่เพียงสองเครื่องมือค้นหาเท่านั้น เครื่องมือค้นหาอื่น ๆ มีโรบ็อตของตัวเองที่ติดตามพารามิเตอร์การจัดทำดัชนีของตัวเอง นอกจากนี้ยังมี "สไปเดอร์" อีกหลายตัวที่ไม่ได้พัฒนาโดยแหล่งข้อมูลการค้นหาขนาดใหญ่ แต่โดยแต่ละทีมหรือเว็บมาสเตอร์

ความเข้าใจผิดที่พบบ่อย

ขัดกับความเชื่อที่นิยม สไปเดอร์ไม่ประมวลผลข้อมูลที่ได้รับ โปรแกรมจะสแกนและบันทึกหน้าเว็บเท่านั้น และการประมวลผลเพิ่มเติมจะดำเนินการโดยโรบ็อตที่แตกต่างกันโดยสิ้นเชิง

นอกจากนี้ ผู้ใช้จำนวนมากยังเชื่อว่าโรบ็อตการค้นหามีผลกระทบด้านลบและเป็น “อันตราย” ต่ออินเทอร์เน็ต แท้จริงแล้ว "สไปเดอร์" บางเวอร์ชันอาจทำให้เซิร์ฟเวอร์ทำงานหนักเกินไป นอกจากนี้ยังมีปัจจัยของมนุษย์ - ผู้ดูแลเว็บที่สร้างโปรแกรมอาจทำผิดพลาดในการตั้งค่าของโรบ็อต อย่างไรก็ตาม โปรแกรมที่มีอยู่ส่วนใหญ่ได้รับการออกแบบมาอย่างดีและมีการจัดการอย่างมืออาชีพ และปัญหาใดๆ ที่เกิดขึ้นจะได้รับการแก้ไขทันที

วิธีการจัดการการจัดทำดัชนี

โรบ็อตการค้นหาเป็นโปรแกรมอัตโนมัติ แต่เว็บมาสเตอร์สามารถควบคุมกระบวนการสร้างดัชนีได้บางส่วน แหล่งข้อมูลภายนอกช่วยได้มากในเรื่องนี้ นอกจากนี้ คุณสามารถเพิ่มไซต์ใหม่ลงในเครื่องมือค้นหาได้ด้วยตนเอง: แหล่งข้อมูลขนาดใหญ่มีแบบฟอร์มพิเศษสำหรับการลงทะเบียนหน้าเว็บ

เมื่อดูบันทึกของเซิร์ฟเวอร์ บางครั้งคุณอาจสังเกตเห็นความสนใจมากเกินไปในไซต์จากโรบ็อตการค้นหา หากบอทมีประโยชน์ (เช่น บอทสร้างดัชนี PS) สิ่งที่เหลืออยู่คือการสังเกต แม้ว่าภาระงานบนเซิร์ฟเวอร์จะเพิ่มขึ้นก็ตาม แต่ก็มีโรบ็อตรองอีกหลายตัวที่ไม่จำเป็นต้องเข้าถึงไซต์ สำหรับตัวฉันเองและสำหรับคุณผู้อ่านที่รัก ฉันรวบรวมข้อมูลและแปลงเป็นแท็บเล็ตที่สะดวกสบาย

ใครคือหุ่นยนต์ค้นหา

บอทค้นหาหรือที่เรียกกันว่าโรบ็อต โปรแกรมรวบรวมข้อมูล สไปเดอร์ เป็นเพียงโปรแกรมที่ค้นหาและสแกนเนื้อหาของเว็บไซต์โดยไปตามลิงก์บนหน้าเว็บ ไม่ใช่แค่เครื่องมือค้นหาที่มีหุ่นยนต์ค้นหาเท่านั้น ตัวอย่างเช่น บริการ Ahrefs ใช้สไปเดอร์เพื่อปรับปรุงข้อมูลเกี่ยวกับลิงก์ย้อนกลับ Facebook ทำการคัดลอกโค้ดเพจเพื่อแสดงลิงก์ที่โพสต์ใหม่พร้อมชื่อเรื่อง รูปภาพ และคำอธิบาย การขูดเว็บคือการรวบรวมข้อมูลจากแหล่งข้อมูลต่างๆ

การใช้ชื่อสไปเดอร์ใน robots.txt

อย่างที่คุณเห็นโครงการร้ายแรงใด ๆ ที่เกี่ยวข้องกับการค้นหาเนื้อหานั้นมีสไปเดอร์ของตัวเอง และบางครั้งงานเร่งด่วนคือการจำกัดการเข้าถึงของสไปเดอร์บางตัวไปยังไซต์หรือแต่ละส่วน ซึ่งสามารถทำได้ผ่านไฟล์ robots.txt ในไดเร็กทอรีรากของไซต์ ฉันเขียนเพิ่มเติมเกี่ยวกับการตั้งค่าโรบ็อตก่อนหน้านี้ ฉันขอแนะนำให้คุณอ่าน

โปรดทราบว่าไฟล์ robots.txt และคำสั่งของไฟล์อาจถูกละเลยโดยโรบ็อตการค้นหา คำสั่งเป็นเพียงคำแนะนำสำหรับบอทเท่านั้น

คุณสามารถตั้งค่าคำสั่งสำหรับโรบ็อตการค้นหาโดยใช้ส่วนนี้ - ติดต่อตัวแทนผู้ใช้ของโรบ็อตนี้ ส่วนต่างๆ ของสไปเดอร์ต่างๆ จะถูกคั่นด้วยบรรทัดว่างหนึ่งบรรทัด

User-agent: Googlebot อนุญาต: /

ตัวแทนผู้ใช้: Googlebot

อนุญาต: /

ด้านบนนี้คือตัวอย่างการโทรไปยังเครื่องมือค้นหาหลักของ Google

ในตอนแรก ฉันวางแผนที่จะเพิ่มรายการลงในตารางเกี่ยวกับวิธีที่บอทค้นหาระบุตัวเองในบันทึกของเซิร์ฟเวอร์ แต่เนื่องจากข้อมูลนี้มีความสำคัญเพียงเล็กน้อยสำหรับ SEO และสำหรับโทเค็นตัวแทนแต่ละรายการ อาจมีบันทึกหลายประเภท จึงมีการตัดสินใจที่จะดำเนินการโดยใช้เพียงชื่อของบอทและวัตถุประสงค์เท่านั้น

หุ่นยนต์ค้นหา G o o g l e ฟังก์ชั่นตัวแทนผู้ใช้

Googlebot	โปรแกรมรวบรวมข้อมูล-ดัชนีหลักของเพจสำหรับพีซีและปรับให้เหมาะสมสำหรับสมาร์ทโฟน
Mediapartners-Google	หุ่นยนต์เครือข่ายโฆษณา AdSense
APIs-Google	APIs-ตัวแทนผู้ใช้ Google
AdsBot-Google	ตรวจสอบคุณภาพของการโฆษณาบนหน้าเว็บสำหรับพีซี
AdsBot-Google-มือถือ	ตรวจสอบคุณภาพของการโฆษณาบนหน้าเว็บที่ออกแบบมาสำหรับอุปกรณ์มือถือ
Googlebot-รูปภาพ (Googlebot)	จัดทำดัชนีภาพบนหน้าเว็บไซต์
Googlebot-ข่าวสาร (Googlebot)	ค้นหาหน้าที่จะเพิ่มลงใน Google News
Googlebot-วิดีโอ (Googlebot)	จัดทำดัชนีเนื้อหาวิดีโอ
AdsBot-Google-แอพมือถือ	ตรวจสอบคุณภาพของการโฆษณาในแอปพลิเคชันสำหรับอุปกรณ์ Android ทำงานบนหลักการเดียวกันกับ AdsBot ทั่วไป

ค้นหาโรบ็อตที่ฉันจัดทำดัชนี ฟังก์ชั่นตัวแทนผู้ใช้

ยานเดกซ์	เมื่อคุณระบุโทเค็นตัวแทนนี้ใน robots.txt คำขอจะส่งไปยังบอต Yandex ทั้งหมด
ยานเดกซ์บอท	หุ่นยนต์จัดทำดัชนีพื้นฐาน
YandexDirect	ดาวน์โหลดข้อมูลเกี่ยวกับเนื้อหาของเว็บไซต์พันธมิตร YAN
YandexImages	จัดทำดัชนีรูปภาพเว็บไซต์
YandexMetrika	หุ่นยนต์ Yandex.Metrica
YandexMobileBot	ดาวน์โหลดเอกสารเพื่อวิเคราะห์การมีอยู่ของเลย์เอาต์สำหรับอุปกรณ์มือถือ
ยานเดกซ์มีเดีย	หุ่นยนต์จัดทำดัชนีข้อมูลมัลติมีเดีย
ยานเดกซ์นิวส์	Yandex.News Indexer
YandexPagechecker	เครื่องมือตรวจสอบมาร์กอัปแบบไมโคร
ยานเดกซ์มาร์เก็ต	หุ่นยนต์ Yandex.Market;
ยานเดกซ์ปฏิทิน	Yandex.หุ่นยนต์ปฏิทิน
YandexDirectDyn	สร้างแบนเนอร์แบบไดนามิก (โดยตรง)
ใช่DirectFetcher	ดาวน์โหลดหน้าเว็บที่มีโฆษณาเพื่อตรวจสอบความพร้อมและชี้แจงหัวข้อ (YAN)
YandexAccessibilityBot	ดาวน์โหลดหน้าเพื่อตรวจสอบความพร้อมของผู้ใช้
Yandexสกรีนช็อตBot	ถ่ายภาพสแนปชอต (สกรีนช็อต) ของเพจ
YandexVideoParser	แมงมุมบริการ Yandex.Video
YandexSearchShop	ดาวน์โหลดไฟล์ YML ของแคตตาล็อกผลิตภัณฑ์
ยานเดกซ์เข้าสู่ DBAPI	บอทตอบสนองออบเจ็กต์กำลังดาวน์โหลดข้อมูลไดนามิก

บอทการค้นหายอดนิยมอื่น ๆ ฟังก์ชั่นตัวแทนผู้ใช้

เบดูสไปเดอร์	Spider ของเครื่องมือค้นหาของจีน Baidu
Cliqzbot	หุ่นยนต์ของเครื่องมือค้นหาที่ไม่ระบุชื่อ Cliqz
AhrefsBot	บอทค้นหา Ahrefs (การวิเคราะห์ลิงก์)
เจนีโอ	หุ่นยนต์บริการ Genieo
บิงบอต	โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหา Bing
สลบ	โปรแกรมรวบรวมข้อมูลเครื่องมือค้นหาของ Yahoo
ดั๊กดั๊กบอท	โปรแกรมรวบรวมข้อมูลเว็บ PS DuckDuckGo
เฟสบอท	หุ่นยนต์ Facebook สำหรับการรวบรวมข้อมูลเว็บ
WebAlta (โปรแกรมรวบรวมข้อมูล WebAlta/2.0)	โปรแกรมรวบรวมข้อมูลการค้นหา PS WebAlta
BomboraBot	สแกนหน้าที่เกี่ยวข้องกับโครงการ Bombora
ซีซีบอท	โปรแกรมรวบรวมข้อมูลที่ใช้ Nutch ที่ใช้โปรเจ็กต์ Apache Hadoop
MSNBot	บอต PS MSN
Mail.Ru	โปรแกรมรวบรวมข้อมูลเครื่องมือค้นหา Mail.Ru
ia_archiver	การทำลายข้อมูลสำหรับบริการ Alexa
เตโอมะ	สอบถามบริการบอท

มีบอทการค้นหามากมาย ฉันเลือกเฉพาะบอทที่ได้รับความนิยมและมีชื่อเสียงที่สุดเท่านั้น หากมีบอทที่คุณพบเนื่องจากการสแกนไซต์อย่างเข้มข้นและต่อเนื่อง โปรดระบุสิ่งนี้ในความคิดเห็น ฉันจะเพิ่มพวกมันลงในตารางด้วย

วันนี้ยานเดกซ์เป็นเสิร์ชเอ็นจิ้นที่ได้รับความนิยมมากที่สุดบนอินเทอร์เน็ตภาษารัสเซียซึ่งมีผู้คนมากกว่าล้านคนใช้งานทุกวัน ความนิยมนี้อธิบายได้จากข้อเท็จจริงที่ว่าฐานข้อมูล Yandex มีหน้าอินเทอร์เน็ตที่จัดทำดัชนีไว้จำนวนมากซึ่งมีข้อมูลที่หลากหลายและบางครั้งก็ไม่ซ้ำกัน เมื่อใช้ร่วมกับอัลกอริธึมการค้นหา สิ่งนี้นำไปสู่ความเกี่ยวข้องสูงของเอกสารที่พบตามคำขอของผู้ใช้ และในท้ายที่สุดก็ตอบสนองความต้องการข้อมูลของผู้ใช้ได้อย่างสมบูรณ์

ณ วันที่ 17 กรกฎาคม พ.ศ. 2552 ยานเดกซ์ได้จัดทำดัชนีหน้าเว็บจำนวน 3,558,614,259 หน้า การรับข้อมูลจากเว็บไซต์อินเทอร์เน็ตและส่งไปยังฐานข้อมูลเครื่องมือค้นหาเป็นหน้าที่ของหุ่นยนต์จัดทำดัชนีพิเศษ ต้องขอบคุณการทำงานที่รวดเร็วเป็นส่วนใหญ่ ทุกวันนี้ Yandex จึงมีฐานข้อมูลเอกสารที่กว้างขวางสำหรับการค้นหา

ประวัติความเป็นมาของหุ่นยนต์ยานเดกซ์

ยานเดกซ์ปรากฏตัวในปี 1996 แต่ไม่ใช่ในฐานะเสิร์ชเอ็นจิ้น แต่อยู่ในรูปแบบของผลิตภัณฑ์แยกกันหลายอย่าง ตัวอย่างเช่น Yandex.Site เป็นโปรแกรมที่ค้นหาเว็บไซต์ Yandex.CD เป็นโปรแกรมที่ค้นหาเอกสารในซีดี

ระบบค้นหาเกิดขึ้นในฤดูใบไม้ร่วงปี 2540 เมื่อวันที่ 23 กันยายนที่นิทรรศการ Softool ยานเดกซ์ได้รับการนำเสนออย่างเป็นทางการว่าเป็นเครื่องมือค้นหาทางอินเทอร์เน็ตที่มีฟังก์ชั่นครบถ้วน ตั้งแต่นั้นมา ปริมาณของ Runet ก็เพิ่มขึ้นอย่างต่อเนื่อง ซึ่งบังคับให้เราต้องปรับปรุงอัลกอริธึมสำหรับการจัดทำดัชนีและการค้นหาข้อมูล

ดังนั้นในปี 1999 จึงมีการสร้างโรบ็อตการค้นหาใหม่ซึ่งนอกเหนือจากการเพิ่มความเร็วในการจัดทำดัชนีอย่างมีนัยสำคัญแล้ว ยังช่วยให้ผู้ใช้สามารถค้นหาข้อมูลในพื้นที่ต่าง ๆ ของเอกสาร - ใน URL ในส่วนหัวในลิงก์ ฯลฯ

ขณะนี้มีการประกาศหุ่นยนต์ยานเดกซ์ 11 ตัวอย่างเป็นทางการ ซึ่งแต่ละตัวมีความเชี่ยวชาญในงานเฉพาะ

หุ่นยนต์ยานเดกซ์

หุ่นยนต์เครื่องมือค้นหาแต่ละตัวมีชื่อของตัวเอง ตัวอย่างเช่น Rambler มี “StackRambler/2.0”, Google มี “Googlebot/2.1” ยานเดกซ์มีหุ่นยนต์พิเศษหลายตัวที่ทำงานตามที่กำหนดไว้อย่างเคร่งครัด นี่คือหุ่นยนต์ Yandex ที่คุณสามารถพบได้:

Yandex/1.01.001 (เข้ากันได้; Win16; I) - หุ่นยนต์จัดทำดัชนี Yandex หลัก นี่คือหุ่นยนต์ที่สำคัญที่สุดซึ่งมีหน้าที่ค้นหาและจัดทำดัชนีข้อมูลที่พบในอินเทอร์เน็ตรัสเซีย เป็นสิ่งสำคัญมากสำหรับผู้เชี่ยวชาญ SEO ทุกคนในการตรวจสอบลักษณะที่ปรากฏของหุ่นยนต์ตัวสร้างดัชนีบนเว็บไซต์ของตน โดยปกติแล้วหุ่นยนต์จะมาจากที่อยู่ IP ต่อไปนี้: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28 ดังนั้นเมื่อคุณเห็นคำล้ำค่า yandex ในบันทึกของไซต์ของคุณ ให้ใส่ใจกับที่อยู่ IP เนื่องจากขณะนี้บนอินเทอร์เน็ตมีบริการทดสอบไซต์จำนวนมากที่ให้คุณเข้าถึงหน้าต่าง ๆ แนะนำตัวเองในฐานะผู้ใช้ ตัวแทน: Yandex/1.01.001 (เข้ากันได้กับ ; Win16; I) อาจกลายเป็นว่าไม่ใช่ยานเดกซ์ที่เยี่ยมชมเว็บไซต์ของคุณ

Yandex/1.01.001 (เข้ากันได้; Win16; P) - ตัวสร้างดัชนีรูปภาพซึ่งต่อมาจะพร้อมให้ค้นหาใน http://images.yandex.ru สำหรับเครื่องมือค้นหา วิธีที่ง่ายที่สุดในการพิจารณาว่ารูปภาพตรงกับข้อความค้นหาของผู้ใช้หรือไม่คือการวิเคราะห์แท็ก Alt วิธีที่สองซึ่งมักจะใช้บริการ Yandex.Images เช่นเดียวกับวิธีแรกคือการวิเคราะห์ชื่อไฟล์ เช่นดูดอกบัวมหัศจรรย์ได้ที่หน้าhttp://en.npftravel.ru/news/issue_117.html ไม่มีการเอ่ยถึงคำว่า "ดอกบัว" แม้แต่ครั้งเดียวในเนื้อความของเอกสาร แต่ยังพบรูปภาพสำหรับข้อความค้นหา "ดอกบัว" เนื่องจากชื่อไฟล์คือ lotos.jpg!

Yandex/1.01.001 (เข้ากันได้; Win16; H) - หุ่นยนต์ที่ตรวจจับไซต์มิเรอร์ หน้าที่ของโรบอตนี้คือการกำหนดระดับความคล้ายคลึงกันระหว่างเอกสารสองฉบับ หากเอกสารคล้ายกันมาก Yandex มักจะแสดงเพียงไซต์เดียวในผลการค้นหา

Yandex/1.03.003 (เข้ากันได้; Win16; D) - โรบ็อตที่เมื่อเพิ่มไปยังเพจผ่านแบบฟอร์ม "เพิ่ม URL" จะกำหนดความพร้อมใช้งานของเพจสำหรับการจัดทำดัชนี

Yandex/1.03.000 (เข้ากันได้; Win16; M) - หุ่นยนต์ที่เข้าถึงลิงก์ "พบคำ" เมื่อเปิดหน้า

YaDirectBot/1.0 (เข้ากันได้; Win16; I) - โรบ็อตที่จัดทำดัชนีหน้าของไซต์ที่เข้าร่วมในเครือข่ายโฆษณา Yandex

Yandex/1.02.000 (เข้ากันได้; Win16; F) - โรบ็อตที่สร้างดัชนีไอคอนไซต์ (favicons) ซึ่งจะแสดงในผลการค้นหาทางด้านซ้ายของลิงก์ไปยังไซต์ที่พบ

นอกจากนี้ Yandex ยังมีกลุ่มโรบอตที่กำหนดว่าไซต์หรือเอกสารที่เชื่อมโยงกับบริการที่เกี่ยวข้องนั้นพร้อมใช้งานในปัจจุบันหรือไม่

Yandex/2.01.000 (เข้ากันได้; Win16; Dyatel; C) - "การแตะ" ของ Yandex.Catalog หากไซต์ไม่พร้อมใช้งานเป็นเวลาหลายวัน ไซต์นั้นจะถูกลบออกจากการเผยแพร่ ทันทีที่ไซต์เริ่มตอบสนอง ไซต์นั้นจะปรากฏในไดเร็กทอรีโดยอัตโนมัติ

Yandex/2.01.000 (เข้ากันได้; Win16; Dyatel; Z) - "แตะ" สำหรับ Yandex.Bookmarks ลิงก์ไปยังไซต์ที่ไม่สามารถใช้งานได้จะถูกทำเครื่องหมายเป็นสีเทา

Yandex/2.01.000 (เข้ากันได้; Win16; Dyatel; D) - "แตะ" สำหรับ Yandex.Direct เธอตรวจสอบความถูกต้องของลิงก์จากโฆษณาก่อนการกลั่นกรอง ไม่มีการดำเนินการอัตโนมัติ

Yandex/2.01.000 (เข้ากันได้; Win16; Dyatel; N) - "การแตะ" ของ Yandex.News โดยจะสร้างรายงานสำหรับผู้จัดการเนื้อหา ซึ่งจะประเมินขนาดของปัญหา และจะติดต่อพันธมิตรหากจำเป็น

ไม่เหมือนกับโรบ็อตของกลุ่มแรก งานเหล่านี้ไม่ได้ใช้เนื้อหาของเพจ แต่บันทึกเฉพาะการตอบสนองของเซิร์ฟเวอร์เท่านั้น ดังนั้นพวกเขาจึงทำการร้องขอที่แตกต่างกันเล็กน้อยไปยังเซิร์ฟเวอร์ ตัวอย่างเช่น การเยี่ยมชมหุ่นยนต์ Dyatel สามารถบันทึกลงในบันทึกเซิร์ฟเวอร์ตามบรรทัดที่มีเนื้อหาต่อไปนี้:

213.180.193.53 - - "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (เข้ากันได้; Win16; Dyatel; C)"

อย่างที่คุณเห็น มีการใช้คำสั่ง Head โดยขอเฉพาะส่วนหัวของเซิร์ฟเวอร์เท่านั้น ในกรณีนี้ ไซต์สามารถเข้าถึงได้และใช้งานได้ เนื่องจากได้รับรหัสสถานะ 200 OK

นอกจากนี้นอกเหนือจากโรบ็อตที่ระบุไว้แล้ว Yandex ยังมีสิ่งที่เรียกว่า "โรบ็อตเร็ว" ซึ่งความถี่ของการจัดทำดัชนีเอกสารนั้นมากกว่าความถี่ของโรบ็อตทั่วไปหลายเท่า Elena Kolmanovskaya หัวหน้าบรรณาธิการของ Yandex กล่าวว่า “หุ่นยนต์ที่รวดเร็วเป็นสิ่งจำเป็นในการสร้างดัชนีเอกสารปัจจุบันที่เป็นที่ต้องการของผู้ใช้มากที่สุด”

มีเพียงวิธีเดียวเท่านั้นที่จะทราบว่าหุ่นยนต์เร็วได้เยี่ยมชมไซต์หรือไม่ - ในผลการค้นหา ถัดจากที่อยู่ของหน้าไซต์ ควรมีข้อความเล็ก ๆ ปรากฏขึ้นเพื่อระบุว่าหุ่นยนต์เร็วเยี่ยมชมหน้าเว็บกี่ชั่วโมงที่ผ่านมา เช่น “5 ชั่วโมงที่แล้ว”

กระบวนการจัดทำดัชนีเอกสาร

กระบวนการสร้างดัชนีเอกสารโดยโรบ็อตเครื่องมือค้นหาโดยทั่วไปเริ่มต้นด้วยการเพิ่มไซต์ลงในแบบฟอร์มบนหน้าพิเศษ สำหรับ Yandex นี่คือหน้า http://webmaster.yandex.ru/ ที่นี่คุณเพียงแค่ต้องป้อนที่อยู่ไซต์เท่านั้น ไม่จำเป็นต้องใช้ข้อมูลเพิ่มเติม แต่ใน Rambler คุณต้องระบุชื่อไซต์ คำอธิบายสั้น ๆ ของไซต์ที่กำลังลงทะเบียน และผู้ติดต่อ

หากมีการเพิ่มไซต์เป็นครั้งแรก Yandex จะแสดงข้อความต่อไปนี้:

“เพิ่มที่อยู่ http://example.com/ สำเร็จแล้ว ขณะที่หุ่นยนต์คลาน มันจะถูกจัดทำดัชนีและสามารถค้นหาได้"

หากหุ่นยนต์ทำดัชนีเข้าเยี่ยมชมไซต์แล้ว ข้อความจะปรากฏขึ้น:

เอกสาร http://example.com/ ได้รับการจัดทำดัชนีและสามารถค้นหาได้แล้ว
คุณสามารถดูว่าหน้าใดของเว็บไซต์ http://example.com/ ที่มีอยู่ใน Yandex (* หน้า)

หลังจากเพิ่มไซต์ใหม่ผ่านแบบฟอร์ม หุ่นยนต์ Yandex/1.03.003 จะถูกเยี่ยมชมทันที (เข้ากันได้; Win16; D) จะกำหนดความพร้อมใช้งานของไซต์สำหรับการจัดทำดัชนีและจะกำหนดว่าไซต์นั้นตรงตามข้อกำหนดของ Yandex หรือไม่ โดยหลักคือข้อกำหนดที่ทรัพยากรเป็นภาษารัสเซีย ดังนั้น ดังตัวอย่าง สถานการณ์ต่อไปนี้อาจเกิดขึ้น:

ที่อยู่ http://www.example.com/ ไม่รวมอยู่ในฐานข้อมูล Yandex เนื่องจากไซต์ http://www.example.com/ ตั้งอยู่นอกโดเมนของประเทศ CIS และหุ่นยนต์ของเราไม่สามารถ จำข้อความภาษารัสเซียในนั้น

หากทุกอย่างเรียบร้อยดีคุณจะพบบรรทัดในบันทึกของไซต์:

213.180.206.223 - - "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (เข้ากันได้; Win16; D)"
213.180.206.223 - - "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (เข้ากันได้; Win16; D)"

จะเห็นได้ว่าโรบ็อตเข้าถึงไฟล์ robots.txt ก่อนเพื่อตรวจสอบว่าไซต์นั้นถูกห้ามไม่ให้จัดทำดัชนีหรือไม่ จากนั้นฉันก็เปิดไปที่หน้าหลัก

หลังจากเพิ่มไซต์ลงในหน้า http://webmaster.yandex.ru/ หุ่นยนต์ทำดัชนี Yandex/1.01.001 (เข้ากันได้; Win16; I) จะถูกเยี่ยมชมไซต์ภายในเวลาไม่ถึงสองวัน และหลังจากผ่านไประยะหนึ่ง ไซต์จะพร้อมสำหรับการค้นหาใน Yandex

อุปสรรคที่อาจเกิดขึ้นเมื่อจัดทำดัชนีเอกสาร

มีสาเหตุหลายประการที่ทำให้ไซต์ไม่ได้รับการจัดทำดัชนีอย่างถูกต้องใน Yandex

ปัญหาทางเทคนิค:

ก. เซิร์ฟเวอร์ทำงานไม่ถูกต้อง ส่งกลับข้อผิดพลาด 404 ข. เวลาตอบสนองของเซิร์ฟเวอร์นาน (เช่น เนื่องจากมีภาระงานหนัก นอกจากนี้ เวลาตอบสนองนานเป็นเรื่องปกติสำหรับโฮสติ้งฟรี)

ข้อห้ามในการจัดทำดัชนีเทียม:

ก. ข. การห้ามการจัดทำดัชนีของแต่ละหน้าในไฟล์ robots.txt ห้ามการจัดทำดัชนีโดยใช้เมตาแท็ก

อื่น:

ก. ขนาดหน้าเล็กมาก (ยานเดกซ์ไม่สร้างดัชนีไฟล์ที่มีขนาดเล็กกว่า 1 กิโลไบต์) ข. ทรัพยากรไม่มีข้อความภาษารัสเซีย

ควรสังเกตว่ายานเดกซ์ไม่เพียงจัดทำดัชนีเอกสาร html เท่านั้น นอกจากนี้ ยังมีเอกสารประเภทต่อไปนี้สำหรับการจัดทำดัชนี: PDF (ไฟล์ Adobe Acrobat), DOC (MS Word), RTF (รูปแบบข้อความเข้าถึง) ยานเดกซ์ยังจัดทำดัชนีไซต์ที่สร้างขึ้นโดยใช้เทคโนโลยีแฟลช แต่ Rambler จัดทำดัชนีเฉพาะไฟล์ html, htm, shtml และจัดทำดัชนีหน้าไดนามิกและไซต์แฟลชได้ไม่ดี

คุณสามารถดูแบบฟอร์มที่จัดเก็บหน้าเว็บในฐานข้อมูล Yandex ได้ดังนี้

ขั้นแรกคุณต้องแน่ใจว่าหน้านั้นเข้าสู่ผลการค้นหา วิธีที่ง่ายที่สุดคือใช้ "การค้นหาขั้นสูงของ Yandex" ป้อน URL ของไซต์ในช่อง "อยู่ในไซต์" เช่น www.seonews.ru จากนั้นป้อนคำจากหน้าที่ต้องการในช่องค้นหา เช่น "มาสเตอร์คลาส"

ค้นหาหน้าที่ต้องการในผลการค้นหาแล้วคลิกลิงก์ "พบคำ"

จากนั้น ที่ด้านบนของเอกสาร ให้คลิกลิงก์ "สำเนาที่บันทึกไว้":

สิ่งที่เรียกว่า "สำเนา Yandex ที่บันทึกไว้" จะเปิดขึ้นในหน้าต่างใหม่ คุณสามารถดูและเปรียบเทียบกับเอกสารต้นฉบับได้ อาจกลายเป็นว่ายานเดกซ์ไม่ได้จัดทำดัชนีคำบางคำ

การไม่จัดทำดัชนีองค์ประกอบของหน้าบางอย่างอาจเกิดจากสาเหตุหลายประการ:

ข้อความอยู่ในแท็ก นี่คือแท็กพิเศษที่ป้องกันไม่ให้หุ่นยนต์ Yandex สร้างดัชนีข้อความ

ข้อความอยู่ในสคริปต์ นั่นคือ ระหว่างแท็ก

ข้อความอยู่ในความคิดเห็น

บทสรุป

ใครก็ตามที่ดำเนินโครงการจริงจังบนอินเทอร์เน็ตจำเป็นต้องเข้าใจหลักการพื้นฐานของวิธีการทำงานของหุ่นยนต์สร้างดัชนีของเครื่องมือค้นหา การรู้ว่าเมื่อใดที่โรบอตมาที่ไซต์ สิ่งใดที่หุ่นยนต์จัดทำดัชนี สิ่งใดที่หุ่นยนต์ไม่จัดทำดัชนี จะช่วยให้คุณหลีกเลี่ยงปัญหาต่างๆ มากมาย โดยเฉพาะปัญหาด้านเทคนิค ที่อยู่ในขั้นตอนของการสร้างไซต์และต่อไปในระหว่างการบำรุงรักษา

เพื่อไม่ให้สงสัยว่าเหตุใดไซต์จึงหายไปจากผลการค้นหาอีกครั้งสำหรับคำขอบางอย่าง ก่อนอื่นจึงควรวิเคราะห์ว่าหุ่นยนต์จัดทำดัชนีอะไรบนไซต์ในปัจจุบัน เป็นไปได้ไหมว่าข้อมูลบางอย่างไม่สามารถเข้าถึงได้สำหรับหุ่นยนต์ด้วยเหตุผลใดก็ตาม?

การทราบประเด็นหลักของกระบวนการจัดทำดัชนีเอกสารจะช่วยให้คุณสามารถลงทะเบียนทรัพยากรในเครื่องมือค้นหาได้อย่างถูกต้องและดำเนินการส่งเสริมเพิ่มเติมอย่างมีประสิทธิภาพเพื่อให้ผู้ใช้ค้นหาเว็บไซต์ของคุณบนอินเทอร์เน็ตได้ตลอดเวลา

การลบทั้งไซต์

หากต้องการลบไซต์ออกจากเครื่องมือค้นหาและป้องกันไม่ให้โรบ็อตทั้งหมดรวบรวมข้อมูลในอนาคต ให้วางไฟล์ robots.txt ต่อไปนี้ในไดเร็กทอรีรากของเซิร์ฟเวอร์:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

หากต้องการลบไซต์ออกจาก Google เท่านั้นและป้องกันไม่ให้โรบ็อตการค้นหาของ Google รวบรวมข้อมูลในอนาคต ให้วางไฟล์ robots.txt ที่มีเนื้อหาต่อไปนี้ในไดเรกทอรีรากของเซิร์ฟเวอร์:

ตัวแทนผู้ใช้: Googlebot
ไม่อนุญาต: /

แต่ละพอร์ตจะต้องมีไฟล์ robots.txt ของตัวเอง โดยเฉพาะอย่างยิ่ง หากใช้โปรโตคอล http และ https จะต้องแยกไฟล์ robots.txt สำหรับแต่ละไฟล์ ตัวอย่างเช่น หากต้องการอนุญาตให้โปรแกรมรวบรวมข้อมูลของ Google จัดทำดัชนีหน้า http ทั้งหมดและป้องกันไม่ให้รวบรวมข้อมูล https ไฟล์ robots.txt ของคุณจะมีลักษณะเช่นนี้

สำหรับโปรโตคอล http (http://yourserver.com/robots.txt):

ตัวแทนผู้ใช้: *
อนุญาต: /

สำหรับโปรโตคอล https (https://yourserver.com/robots.txt):

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

หากไฟล์ robots.txt ยังคงอยู่ในไดเร็กทอรีรากของเว็บเซิร์ฟเวอร์ Google จะไม่รวบรวมข้อมูลไซต์หรือไดเร็กทอรีของไซต์ในอนาคต หากคุณไม่สามารถเข้าถึงไดเร็กทอรีรากของเซิร์ฟเวอร์ คุณสามารถวางไฟล์ robots.txt ไว้ที่ระดับเดียวกับไฟล์ที่คุณต้องการลบ เมื่อคุณดำเนินการนี้และใช้ระบบการลบ URL อัตโนมัติ ไซต์จะถูกลบออกจากดัชนีของ Google ชั่วคราวเป็นเวลา 180 วัน ไม่ว่าไฟล์ robots.txt จะถูกลบออกหลังจากประมวลผลคำขอแล้วหรือไม่ (หากคุณปล่อยให้ไฟล์ robots.txt อยู่ที่ระดับเดิม ระบบอัตโนมัติจะต้องลบ URL ทุกๆ 180 วัน)

การลบส่วนหนึ่งของไซต์

ตัวเลือกที่ 1 Robots.txt

หากต้องการลบไดเร็กทอรีหรือแต่ละหน้าของไซต์ คุณสามารถวางไฟล์ robots.txt ไว้ในไดเร็กทอรีรากของเซิร์ฟเวอร์ได้ สำหรับข้อมูลเกี่ยวกับวิธีการสร้างไฟล์ robots.txt โปรดดู Robot Exceptions Standard เมื่อสร้างไฟล์ robots.txt โปรดคำนึงถึงประเด็นต่อไปนี้ เมื่อตัดสินใจว่าจะรวบรวมข้อมูลหน้าใดบนโฮสต์ใดโฮสต์หนึ่ง โปรแกรมรวบรวมข้อมูลของ Google จะดำเนินการตามรายการแรกในไฟล์ robots.txt โดยที่พารามิเตอร์ User-agent ขึ้นต้นด้วยคำว่า "Googlebot" หากไม่มีรายการดังกล่าว กฎข้อแรกจะถูกดำเนินการ โดย User-agent คือ “*” นอกจากนี้ Google ยังอนุญาตให้คุณใช้ไฟล์ robots.txt ได้อย่างยืดหยุ่นมากขึ้นโดยใช้เครื่องหมายดอกจัน ในรูปแบบการปฏิเสธ อักขระ "*" สามารถแสดงถึงลำดับอักขระใดก็ได้ รูปแบบอาจลงท้ายด้วยอักขระ "$" ซึ่งเป็นจุดสิ้นสุดของชื่อ

หากต้องการลบหน้าทั้งหมดของไดเรกทอรีใดไดเรกทอรีหนึ่ง (เช่น "ลีเมอร์") ให้เพิ่มรายการต่อไปนี้ลงในไฟล์ robots.txt:

ตัวแทนผู้ใช้: Googlebot
ไม่อนุญาต: /ลีเมอร์

หากต้องการลบไฟล์บางประเภททั้งหมด (เช่น .gif) ให้เพิ่มรายการต่อไปนี้ในไฟล์ robots.txt ของคุณ:

ตัวแทนผู้ใช้: Googlebot
ไม่อนุญาต: /*.gif$

หากต้องการลบเพจที่สร้างแบบไดนามิก ให้เพิ่มรายการต่อไปนี้ลงในไฟล์ robots.txt ของคุณ:

ตัวแทนผู้ใช้: Googlebot
ไม่อนุญาต: /*?

ตัวเลือก 2. แท็ก Meta

มาตรฐานอีกประการหนึ่ง ซึ่งสะดวกกว่าสำหรับการทำงานกับเพจ คือ กำหนดให้ใช้เมตาแท็กบนเพจ HTML ที่ห้ามมิให้โรบ็อตสร้างดัชนีเพจ มาตรฐานนี้มีอธิบายไว้ในหน้า

เพื่อป้องกันไม่ให้โรบ็อตทั้งหมดสร้างดัชนีหน้าเว็บไซต์ ให้เพิ่มเมตาแท็กต่อไปนี้ลงในส่วนของหน้านั้น:

เพื่อป้องกันไม่ให้โรบอตของ Google จัดทำดัชนีหน้าเว็บและอนุญาตให้ผู้อื่นจัดทำดัชนีได้ ให้ใช้แท็กต่อไปนี้:

หากต้องการอนุญาตให้โรบอตสร้างดัชนีเพจแต่ไม่ติดตามลิงก์ภายนอก ให้ใช้แท็กต่อไปนี้:

บันทึก. หากคำขอของคุณเป็นเรื่องเร่งด่วนและไม่สามารถรอการรวบรวมข้อมูลของ Google ครั้งถัดไปได้ ให้ใช้ระบบลบ URL อัตโนมัติ เพื่อทริกเกอร์กระบวนการอัตโนมัตินี้ ผู้ดูแลเว็บจะต้องแทรกเมตาแท็กที่เหมาะสมลงในโค้ดของหน้า HTML ก่อน หลังจากนี้ ไดเรกทอรีจะถูกลบออกจากดัชนีของ Google ชั่วคราวเป็นเวลา 180 วัน ไม่ว่าคุณจะลบไฟล์ robots.txt หรือเมตาแท็กหลังจากประมวลผลคำขอแล้วก็ตาม

การลบชิ้นส่วน (ตัวอย่าง)

ส่วน (ตัวอย่าง) คือข้อความที่ปรากฏใต้ชื่อหน้าในรายการผลการค้นหาและอธิบายเนื้อหาของหน้า

หากต้องการป้องกันไม่ให้ Google แสดงส่วนต่างๆ จากหน้าเว็บของคุณ ให้เพิ่มแท็กต่อไปนี้ในส่วน:

บันทึก. เมื่อแฟรกเมนต์ถูกลบ เพจที่แคชไว้ก็จะถูกลบเช่นกัน

การลบเพจที่แคชไว้

Google จะสร้างและเก็บภาพรวมของทุกหน้าที่รวบรวมข้อมูลโดยอัตโนมัติ การมีเวอร์ชันแคชเหล่านี้ทำให้ผู้ใช้สามารถค้นหาเพจได้แม้ว่าจะไม่พร้อมใช้งานก็ตาม (เนื่องจากปัญหาชั่วคราวกับเซิร์ฟเวอร์ที่โฮสต์เพจ) ผู้ใช้จะเห็นหน้าที่แคชไว้เหมือนตอนที่ Google รวบรวมข้อมูล ข้อความจะปรากฏที่ด้านบนของหน้าโดยระบุว่านี่เป็นเวอร์ชันที่แคชไว้ หากต้องการเข้าถึงหน้าดังกล่าว ผู้ใช้จะต้องเลือกลิงก์ "แคช" บนหน้าผลการค้นหา

เพื่อป้องกันไม่ให้เครื่องมือค้นหาทั้งหมดแสดงลิงก์นี้ไปยังไซต์ของคุณ ให้เพิ่มแท็กต่อไปนี้ในส่วน:

บันทึก. หากคำขอของคุณเป็นเรื่องเร่งด่วนและเป็นไปไม่ได้ที่จะรอเซสชันถัดไปของการรวบรวมข้อมูลไซต์ของ Google ให้ใช้ระบบลบ URL อัตโนมัติ หากต้องการทริกเกอร์กระบวนการอัตโนมัตินี้ ผู้ดูแลเว็บจะต้องแทรกเมตาแท็กที่เหมาะสมลงในโค้ด HTML ของหน้าก่อน

การลบรูปภาพออกจากการค้นหารูปภาพของ Google

หากต้องการลบรูปภาพออกจากดัชนี Google Images ให้วางไฟล์ robots.txt ในไดเรกทอรีรากของเซิร์ฟเวอร์ (หากเป็นไปไม่ได้ ให้วางไว้ที่ระดับไดเร็กทอรี)

ตัวอย่าง: หากคุณต้องการลบรูปภาพ sobaki.jpg ออกจากดัชนีของ Google ซึ่งอยู่บนเว็บไซต์ของคุณที่ www.vash-sajt.ru/kartinki/sobaki.jpg ให้สร้างเพจ www.vash-sajt.ru/robots.txt และเพิ่มข้อความต่อไปนี้:

User-agent: Googlebot-รูปภาพ
ไม่อนุญาต: /images/dogs.jpg

หากต้องการลบรูปภาพทั้งหมดบนไซต์ออกจากดัชนี ให้วางไฟล์ robots.txt ที่มีเนื้อหาต่อไปนี้ในไดเร็กทอรีรากของเซิร์ฟเวอร์:

User-agent: Googlebot-รูปภาพ
ไม่อนุญาต: /

นี่เป็นโปรโตคอลมาตรฐานที่เครื่องสแกนส่วนใหญ่ปฏิบัติตาม ช่วยให้คุณสามารถลบเซิร์ฟเวอร์หรือไดเร็กทอรีออกจากดัชนีได้ ข้อมูลเพิ่มเติมเกี่ยวกับ robots.txt มีอยู่ในหน้านี้

Google ยังอนุญาตให้คุณใช้ไฟล์ robots.txt ได้อย่างยืดหยุ่นมากขึ้นโดยใช้เครื่องหมายดอกจัน ในรูปแบบการปฏิเสธ อักขระ "*" สามารถแสดงถึงลำดับอักขระใดก็ได้ รูปแบบอาจลงท้ายด้วยอักขระ "$" ซึ่งเป็นจุดสิ้นสุดของชื่อ หากต้องการลบไฟล์บางประเภททั้งหมด (เช่น ปล่อยให้รูปภาพอยู่ในรูปแบบ .jpg และลบไฟล์เหล่านั้นในรูปแบบ .gif) ให้เพิ่มรายการต่อไปนี้ในไฟล์ robots.txt:

User-agent: Googlebot-รูปภาพ
ไม่อนุญาต: /*.gif$

บันทึก. หากคำขอของคุณเป็นเรื่องเร่งด่วนและเป็นไปไม่ได้ที่จะรอเซสชันถัดไปของการรวบรวมข้อมูลไซต์ของ Google ให้ใช้ระบบลบ URL อัตโนมัติ หากต้องการเริ่มกระบวนการอัตโนมัตินี้ ผู้ดูแลเว็บจะต้องสร้างไฟล์ robots.txt และวางไว้บนไซต์ที่เหมาะสมก่อน

หากไฟล์ robots.txt ยังคงอยู่ในไดเรกทอรีรากของเว็บเซิร์ฟเวอร์ Google จะไม่รวบรวมข้อมูลไซต์หรือไดเรกทอรีอีกต่อไป หากคุณไม่สามารถเข้าถึงไดเร็กทอรีรากของเซิร์ฟเวอร์ คุณสามารถวางไฟล์ robots.txt ไว้ที่ระดับเดียวกับไฟล์ที่คุณต้องการลบ เมื่อคุณดำเนินการนี้และใช้ระบบการลบ URL อัตโนมัติ ไดเรกทอรีที่อยู่ในไฟล์ robots.txt จะถูกลบออกจากดัชนีของ Google ชั่วคราวเป็นเวลา 180 วัน ไม่ว่าคุณจะลบไฟล์ robots.txt หลังจากประมวลผลคำขอแล้วหรือไม่ (หากคุณปล่อยไฟล์ robots.txt ไว้ที่ระดับเดิม ระบบอัตโนมัติจะต้องลบ URL ทุกๆ 180 วัน)