เครื่องมือค้นหาทางอินเทอร์เน็ตทำงานอย่างไร เครื่องมือค้นหาทางอินเทอร์เน็ต

เครื่องมือค้นหา(เครื่องมือค้นหา)

เครื่องมือค้นหาช่วยให้คุณค้นหาเอกสาร WWW ที่เกี่ยวข้องกับหัวข้อที่กำหนดหรือมีคำหลักหรือชุดค่าผสม มีวิธีการค้นหาสองวิธีที่ใช้บนเซิร์ฟเวอร์การค้นหา:

· ตามลำดับชั้นของแนวคิด

·ตามคำสำคัญ

เซิร์ฟเวอร์การค้นหาจะถูกเติมโดยอัตโนมัติหรือด้วยตนเอง เซิร์ฟเวอร์การค้นหามักจะมีลิงก์ไปยังเซิร์ฟเวอร์การค้นหาอื่น ๆ และส่งคำขอค้นหาตามคำขอของผู้ใช้

เครื่องมือค้นหามีสองประเภท

1. โปรแกรมค้นหา "ข้อความแบบเต็ม" ที่สร้างดัชนีทุกคำบนหน้าเว็บ ไม่รวมคำหยุด

2. "Abstract" เสิร์ชเอ็นจิ้นที่สร้างบทคัดย่อของแต่ละหน้า

สำหรับเว็บมาสเตอร์ เอ็นจิ้นข้อความแบบเต็มมีประโยชน์มากกว่า เนื่องจากมีการวิเคราะห์คำใดๆ ที่พบในหน้าเว็บเพื่อพิจารณาความเกี่ยวข้องกับข้อความค้นหาของผู้ใช้ อย่างไรก็ตาม เอ็นจิ้นนามธรรมสามารถจัดทำดัชนีหน้าได้ดีกว่าหน้าข้อความแบบเต็ม ขึ้นอยู่กับอัลกอริธึมในการดึงข้อมูล เช่น ตามความถี่ของการใช้คำเดียวกัน

ลักษณะสำคัญของเครื่องมือค้นหา

1.ขนาดของเครื่องมือค้นหาถูกกำหนดโดยจำนวนหน้าที่จัดทำดัชนี อย่างไรก็ตาม ในช่วงเวลาใดก็ตาม ลิงก์ที่ให้ไว้เพื่อตอบสนองต่อคำขอของผู้ใช้อาจมีอายุที่แตกต่างกัน สาเหตุที่เกิดเหตุการณ์เช่นนี้:

· เครื่องมือค้นหาบางตัวจะจัดทำดัชนีหน้าเว็บทันทีตามคำขอของผู้ใช้ จากนั้นจึงดำเนินการจัดทำดัชนีหน้าที่ยังไม่ได้จัดทำดัชนีต่อไป

· คนอื่นๆ มักจะจัดทำดัชนีมากที่สุด หน้ายอดนิยมเครือข่าย

2. วันที่จัดทำดัชนี เครื่องมือค้นหาบางรายการจะแสดงวันที่ที่เอกสารถูกจัดทำดัชนี ซึ่งจะช่วยให้ผู้ใช้ทราบว่าเมื่อใดที่เอกสารปรากฏทางออนไลน์

3. ความลึกของการจัดทำดัชนีจะแสดงจำนวนหน้าหลังจากหน้าที่ระบุที่เครื่องมือค้นหาจะจัดทำดัชนี เครื่องจักรส่วนใหญ่ไม่มีข้อจำกัดเกี่ยวกับความลึกของการจัดทำดัชนี สาเหตุที่จัดทำดัชนีบางหน้าไม่ได้:

· ไม่ การใช้งานที่ถูกต้องโครงสร้างเฟรม

· การใช้แผนผังเว็บไซต์โดยไม่มีการทำซ้ำ ลิงก์ปกติ

4.การทำงานกับเฟรม ถ้า หุ่นยนต์ค้นหาไม่รู้วิธีทำงานกับโครงสร้างเฟรมดังนั้นโครงสร้างจำนวนมากที่มีเฟรมจะพลาดไปในระหว่างการจัดทำดัชนี

5. ความถี่ของการเชื่อมโยง โปรแกรมค้นหาหลักๆ สามารถกำหนดความนิยมของเอกสารได้จากความถี่ในการเชื่อมโยง จากข้อมูลดังกล่าว เครื่องจักรบางเครื่องจะ "สรุป" ว่าคุ้มค่าที่จะทำดัชนีเอกสารหรือไม่

6.ความถี่ในการอัพเดตเซิร์ฟเวอร์ หากเซิร์ฟเวอร์ได้รับการอัปเดตบ่อยครั้ง เครื่องมือค้นหาจะจัดทำดัชนีเซิร์ฟเวอร์ใหม่ให้บ่อยขึ้น

7. การควบคุมการจัดทำดัชนี แสดงเครื่องมือที่คุณสามารถใช้เพื่อควบคุมเครื่องมือค้นหา

8.การเปลี่ยนเส้นทาง เว็บไซต์บางแห่งเปลี่ยนเส้นทางผู้เยี่ยมชมจากเซิร์ฟเวอร์หนึ่งไปยังอีกเซิร์ฟเวอร์หนึ่ง และตัวเลือกนี้แสดงให้เห็นว่าสิ่งนี้จะเกี่ยวข้องกับเอกสารที่พบอย่างไร

9.หยุดคำพูด เครื่องมือค้นหาบางคำไม่มีคำบางคำในดัชนีหรืออาจไม่รวมคำเหล่านั้นในข้อความค้นหาของผู้ใช้ คำเหล่านี้มักถือเป็นคำบุพบทหรือคำที่ใช้บ่อย

10.ค่าปรับสแปม ความสามารถในการบล็อกสแปม

11.การลบข้อมูลเก่า พารามิเตอร์ที่กำหนดการกระทำของผู้ดูแลเว็บเมื่อปิดเซิร์ฟเวอร์หรือย้ายไปยังที่อยู่อื่น

ตัวอย่างของเครื่องมือค้นหา

1. อัลตาวิสต้า. ระบบถูกเปิดในเดือนธันวาคม พ.ศ. 2538 เป็นเจ้าของโดย DEC ตั้งแต่ปี 1996 เขาได้ร่วมงานกับ Yahoo อัลตาวิสต้าคือ ตัวเลือกที่ดีที่สุดสำหรับการค้นหาที่กำหนดเอง - อย่างไรก็ตาม การเรียงลำดับผลลัพธ์ตามหมวดหมู่การดำเนินการนี้ยังไม่เสร็จสิ้น และคุณต้องตรวจสอบข้อมูลที่ให้ไว้ด้วยตนเอง AltaVista ไม่มีวิธีการดึงรายการ โหนดที่ใช้งานอยู่ข่าวสารหรือความสามารถในการค้นหาเนื้อหาอื่นๆ

2. ค้นหาอย่างตื่นเต้น เปิดตัวเมื่อปลายปี 1995 ในเดือนกันยายน พ.ศ. 2539 - WebCrawler ได้มา หน่วยนี้มีขนค้นหาที่ทรงพลังต่ำ มีความเป็นไปได้ในการตั้งค่าส่วนบุคคลโดยอัตโนมัติข้อมูลที่ให้ไว้ตลอดจนคุณสมบัติที่รวบรวมไว้คำอธิบายของหลายโหนดโดยบุคลากรที่มีคุณสมบัติเหมาะสมตื่นเต้น แตกต่างจากโหนดการค้นหาอื่นๆ ในนั้นช่วยให้คุณค้นหาบริการข่าวสารและเผยแพร่บทวิจารณ์หน้าเว็บ. เครื่องมือค้นหาใช้เครื่องมือการค้นหาคำหลักมาตรฐานและการศึกษาสำนึกวิธีการค้นหาเนื้อหา ต้องขอบคุณการผสมผสานนี้คุณสามารถค้นหาหน้าที่เกี่ยวข้องได้เว็บ, ถ้าไม่มี ระบุโดยผู้ใช้สำคัญคำ ข้อเสียของ Excite เป็นอินเทอร์เฟซที่ค่อนข้างวุ่นวาย

3.HotBot. เปิดตัวในเดือนพฤษภาคม พ.ศ. 2539 เป็นเจ้าของโดย Wired ขึ้นอยู่กับเทคโนโลยีเครื่องมือค้นหาของ Berkeley Inktomi HotBot เป็นฐานข้อมูลที่ประกอบด้วยเอกสารจัดทำดัชนีข้อความแบบเต็มและเป็นหนึ่งในเครื่องมือค้นหาที่ครอบคลุมมากที่สุดบนเว็บ วิธีการค้นหาตามเงื่อนไขเชิงตรรกะและวิธีการจำกัดการค้นหาให้อยู่ในพื้นที่ใดพื้นที่หนึ่งหรือ เว็บไซต์ช่วยให้ผู้ใช้ค้นหา ข้อมูลที่จำเป็น, กำจัดสิ่งที่ไม่จำเป็นออกไป HotBot ให้ความสามารถในการเลือกพารามิเตอร์การค้นหาที่ต้องการจากรายการแบบเลื่อนลง

4.ข้อมูลค้นหา เปิดตัวก่อนปี 1995 เข้าถึงได้ง่าย ปัจจุบันมี URL ประมาณ 50 ล้านรายการ Infoseek มีอินเทอร์เฟซที่ออกแบบมาอย่างดีและสิ่งอำนวยความสะดวกในการค้นหาที่ยอดเยี่ยม การตอบคำถามส่วนใหญ่จะมาพร้อมกับลิงก์ "หัวข้อที่เกี่ยวข้อง" และการตอบกลับแต่ละรายการจะตามด้วยลิงก์ "หน้าที่คล้ายกัน" ฐานข้อมูล เครื่องมือค้นหาหน้าที่จัดทำดัชนีด้วยข้อความฉบับเต็ม คำตอบจะเรียงลำดับตามตัวบ่งชี้สองตัว: ความถี่ของคำหรือวลีที่ปรากฏบนหน้า tsakh รวมถึงตำแหน่งของคำหรือวลีบนหน้าเว็บมี Web Directory แบ่งออกเป็น 12 หมวดหมู่ พร้อมหมวดหมู่ย่อยหลายร้อยหมวดหมู่ที่สามารถค้นหาได้ แต่ละหน้าแค็ตตาล็อกประกอบด้วยรายการใหม่ โหนดที่แนะนำ

5. ไลคอส. เปิดดำเนินการตั้งแต่เดือนพฤษภาคม 2537 เป็นที่รู้จักและใช้กันอย่างแพร่หลาย ประกอบด้วยไดเร็กทอรีที่มี URL จำนวนมาก และเครื่องมือค้นหาจุดพร้อมเทคโนโลยี การวิเคราะห์ทางสถิติเนื้อหาของหน้า ซึ่งตรงข้ามกับการจัดทำดัชนีข้อความแบบเต็ม Lycos ประกอบด้วยข่าวสาร บทวิจารณ์ไซต์ ลิงก์ไปยังไซต์ยอดนิยม แผนที่เมือง และเครื่องมือสำหรับการค้นหาที่อยู่ รูปภาพ สำนวนและคลิปเสียงและวิดีโอไลคอส จัดเรียงคำตอบตามระดับความสัมพันธ์ตอบสนองคำขอตามเกณฑ์หลายประการ เช่น จำนวนlu คำค้นหาที่พบในบทคัดย่อไปยังเอกสารment, ช่วงเวลาระหว่างเป็นคำในวลีเฉพาะของเอกสารสถานที่เงื่อนไขในเอกสาร

6. เว็บครอว์เลอร์ เปิดดำเนินการเมื่อวันที่ 20 เมษายน พ.ศ. 2537 โดยเป็นโครงการของมหาวิทยาลัยวอชิงตัน โปรแกรมรวบรวมข้อมูลเว็บ ให้โอกาสไวยากรณ์สำหรับระบุข้อความค้นหาตลอดจน ทางเลือกที่ยิ่งใหญ่ คำอธิบายประกอบโหนดด้วยอินเทอร์เฟซที่เรียบง่าย


หลังจากการตอบกลับแต่ละครั้ง WebCrawler จะแสดงไอคอนขนาดเล็กพร้อมการประเมินโดยประมาณว่าคำขอตรงกันหรือไม่ Comee ยังแสดงหน้าเว็บพร้อมข้อมูลสรุปสั้นๆ สำหรับแต่ละคำตอบ, URL แบบเต็ม, คะแนนการจับคู่แบบตรงทั้งหมด และใช้อีกด้วย คำตอบนี้ในแบบสอบถามตัวอย่างเป็นคำหลักอินเทอร์เฟซแบบกราฟิกสำหรับการกำหนดค่าแบบสอบถามในไม่มีโปรแกรมรวบรวมข้อมูลเว็บ เอ็น ไม่ได้รับอนุญาตการใช้สัญลักษณ์สากลก็เป็นไปไม่ได้เช่นกันกำหนดน้ำหนักให้กับคำหลักไม่มีทางที่จะจำกัดช่องค้นหาได้พื้นที่หนึ่ง

7. ยาฮู. ไดเร็กทอรีที่เก่าแก่ที่สุดของ Yahoo เปิดตัวเมื่อต้นปี 1994 เป็นที่รู้จักอย่างกว้างขวาง ใช้บ่อย และเป็นที่นับถือมากที่สุด ในเดือนมีนาคม พ.ศ. 2539 แค็ตตาล็อก Yahooligans สำหรับเด็กได้เปิดตัว ไดเรกทอรีระดับภูมิภาคและระดับบนสุดของ Yahoo จะปรากฏขึ้น Yahoo ขึ้นอยู่กับการสมัครสมาชิกของผู้ใช้ สามารถใช้เป็นจุดเริ่มต้นสำหรับการค้นหาใดๆ บนเว็บได้ เนื่องจากระบบการจัดหมวดหมู่จะช่วยให้ผู้ใช้ค้นหาไซต์ที่มีข้อมูลที่จัดระเบียบอย่างดี เนื้อหาเว็บแบ่งออกเป็น 14 หมวดหมู่ทั่วไปตามรายการ หน้าแรกยาฮู!. ขึ้นอยู่กับคำขอเฉพาะของผู้ใช้ คุณสามารถทำงานกับหมวดหมู่เหล่านี้เพื่อทำความคุ้นเคยกับหมวดหมู่ย่อยและรายการโหนด หรือค้นหา คำเฉพาะและเงื่อนไขต่างๆ ทั่วทั้งฐานข้อมูล ผู้ใช้ยังสามารถจำกัดการค้นหาภายในส่วนหรือส่วนย่อยของ Yahoo! เนื่องจากความจริงที่ว่าการจำแนกประเภทของโหนดนั้นดำเนินการโดยคนและไม่ใช่โดยคอมพิวเตอร์ คุณภาพของลิงก์มักจะสูงมาก อย่างไรก็ตาม การปรับปรุงการค้นหาในกรณีที่เกิดความล้มเหลวถือเป็นงานที่ยาก เข้าร่วม Yahoo - รวมเครื่องมือค้นหา AltaVista ดังนั้นหากคุณค้นหาใน Yahoo! มันเกิดขึ้นโดยอัตโนมัติ การทำซ้ำโดยใช้เครื่องมือค้นหาอัลตาวิสต้า - ผลลัพธ์จะถูกส่งไปยังยาฮู!. ยาฮู! ให้ความสามารถในการส่งข้อความค้นหาไปยัง Usenet และ Fourl 1 เพื่อค้นหาที่อยู่ อีเมล.

เครื่องมือค้นหาของรัสเซีย ได้แก่ :

1. Rambler นี่คือเครื่องมือค้นหาภาษารัสเซีย ส่วนที่ระบุไว้ในบ้าน เพจ แรมเบลอร์ครอบคลุมโดยแหล่งข้อมูลบนเว็บภาษารัสเซีย มีตัวจำแนกข้อมูล โอกาสที่สะดวกสบายงานคือการจัดเตรียมรายการโหนดที่มีผู้เข้าชมมากที่สุดสำหรับแต่ละโหนด หัวข้อที่เสนอ

2. ค้นหาพอร์ต สปอร์ต เป็นหนึ่งในผู้นำ เครื่องมือค้นหาได้รับการรับรองไมโครซอฟต์ เช่นเดียวกับเครื่องมือค้นหาในท้องถิ่นระบบสำหรับเวอร์ชั่นรัสเซียไมโครซอฟต์ อินเทอร์เน็ต เอ็กซ์พลอเรอร์ ข้อดีอย่างหนึ่งของ Aport คือการแปลภาษาอังกฤษ-รัสเซีย และภาษารัสเซีย-อังกฤษ โหมดออนไลน์ข้อความค้นหาและการค้นหาผลลัพธ์ซึ่งคุณสามารถค้นหาในแหล่งข้อมูลอินเทอร์เน็ตของรัสเซียได้ แม้จะไม่รู้ภาษารัสเซียก็ตาม นอกจากนี้คุณสามารถค้นหาข้อมูลได้ การใช้สำนวน แม้กระทั่งประโยคคุณสมบัติหลักของระบบค้นหา Aport ที่คุณสามารถทำได้แบ่งสิ่งต่อไปนี้:

การแปลคำค้นหาและผลการค้นหาจากภาษารัสเซียเป็นภาษาอังกฤษภาษาจีนและในทางกลับกัน

ตรวจสอบอัตโนมัติการสะกดผิดในคำขอ

การแสดงผลการค้นหาเว็บไซต์ที่พบอย่างให้ข้อมูล

ความสามารถในการค้นหาในรูปแบบไวยากรณ์ใด ๆ


ภาษาคิวรีขั้นสูงสำหรับมืออาชีพ ผู้ใช้เงินสด

คุณสมบัติการค้นหาอื่น ๆ ได้แก่ :รองรับหน้ารหัสหลักห้าหน้า (ปฏิบัติการที่แตกต่างกันระบบ) สำหรับภาษารัสเซียโดยใช้เทคโนโลยีการค้นหาไม่มีข้อจำกัดใดๆ URL และวันที่ของเอกสารการดำเนินการค้นหาตามหัวข้อข่าว ความคิดเห็น และลายเซ็นให้กับรูปภาพ ฯลฯ บันทึกพารามิเตอร์การค้นหาและการกำหนดจำนวนคำขอของผู้ใช้ก่อนหน้านี้ การรวมเข้าด้วยกัน สำเนาของเอกสารที่อยู่บนเซิร์ฟเวอร์ที่แตกต่างกัน

3.รายการ รู ( http://www.list.ru) ในการนำไปใช้งานเซิร์ฟเวอร์นี้มีมากมายร่วมกับระบบภาษาอังกฤษยาฮู!. บน หน้าแรกเซิร์ฟเวอร์มีลิงก์ไปยังหมวดหมู่การค้นหายอดนิยม


รายการลิงก์ไปยังหมวดหมู่หลักของแคตตาล็อกตรงบริเวณส่วนกลาง การค้นหาในแค็ตตาล็อกถูกนำมาใช้ในลักษณะที่สามารถค้นหาผลลัพธ์ของแบบสอบถามได้ทั้งในแต่ละไซต์และหมวดหมู่ หากการค้นหาสำเร็จ URL ชื่อ คำอธิบาย คำหลัก- การใช้งานที่ยอมรับได้ ภาษาแบบสอบถามยานเดกซ์ กับลิงค์ "โครงสร้างCatalog" จะเปิดหมวดหมู่ กะตะ แบบเต็มในหน้าต่างแยกต่างหากบันทึก. มีการนำความสามารถในการย้ายจากตัวให้คะแนนไปยังหมวดหมู่ย่อยที่เลือกแล้ว การแบ่งเฉพาะเรื่องที่มีรายละเอียดเพิ่มเติมส่วนปัจจุบันจะแสดงด้วยรายการลิงก์แคตตาล็อกจัดเรียงเช่นนี้ เพื่อให้ทุกไซต์มีอยู่ใน ระดับล่างลากเส้นนอกจากนี้ยังมีการนำเสนอทัวร์ในส่วนต่างๆรายการทรัพยากรที่แสดงจะจัดเรียงตามตัวอักษร แต่คุณสามารถเลือกจัดเรียงตามเวลาได้เพิ่มเมนู, โดยการเปลี่ยนผ่าน, โดย ลำดับการเพิ่มลงในแค็ตตาล็อกตามความนิยมในหมู่ผู้เยี่ยมชมแคตตาล็อก

4. ยานเดกซ์ ผลิตภัณฑ์ซอฟต์แวร์ซีรีส์ Yandex เป็นชุดเครื่องมือสำหรับการจัดทำดัชนีข้อความแบบเต็มและค้นหาข้อมูลข้อความโดยคำนึงถึงสัณฐานวิทยาของภาษารัสเซีย Yandex มีโมดูลสำหรับการวิเคราะห์และการสังเคราะห์ทางสัณฐานวิทยา การจัดทำดัชนีและการค้นหา รวมถึงชุดโมดูลเสริม เช่น ตัววิเคราะห์เอกสาร ภาษามาร์กอัป ตัวแปลงรูปแบบ และสไปเดอร์

อัลกอริธึมการวิเคราะห์ทางสัณฐานวิทยาและการสังเคราะห์ตามพจนานุกรมฐานสามารถทำให้คำเป็นมาตรฐานนั่นคือค้นหารูปแบบเริ่มต้นและสร้างสมมติฐานสำหรับคำที่ไม่มีอยู่ในพจนานุกรมฐาน ระบบ การจัดทำดัชนีข้อความแบบเต็มช่วยให้คุณสร้างดัชนีขนาดกะทัดรัดและค้นหาได้อย่างรวดเร็วโดยใช้ตัวดำเนินการเชิงตรรกะ

ยานเดกซ์ได้รับการออกแบบให้ทำงานกับข้อความในเครื่องและใน เครือข่ายทั่วโลกและยังสามารถเชื่อมต่อเป็นโมดูลกับระบบอื่นได้อีกด้วย

งานห้องปฏิบัติการหมายเลข 10

ค้นหาข้อมูลใน เครือข่ายอินเทอร์เน็ต

เป้าหมายของการทำงาน

ทำความคุ้นเคยกับเครื่องมือค้นหาหลักทางอินเทอร์เน็ต ฝึกฝนทักษะการทำงานในเครื่องมือค้นหา เรียนรู้การเลือกเครื่องมือค้นหาที่เหมาะสมที่สุดโดยคำนึงถึงลักษณะเฉพาะของงาน

อุปกรณ์และวัสดุ

ในการทำงานในห้องปฏิบัติการที่คุณต้องการ คอมพิวเตอร์ส่วนบุคคลใช้ระบบปฏิบัติการ ครอบครัววินโดวส์- จะต้องติดตั้ง โปรแกรมอินเตอร์เน็ตสำรวจ.

เครื่องมือค้นหาที่ทันสมัย

อินเทอร์เน็ตเป็นแหล่งเก็บข้อมูลขนาดมหึมา หน้าเว็บหลายหน้าทั้งมีคุณค่าและไม่มีประโยชน์ มีอยู่โดยไม่มีคำสั่งใดๆ และเชื่อมโยงถึงกันด้วยลิงก์แบบสุ่มเท่านั้น ขึ้นอยู่กับคุณสมบัติและความชอบส่วนตัวของผู้เขียนเว็บไซต์ อย่างไรก็ตาม ผู้ใช้จำเป็นต้องสำรวจความหลากหลายนี้และค้นหาข้อมูลที่จำเป็นภายในไม่กี่นาที

ในอินเตอร์เน็ตก็มี จำนวนมากเครื่องมือค้นหา. ตามการประมาณการแบบอนุรักษ์นิยมที่สุดมีมากกว่าแปดพันรายการรวมถึงแบบคลาสสิกด้วย เครื่องมือค้นหา ไดเร็กทอรีทั่วไปและเฉพาะทาง, และ เว็บไซต์เมตาเสิร์ช(ซึ่งส่งคำขอไปยังเซิร์ฟเวอร์การค้นหาหลายรายการพร้อมกัน) นอกจากนี้ยังมีจำนวนหนึ่ง วิธีอื่นการค้นหาที่อาจเป็นประโยชน์กับคุณ ได้แก่ โปรแกรมอรรถประโยชน์ที่ทำงานร่วมกับเบราว์เซอร์เพื่อดึงข้อมูลจากเว็บและสิ่งที่เรียกว่า "โหนดผู้เชี่ยวชาญ"ที่ซึ่งคนจริงทำงานกับคำขอของคุณ ขณะนี้ระบบค้นหาอัจฉริยะกำลังได้รับการพัฒนา ตัวอย่างของระบบดังกล่าว เช่น ระบบค้นหาอัจฉริยะ เป็นต้น นิกมา(www.nigma.ru)

เครื่องมือค้นหาและไดเรกทอรี

ด้วยวิธีการค้นหามากมายบนอินเทอร์เน็ต วิธีการค้นหาข้อมูลที่พบบ่อยที่สุดยังคงเป็นเครื่องมือค้นหาและแคตตาล็อก เครื่องมือแต่ละอย่างมีข้อดีบางประการ และความแตกต่างหลักระหว่างเครื่องมือเหล่านี้คือการมีส่วนร่วม/ไม่มีส่วนร่วมของมนุษย์

เครื่องมือค้นหาเป็นชุดโปรแกรมพิเศษสำหรับการค้นหาทางอินเทอร์เน็ต

ส่วนหลัก แพคเกจซอฟต์แวร์:

1. หุ่นยนต์แมงมุม(แมงมุม). โปรแกรมแบบสแตนด์อโลนที่วนซ้ำหน้าต่างๆ ของไซต์ที่เข้าคิวสำหรับการจัดทำดัชนี จะดาวน์โหลดเนื้อหาของหน้าที่ค้นหาไปยังดิสก์เซิร์ฟเวอร์การค้นหา

2. หุ่นยนต์ตีนตะขาบ(“การเดินทาง” แมงมุม) หน้าที่ของมันคือรวบรวมลิงก์ทั้งหมดบนหน้าเว็บที่กำลังตรวจสอบ ค้นหาลิงก์ใหม่ที่ไม่เป็นที่รู้จักในเครื่องมือค้นหา และเพิ่มลงในรายการที่กำลังรอการจัดทำดัชนี

3. ตัวทำดัชนีประมวลผลเพจจากคิวสำหรับการจัดทำดัชนี ในการทำเช่นนี้ เขารวบรวม "พจนานุกรม" ของหน้านั้นและจดจำ "ความถี่" ของคำที่ใช้ เน้นคำสำคัญที่ใช้ในส่วนหัว เน้นในข้อความ ตัวหนา- วางทั้งหมดนี้ไว้ในไฟล์พิเศษ - "ดัชนี"


5. ระบบประมวลผลคำขอและการออกผลยอมรับคำขอของผู้ใช้ สร้างแบบสอบถามไปยังฐานข้อมูล รับผลลัพธ์จากที่นั่น และส่งไปยังผู้ใช้

เครื่องมือค้นหาพวกเขาเปิดตัวซอฟต์แวร์ “สไปเดอร์” บนเว็บที่เดินทางจากหน้าหนึ่งไปอีกหน้าหนึ่งและจัดทำดัชนีข้อความทั้งหมดของแต่ละหน้า

เครื่องมือค้นหาเกือบทั้งหมดมีแบบฟอร์มการสืบค้นเหมือนกันและมีรูปแบบเดียวกันโดยประมาณในการส่งผลลัพธ์ (ดูย่อหน้า “ รูปร่าง หน้าค้นหา") แต่การทำงานของเครื่องมือค้นหานั้นแตกต่างกันอย่างมาก ประการแรก ความเกี่ยวข้อง (ระดับของผลการค้นหาที่สอดคล้องกับคำขอของผู้ใช้) ประการที่สอง ขนาดและความถี่ของการอัปเดตฐานข้อมูล และประการที่สาม ความเร็วของการออกผลลัพธ์ และแน่นอนว่าเสิร์ชเอ็นจิ้นต่างกันตรงที่ใช้งานง่าย

ปัจจุบันเครื่องมือค้นหาเป็นหน้าเว็บยอดนิยมที่ผู้ใช้ใช้เวลาส่วนใหญ่ ดังนั้นในการเลือกเครื่องมือค้นหาจึงมีความสำคัญมากขึ้น บริการที่เกี่ยวข้อง(เมล, ฟีดข่าว, แพลตฟอร์มการซื้อขายและอื่นๆ)

แคตตาล็อก- วิธีการดั้งเดิมในการจัดระเบียบข้อมูล เราทุกคนคงเคยเจอแคตตาล็อกห้องสมุดและแคตตาล็อกผลิตภัณฑ์ ไดเร็กทอรีถูกใช้ในระบบต่างๆ เกือบทุกที่ที่คุณต้องการจัดเก็บและจัดระเบียบข้อมูล

หนึ่งในความท้าทายหลักที่แค็ตตาล็อกคอมไพเลอร์ต้องเผชิญคือการสร้างหมวดหมู่ที่เป็นธรรมชาติและใช้งานง่ายสำหรับผู้ใช้ทั่วไป น่าเสียดาย, งานนี้สามารถแก้ไขได้ด้วยระดับการประมาณที่แตกต่างกันเท่านั้น โลกมีความต่อเนื่องไม่มีขอบเขตที่เข้มงวด ไซต์เดียวกันสามารถดูได้จากมุมที่ต่างกันและสามารถมองเห็นฟังก์ชันที่แตกต่างกันได้ ไดเร็กทอรีถูกรวบรวมโดยบรรณาธิการที่เป็นมนุษย์ ซึ่งอ่านเพจต่างๆ กำจัดเพจที่ไม่เหมาะสมออก และจำแนกโหนดตามหัวข้อ

ข้อเสียของแคตตาล็อกมีดังต่อไปนี้

ประการแรก ความคลุมเครือของโครงสร้างเป็นข้อเสียที่ชัดเจนของการจัดระเบียบข้อมูลในแค็ตตาล็อก (แม้ว่าจะบรรเทาได้บ้างจากข้อเท็จจริงที่ว่าแค็ตตาล็อกหลักทุกรายการมีการค้นหาแค็ตตาล็อก)

ประการที่สอง แคตตาล็อกถูกสร้างขึ้นโดยผู้คน ความสมบูรณ์และคุณภาพขึ้นอยู่กับจำนวนและคุณสมบัติของผู้ที่ทำงานในแคตตาล็อก รสนิยมส่วนตัว และความชอบ ความไม่สม่ำเสมอของเนื้อหาของส่วนหัวเป็นคุณลักษณะเฉพาะของแค็ตตาล็อกทั้งหมด

ประการที่สาม ความลำบากในการจัดหมวดหมู่ด้วยตนเองจะจำกัดปริมาณของข้อมูลในแคตตาล็อก

ในเวลาเดียวกันข้อดีที่ไม่อาจปฏิเสธได้ของแคตตาล็อกก็คือข้อมูลในนั้นจะถูกจัดเก็บอย่างเป็นระเบียบตามตรรกะของมนุษย์เบื้องต้นและ ความเกี่ยวข้องจำนวนหน้าที่พบเมื่อค้นหาในแคตตาล็อกมักจะมีลำดับความสำคัญสูงกว่าเมื่อค้นหาด้วยเครื่องมือค้นหา

ตามที่กล่าวไว้ข้างต้น เนื่องจากไดเร็กทอรีถูกสร้างขึ้นด้วยตนเอง จึงครอบคลุมทรัพยากรน้อยกว่าเครื่องมือค้นหามาก ตามการประมาณการแบบอนุรักษ์นิยม ขณะนี้มีหน้าเว็บกว่าพันล้านหน้าบนเว็บ (และจำนวนหน้าเพิ่มขึ้นนับล้านทุกวัน) เครื่องมือค้นหาส่วนใหญ่ไม่ได้มาใกล้กับการจัดทำดัชนีเว็บทั้งหมด ข้อยกเว้นคือ Google (สำหรับรัสเซีย www.google.ru) ซึ่งอ้างว่าตัวเลขนี้ชัดเจน - หนึ่งพันล้านหน้า ครอบคลุมบางส่วนหรือทั้งหมดโดยดัชนี แค็ตตาล็อกที่ใหญ่ที่สุด - Open Directory Project (www.dmoz.org) - ดูเหมือนจะเล็กเมื่อเทียบกับพื้นหลังนี้ โดยมีเพียงประมาณ 2 ล้านหน้าเท่านั้นที่อยู่ในรายการ

พ.ศ. 2537 เมื่อเริ่มเติบโตอย่างรวดเร็ว" เวิลด์ไวด์เว็บ" ตัวเลือกเครื่องมือค้นหาเว็บมีจำกัดมาก: Yahoo (www.yahoo.com) เซิร์ฟเวอร์นี้ยังคงเป็นรากฐานสำคัญของการวิจัยเว็บมาจนถึงทุกวันนี้ แต่ในฐานะไดเรกทอรี ขณะนี้ต้องเผชิญกับการแข่งขันที่รุนแรงจาก Open Directory Project

ไดเร็กทอรีจำนวนมากค่อนข้างมีประโยชน์ แต่ทุกสิ่งที่พิจารณาแล้ว Open Directory Project เป็นตัวเลือกที่ต้องการ เปิดโครงการ Directory Project ซึ่งริเริ่มโดย Netscape ดำเนินการโดยบรรณาธิการอาสาสมัครมากกว่า 24,000 คนทั่วโลก ซึ่งจัดทำดัชนีโหนดเกือบ 2 ล้านโหนด และจำแนกโหนดออกเป็นมากกว่า 200,000 หมวดหมู่ เซิร์ฟเวอร์การค้นหาใด ๆ ที่สามารถรับได้ เปิดใบอนุญาต Directory Project และใช้ฐานข้อมูลในการประมวลผลคำขอ และได้ดำเนินการกับหลาย ๆ โครงการ: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co.uk) และประมาณร้อย เซิร์ฟเวอร์อื่น ๆ ดำน้ำที่นั่นเพื่อรับลิงก์

ใครๆ ก็คาดหวังเช่นนั้นเพราะว่า ไดเรกทอรีเปิดโครงการ Directory ดำเนินการโดยอาสาสมัคร และคุณภาพของผลลัพธ์จะแตกต่างกันไป แต่ผลลัพธ์ที่ได้คือรายการหน้าที่เกี่ยวข้องที่มีการจัดระเบียบอย่างดีพร้อมคำอธิบายที่ชัดเจนของแต่ละลิงก์ และไซต์ Open Directory Project มีความรู้สึกเช่นเดียวกับ Google นั่นคือ "การค้นหาอย่างแท้จริง" โดยปราศจากสิ่งรบกวน เช่น ลิงก์ไปยังร้านค้า

ไม่ว่าคุณจะเลือกไดเร็กทอรีใดก็ตาม ไดเร็กทอรีทั้งหมดมีข้อได้เปรียบเหนือเสิร์ชเอ็นจิ้นอยู่ข้อเดียว นั่นคือ สามารถเรียกดูไดเร็กทอรีอย่างเป็นระบบโดยใช้ระบบเมนูแบบลำดับชั้น

การจัดหมวดหมู่

ตามพื้นที่ค้นหา (ตามเงื่อนไข)

ท้องถิ่น

ออกแบบมาเพื่อค้นหาข้อมูลในส่วนใดส่วนหนึ่ง เครือข่ายทั่วโลกตัวอย่างเช่น มากกว่าหนึ่งไซต์ขึ้นไป หรือผ่านเครือข่ายท้องถิ่น

ทั่วโลก

ออกแบบมาเพื่อค้นหาข้อมูลทั่วทั้งอินเทอร์เน็ตหรือส่วนสำคัญของข้อมูล ตัวแทนของเครื่องมือค้นหาดังกล่าว ได้แก่ เครื่องมือค้นหา Google, Yandex ฯลฯ เครื่องมือค้นหาค้นหาข้อมูล หลากหลายชนิดเช่น ข้อความ วิดีโอ รูปภาพ วัตถุทางภูมิศาสตร์ ข้อมูลส่วนบุคคล ฯลฯ ในกรณีนี้ ไฟล์ที่เครื่องมือค้นหาสามารถใช้งานได้สามารถอยู่ในรูปแบบข้อความได้ (เช่น html, .htm, .txt, .doc, .rtf...) และกราฟิก (.gif, .png, .svg...) หรือมัลติมีเดีย (วิดีโอและเสียง) จนถึงตอนนี้ สิ่งที่พบบ่อยที่สุดคือการค้นหาผ่านเอกสารข้อความ

การค้นหา

ข้อมูลเบื้องต้นสำหรับการค้นหาคือคำค้นหา

ฟังก์ชั่น

เครื่องมือค้นหาทำหน้าที่หลายอย่าง:

ค้นหาลิงก์

ค้นหาลิงก์ไปยังหน้าและเอกสารไซต์อื่นๆ

อัตโนมัติ

โหมดแมนนวล

ผู้ใช้เองเพิ่มลิงก์ไปยังหน้าเว็บไซต์ของตนไปยังฐานข้อมูลเครื่องมือค้นหา

การทำดัชนีเอกสารเว็บไซต์

แยกข้อมูลที่เกี่ยวข้องกับการค้นหาออกจากเอกสาร แปลงข้อมูลนั้นให้อยู่ในรูปแบบที่เป็นมิตรกับเครื่องมือค้นหา และจัดเก็บข้อมูลนั้นไว้ในฐานข้อมูลเครื่องมือค้นหา

ค้นหาฐานข้อมูลของเอกสารที่จัดทำดัชนี

อาจประกอบด้วยหลายขั้นตอน

การค้นหาเอกสารที่ตรงกับคำค้นหา

จัดอันดับเอกสารตามความเกี่ยวข้องกับคำค้นหา

การจัดกลุ่มเอกสาร

หมายเหตุ

ดูสิ่งนี้ด้วย


มูลนิธิวิกิมีเดีย 2010.

ดูว่า "เครื่องมือค้นหา" ในพจนานุกรมอื่น ๆ คืออะไร:

    เครื่องมือค้นหา- (เครื่องมือค้นหา): เว็บเซิร์ฟเวอร์ที่สร้างดัชนีหน้าเว็บ เซิร์ฟเวอร์ที่มีอยู่(เช่น Yandex)... ที่มา: ทรัพยากรอินเทอร์เน็ต ข้อกำหนดด้านการเข้าถึงสำหรับผู้พิการทางสายตา GOST R 52872 2007 (อนุมัติโดย Order of Rostekhregulirovaniya ลงวันที่... ... คำศัพท์ที่เป็นทางการ

    เครื่องมือค้นหา- เว็บเซิร์ฟเวอร์ที่จัดทำดัชนีหน้าเว็บบนเซิร์ฟเวอร์ที่มีอยู่ (เช่น Yandex) [GOST R 52872 2550] หัวข้อต่างๆ เทคโนโลยีสารสนเทศในเครื่องมือค้นหา EN ทั่วไป... คู่มือนักแปลทางเทคนิค

    ในอินเทอร์เน็ต เว็บพิเศษไซต์ที่ผู้ใช้สามารถรับลิงก์ไปยังไซต์ที่ตรงกับคำขอนี้ตามคำขอที่ได้รับ ระบบค้นหาประกอบด้วยสามองค์ประกอบ: หุ่นยนต์ค้นหา 1 ตัว; 2 ดัชนีระบบ และ 3 โปรแกรม...... พจนานุกรมการเงิน

    บนอินเทอร์เน็ต เครื่องมือค้นหาที่: ส่งคำขอค้นหาไปยังเครื่องมือค้นหาหลายตัว และสร้างสรุป (ในหน้าเดียว) จากคำตอบที่ได้รับ ในภาษาอังกฤษ: Meta search engine คำพ้องความหมาย: Meta Caterpillar คำพ้องความหมายภาษาอังกฤษ: Metacrawler... ... พจนานุกรมการเงิน

    บทความนี้จำเป็นต้องเขียนใหม่ทั้งหมด อาจมีคำอธิบายในหน้าพูดคุย ซอฟต์แวร์เครื่องมือค้นหาและฮาร์ดแวร์ที่ซับซ้อนพร้อมเว็บอินเตอร์เฟสที่ให้ความสามารถ ... Wikipedia

    ระบบค้นหา- – (เครื่องมือค้นหาภาษาอังกฤษ คำพ้องความหมาย: search engine, search engine, search engine) – เครื่องมือสำหรับค้นหาข้อมูลบนอินเทอร์เน็ต ตามกฎแล้วการทำงานของเครื่องมือค้นหาประกอบด้วยสองขั้นตอน โปรแกรมพิเศษ (หุ่นยนต์ค้นหา, เครื่องจักร, ตัวแทน,... ... พจนานุกรมสารานุกรมสื่อ - เครื่องมือค้นหาเป็นเว็บไซต์ที่ให้ความสามารถในการค้นหาข้อมูลบนอินเทอร์เน็ต เสิร์ชเอ็นจิ้นส่วนใหญ่ค้นหาข้อมูลบนเวิลด์ไวด์เว็บไซต์ แต่ก็ยังมีระบบที่สามารถค้นหาไฟล์ได้ เซิร์ฟเวอร์ ftp,สินค้าใน... ... Wikipedia

หนังสือ

  • ในประเด็นประสิทธิผลของการค้นหาข้อมูลเฉพาะบนอินเทอร์เน็ต I. A. Semenov จากการวิจัยของเบิร์กลีย์ ปริมาณข้อมูลบนอินเทอร์เน็ตในปี 2546 อยู่ที่ประมาณ 258.85 เทราไบต์ และนี่เป็นเพียงข้อมูลที่เปิดเผยต่อสาธารณะเท่านั้น โดย ข้อมูลอินเทอร์เน็ตสถิติโลกการเติบโต... อีบุ๊ค

การค้นหาข้อมูลบนอินเทอร์เน็ตเป็นหนึ่งในการดำเนินการที่ได้รับความนิยมมากที่สุดบนอินเทอร์เน็ต ผู้เยี่ยมชมอินเทอร์เน็ตมักจะต้องค้นหาเอกสารในหัวข้อใดหัวข้อหนึ่ง หากคุณมีที่อยู่ที่แน่นอนของเอกสารบนอินเทอร์เน็ต ในกรณีนี้จะไม่มีปัญหาในการค้นหา: ในเบราว์เซอร์ใน แถบที่อยู่คุณสามารถกดที่อยู่ทรัพยากรที่รู้จักและเมื่อใด การเชื่อมต่อสำเร็จเบราว์เซอร์จะแสดงหน้าที่ต้องการ

หากไม่มีที่อยู่ที่แน่นอนของเอกสาร คุณสามารถใช้บริการของเครื่องมือค้นหาได้ เครื่องมือค้นหา? มันคือ “เซิร์ฟเวอร์พิเศษบนอินเทอร์เน็ตที่มีสิ่งอำนวยความสะดวกในการค้นหาเอกสารที่หลากหลาย” ตัวอย่างของเซิร์ฟเวอร์การค้นหาคือเซิร์ฟเวอร์ Rambler (Rambler.ru) ซึ่งอยู่ที่ http://rambler.ru หน้าหลักของเซิร์ฟเวอร์จะแสดงในรูป

ข้าว. 1.

เซิร์ฟเวอร์การค้นหามักจะรวบรวมไดเร็กทอรีทรัพยากรอินเทอร์เน็ตของตนเอง แค็ตตาล็อกเซิร์ฟเวอร์การค้นหาได้รับการอัปเดตเป็นประจำด้วยข้อมูลเกี่ยวกับทรัพยากรที่สร้างขึ้นบนเครือข่าย ซึ่งมาจากโรบ็อตการค้นหา โรบ็อตการค้นหาหรือสไปเดอร์เป็นโปรแกรมเครือข่ายพิเศษที่เข้าถึงโปรแกรมเหล่านั้นได้ ช่วงเวลานี้เซิร์ฟเวอร์อินเทอร์เน็ต วิเคราะห์เอกสาร และกรอกตารางของเครื่องมือค้นหา โรบ็อตการค้นหาทำหน้าที่ค้นหาและจัดระบบทรัพยากร พื้นหลังตลอดเวลา

อีกหนึ่งแหล่งรายได้ของ เซิร์ฟเวอร์การค้นหาข้อมูลเกี่ยวกับไซต์ที่มีอยู่ - การลงทะเบียนทรัพยากรอย่างชัดเจนโดยเจ้าของหน้าเว็บ เซิร์ฟเวอร์มีแบบฟอร์มที่เจ้าของทรัพยากรกรอก แบบฟอร์มระบุที่อยู่ทรัพยากร คำอธิบายสั้น ๆ คำสำคัญ กลุ่มเป้าหมาย ฯลฯ ข้อมูลนี้จะถูกวิเคราะห์และเพิ่มลงในไดเร็กทอรีเซิร์ฟเวอร์โดยอัตโนมัติ โปรแกรมพิเศษหรือ "ด้วยตนเอง" โดยผู้เชี่ยวชาญ - ผู้เชี่ยวชาญตรวจสอบการสร้างแคตตาล็อกทรัพยากร

การทำความเข้าใจกลไกในการค้นหาข้อมูลบนอินเทอร์เน็ตช่วยให้นักพัฒนาหน้าเว็บสามารถเตรียมเอกสารของตนเพื่อให้เครื่องมือค้นหาสามารถค้นพบได้ในภายหลังและวางไว้ในส่วนที่เหมาะสมของไดเร็กทอรีทรัพยากร

ค้นหาด้วยคำสำคัญบนอินเทอร์เน็ต

หนึ่งในวิธียอดนิยมในการค้นหาเอกสาร เครือข่าย WWW- ค้นหาด้วยคำสำคัญ เมื่อคุณระบุคำสำคัญในแบบฟอร์มการค้นหา โปรแกรมค้นหาจะค้นหาเอกสารที่มีคำสำคัญที่ระบุ แน่นอนว่าเพื่อตอบแบบสอบถามเครื่องมือค้นหาจะไม่ค้นหาเนื้อหาของคอมพิวเตอร์หลายพันเครื่องที่ทำงานบนอินเทอร์เน็ต - คุณจะต้องรอเป็นเวลาหลายวันกว่าจะได้ผลลัพธ์การค้นหาดังกล่าว การค้นหาจะดำเนินการในแหล่งข้อมูลเหล่านั้น (แคตตาล็อก ตาราง) ของเครื่องมือค้นหาที่รวบรวมและจัดระบบก่อนหน้านี้ด้วยความช่วยเหลือของหุ่นยนต์และผู้เชี่ยวชาญ

เนื่องจากปริมาณทรัพยากรเครือข่ายมีขีดจำกัดอย่างแท้จริง เมื่อมีการร้องขอให้ค้นหาเอกสารโดยใช้คำหลัก เครื่องมือค้นหาสามารถค้นหาเอกสารหลายพันฉบับที่มีคำหลักที่ระบุได้ เป็นที่ชัดเจนว่าด้วยเอกสารจำนวนมาก เป็นการยากที่จะค้นหาเอกสารที่ตรงกับหัวข้อที่กำหนดมากที่สุด อย่างไรก็ตาม เครื่องมือค้นหามักจะให้โอกาสในการกำหนดข้อความค้นหาที่มีรายละเอียดมากขึ้น

แบบสอบถามสามารถมีรูปแบบที่ซับซ้อนและประกอบด้วยคำหลักและฟังก์ชันเชิงตรรกะ AND (AND), OR (OR), การปฏิเสธ (NOT) หรือสามารถสร้างคำขอค้นหาได้โดยใช้ อักขระพิเศษช่วยให้คุณสามารถกำหนด (หรือยกเลิก) รูปแบบคำของคำหลักได้ กลไกดังกล่าวช่วยในการกำหนดข้อกำหนดในการเลือกเอกสารได้แม่นยำยิ่งขึ้น ทุกเครื่องมือค้นหามี ระบบช่วยเหลือซึ่งจะช่วยให้ผู้เยี่ยมชมเขียนได้ การค้นหา.

เป็นที่ทราบกันดีว่าผู้ใช้ที่มาถึงไซต์จากเครื่องมือค้นหาให้ปริมาณการเข้าชมมากถึงสี่สิบเปอร์เซ็นต์ ดังนั้นควรดูแลการจัดทำดัชนีเว็บไซต์ของคุณให้ถูกต้อง เครื่องมือค้นหามีประโยชน์มาก. โดย "การจัดทำดัชนีที่ถูกต้อง" ฉันหมายความว่าจะต้องเคารพความเกี่ยวข้องของข้อความค้นหาและเนื้อหาของเว็บไซต์ กล่าวคือ ในรูปแบบที่เรียบง่ายและ ภาษาที่สามารถเข้าถึงได้เนื้อหาของเว็บไซต์จะต้องสอดคล้องกับคำขอ (ชุดคำหลักในทางที่ผิด "ต้นแบบ" บางชุดที่ไม่สอดคล้องกับความเป็นจริง ตัวอย่างเช่น เมื่อน้องสาวของฉันกำลังเตรียมที่จะออกซีดีพร้อมสำเนาของเว็บเพจระดับแรกในเครื่อง คำว่า “x#y” และคำอื่นๆ ที่คล้ายกันปรากฏบนเซิร์ฟเวอร์อย่างมาก บริษัทที่มีชื่อเสียงซึ่งไม่มีอะไรเหมือนกันกับคำศัพท์ประเภทนี้ :-)

  • อัลตาวิสต้า
  • ดึงข้อมูลการค้นหา
  • เมเดียลิงกัว
  • เดินเตร่
  • RusInfOil
  • รัสเซียเอ็กซ์เพรส
  • ค้นหาร่างกาย
  • ฮอทบอท
  • ยานเดกซ์

เหตุใดฉันจึงแสดงรายการเครื่องมือค้นหาเฉพาะเหล่านี้ เพราะจากการสังเกตของฉัน นี่คือสิ่งที่ชาวเน็ตที่พูดภาษารัสเซียใช้ "ข้อสังเกตของฉัน" คืออะไร? นี่คือการวิเคราะห์บันทึกการเข้าถึงเซิร์ฟเวอร์ของฉัน http://citforum.ru/ อันนั้นแม่นยำยิ่งขึ้นส่วนของบันทึกที่มีการรวบรวมข้อมูลบน HTTP_REFERER เช่น ที่อยู่ (URL) ที่ลูกค้าใช้ลิงก์ไปยังหน้าใด ๆ บนเซิร์ฟเวอร์ของฉัน

เครื่องจักรที่ฉันระบุไว้ในทางปฏิบัติมีระดับเท่าใด เครื่องไหนใช้งานมากกว่า เครื่องไหนน้อยกว่า

Altavista อยู่ในอันดับที่หนึ่งโดยมีอัตรากำไรมหาศาลจากที่เหลือ เครื่องมือค้นหานี้เป็นผู้นำก่อนที่การค้นหาในภาษาต่างๆ (รวมถึงเอกสารภาษารัสเซีย) จะปรากฏขึ้นที่นั่นด้วยซ้ำ เป็นเรื่องที่เข้าใจได้ - เซิร์ฟเวอร์ที่ยอดเยี่ยมและเข้าถึงได้ง่ายทำงานมาเป็นเวลานาน (ตั้งแต่ต้นปี 1996) ฐานขนาดใหญ่เอกสาร (มากกว่า 50 ล้านที่อยู่) ควรคำนึงด้วยว่าผู้ใช้ที่พูดภาษารัสเซียไม่เพียงแต่อยู่ในรัสเซียเท่านั้น แต่ยังอยู่ในบัลแกเรีย สาธารณรัฐเช็ก และสโลวาเกีย โปแลนด์ อิสราเอล เยอรมนี และไม่ต้องพูดถึงอดีตสาธารณรัฐของสหภาพโซเวียต - ยูเครน เบลารุส .. (ฉันอยากจะพูดเป็นพิเศษเกี่ยวกับรัฐบอลติก: พวกเขาพบกันตามถนนในเมืองเคานาสหรือทาลลินน์บางแห่งซึ่งไม่รู้จักภาษารัสเซีย แต่อยู่หน้าจอมอนิเตอร์ โดยเฉพาะอย่างยิ่งหากจำเป็นจริงๆ พวกเขาจริงๆ รู้ :-)) ดังนั้นสำหรับผู้ใช้ทั้งหมดเหล่านี้ การใช้ Altavista จะสะดวกกว่าไม่ใช่รถยนต์ในประเทศของเรา - ใกล้กว่า แต่ยังคง...

เครื่องมือค้นหาที่ได้รับความนิยมรองลงมาคือ Yandex ที่อายุน้อยที่สุดในรัสเซีย ดังที่ Aleksey Amilyushchenko (บริษัท Comptek) บอกฉันว่าวันนี้มีคำขอโดยเฉลี่ย 72,000 คำขอต่อวัน และมีแนวโน้ม +10% ต่อสัปดาห์ (ข้อมูลจาก 04/07/98) สำหรับฉันแล้วดูเหมือนว่า Yandex เป็นเครื่องมือค้นหาของรัสเซียที่มีแนวโน้มมากที่สุด ด้วยระบบของ Comptek สำหรับการแยกวิเคราะห์ภาษารัสเซียที่ "ยิ่งใหญ่และทรงพลัง" ยานเดกซ์อาจได้รับชัยชนะในการแข่งขันกับวาฬตัวที่สองในพื้นที่นี้ - Rambler

Rambler เป็นเครื่องมือค้นหาสำคัญอันดับที่สามสำหรับผู้ใช้ที่พูดภาษารัสเซีย สิ่งสำคัญที่ฉันไม่ชอบก็คือมันไม่สนใจเนื้อหาของโครงสร้าง - (ฉันไม่ได้คิดเรื่องนี้ขึ้นมาพูดโดย Dmitry Kryukov จาก Stack Ltd. ) อาจเป็นเพราะการปฏิเสธที่จะคำนึงถึงคำหลักที่ทำให้ลิงก์ชุดแปลก ๆ ดังกล่าวปรากฏในผลลัพธ์การค้นหา ข้อเสียเปรียบประการที่สองของลักษณะอินเทอร์เฟซเพียงอย่างเดียวคือผลลัพธ์จะแสดงอยู่ตลอดเวลา การเข้ารหัส KOIไม่ว่าผู้ใช้จะเลือกไว้ก่อนหน้านี้ก็ตาม ข้อเสียเปรียบประการที่สาม: Rambler Spider ทำงานโดยใช้โปรโตคอล HTTP 0.9 ซึ่งนำไปสู่ข้อผิดพลาดในการจัดทำดัชนี เช่น หากเซิร์ฟเวอร์เสมือนหลายเซิร์ฟเวอร์อยู่บนที่อยู่ IP เดียวกัน Rambler จะเห็นเฉพาะเซิร์ฟเวอร์แรกเท่านั้น และถือว่าเซิร์ฟเวอร์อื่นๆ ทั้งหมดเป็นเพียงคำพ้องความหมาย โอ้ หวังว่าเรื่องนี้จะได้รับการแก้ไขเร็วๆ นี้

สุดท้ายในการจัดอันดับของฉันคือ Aport-Search ซึ่งจัดทำดัชนีเซิร์ฟเวอร์อย่างแปลกประหลาด RusInfOil ซึ่งปิดเป็นประจำเพื่อสร้างใหม่ และ TELA-Search ซึ่งเป็นอุปกรณ์ที่สวยงามและแทบไม่มีประโยชน์สำหรับเซิร์ฟเวอร์ www.dux.ru

คุณอาจถามว่า: HotBot และเอ็นจิ้น Metasearch ของ Pathfinder จาก Medialingua อยู่ในรายการด้วยหรือไม่ ฉันไม่ได้ลืมพวกเขา เพียงแต่ว่า HotBot ทิ้งรายการจำนวนมากไว้ในบันทึกของฉันด้วยเหตุผลบางอย่าง ซึ่งไม่สามารถเป็นเที่ยวบินสุ่มของชาวต่างชาติที่ไม่เข้าใจภาษารัสเซียได้ (มีเที่ยวบินดังกล่าวน้อยกว่ามากจากที่อื่น เครื่องจักรนำเข้า) และผมยังไม่ได้ศึกษา “Pathfinder” แบบจริงจังมากพอ

เหตุใดเครื่องมือค้นหาจึงต้องโปรโมตเว็บไซต์

อย่างที่ฉันบอกไปแล้ว มันง่ายมากอย่างที่ฉันบอกไปแล้วว่าเสิร์ชเอ็นจิ้นสามารถให้ปริมาณการเข้าชมไซต์ได้มากถึงสี่สิบเปอร์เซ็นต์ และเพื่อให้สิ่งนี้เกิดขึ้น เว็บไซต์ของคุณจำเป็นต้องได้รับการจัดทำดัชนีอย่างถูกต้อง และด้วยเหตุนี้ คุณจำเป็นต้องรู้ว่าจะทำอย่างไร

และทำได้ด้วยวิธีต่อไปนี้: หุ่นยนต์เครื่องมือค้นหาจะเข้าสู่ไซต์ของคุณหรือคุณเองก็ระบุไซต์ในอินเทอร์เฟซที่เหมาะสม (AddUrl) ซึ่งมีอยู่ในเครื่องมือค้นหาที่เคารพตนเอง ตัวเลือกแรกได้รับผลกระทบจากความล่าช้า (หุ่นยนต์จะยังคงไปถึงที่นั่น บางทีในหนึ่งวัน หรือหนึ่งปี: อินเทอร์เน็ตมีขนาดใหญ่) อันที่สองต้องใช้เวลาพอสมควร (ซอฟต์แวร์ต่าง ๆ สำหรับ การลงทะเบียนอัตโนมัติเว็บไซต์ของคุณไม่ได้ให้ข้อมูลอะไรแก่เราในระบบคลาวด์ของเสิร์ชเอ็นจิ้น - มีการนำเข้าเครื่องจักร)

เพื่อให้ทุกอย่างเกิดขึ้น. อย่างดีที่สุดที่จำเป็น:

  • ควรมีข้อความบางส่วนบนเว็บไซต์เป็นอย่างน้อย เครื่องมือค้นหาจะเพิกเฉยต่อรูปภาพและทำการทดสอบกับรูปภาพเหล่านั้น จริงอยู่ที่คุณสามารถทำซ้ำข้อความได้ แอตทริบิวต์สำรองแท็ก img
  • เอกสารแต่ละไซต์ต้องมีชื่อ คำสำคัญ และคำอธิบายสั้นๆ ที่มีความหมาย พวกเขาเขียนเพียงว่าเครื่องมือค้นหาเป็นข้อความแบบเต็ม แต่ในความเป็นจริงไม่เป็นเช่นนั้น
  • การสร้างไฟล์ robots.txt (โดยเฉพาะถ้าคุณมี เซิร์ฟเวอร์ของตัวเองเช่น www.name.ru)
  • การลงทะเบียนด้วยตนเองในแต่ละเครื่องมือค้นหาที่คุณสนใจและการควบคุมการจัดทำดัชนีเว็บไซต์ของคุณในภายหลัง

ดังนั้นคุณได้ลงทะเบียนหน้าแรกของเว็บไซต์ของคุณในเครื่องมือค้นหาต่างๆแล้ว

คุณคิดว่าทุกอย่างอยู่ในสัญญาแล้วหรือยัง? ไม่ว่ามันจะเป็นอย่างไร หากลิงก์ไปยังเว็บไซต์ของคุณในการตอบกลับของเครื่องมือค้นหาแสดงบนหน้าจอที่สอง “มันแย่เหมือนกับไม่มีลิงก์เลย” (Danny Sullivan, searchenginewatch.com)

กล่าวอีกนัยหนึ่ง การระบุเพจใน AddURL นั้นไม่เพียงพอ มีความจำเป็นต้องเตรียมเอกสารล่วงหน้าเพื่อตอบสนองต่อคำขอที่เหมาะสมต่อเครื่องมือค้นหา ในการตอบสนองต่อคำขอ ลิงก์ไปยังเอกสารของคุณหากไม่ใช่ลิงก์แรก อย่างน้อยก็อยู่ในลิงก์สิบอันดับแรก (หรือ จะดีกว่าถ้าในสิบอันดับแรกนี้มีหลายลิงก์ไปยังเอกสารของคุณ:-) “เตรียมตัว” หมายความว่าอย่างไร? มันสะอาด คำถามทางเทคนิคไม่มีอะไรเหนือธรรมชาติ ในส่วน HEAD ของแต่ละเอกสารในไซต์ของคุณ คุณควรระบุชื่อ "กำลังพูด" คำสำคัญ คำอธิบาย และโรบ็อต

ชื่อ:ชื่อเอกสาร ชื่อที่ดีและมีความหมายสามารถทำให้ผู้ใช้เลือกลิงก์ของคุณจากคนอื่นๆ ได้ บ่อยครั้งที่คุณเห็นหัวข้อดังต่อไปนี้: "เนื้อหา" - อะไร ทำไม - ไม่ชัดเจน ไม่มีความปรารถนาที่จะตรวจสอบ อีกกรณีหนึ่ง: ในทุกหน้าของไซต์ ชื่อคือ "ยินดีต้อนรับสู่บริษัท..." - การตรวจสอบเอกสารทั้งหมดที่มีชื่อในลักษณะนี้ดูไม่น่าสนใจนัก ลองนึกภาพว่าคุณได้เลือกโหมดการค้นหาตามชื่อเรื่อง โดยไม่มีคำอธิบายของแต่ละเอกสาร

คำสำคัญ:คำหลัก เป็นเนื้อหาของคอนเทนเนอร์นี้ที่ส่งผลต่อความเกี่ยวข้องของเอกสารกับคำค้นหา

ไม่ว่าพวกเขาจะบอกว่าเครื่องมือค้นหาเป็นข้อความเต็มมากแค่ไหน แต่ก็ไม่เป็นความจริงทั้งหมด แต่เนื้อหาของคอนเทนเนอร์นี้จะไปอยู่ในดัชนีเครื่องมือค้นหาอย่างแน่นอน น่าเสียดายที่ผู้สร้างหนึ่งในเครื่องมือค้นหาในประเทศที่ใหญ่ที่สุด Rambler ไม่ต้องการทำงานกับคอนเทนเนอร์นี้ แต่เปล่าประโยชน์

  • ช่องเนื้อหาไม่ควรมีการลงท้ายบรรทัด เครื่องหมายคำพูด หรืออักขระพิเศษอื่นๆ
  • ไม่แนะนำให้ทำซ้ำคำหลักเดียวกันหลาย ๆ ครั้ง สิ่งนี้อาจถูกมองว่าเป็นสแปมและเพจมีความเสี่ยงที่จะถูกลบออกจากดัชนีเครื่องมือค้นหา
  • คุณไม่ควรสร้างคำหลักเดียวกันสำหรับ หน้าที่แตกต่างกันเว็บไซต์ของคุณ. แน่นอนว่าง่ายกว่า แต่เนื้อหาของเอกสารนั้นแตกต่างกัน หากคุณต้องการทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ คุณสามารถเขียนโปรแกรมที่จะเขียนบล็อคที่เลือกทั้งหมดของเอกสารในช่องนี้ ตัวอย่างเช่น สิ่งที่อยู่ระหว่างแท็ก H, I และ B
  • หากบรรทัดในเนื้อหายาวเกินไปห้ามมิให้สร้างสิ่งปลูกสร้างที่คล้ายกันอีกหลายอย่าง
  • โดยทั่วไป ปริมาณคำหลักทั้งหมดในเอกสารหนึ่งอาจสูงถึง 50% ของปริมาณในเอกสารนั้น

คำอธิบาย: คำอธิบายสั้นเอกสาร. คอนเทนเนอร์ค่อนข้างมีประโยชน์ เนื้อหาถูกใช้เป็นคำอธิบายสั้น ๆ ของเอกสารที่เกี่ยวข้องเพื่อตอบสนองต่อเครื่องมือค้นหาสมัยใหม่ หากไม่มีคอนเทนเนอร์นี้ ระบบจะส่งคืนบรรทัดจำนวนหนึ่งจากจุดเริ่มต้นของเอกสาร ดังนั้นจึงไม่ใช่เรื่องแปลกเมื่อ JavaScript อยู่ที่ตำแหน่งเริ่มต้นของเอกสาร และแทนที่จะเป็นคำอธิบายปกติ aracadabra จะได้รับในรูปแบบของชิ้นส่วนของสคริปต์

  • ช่องเนื้อหาต้องไม่มีการลงท้ายบรรทัด เครื่องหมายคำพูด หรืออักขระพิเศษอื่นๆ
  • ขอแนะนำให้มีการสรุปที่มีความหมายของเอกสารจากประโยคของมนุษย์สองสามประโยค เพื่อให้ผู้ใช้เครื่องมือค้นหานอกเหนือจากชื่อเรื่องสามารถเข้าใจความหมายของเอกสารได้
  • น่าเสียดายที่เครื่องมือค้นหาในประเทศยังไม่ทราบวิธีทำงานกับคอนเทนเนอร์นี้แม้ว่าพวกเขาจะสัญญาว่าพวกเขาจะเรียนรู้ในไม่ช้าก็ตาม

เป็นไปได้ไหมที่จะควบคุมการทำงานของเครื่องมือค้นหา?

เป็นไปได้และจำเป็นด้วยซ้ำ! การดำเนินการขั้นแรกที่ต้องดำเนินการคือการเขียนไฟล์ robots.txt และวางไว้ที่รากของเซิร์ฟเวอร์ของคุณ ไฟล์นี้อธิบายให้โรบอตเครื่องมือค้นหาทราบอย่างแพร่หลายว่าอะไรควรจัดทำดัชนีและสิ่งใดไม่ควรจัดทำดัชนี เช่น ทำไมต้องทำดัชนีไฟล์เซอร์วิส เช่น รายงานทางสถิติ? หรือผลลัพธ์ของสคริปต์? ยิ่งไปกว่านั้น เครื่อง “อัจฉริยะ” จำนวนมากจะไม่สร้างดัชนีเซิร์ฟเวอร์โดยไม่ต้องค้นหา robots.txt อย่างไรก็ตาม ในไฟล์นี้ คุณสามารถระบุมาสก์การจัดทำดัชนีที่แตกต่างกันสำหรับเครื่องมือค้นหาที่แตกต่างกันได้

คุณสามารถอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ในคำแปลของฉัน "Standard for Robots Exclusion" การดำเนินการที่สอง: จัดเตรียมแท็ก Robots META ให้กับหน้าไซต์ นี่เป็นเครื่องมือควบคุมการจัดทำดัชนีที่ยืดหยุ่นมากกว่า robots.txt โดยเฉพาะอย่างยิ่ง ในแท็กนี้ คุณสามารถสั่งโรบอตเครื่องมือค้นหาไม่ให้ติดตามลิงก์ไปยังเซิร์ฟเวอร์อื่น เช่น ในเอกสารที่มีรายการลิงก์ รูปแบบของระเบียบนี้มีดังนี้:

robot_terms เป็นรายการคำหลักต่อไปนี้ที่คั่นด้วยเครื่องหมายจุลภาค (อักขระตัวพิมพ์ใหญ่หรือตัวพิมพ์เล็กไม่สำคัญ): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOWไม่มี บอกให้โรบ็อตทั้งหมดละเว้นหน้านี้เมื่อทำการจัดทำดัชนี (เทียบเท่ากับ การใช้งานพร้อมกันคำหลัก NOINDEX, NOFOLLOW)ทั้งหมด อนุญาตให้หน้านี้และลิงก์ทั้งหมดจากนั้นจัดทำดัชนี (เทียบเท่ากับการใช้คำหลัก INDEX ติดตามคำหลักพร้อมกัน)ดัชนี อนุญาตให้จัดทำดัชนีหน้านี้นอยเด็กซ์ ไม่อนุญาตให้จัดทำดัชนีหน้านี้ติดตาม อนุญาตให้ลิงก์ทั้งหมดจากหน้านี้ได้รับการจัดทำดัชนีไม่ปฏิบัติตาม ไม่อนุญาตให้จัดทำดัชนีลิงก์จากหน้านี้

หากละเว้นเมตาแท็กนี้หรือไม่ได้ระบุ robot_terms ตามค่าเริ่มต้น โรบ็อตการค้นหาจะทำหน้าที่เสมือนว่า robot_terms=INDEX, FOLLOW (เช่น ทั้งหมด) ถูกระบุ หากตรวจพบคีย์เวิร์ด ALL ใน CONTENT โรบ็อตจะดำเนินการตามนั้น โดยไม่สนใจคีย์เวิร์ดอื่นที่อาจระบุไว้ หาก CONTENT มีคีย์เวิร์ดที่มีความหมายตรงกันข้าม เช่น FOLLOW, NOFOLLOW โรบ็อตจะดำเนินการตามดุลยพินิจของตนเอง (ในกรณีนี้ ติดตาม).

หาก robot_terms มีเพียง NOINDEX ลิงก์จากหน้านี้จะไม่ถูกจัดทำดัชนี หาก robot_terms มีเพียง NOFOLLOW หน้าเว็บนั้นจะถูกจัดทำดัชนีและลิงก์จะถูกละเว้น

การตรวจสอบสถานะปัจจุบันของเอกสารของคุณในดัชนีเครื่องมือค้นหา

โอเค คุณอ่านทุกอย่างข้างต้นแล้วทำตามนั้น อะไรต่อไป? จากนั้นจะมีการตรวจสอบอย่างต่อเนื่องยาวนาน น่าเบื่อ และที่สำคัญที่สุด เพื่อดูว่าสิ่งต่างๆ ดำเนินไปอย่างไร ถึงแม้จะเป็นที่น่าเศร้า คุณจะต้องใส่ใจกับสิ่งนี้ หากเพียงเพราะบางครั้งเอกสารหายไปจากเครื่องมือค้นหา ทำไม ฉันหวังว่าฉันจะรู้... ดังนั้นในเครื่องมือค้นหาที่ดี คุณสามารถดูว่ามีเอกสารใดบ้างและมีกี่เอกสารที่อยู่ในดัชนี ต่อไปนี้เป็นวิธีดำเนินการ:

อัลตาวิสต้า
ในเครื่องมือค้นหานี้ การตรวจสอบสถานะ URL นั้นค่อนข้างง่าย - เพียงพิมพ์บรรทัดข้อความค้นหา:

URL: citforum.ru
URL:citforum.ru/win/
URL:citforum.ru/win/internet/index.shtml

ในกรณีแรก หน้าเซิร์ฟเวอร์ที่จัดทำดัชนีไว้ทั้งหมดจะถูกส่งกลับ ในหน้าการเข้ารหัส Windows ที่สองเท่านั้น ในส่วนที่สาม - มีไฟล์ index.shtml จากไดเร็กทอรีที่ระบุในดัชนี AltaVista หรือไม่

ตื่นเต้น
การตรวจสอบสถานะของ URL ในเครื่องมือค้นหา Excite นั้นง่ายดายเหมือนกับใน AltaVista เพียงพิมพ์ URL ตัวอย่างเช่น:

ฮอทบอท
สถานะ URL ถูกตรวจสอบในเครื่องมือค้นหา HotBot ด้วยวิธีที่แตกต่างออกไปเล็กน้อย ทำเช่นนี้:

  • ป้อน URL ในช่องคำขอ
  • เปลี่ยนตัวเลือก "ทุกคำ" เป็น "ลิงก์ไปยัง URL นี้"

อินโฟซีค
ในเครื่องมือค้นหา Infoseek มีอินเทอร์เฟซแยกต่างหากพร้อมการตั้งค่าทั้งชุดสำหรับตรวจสอบสถานะของ URL:

โปรแกรมรวบรวมข้อมูลเว็บ
WebCrawler ให้ความสามารถในการตรวจสอบสถานะของ URL บนเพจ:

เดินเตร่
ในเครื่องมือค้นหานี้ สามารถตรวจสอบสถานะ URL ได้สองวิธี

  • ในส่วน "การค้นหาขั้นสูง" โดยระบุชื่อเซิร์ฟเวอร์เป็นตัวพรางในตัวเลือกใดตัวเลือกหนึ่ง 100 คำยอดนิยมบน Rambler