Paano gumagana ang mga search engine sa Internet. Mga search engine sa internet

Mga search engine(Search engine)

Hinahayaan ka ng mga search engine na maghanap ng mga dokumento sa WWW na nauugnay sa mga ibinigay na paksa o nilagyan ng mga keyword o kumbinasyon nito. Mayroong dalawang paraan ng paghahanap na ginagamit sa mga server ng paghahanap:

· Ayon sa hierarchy ng mga konsepto;

· Sa pamamagitan ng mga keyword.

Ang mga server ng paghahanap ay awtomatikong napupunan o manu-mano. Ang server ng paghahanap ay karaniwang may mga link sa iba pang mga server ng paghahanap, at nagpapadala sa kanila ng kahilingan sa paghahanap sa kahilingan ng user.

Mayroong dalawang uri ng mga search engine.

1. "Full-text" na mga search engine na nag-index ng bawat salita sa isang web page, hindi kasama ang mga stop na salita.

2. "Abstract" na mga search engine na lumilikha ng abstract ng bawat pahina.

Para sa mga webmaster, mas kapaki-pakinabang ang mga full-text engine dahil sinusuri ang anumang salita na makikita sa isang web page upang matukoy ang kaugnayan nito sa mga query ng user. Gayunpaman, ang mga abstract na makina ay maaaring mag-index ng mga pahina nang mas mahusay kaysa sa mga full-text. Depende ito sa algorithm para sa pagkuha ng impormasyon, halimbawa, sa dalas ng paggamit ng parehong mga salita.

Mga pangunahing katangian ng mga search engine.

1.Ang laki ng isang search engine ay tinutukoy ng bilang ng mga pahinang na-index. Gayunpaman, sa anumang oras, ang mga link na ibinigay bilang tugon sa mga kahilingan ng user ay maaaring may iba't ibang edad. Mga dahilan kung bakit ito nangyayari:

· ang ilang mga search engine ay agad na nag-index ng pahina sa kahilingan ng gumagamit, at pagkatapos ay magpatuloy sa pag-index ng mga pahina na hindi pa nai-index.

· ang iba ay madalas na nag-i-index mga sikat na pahina mga network.

2. Petsa ng pag-index. Ipinapakita ng ilang search engine ang petsa kung kailan na-index ang isang dokumento. Tinutulungan nito ang user na matukoy kung kailan lumitaw ang isang dokumento online.

3. Ipinapakita ng lalim ng pag-index kung gaano karaming mga pahina pagkatapos ng tinukoy na isa ang ii-index ng search engine. Karamihan sa mga makina ay walang mga paghihigpit sa lalim ng pag-index. Mga dahilan kung bakit hindi lahat ng page ay maaaring ma-index:

· Hindi tamang paggamit mga istruktura ng frame.

· paggamit ng isang mapa ng site nang walang pagdoble regular na mga link

4.Paggawa gamit ang mga frame. Kung robot sa paghahanap ay hindi alam kung paano magtrabaho sa mga istruktura ng frame, kung gayon maraming mga istruktura na may mga frame ang hindi mapapalampas sa panahon ng pag-index.

5. Dalas ng mga link. Maaaring matukoy ng mga pangunahing search engine ang katanyagan ng isang dokumento sa pamamagitan ng kung gaano kadalas ito naka-link. Ang ilang mga makina, batay sa naturang data, ay "nagtatapos" kung ito ay nagkakahalaga ng pag-index ng isang dokumento o hindi.

6.Dalas ng pag-update ng server. Kung madalas na ina-update ang server, mas madalas itong i-index ng search engine.

7. Kontrol sa pag-index. Ipinapakita kung anong mga tool ang maaari mong gamitin upang kontrolin ang search engine.

8. Pag-redirect. Ang ilang mga site ay nagre-redirect ng mga bisita mula sa isang server patungo sa isa pa, at ipinapakita ng pagpipiliang ito kung paano ito maiuugnay sa mga dokumentong natagpuan.

9.Stop words. Ang ilang mga search engine ay hindi nagsasama ng ilang mga salita sa kanilang mga index o maaaring hindi kasama ang mga salitang iyon sa mga query ng user. Ang mga salitang ito ay karaniwang itinuturing na mga pang-ukol o madalas na ginagamit na mga salita.

10. Mga multa sa spam. Kakayahang harangan ang spam.

11.Pagtanggal ng lumang data. Isang parameter na tumutukoy sa mga aksyon ng webmaster kapag isinasara ang server o inililipat ito sa ibang address.

Mga halimbawa ng mga search engine.

1. Altavista. Ang sistema ay binuksan noong Disyembre 1995. Pagmamay-ari ng DEC. Mula noong 1996 siya ay nakikipagtulungan sa Yahoo. Ang AltaVista ay pinakamahusay na pagpipilian para sa custom na paghahanap . Gayunpaman, ang pag-uuri ng mga resulta ayon sa kategorya Hindi ito tapos at kailangan mong manu-manong suriin ang impormasyong ibinigay. Ang AltaVista ay hindi nagbibigay ng paraan upang kunin ang mga listahan mga aktibong node, balita o iba pang kakayahan sa paghahanap ng nilalaman.

2. Excite Search. Inilunsad noong katapusan ng 1995. Noong Setyembre 1996 - nakuha ng WebCrawler. Ang yunit na ito ay may malakas na balahibo sa paghahanapmababa, posibilidad ng mga awtomatikong indibidwal na settingimpormasyong ibinigay, pati na rin ang pinagsama-samang mga kwalipikasyonmga paglalarawan ng maraming node ng mga kwalipikadong tauhan. Excited naiiba sa iba pang mga node sa paghahanap doonnagbibigay-daan sa iyo na maghanap ng mga serbisyo ng balita at mag-publish ng mga review Mga web page. Gumagamit ang search engine ng mga toolkaraniwang paghahanap ng keyword at heuristicparaan ng paghahanap ng nilalaman. Salamat sa kumbinasyong ito,makakahanap ka ng mga nauugnay na pahina Web kung wala silang laman tinukoy ng gumagamit susi mga salita Disadvantage ng Excite ay isang medyo magulong interface.

3.HotBot. Inilunsad noong Mayo 1996. Pagmamay-ari ng Wired. Batay sa teknolohiya ng search engine ng Berkeley Inktomi. Ang HotBot ay isang database na naglalaman ng mga full-text na naka-index na dokumento at isa sa mga pinakakomprehensibong search engine sa Web. Ang paraan nito ng paghahanap sa pamamagitan ng lohikal na mga kondisyon at paraan ng paglilimita sa paghahanap sa anumang lugar o Web site tulungan ang gumagamit na mahanap kinakailangang impormasyon, tinatanggal ang hindi kailangan. Nagbibigay ang HotBot ng kakayahang piliin ang nais na mga parameter ng paghahanap mula sa mga drop-down na listahan.

4.InfoSeek. Inilunsad bago ang 1995, madaling ma-access. Kasalukuyang naglalaman ng humigit-kumulang 50 milyong URL. Ang Infoseek ay may mahusay na dinisenyo na interface at mahusay na mga pasilidad sa paghahanap. Karamihan sa mga tugon sa mga query ay sinamahan ng mga link na "mga kaugnay na paksa", at ang bawat tugon ay sinusundan ng mga link na "katulad na mga pahina." Database search engine mga pahinang na-index ng buong teksto. Ang mga sagot ay inayos ayon sa dalawang tagapagpahiwatig: ang dalas ng paglitaw ng salita o mga parirala sa pahina tsakh, pati na rin ang lokasyon ng mga salita o parirala sa mga pahina. Mayroong isang Web Directory, na nahahati sa 12 kategorya na may daan-daang mga subcategory na maaaring hanapin. Ang bawat pahina ng catalog ay naglalaman ng isang listahan ng re inirerekomendang mga node.

5. Lycos. Nagpapatakbo mula Mayo 1994. Malawak na kilala at ginagamit. Kabilang dito ang isang direktoryo na may malaking bilang ng mga URL. at ang Point search engine na may teknolohiya pagsusuri sa istatistika nilalaman ng pahina, kumpara sa buong pag-index ng teksto. Naglalaman ang Lycos ng mga balita, mga review ng site, mga link sa mga sikat na site, mga mapa ng lungsod, at mga tool para sa paghahanap ng mga address, mga larawan mga ekspresyon at tunog at mga video clip. Lycos inaayos ang mga sagot ayon sa antas ng ugnayanpagtugon sa isang kahilingan batay sa ilang pamantayan, halimbawa, numerolu mga termino para sa paghahanap na matatagpuan sa abstract sa dokumentoment, pagitan sa pagitansa mga salita sa isang tiyak na parirala ng dokumento, lokasyonmga tuntunin sa dokumento.

6. WebCrawler. Binuksan noong Abril 20, 1994 bilang isang proyekto ng Unibersidad ng Washington. WebCrawler nagbibigay ng mga pagkakataon syntax para sa pagtukoy ng mga query, pati na rin malaking seleksyon node annotation na may simpleng interface.

Kasunod ng bawat tugon, magpapakita ang WebCrawler ng isang maliit na icon na may tinatayang pagtatasa kung ang kahilingan ay naitugma. Nagpapakita rin ang Comee ng isang pahina na may maikling buod para sa bawat sagot, ang buong URL nito, isang eksaktong marka ng tugma, at gumagamit din ng ang sagot na ito sa sample na query bilang mga keyword nito.Graphical na interface para sa pag-configure ng mga query sa Walang Web Crawler. N ay hindi pinapayaganimposible rin ang paggamit ng mga unibersal na simbolomagtalaga ng mga timbang sa mga keyword.Walang paraan upang limitahan ang field ng paghahanapisang tiyak na lugar.

7. Yahoo. Ang pinakalumang direktoryo ng Yahoo ay inilunsad noong unang bahagi ng 1994. Kilalang-kilala, madalas na ginagamit at pinaka iginagalang. Noong Marso 1996, inilunsad ang Yahooligans catalog para sa mga bata. Lumilitaw ang mga regional at nangungunang direktoryo ng Yahoo. Ang Yahoo ay batay sa mga subscription ng user. Maaari itong magsilbi bilang isang panimulang punto para sa anumang paghahanap sa Web, dahil ang sistema ng pag-uuri nito ay makakatulong sa gumagamit na makahanap ng isang site na may mahusay na organisadong impormasyon. Ang nilalaman ng web ay nabibilang sa 14 na pangkalahatang kategorya, na nakalista sa home page Yahoo!. Depende sa mga detalye ng kahilingan ng user, posibleng magtrabaho kasama ang mga kategoryang ito para maging pamilyar sa mga subcategory at listahan ng mga node, o maghanap mga tiyak na salita at mga tuntunin sa buong database. Maaari ding limitahan ng user ang paghahanap sa loob ng anumang seksyon o subsection ng Yahoo!. Dahil sa ang katunayan na ang pag-uuri ng mga node ay ginagawa ng mga tao, at hindi sa pamamagitan ng computer, ang kalidad ng mga link ay kadalasang napakataas. Gayunpaman, ang pagpino sa paghahanap kung sakaling mabigo ay isang mahirap na gawain. Sumali sa Yahoo ! kasama ang search engine AltaVista, kaya kung ang iyong paghahanap sa Yahoo! awtomatiko itong nangyayari pag-uulit gamit ang isang search engine AltaVista . Ang mga resulta ay ipapadala sa Yahoo!. Yahoo! nagbibigay ng kakayahang magpadala ng mga query sa paghahanap sa Usenet at Fourl 1 upang malaman ang mga address email.

Kasama sa mga search engine ng Russia ang:

1. Rambler Ito ay isang search engine sa wikang Ruso. Mga seksyong nakalista sa bahay Pahina ng Rambler, sakop ng mga mapagkukunan sa Web sa wikang Ruso. May isang information classifier. Isang maginhawang pagkakataon trabaho ay upang magbigay ng isang listahan ng mga pinaka-binibisitang mga node para sa bawat isa ang iminungkahing paksa.

2. Aport Search. Aport ay kabilang sa nangunguna mga search engine, sertipikado Microsoft tulad ng mga lokal na search enginemga sistema para sa bersyong Ruso Microsoft Internet Explorer. Isa sa mga bentahe ng Aport ay English-Russian at Russian-English translation in online mode mga query at resulta ng paghahanap, salamat sa kung saan maaari kang maghanap sa mga mapagkukunan ng Internet sa Russia , kahit na hindi alam ang Russian. At saka maaari kang maghanap ng impormasyon paggamit ng mga ekspresyon, kahit para sa mga pangungusap.Kabilang sa mga pangunahing katangian ng sistema ng paghahanap ng Aport ay magagawa mohatiin ang sumusunod:

Pagsasalin ng query at mga resulta ng paghahanap mula sa Russian patungo sa Ingleswikang Tsino at kabaliktaran;

Awtomatikong suriin mga error sa spelling sa kahilingan;

Nagbibigay-kaalaman na pagpapakita ng mga resulta ng paghahanap para sa mga nahanap na site;

Kakayahang maghanap sa anumang anyo ng gramatika;

advanced na wika ng query para sa mga propesyonal mga gumagamit ng cash.

Kasama sa iba pang mga katangian ng paghahanap ang:suporta ng limang pangunahing pahina ng code (iba't ibang operatingsystem) para sa wikang Ruso, teknolohiya sa paghahanap gamitwalang mga paghihigpit sa URL at petsa ng mga dokumento, pagpapatupad ng paghahanapsa pamamagitan ng mga headline, komento at lagdasa mga larawan, atbp., pag-save ng mga parameter sa paghahanap at pagtukoy bilang ng mga nakaraang kahilingan ng user, pinagsasama mga kopya ng dokumento na matatagpuan sa iba't ibang mga server.

3. Listahan. ru ( http://www.list.ru) Sa pagpapatupad nito, marami ang server na itokaraniwan sa sistema ng wikang Ingles Yahoo!. Naka-on home page server ay naglalaman ng mga link sa pinakasikat na mga kategorya ng paghahanap.

Ang isang listahan ng mga link sa mga pangunahing kategorya ng catalog ay sumasakop sa gitnang bahagi. Ang paghahanap sa catalog ay ipinatupad sa paraang ang resulta ng isang query ay makikita sa parehong mga indibidwal na site at kategorya. Kung matagumpay ang paghahanap, ang URL, pamagat, paglalarawan, mga keyword. Katanggap-tanggap na paggamit Yandex query language. SAlink na "Istrukturacatalog" magbubukas ng buong kategorya ng kata sa isang hiwalay na windowlog. Naipatupad na ang kakayahang lumipat mula sa rubricator patungo sa anumang napiling subcategory. Mas detalyadong pampakay na dibisyonang kasalukuyang seksyon ay kinakatawan ng isang listahan ng mga link. Ang catalog ay nakaayos tulad nito na ang lahat ng mga site na nakapaloob sa mas mababang antas strokeAng mga paglilibot ay ipinakita din sa mga seksyon.Ang ipinapakitang listahan ng mga mapagkukunan ay pinagsunod-sunod ayon sa alpabeto, ngunit maaari mong piliing pag-uri-uriin: ayon sa oras magdagdag ng menu, sa pamamagitan ng paglipat, sa pamamagitan ng pagkakasunud-sunod ng pagdaragdag sa catalog, ayon sakatanyagan sa mga bisita ng catalog.

4. Yandex. Mga produkto ng software Ang serye ng Yandex ay kumakatawan sa isang hanay ng mga tool para sa full-text na pag-index at paghahanap ng data ng teksto, na isinasaalang-alang ang morpolohiya ng wikang Ruso. Kasama sa Yandex ang mga module para sa morphological analysis at synthesis, pag-index at paghahanap, pati na rin ang isang set ng mga auxiliary module, tulad ng document analyzer, markup language, format converter, at spider.

Ang mga Morphological analysis at synthesis algorithm batay sa batayang diksyunaryo ay nagagawang gawing normal ang mga salita, iyon ay, hanapin ang kanilang paunang anyo, at bumuo din ng mga hypotheses para sa mga salitang wala sa batayang diksyunaryo. Sistema buong pag-index ng teksto nagbibigay-daan sa iyo na lumikha ng isang compact index at mabilis na maghanap gamit ang mga lohikal na operator.

Ang Yandex ay idinisenyo upang gumana sa mga teksto sa lokal at sa loob pandaigdigang network, at maaari ding ikonekta bilang isang module sa iba pang mga system.

Laboratory work No. 10.

Maghanap ng impormasyon sa Mga network sa internet

Layunin ng gawain

Kilalanin ang pangunahing mga search engine sa Internet. Master ang mga kasanayan sa pagtatrabaho sa mga search engine. Matutong pumili ng pinakamainam na search engine, na isinasaalang-alang ang mga detalye ng mga gawain.

Mga aparato at materyales

Upang maisagawa ang gawaing laboratoryo kailangan mo personal na computer pagpapatakbo ng isang operating system WINDOWS pamilya. Dapat na naka-install Programa sa Internet Explorer.

Mga modernong search engine

Ang Internet ay isang napakalaking imbakan ng impormasyon. Maraming mga pahina, mahalaga at hindi gaanong mahalaga, ang umiiral nang walang anumang pagkakasunud-sunod at magkakaugnay lamang sa pamamagitan ng mga random na link, depende sa mga kwalipikasyon at personal na kagustuhan ng mga may-akda ng site. Gayunpaman, kailangang i-navigate ng user ang pagkakaiba-iba na ito at hanapin, mas mabuti sa ilang minuto, ang kinakailangang impormasyon.

Sa internet meron malaking bilang mga search engine. Ayon sa pinakakonserbatibong mga pagtatantya, mayroong higit sa walong libo sa kanila, kabilang ang klasiko mga search engine, pangkalahatan at espesyal na mga direktoryo, at gayundin mga Web site ng metasearch(na nagpapadala ng mga kahilingan sa ilang mga server ng paghahanap nang sabay-sabay). Bilang karagdagan dito, mayroong isang numero alternatibong paraan mga paghahanap na maaaring maging kapaki-pakinabang sa iyo, kabilang ang mga utility na, nagtatrabaho kasabay ng browser, kumukuha ng impormasyon mula sa Web, at ang tinatawag na "mga dalubhasang node", kung saan gumagana ang mga totoong tao sa iyong mga kahilingan. Kasalukuyang binuo ang mga matalinong sistema ng paghahanap. Ang isang halimbawa ng naturang sistema ay, halimbawa, isang matalinong sistema ng paghahanap Nigma(www.nigma.ru).

Mga search engine at direktoryo

Sa lahat ng kasaganaan ng mga paraan ng paghahanap sa Internet, ang pinakakaraniwang paraan ng paghahanap ng impormasyon ay mga search engine at katalogo pa rin. Ang bawat isa sa mga tool na ito ay may ilang partikular na mga pakinabang, at ang pangunahing pagkakaiba sa pagitan ng mga ito ay ang pakikilahok/hindi paglahok ng tao.

Mga search engine ay isang hanay ng mga espesyal na programa para sa paghahanap sa Internet.

Pangunahing bahagi pakete ng software:

1. Robot spider(gagamba). Isang stand-alone na programa na umuulit sa mga pahina ng mga site na nakapila para sa pag-index. Ito ay nagda-download ng mga nilalaman ng hinanap na pahina sa search server disk.

2. Robot crawler("naglalakbay" gagamba). Ang gawain nito ay kolektahin ang lahat ng mga link sa pahinang sinusuri, maghanap ng mga bago sa mga ito na hindi alam ng search engine, at idagdag ang mga ito sa listahan ng mga naghihintay sa pag-index.

3. Indexer. Pinoproseso ang mga pahina mula sa pila para sa pag-index. Upang gawin ito, nag-compile siya ng isang "diksyonaryo" ng pahina at naaalala ang "dalas" ng mga salitang ginamit. Binibigyang-diin ang mga keyword na ginamit sa mga heading, na naka-highlight sa teksto naka-bold. Inilalagay ang lahat ng ito sa isang espesyal na file - "index".

5. System para sa pagproseso ng mga kahilingan at paglalabas ng mga resulta. Tinatanggap ang kahilingan ng gumagamit, bumubuo ng isang query sa database, natatanggap ang resulta mula doon at ipinapadala ito sa gumagamit.

Mga search engine naglulunsad sila ng software na "mga spider" sa Web na naglalakbay sa bawat pahina at ini-index ang buong teksto ng bawat pahina.

Halos lahat ng mga search engine ay may parehong query form at humigit-kumulang sa parehong format para sa paghahatid ng mga resulta (tingnan ang talata " Hitsura mga pahina ng paghahanap"), ngunit ang pagpapatakbo ng mga search engine ay makabuluhang nag-iiba. Una, ang kaugnayan (ang antas kung saan ang mga resulta ng paghahanap ay tumutugma sa kahilingan ng gumagamit), pangalawa, ang laki at dalas ng mga pag-update sa database, at pangatlo, ang bilis ng paglabas ng mga resulta. At, siyempre, ang mga search engine ay naiiba sa kanilang kadalian ng paggamit.

Ngayon, ang mga search engine ay ang pinakasikat na mga web page kung saan gumugugol ng maraming oras ang mga user. Samakatuwid, kapag pumipili ng isang search engine, sila ay nagiging lalong mahalaga. mga kaugnay na serbisyo(mail, news feed, mga platform ng kalakalan atbp.).

Mga katalogo- isang tradisyunal na paraan ng pag-aayos ng impormasyon. Marahil lahat tayo ay nakatagpo ng mga katalogo ng aklatan at mga katalogo ng produkto. Ginagamit ang mga direktoryo sa iba't ibang sistema. Halos kahit saan kailangan mong mag-imbak at mag-ayos ng impormasyon.

Isa sa mga pangunahing hamon na kinakaharap ng mga catalog compiler ay ang lumikha ng mga kategoryang natural at madaling maunawaan sa karaniwang gumagamit. Sa kasamaang palad, gawaing ito maaari lamang malutas sa iba't ibang antas ng approximation. Ang mundo ay tuluy-tuloy, walang mahigpit na mga hangganan dito. Ang isa at ang parehong site ay maaaring matingnan mula sa iba't ibang mga anggulo at makita ang iba't ibang mga function nito. Ang mga direktoryo ay nilikha ng mga editor ng tao na nagbabasa ng mga pahina, nag-aalis ng mga hindi naaangkop, at nag-uuri ng mga node ayon sa paksa.

Ang mga disadvantages ng mga katalogo ay kinabibilangan ng mga sumusunod.

Una, ang kalabuan ng istraktura ay isang malinaw na kawalan ng samahan ng katalogo ng impormasyon (bagaman medyo nababawasan ito ng katotohanan na ang bawat pangunahing katalogo ay may paghahanap ng katalogo).

Pangalawa, ang mga katalogo ay gawa ng mga tao. Ang kanilang pagkakumpleto at kalidad ay nakasalalay sa bilang at mga kwalipikasyon ng mga taong nagtatrabaho sa catalogue, ang kanilang mga personal na panlasa at kagustuhan. Ang hindi pagkakapantay-pantay ng nilalaman ng mga heading ay isang katangian ng lahat ng mga katalogo.

Pangatlo, nililimitahan ng pagiging matrabaho ng manu-manong pagkakategorya ang dami ng naka-catalog na impormasyon.

Kasabay nito, ang hindi mapag-aalinlanganang mga bentahe ng mga katalogo ay ang impormasyon sa mga ito ay nakaimbak sa isang maayos na paraan, alinsunod sa elementarya na lohika ng tao at kaugnayan Ang bilang ng mga page na makikita kapag naghahanap sa isang catalog ay karaniwang isang order ng magnitude na mas mataas kaysa kapag naghahanap gamit ang mga search engine.

Tulad ng nabanggit sa itaas, dahil ang mga direktoryo ay ginawa nang manu-mano, ang mga ito ay sumasaklaw sa mas kaunting mga mapagkukunan kaysa sa mga search engine. Mayroon na ngayong, ayon sa mga konserbatibong pagtatantya, isang bilyong pahina sa Web (at ang kanilang bilang ay lumalaki ng isang milyon araw-araw). Karamihan sa mga search engine ay hindi pa malapit sa pag-index ng buong Web. Ang pagbubukod ay ang Google (para sa Russia www.google.ru), na eksaktong inaangkin ang figure na ito - isang bilyong pahina, bahagyang o ganap na sakop ng mga index nito. Ang pinakamalaking catalog - ang Open Directory Project (www.dmoz.org) - ay tila maliit sa background na ito: halos 2 milyong pahina lamang ang nakalista dito.

Noong 1994, nang magsimula ang mabilis na paglago" World Wide Web", ang pagpili ng mga tool sa paghahanap sa Web ay napakalimitado: Yahoo (www.yahoo.com). Ang server na ito ay nananatiling pundasyon ng pananaliksik sa Web hanggang ngayon, ngunit bilang isang direktoryo ay nahaharap ito ngayon sa mahigpit na kumpetisyon mula sa Open Directory Project.

Maraming mga direktoryo ay lubos na kapaki-pakinabang, ngunit lahat ng bagay na isinasaalang-alang, ang Open Directory Project ay ang ginustong pagpipilian. Buksan ang Proyekto Ang Directory Project, na pinasimulan ng Netscape, ay pinapatakbo ng higit sa 24,000 boluntaryong mga editor sa buong mundo na nag-index ng halos 2 milyong node at inuri ang mga ito sa higit sa 200,000 mga kategorya. Maaaring makuha ng anumang server ng paghahanap Buksan ang lisensya Directory Project at gamitin ang database nito kapag nagpoproseso ng mga kahilingan, at ito ay nagawa na sa marami: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co.uk) at halos isang daan iba pang mga server ay sumisid doon para sa mga link.

Inaasahan ng isa iyon, dahil Buksan ang direktoryo Ang Directory Project ay pinapatakbo ng mga boluntaryo at ang kalidad ng mga resulta ay mag-iiba. Ngunit ang resulta ay mahusay na organisadong mga listahan ng mga nauugnay na pahina na may malinaw na paglalarawan ng bawat link. At ang site ng Open Directory Project ay may kaparehong pakiramdam gaya ng Google: ito ay "purong paghahanap" nang walang mga distractions tulad ng mga link sa mga tindahan.

Alinmang direktoryo ang pipiliin mo, lahat sila ay may isang kalamangan sa mga search engine: maaari silang sistematikong i-browse gamit ang isang hierarchical menu system.

Pag-uuri

Ayon sa lugar ng paghahanap (kondisyon)

Lokal

Idinisenyo upang maghanap ng impormasyon sa anumang bahagi network sa buong mundo, halimbawa, sa isa o higit pang mga site, o sa isang lokal na network.

Global

Idinisenyo upang maghanap ng impormasyon sa buong Internet o isang mahalagang bahagi nito. Ang mga kinatawan ng naturang mga search engine ay mga search engine na Google, Yandex, atbp. Ang mga search engine ay naghahanap ng impormasyon iba't ibang uri, halimbawa, mga text, video, larawan, heograpikal na bagay, personal na data, atbp. Sa kasong ito, ang mga file na maaaring gamitin ng isang search engine ay maaaring nasa text format (halimbawa, .html, .htm, .txt, . doc, .rtf...) , at graphic (.gif, .png, .svg...) o multimedia (video at tunog). Sa ngayon, ang pinakakaraniwan ay ang paghahanap sa pamamagitan ng mga tekstong dokumento.

Query sa paghahanap

Ang paunang impormasyon para sa paghahanap ay ang query sa paghahanap.

Mga pag-andar

Ang mga search engine ay gumaganap ng ilang mga function:

Maghanap ng mga link

Maghanap ng mga link sa mga pahina at iba pang mga dokumento ng site.

Auto

Manual mode

Ang mga gumagamit mismo ay nagdaragdag ng mga link sa mga pahina ng kanilang mga site sa database ng search engine

Pag-index ng mga dokumento sa website

Pag-extract ng impormasyong nauugnay sa paghahanap mula sa mga dokumento, pag-convert ng impormasyong iyon sa isang search engine-friendly na format, at pag-iimbak ng impormasyong iyon sa isang database ng search engine

Maghanap sa database ng mga na-index na dokumento

Maaaring binubuo ng ilang yugto

Paghahanap ng mga dokumentong tumutugma sa isang query sa paghahanap

Pagraranggo ng mga dokumento ayon sa kanilang kaugnayan sa mga query sa paghahanap

Clustering ng Dokumento

Mga Tala

Tingnan din

Mga search engine(listahan)
Heneral
Panrehiyon	Accoona (China/USA) Alleba (Philippines) Ansearch (Australia/USA/UK/New Zealand) Aport (Russia) Daum (South Korea) Guruji.com (India) [email protected] (Russia) Maktoob (Malapit sa Silangan) Meta.ua (Ukraine) Miner.hu (Hungary) Najdi.si (Slovenia) Onkosh (Malapit sa Silangan) Rambler (Russia) Rediff (India) SAPO (Portugal) Search.ch (Switzerland) Sesam (Norway/Sweden) Walla! (Israel)
... mga pinuno
Thematic
Metasearch	AskNet.ru Brainboost Clusty Dogpile FarSEER exactus.ru Excite HotBot Info.com Ixquick Krozilo Mamma Metacrawler MetaLib Nygma Myriad Search SideStep Surfwax Turbo10 WebCrawler GlobalFileSearch
Buksan / libre
Mga bata	AGAKIDS (Russia) Ask Kids (UK) Frag Finn (Germany) Kids AOL (USA) Kids Yahoo! (USA) Mga Bata ng Quintura (Russia) Pamilya Yandex(Russia) Gogul (Russia)

Wikimedia Foundation.

2010.

Tingnan kung ano ang isang "Search Engine" sa iba pang mga diksyunaryo: Search engine - (searching engine): isang web server na nag-i-index ng mga web page sa magagamit na mga server (halimbawa, Yandex)... Pinagmulan: INTERNET RESOURCES. MGA KINAKAILANGAN SA ACCESSIBILITY PARA SA VISUALLY disabled. GOST R 52872 2007 (inaprubahan ng Order of Rostekhregulirovaniya na may petsang... ...

Opisyal na terminolohiya search engine - Web server na nag-i-index ng mga web page sa mga available na server (halimbawa, Yandex). [GOST R 52872 2007] Mga Paksa Teknolohiya ng impormasyon sa pangkalahatan EN searching engine...

Gabay ng Teknikal na Tagasalin Sa Internet espesyal na web isang site kung saan ang isang user, sa ibinigay na kahilingan, ay makakatanggap ng mga link sa mga site na tumutugma sa kahilingang ito. Ang sistema ng paghahanap ay binubuo ng tatlong bahagi: 1 search robot; 2 system index; at 3 programa,... ...

Financial Dictionary isang site kung saan ang isang user, sa ibinigay na kahilingan, ay makakatanggap ng mga link sa mga site na tumutugma sa kahilingang ito. Ang sistema ng paghahanap ay binubuo ng tatlong bahagi: 1 search robot; 2 system index; at 3 programa,... ...

Sa Internet, isang search engine na: nagpapadala ng kahilingan sa paghahanap sa ilang mga search engine; at bumubuo ng buod (sa isang pahina) mula sa mga natanggap na tugon. Sa Ingles: Meta search engine Mga kasingkahulugan: Meta caterpillar Mga kasingkahulugan sa Ingles: Metacrawler... ...

Ang artikulong ito ay kailangang ganap na muling isulat. Maaaring may mga paliwanag sa pahina ng pag-uusap. Search engine software at hardware complex na may web interface na nagbibigay ng kakayahan ... Wikipedia Search engine - – (Ingles na search engine, kasingkahulugan: search engine, search engine, search engine) – Isang tool para sa paghahanap ng impormasyon sa Internet. Bilang isang patakaran, ang gawain ng isang search engine ay binubuo ng dalawang yugto. Espesyal na programa (search robot, machine, ahente,... ... Encyclopedic Dictionary of Media - Ang search engine ay isang website na nagbibigay ng kakayahang maghanap ng impormasyon sa Internet. Karamihan sa mga search engine ay naghahanap ng impormasyon sa mga World Wide Web site, ngunit mayroon ding mga system na maaaring maghanap ng mga file sa mga ftp server

, mga kalakal sa... ... Wikipedia

Sa isyu ng pagiging epektibo ng paghahanap ng mga detalye sa Internet, I. A. Semenov. Ayon sa pananaliksik ng Berkley, ang dami ng impormasyon sa Internet noong 2003 ay tinatayang nasa 258.85 terabytes, at ito ay data lamang na magagamit sa publiko. Sa pamamagitan ng data sa internet World Stats, paglago... e-libro

Ang paghahanap ng impormasyon sa Internet ay isa sa pinakasikat na operasyon sa Internet. Ang mga bisita sa Internet ay madalas na kailangang maghanap ng mga dokumento sa isang partikular na paksa. Kung mayroon kang eksaktong address ng dokumento sa Internet, kung gayon sa kasong ito walang mga problema sa paghahanap: sa browser sa address bar maaari kang mag-dial ng isang kilalang address ng mapagkukunan, at kung kailan matagumpay na koneksyon ipapakita ng browser ang nais na pahina.

Kung ang eksaktong address ng dokumento ay hindi magagamit, maaari mong gamitin ang mga serbisyo ng isang search engine. Search engine? ito ay "isang espesyal na server sa Internet na nag-aalok ng iba't ibang mga pasilidad sa paghahanap ng dokumento." Ang isang halimbawa ng server ng paghahanap ay ang server ng Rambler (Rambler.ru), na matatagpuan sa http://rambler.ru. Ang view ng pangunahing pahina ng server ay ipinapakita sa figure.

kanin. 1.

Ang mga server ng paghahanap ay karaniwang gumagawa ng kanilang sariling mga direktoryo ng mga mapagkukunan ng Internet. Ang mga katalogo ng server ng paghahanap ay regular na ina-update ng impormasyon tungkol sa mga mapagkukunang nilikha sa network, na nagmumula sa mga robot sa paghahanap. Ang mga search robot o spider ay mga espesyal na programa sa network na nag-a-access sa mga available sa kasalukuyang sandali Mga server sa Internet, pag-aralan ang mga dokumento at punan ang mga talahanayan ng kanilang search engine. Ginagawa ng mga search robot ang gawain ng paghahanap at pag-systematize ng mga mapagkukunan sa background sa buong orasan.

Isa pang pinagkukunan ng kita para sa mga server ng paghahanap impormasyon tungkol sa mga umiiral na site - tahasang pagpaparehistro ng mga mapagkukunan ng mga may-ari ng mga web page. Ang server ay may mga form na pinupunan ng mga may-ari ng mapagkukunan. Tinutukoy ng form ang address ng mapagkukunan, maikling paglalarawan, mga keyword, target na madla, atbp. Ang impormasyong ito ay sinusuri at awtomatikong idinaragdag sa mga direktoryo ng server mga espesyal na programa o "manu-mano" ng mga eksperto - sinusubaybayan ng mga espesyalista ang pagbuo ng mga katalogo ng mapagkukunan.

Ang pag-unawa sa mga mekanismo para sa paghahanap ng impormasyon sa Internet ay nagpapahintulot sa mga developer ng web page na ihanda ang kanilang mga dokumento upang sila ay matagpuan sa ibang pagkakataon ng mga search engine at mailagay sa naaangkop na mga seksyon ng direktoryo ng mapagkukunan.

Maghanap sa pamamagitan ng mga keyword sa Internet

Isa sa mga tanyag na paraan upang maghanap ng mga dokumento sa Mga network ng WWW-- maghanap ayon sa mga keyword. Kapag tinukoy mo ang mga keyword sa form ng paghahanap, maghahanap ang search engine ng mga dokumentong naglalaman ng mga tinukoy na keyword. Siyempre, upang matupad ang isang query, hindi hahanapin ng isang search engine ang nilalaman ng libu-libong mga computer na tumatakbo sa Internet - kailangan mong maghintay ng maraming araw para sa resulta ng naturang paghahanap. Isinasagawa ang paghahanap sa mga mapagkukunang iyon (mga katalogo, talahanayan) ng search engine na dati nang nakolekta at na-systematize sa tulong ng mga robot at eksperto.

Dahil ang dami ng mga mapagkukunan ng network ay nagiging tunay na walang limitasyon, kapag hiniling na maghanap para sa isang dokumento gamit ang isang keyword, ang isang search engine ay makakahanap ng ilang libong mga dokumento na naglalaman ng tinukoy na keyword. Malinaw na sa napakaraming mga dokumento ay mahirap hanapin ang isa na pinakamahusay na tumutugma sa isang partikular na paksa. Gayunpaman, ang mga search engine ay karaniwang nagbibigay ng pagkakataon na magbalangkas ng isang mas detalyadong query.

Ang query ay maaaring magkaroon ng isang kumplikadong anyo at binubuo gamit ang mga keyword at lohikal na function AT (AT), O (O), negation (HINDI). O ang kahilingan sa paghahanap ay maaaring mabuo gamit ang mga espesyal na karakter, na nagbibigay-daan sa iyong magtakda (o magkansela) ng mga anyo ng salita ng mga keyword. Ang ganitong mga mekanismo ay nakakatulong upang mas tumpak na bumalangkas ng mga kinakailangan para sa pagpili ng mga dokumento. Ang bawat search engine ay mayroon sistema ng tulong, na makakatulong sa bisitang mag-compose query sa paghahanap.

Alam na ang mga user na dumarating sa isang site mula sa mga search engine ay nagbibigay ng hanggang apatnapung porsyento ng trapiko. Samakatuwid, alagaan ang tamang pag-index ng iyong site sa mga search engine lubhang kapaki-pakinabang. Sa pamamagitan ng "tamang pag-index" ang ibig kong sabihin ay ang kaugnayan ng query at ang nilalaman ng site ay dapat igalang, ibig sabihin, sa simple at naa-access na wika, ang nilalaman ng site ay dapat na tumutugma sa kahilingan (ang ilang mga "master" na mga hanay ng pang-aabuso ng mga keyword na hindi tumutugma sa katotohanan. Halimbawa, noong ang aking kapatid na babae ay naghahanda na maglabas ng CD na may mga lokal na kopya ng mga unang antas ng mga Web page, ang salitang "x#y" at iba pang katulad nito ay lumabas sa mga server mga kilalang kumpanya, na walang pagkakatulad sa ganitong uri ng bokabularyo :-).

Altavista
Fetch-search
Medialingua
Rambler
RusInfOil
Russian Express
BODY-search
HotBot
Yandex

Bakit ko inilista ang mga partikular na search engine na ito? Dahil, ayon sa aking obserbasyon, ito ang ginagamit ng mga netizen na nagsasalita ng Ruso. Ano ang "aking mga obserbasyon"? Ito ay isang pagsusuri ng mga log ng pag-access sa aking server http://citforum.ru/, mga bahagi ng mga log kung saan kinokolekta ang impormasyon sa HTTP_REFERER, i.e. mga address (URL) kung saan gumamit ang mga kliyente ng link sa anumang page sa aking server.

Ano ang rating ng mga makina na inilista ko sa pagsasanay, aling mga makina ang mas ginagamit, alin ang mas mababa?

Ang Altavista ay nasa unang lugar sa pamamagitan ng isang malaking margin mula sa iba. Nangunguna ang search engine na ito bago pa man lumitaw ang paghahanap sa iba't ibang wika (kabilang ang mga dokumento sa wikang Ruso). Well, ito ay naiintindihan - isang mahusay, madaling ma-access na server, ay gumagana nang mahabang panahon (mula noong simula ng 1996), malaking base mga dokumento (higit sa 50 milyong mga address). Dapat din itong isaalang-alang na ang mga gumagamit na nagsasalita ng Ruso ay matatagpuan hindi lamang sa Russia, kundi pati na rin sa Bulgaria, Czech Republic at Slovakia, Poland, Israel, Germany, hindi sa banggitin ang mga dating republika ng USSR - Ukraine, Belarus. .. (Gusto kong sabihin lalo na tungkol sa mga Balts: Sila na, kapag nagkita sila sa mga kalye ng ilang Kaunas o Tallinn, ay hindi nakakaalam ng Russian, ngunit sa harap ng monitor, lalo na kung ito ay talagang kinakailangan, talagang alam nila. :-)) Kaya para sa lahat ng mga gumagamit na ito, mas maginhawang gamitin ang Altavista, at hindi ang aming mga domestic na kotse - mas malapit, pa rin...

Ang susunod na pinakasikat na search engine, kakaiba, ay ang pinakabata sa Russia - Yandex. Tulad ng sinabi sa akin ni Aleksey Amilyushchenko (Comptek company), ngayon ay may average na 72,000 na kahilingan bawat araw at mayroong trend na +10% bawat linggo (data mula 04/07/98). Tila sa akin na ang Yandex ay ang pinaka-promising na search engine ng Russia. Gamit ang sistema ng Comptek para sa pag-parse ng "mahusay at makapangyarihan" na wikang Ruso, ang Yandex ay maaaring maging matagumpay sa pakikipagkumpitensya sa pangalawang balyena sa lugar na ito - Rambler.

Ang Rambler ay ang ikatlong seryosong search engine para sa mga user na nagsasalita ng Russian. Ang pangunahing bagay na hindi ko gusto tungkol dito ay binabalewala nito ang mga nilalaman ng istraktura . (Hindi ako nakaisip nito, ito ay sinabi ni Dmitry Kryukov mula sa Stack Ltd.) Marahil, ito ay tiyak na dahil sa pagtanggi na isaalang-alang ang mga keyword na ang gayong kakaibang hanay ng mga link ay ipinapakita sa mga resulta ng query. Ang pangalawang disbentaha ng isang likas na interface ay ang mga resulta ay patuloy na ipinapakita sa KOI encoding, anuman ang napili ng user. Ang ikatlong disbentaha: gumagana ang Rambler spider gamit ang HTTP 0.9 protocol, na humahantong sa mga error sa pag-index, i.e. kung maraming virtual server ang nakatira sa parehong IP address, nakikita lang ng Rambler ang una, at itinuturing na kasingkahulugan lang ang lahat ng iba. Oh well, sana ay maayos na ito sa lalong madaling panahon.

Well, sa huling lugar sa aking rating ay ang Aport-Search, na nag-i-index ng mga server nang kakaiba, ang RusInfOil, na regular na nagsasara para sa muling pagtatayo, at TELA-Search - isang maganda at halos walang silbi na gadget para sa server ng www.dux.ru.

Maaari mong itanong: nasa listahan din ba ang HotBot at ang Pathfinder metasearch engine mula sa Medialingua?

Hindi ko nakalimutan ang mga ito, ang HotBot lang, sa hindi malamang dahilan, ay nag-iiwan ng maraming mga entry sa aking mga log, na hindi maaaring maging random na paglipad ng mga dayuhan na hindi nakakaintindi ng wikang Ruso (mayroong mas kaunting mga flight mula sa iba mga imported na makina), at hindi ko pa napag-aaralang mabuti ang “Pathfinder”.

Bakit kailangang i-promote ng mga search engine ang isang website?

Ito ay napaka-simple, tulad ng sinabi ko na, ang mga search engine ay maaaring magbigay ng hanggang apatnapung porsyento ng trapiko sa isang site. At para mangyari ito, kinakailangan na mai-index nang tama ang iyong site, at para dito kailangan mong malaman kung paano ito ginagawa. At ito ay ginagawa sa sumusunod na paraan: alinman sa search engine robot mismo ay mapupunta sa iyong site, o ikaw mismo ang nagpapahiwatig ng site sa naaangkop na interface (AddUrl), na naroroon sa anumang self-respecting search engine. Ang unang opsyon ay naghihirap mula sa pagkaantala (ang robot ay makakarating pa rin doon, marahil sa isang araw, marahil sa isang taon: ang Internet ay malaki). Ang pangalawa ay nangangailangan ng paggugol ng ilang oras (iba't ibang software para sa awtomatikong pagpaparehistro

Ang iyong site ay hindi nagbibigay sa amin ng anuman sa ulap ng mga search engine - ang mga makina ay na-import). Para mangyari ang lahat sa kanyang pinakamahusay

kinakailangan: dapat mayroong kahit ilang teksto sa site. Hindi pinapansin ng mga search engine ang mga larawan at mga pagsubok sa kanila. Totoo, maaari mong i-duplicate ang teksto sa alt attribute
tag img
Ang bawat dokumento ng site ay DAPAT maglaman ng isang makabuluhang pamagat, mga keyword at isang maikling paglalarawan. Isinulat lamang nila na ang mga search engine ay full-text, ngunit sa katotohanan ay hindi ito ang kaso. Paglikha ng robots.txt file (lalo na kung mayroon ka sariling server
tulad ng www.name.ru).

Manu-manong pagpaparehistro sa bawat search engine na interesado ka at kasunod na kontrol sa pag-index ng iyong site.

Kaya, nairehistro mo na ang unang pahina ng iyong website sa iba't ibang mga search engine.

Sa madaling salita, hindi sapat ang pagtukoy lamang sa pahina sa AddURL. Kinakailangang ihanda ang dokumento nang maaga upang bilang tugon sa naaangkop na mga kahilingan sa search engine, sa pagtugon nito sa kahilingan, ang link sa iyong dokumento ay, kung hindi ang una, pagkatapos ay hindi bababa sa sampung nangungunang mga link (o mas mabuti kung mayroong maraming link sa iyong mga dokumento sa nangungunang sampung ito:- ). Ano ang ibig sabihin ng "maghanda"? Ito ay malinis teknikal na tanong

, walang supernatural. Sa seksyon lamang ng HEAD ng bawat dokumento sa iyong site dapat mong ipahiwatig ang Pamagat, KeyWords, Paglalarawan at Robot na "nag-uusap".Pamagat:

pamagat ng dokumento. Ang isang mahusay, makabuluhang pamagat ay maaaring magpapili sa isang user ng iyong link mula sa marami pang iba. Kadalasan ay nakakakita ka ng mga heading na mukhang tulad ng sumusunod: "Mga Nilalaman" - ano, bakit - hindi malinaw, walang pagnanais na suriin. Isa pang kaso: sa lahat ng mga pahina ng site, ang pamagat ay "Maligayang pagdating sa kumpanya..." - hindi rin masyadong kaakit-akit na suriin ang lahat ng mga dokumento na may pamagat sa ganitong paraan. Isipin na pinili mo ang mode ng paghahanap ayon sa mga pamagat, nang walang paglalarawan ng bawat dokumento.Mga Keyword:

listahan ng mga keyword at parirala na pinaghihiwalay ng kuwit

Gaano man nila sabihin na ang mga search engine ay full-text, hindi ito ganap na totoo, ngunit ang mga nilalaman ng lalagyan na ito ay tiyak na mapupunta sa index ng search engine. Sa kasamaang palad, ang mga tagalikha ng isa sa pinakamalaking domestic search engine, ang Rambler, ay hindi gustong magtrabaho sa container na ito. Ngunit walang kabuluhan.
ang patlang ng nilalaman ay hindi dapat maglaman ng mga pagtatapos ng linya, mga panipi o iba pang mga espesyal na character, hindi mahalaga ang kaso ng mga character
Hindi inirerekomenda na ulitin ang parehong mga keyword nang maraming beses; hindi ka dapat gumawa ng parehong mga keyword para sa iba't ibang pahina
Ang iyong website. Ito ay, siyempre, mas simple, ngunit ang mga nilalaman ng mga dokumento mismo ay naiiba.
Kung talagang gusto mong i-automate ang prosesong ito, maaari kang magsulat ng program na magsusulat ng lahat ng napiling bloke ng dokumento sa field na ito, halimbawa, kung ano ang nasa pagitan ng mga tag na H, I at B.

kung ang linya sa nilalaman ay masyadong mahaba, hindi ipinagbabawal na gumawa ng ilan pang katulad na mga konstruksyon. Sa pangkalahatan, ang kabuuang dami ng mga keyword sa isang dokumento ay maaaring umabot ng hanggang 50% ng dami ng dokumentong iyon. dokumento. Medyo isang kapaki-pakinabang na lalagyan, ang mga nilalaman nito ay ginagamit bilang isang maikling paglalarawan ng mga nauugnay na dokumento sa pagtugon ng mga modernong search engine. Kung wala ang container na ito, ibabalik ang isang tiyak na bilang ng mga linya mula sa simula ng dokumento.

maikling buod ng dokumento
Ang field ng nilalaman ay hindi dapat maglaman ng mga pagtatapos ng linya, mga panipi, o iba pang mga espesyal na character.
Ito ay kanais-nais na magkaroon ng isang makabuluhang buod ng dokumento mula sa isang pares ng mga pangungusap ng tao, upang ang user ng search engine, bilang karagdagan sa pamagat, ay maunawaan ang kahulugan ng dokumento.

Sa kasamaang palad, ang mga domestic search engine ay hindi pa alam kung paano gumana sa lalagyan na ito, bagama't nangangako sila na malapit na silang matuto.

Posible bang kontrolin ang mga aksyon ng mga search engine?

Ito ay posible, at kahit na kinakailangan! Ang unang aksyon na kailangang gawin para dito ay ang pagsulat ng robots.txt file at ilagay ito sa ugat ng iyong server.

Ang file na ito ay sikat na nagpapaliwanag sa search engine robot kung ano ang dapat i-index at kung ano ang hindi dapat i-index. Halimbawa, bakit nag-index ng mga file ng serbisyo, gaya ng mga istatistikal na ulat? O ang mga resulta ng mga script? Bukod dito, maraming "matalinong" machine ang hindi mag-i-index ng mga server nang hindi nakakahanap ng robots.txt. Sa pamamagitan ng paraan, sa file na ito maaari mong tukuyin ang iba't ibang mga mask ng pag-index para sa iba't ibang mga search engine. Maaari mong basahin ang higit pa tungkol dito sa aking pagsasalin na "Standard for Robots Exclusion". Pangalawang aksyon: bigyan ang mga pahina ng site ng mga Robots META tag. Ito ay isang mas flexible na tool sa pagkontrol sa pag-index kaysa sa robots.txt. Sa partikular, sa tag na ito maaari mong turuan ang robot ng search engine na huwag sundin ang mga link sa iba pang mga server, halimbawa, sa mga dokumento na may mga listahan ng mga link. Ang format ng gulo na ito ay ang mga sumusunod: Ang robot_terms ay isang listahan na pinaghihiwalay ng kuwit ng mga sumusunod na keyword (hindi mahalaga ang malalaking titik o maliliit na character): LAHAT, WALA, INDEX, NOINDEX, FOLLOW, NOFOLLOW. WALA nagsasabi sa lahat ng mga robot na huwag pansinin ang pahinang ito kapag nag-i-index (katumbas ng sabay-sabay na paggamit mga keyword NOINDEX, NOFOLLOW). LAHAT nagbibigay-daan sa pahinang ito at lahat ng mga link mula dito na ma-index (katumbas ng paggamit ng INDEX, SUNDIN ang mga keyword nang sabay-sabay). INDEX nagbibigay-daan sa pahinang ito na ma-index NOINDEX hindi pinapayagan ang pahinang ito na ma-index hindi pinapayagan ang mga link mula sa pahinang ito na ma-index

Kung ang meta tag na ito ay tinanggal o ang robot_terms ay hindi tinukoy, bilang default, ang search robot ay kumikilos na parang robot_terms=INDEX, FOLLOW (i.e. LAHAT) ay tinukoy. Kung ang keyword na ALL ay nakita sa CONTENT, ang robot ay kumikilos nang naaayon, na binabalewala ang posibleng tinukoy na iba pang mga keyword Kung ang CONTENT ay naglalaman ng mga keyword na may magkasalungat na kahulugan, halimbawa, FOLLOW, NOFOLLOW, kung gayon ang robot ay kumikilos sa sarili nitong pagpapasya (sa kasong ito, SUNDIN).

Kung ang robot_terms ay naglalaman lamang ng NOINDEX, ang mga link mula sa pahinang ito ay hindi na-index. Kung ang robot_terms ay naglalaman lamang ng NOFOLLOW, kung gayon ang pahina ay na-index at ang mga link ay naaayon sa pagbabalewala.

Pagsubaybay sa kasalukuyang katayuan ng iyong mga dokumento sa index ng search engine.

Well, okay, nabasa mo ang lahat sa itaas at ginawa mo ito. Ano ang susunod? At pagkatapos ay magkakaroon ng mahaba, nakakapagod at, pinaka-mahalaga, regular na pagsusuri upang makita kung paano nangyayari ang mga bagay. Kahit na malungkot ito, kailangan mong bigyang pansin ito, kung dahil lang kung minsan ay nawawala ang mga dokumento sa mga search engine. Bakit? Sana alam ko... Kaya, sa magagandang search engine makikita mo kung anong mga dokumento at ilan sa mga ito ang kasalukuyang nasa index. Narito kung paano ito ginagawa:

Alta Vista
Sa search engine na ito, ang pagsuri sa status ng URL ay medyo simple - i-type lamang ang linya ng query:

url: citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml

Sa unang kaso, ibabalik ang lahat ng na-index na pahina ng server. Sa pangalawa - tanging mga pahina ng pag-encode ng Windows.

Sa pangatlo - mayroon bang index.shtml file mula sa tinukoy na direktoryo sa index ng AltaVista?
Excited

Ang pagsuri sa katayuan ng isang URL sa Excite search engine ay kasingdali ng sa AltaVista. I-type lang ang URL.
Halimbawa:

HotBot
Ang katayuan ng URL ay sinusuri sa HotBot search engine sa isang bahagyang naiibang paraan. Ginagawa ito tulad nito:

Ilagay ang URL sa field ng kahilingan
Baguhin ang opsyong "lahat ng mga salita" sa "mga link sa URL na ito"

Infoseek
Sa Infoseek search engine, mayroong isang hiwalay na interface na may isang buong hanay ng mga setting para sa pagsuri sa katayuan ng isang URL:

WebCrawler
Nagbibigay ang WebCrawler ng kakayahang suriin ang katayuan ng isang URL sa isang pahina: