1 kung ano ang ibig sabihin ng isang search engine. Paano gumagana ang isang search engine? Isang Maikling Kasaysayan ng Pagbuo ng Mga Search Engine

Upang matagumpay na mapanatili at mabuo ang aming blog, una sa lahat, kailangan naming malaman kung anong mga algorithm ang kanilang ginagawa. Ang isang malinaw na pag-unawa sa mga sagot sa mga tanong na ito ay magbibigay-daan sa amin upang matagumpay na malutas ang mga problema ng pag-promote ng website sa mga search engine. Ngunit ang pag-uusap tungkol sa search engine optimization ng mga website ay nauuna pa rin, ngunit sa ngayon ay isang maliit na teorya tungkol sa mga search engine.

Ano ang mga search engine sa Internet?

Kung babalik tayo sa Wikipedia, ito ang malalaman natin:

Sistema ng paghahanap ay isang software at hardware complex na may web interface na nagbibigay ng kakayahang maghanap ng impormasyon sa Internet.”

At ngayon sa isang wikang naiintindihan natin. Sabihin nating kailangan namin agad ng impormasyon sa isang partikular na paksa. Upang mabilis naming mahanap ito, ang mga search engine ay nilikha - mga site kung saan, sa pamamagitan ng pagpasok ng isang query sa paghahanap sa form ng paghahanap, bibigyan kami ng isang listahan ng mga site kung saan, na may mataas na antas ng posibilidad, makikita namin kung ano ang aming hinahanap. Ang listahang ito ay tinatawag na mga resulta ng paghahanap. Maaari itong binubuo ng milyon-milyong mga pahina na may 10 mga site sa bawat isa. Ang pangunahing gawain ng isang webmaster ay makapasok sa hindi bababa sa nangungunang sampung.

Tandaan na kapag naghanap ka ng isang bagay sa Internet, karaniwan mong makikita ito sa unang pahina ng mga resulta ng paghahanap, bihirang lumipat sa pangalawa, lalo na sa mga kasunod. Nangangahulugan ito na kung mas mataas ang ranggo ng site, mas maraming bisita ang bibisita sa mga pahina nito. A mataas na trapiko(bilang ng mga bisita bawat araw), bukod sa iba pang mga bagay, isang pagkakataon na gumawa ng mabuti.

Paano nakakahanap ng impormasyon ang mga search engine sa Internet sa Internet at sa anong batayan sila namamahagi ng mga lugar sa mga resulta ng paghahanap?

Sa loob ng ilang mga salita, search engine sa internet- ito ay isang buong web kung saan ang mga spider robot ay patuloy na ini-scan ang network at tandaan ang lahat ng mga teksto na pumapasok sa Internet. Sinusuri ang natanggap na data, ang mga search engine ay pumipili ng mga dokumento na pinaka tumutugma sa query sa paghahanap, ibig sabihin, mga may-katuturan, kung saan nabuo ang mga resulta ng paghahanap.

Ang pinaka-kagiliw-giliw na bagay ay hindi mabasa ng mga search engine. Kaya paano sila nakakahanap ng impormasyon? Ang mga algorithm ng search engine ay bumagsak sa ilang mga pangunahing prinsipyo. Una sa lahat, binibigyang pansin nila ang pamagat at paglalarawan ng artikulo, mga pamagat ng talata, semantikong diin sa teksto at density. mga keyword, na dapat tumutugma sa paksa ng artikulo. Kung mas tumpak ang tugmang ito, mas mataas ang lalabas na site sa mga resulta ng paghahanap. Bilang karagdagan, ang dami ng impormasyon at maraming iba pang mga kadahilanan ay dapat isaalang-alang. Halimbawa, ang awtoridad ng isang web resource, na nakasalalay sa bilang at awtoridad ng mga site na nagli-link dito. Kung mas malaki ang awtoridad, mas mataas ang ranggo.

Isang hanay ng mga hakbang na naglalayong itaas ang posisyon ng site sa mga resulta ng paghahanap. ilang mga kahilingan tinawag Search Engine Optimization. Ngayon ito ay isang buong agham -. Ngunit higit pa sa na mamaya.

Naka-on sa sandaling ito Maraming mga search engine sa mundo. Pangalanan ko ang mga pinakasikat. Sa kanluran ang mga ito ay: Google, Bing at Yahoo. Sa Runet - Yandex, Mail.ru, Rambler at Nigma. Karaniwan, ang mga gumagamit ay nagbibigay ng kagustuhan sa pinuno ng mundo, at ang sistema ng Yandex ay naging pinakasikat sa Internet na wikang Ruso.

Isang maliit na kasaysayan. Ang Google ay nilikha noong 1997 ng isang katutubong ng Moscow Sergey Brin at ang kanyang kaibigang Amerikano Larry Page sa kanilang pag-aaral sa Stanford University.

Ang kakaiba ng Google ay dinala nito ang mga pinakanauugnay na resulta ng paghahanap sa mga unang posisyon sa mga resulta ng paghahanap sa isang lohikal na pagkakasunod-sunod, habang ang ibang mga search engine ay abala. simpleng paghahambing mga salita sa isang query na may mga salita sa isang web page.

Noong Setyembre 23 ng parehong taon ito ay inihayag at Sistema ng Yandex, na mula noong 2000 ay nagsimulang umiral bilang isang hiwalay na kumpanya na "Yandex".

Hindi na ako magsasawa sa iyo, sana ay medyo malinaw na ngayon, ano ang mga search engine sa internet. Ito ay nagkakahalaga na sabihin na ang mga algorithm ng search engine ay patuloy na nagbabago. Araw-araw, nagiging mas mahusay ang mga search engine sa pagtukoy sa mga pangangailangan ng user at ipinapakita sa kanila ang mga pinaka-nauugnay sa mga resulta ng paghahanap. kaugnay na impormasyon, batay sa maraming salik (rehiyon, anong mga query ang hiniling na ng user, anong mga site ang binisita niya sa proseso ng paghahanap, kung saan siya nagpunta mula sa kanila, atbp.).

Sa lalong madaling panahon, mas malalaman ng Google at Yandex kung ano ang kailangan natin at kung ano ang iniisip natin!

Ang Internet ay kinakailangan para sa maraming mga gumagamit upang makatanggap ng mga sagot sa mga query (mga tanong) na kanilang ipinasok.

Kung walang mga search engine, ang mga gumagamit ay kailangang mag-isa na maghanap para sa mga site na kailangan nila, tandaan ang mga ito, at isulat ang mga ito. Sa maraming mga kaso, ang paghahanap ng isang bagay na angkop "manu-mano" ay magiging napakahirap, at kadalasan ay imposible lamang.

Lahat ng ito para sa atin gawain sa trabaho Ang mga search engine ay naghahanap, nag-iimbak at nag-uuri ng impormasyon sa mga website.

Magsimula tayo sa mga sikat na search engine Runet.

Mga search engine sa Internet sa Russian

1) Magsimula tayo sa domestic search engine. Ang Yandex ay nagpapatakbo hindi lamang sa Russia, kundi pati na rin sa Belarus at Kazakhstan, Ukraine, at Turkey. Mayroon ding Yandex sa Ingles.

2) Google search engine dumating sa amin mula sa Amerika, mayroong lokalisasyon sa wikang Ruso:

3) Domestic search engine Mail ru, na sabay-sabay na kumakatawan social network VKontakte, Odnoklassniki, My World, ang sikat na Answers Mail.ru at iba pang mga proyekto.

4) Matalinong search engine

Nigma (Nigma) http://www.nigma.ru/

Mula noong Setyembre 19, 2017, ang nigma na "intelektwal" ay hindi gumana. Hindi na ito naging interes sa pananalapi sa mga tagalikha nito, lumipat sila sa isa pang search engine na tinatawag na CocCoc.

5) Sikat na kumpanya Nilikha ng Rostelecom ang Sputnik search engine.

Mayroong isang search engine na tinatawag na Sputnik, na sadyang idinisenyo para sa mga bata, na isinulat ko.

6) Ang Rambler ay isa sa mga unang domestic search engine:

Mayroong iba pang mga sikat na search engine sa mundo:

  • Bing,
  • Yahoo!,
  • DuckDuckGo,
  • Baidu,
  • Ecosia,

Subukan nating alamin kung paano gumagana ang isang search engine, ibig sabihin, kung paano ini-index ang mga site, sinusuri ang mga resulta ng pag-index at nabuo. Mga Resulta ng Paghahanap. Ang mga prinsipyo ng pagpapatakbo ng mga search engine ay halos pareho: paghahanap ng impormasyon sa Internet, pag-iimbak nito at pag-uuri para sa paghahatid bilang tugon sa mga kahilingan ng gumagamit. Ngunit ang mga algorithm na ginagamit ng mga search engine ay maaaring mag-iba nang malaki. Ang mga algorithm na ito ay pinananatiling lihim at ang pagsisiwalat nito ay ipinagbabawal.

Sa pamamagitan ng pagpasok ng parehong query sa mga string ng paghahanap iba't ibang mga search engine, maaari kang makakuha ng iba't ibang mga sagot. Ang dahilan ay ang lahat ng mga search engine ay gumagamit ng kanilang sariling mga algorithm.

Ang layunin ng mga search engine

Una sa lahat, kailangan mong malaman na ang mga search engine ay komersyal na organisasyon. Ang kanilang layunin ay kumita. Maaaring kumita mula sa advertising sa konteksto, iba pang mga uri ng advertising, mula sa pag-promote ng mga kinakailangang site hanggang nangungunang mga linya pagpapalabas. Sa pangkalahatan, maraming paraan.

Depende ito sa laki ng audience, ibig sabihin, kung gaano karaming tao ang gumagamit ng search engine na ito. Ang mas marami ang madla, ang higit pa ipapakita ang mga patalastas sa mga tao. Alinsunod dito, mas malaki ang halaga ng advertising na ito. Maaaring pataasin ng mga search engine ang kanilang madla sa pamamagitan ng kanilang sariling advertising, gayundin sa pamamagitan ng pag-akit ng mga user sa pamamagitan ng pagpapabuti ng kalidad ng kanilang mga serbisyo, algorithm at kaginhawahan sa paghahanap.

Ang pinakamahalaga at mahirap na bagay dito ay ang pagbuo ng isang ganap na gumaganang algorithm sa paghahanap na magbibigay ng mga nauugnay na resulta para sa karamihan ng mga query ng user.

Ang gawain ng isang search engine at ang mga aksyon ng mga webmaster

Ang bawat search engine ay may sariling algorithm, na dapat isaalang-alang ang isang malaking bilang ng iba't ibang mga kadahilanan kapag sinusuri ang impormasyon at kinokolekta ang mga resulta bilang tugon sa kahilingan ng isang user:

  • ang edad ng isang partikular na site,
  • mga katangian ng domain ng website,
  • kalidad ng nilalaman sa site at mga uri nito,
  • mga tampok ng nabigasyon at istraktura ng site,
  • kakayahang magamit (kaginhawaan para sa mga gumagamit),
  • mga salik sa pag-uugali (maaaring matukoy ng search engine kung nakita ng user ang hinahanap niya sa site o bumalik muli ang user sa search engine at doon ay muling naghahanap ng sagot sa parehong query)
  • atbp.

Ang lahat ng ito ay tiyak na kinakailangan upang ang mga resulta sa kahilingan ng gumagamit ay may kaugnayan hangga't maaari, na nagbibigay-kasiyahan sa mga kahilingan ng gumagamit. Kasabay nito, ang mga algorithm ng search engine ay patuloy na nagbabago at pinipino. Tulad ng sinasabi nila, walang limitasyon sa pagiging perpekto.

Sa kabilang banda, ang mga webmaster at optimizer ay patuloy na nag-iimbento ng mga bagong paraan upang i-promote ang kanilang mga site, na hindi palaging tapat. Ang gawain ng mga developer ng algorithm mga search engine– gumawa ng mga pagbabago dito na hindi papayagan ang "masamang" mga site ng hindi tapat na mga optimizer na lumabas sa TOP.

Paano gumagana ang isang search engine?

Ngayon pag-usapan natin kung paano gumagana ang search engine. Binubuo ito ng hindi bababa sa tatlong yugto:

  • pag-scan,
  • pag-index,
  • sumasaklaw.

Ang bilang ng mga site sa Internet ay astronomical lang. At ang bawat site ay impormasyon, nilalaman ng impormasyon, na nilikha para sa mga mambabasa (mga buhay na tao).

Pag-scan

Ito ay isang search engine na gumagala sa Internet upang mangolekta ng bagong impormasyon, pag-aralan ang mga link at maghanap ng bagong nilalaman na maaaring magamit upang bumalik sa gumagamit bilang tugon sa kanyang mga kahilingan. Para sa pag-scan, ang mga search engine ay may mga espesyal na robot na tinatawag paghahanap ng mga robot o gagamba.

Ang mga search robot ay mga programa na awtomatikong mode bisitahin ang mga website at mangolekta ng impormasyon mula sa kanila. Ang pag-crawl ay maaaring pangunahin (ang robot ay bumisita sa isang bagong site sa unang pagkakataon). Matapos ang paunang koleksyon ng impormasyon mula sa site at ipasok ito sa database ng search engine, ang robot ay nagsisimulang bisitahin ang mga pahina nito nang may ilang regularidad. Kung may anumang mga pagbabagong naganap (naidagdag na ang bagong nilalaman, natanggal na ang lumang nilalaman), ang lahat ng mga pagbabagong ito ay ire-record ng search engine.

Ang pangunahing gawain ng isang spider sa paghahanap ay upang makahanap ng bagong impormasyon at ipadala ito sa search engine para sa susunod na yugto ng pagproseso, iyon ay, para sa pag-index.

Pag-index

Ang isang search engine ay makakapaghanap lamang ng impormasyon sa mga site na iyon na kasama na sa database nito (na-index nito). Kung ang pag-crawl ay ang proseso ng paghahanap at pagkolekta ng impormasyon na magagamit sa isang partikular na site, ang pag-index ay ang proseso ng pagpasok ng impormasyong ito sa database ng search engine. Sa yugtong ito, awtomatikong nagpapasya ang search engine kung ilalagay ito o ang impormasyong iyon sa database nito at kung saan ito ilalagay, kung saang seksyon ng database. Halimbawa, ini-index ng Google ang halos lahat ng impormasyon na natagpuan ng mga robot nito sa Internet, habang ang Yandex ay mas mapili at hindi ini-index ang lahat.

Para sa mga bagong site, ang yugto ng pag-index ay maaaring mahaba, kaya ang mga bisita mula sa mga search engine ay maaaring maghintay ng mahabang panahon para sa mga bagong site. A bagong impormasyon, na lumilitaw sa mga luma, mahusay na na-promote na mga site, ay maaaring ma-index nang halos kaagad at halos agad na makapasok sa "index", iyon ay, sa database ng search engine.

Ranging

Ang ranggo ay ang pag-aayos ng impormasyon na dati nang na-index at ipinasok sa database ng isang partikular na search engine, ayon sa ranggo, iyon ay, kung anong impormasyon ang ipapakita ng search engine sa mga gumagamit nito sa unang lugar, at kung anong impormasyon ang ilalagay " ranggo” na mas mababa. Ang pagraranggo ay maaaring maiugnay sa yugto ng serbisyo ng search engine sa kliyente nito - ang gumagamit.

Sa mga server ng search engine, ang natanggap na impormasyon ay pinoproseso at ang mga resulta ay nabuo para sa isang malaking hanay ng lahat ng uri ng mga query. Dito pumapasok ang mga algorithm ng search engine. Ang lahat ng mga site na kasama sa database ay inuri ayon sa paksa, at ang mga paksa ay nahahati sa mga grupo ng mga kahilingan. Para sa bawat pangkat ng mga kahilingan, maaaring mag-compile ng isang paunang isyu, na pagkatapos ay isasaayos.

Ang isang sistema ng paghahanap ay isang software at hardware complex na idinisenyo upang maghanap sa Internet at tumugon sa isang kahilingan ng gumagamit, na tinukoy sa anyo ng isang tekstong parirala (query sa paghahanap), sa pamamagitan ng paggawa ng isang listahan ng mga link sa mga mapagkukunan ng impormasyon, sa pagkakasunud-sunod ng kaugnayan ( alinsunod sa kahilingan). Ang pinakamalaking internasyonal na mga search engine: "Google", "Yahoo", "MSN". Sa Russian Internet ito ay - "Yandex", "Rambler", "Aport".

Ilarawan natin ang mga pangunahing katangian ng mga search engine:

    pagkakumpleto

Ang pagiging kumpleto ay isa sa mga pangunahing katangian ng isang sistema ng paghahanap, na kung saan ay ang ratio ng bilang ng mga dokumento na natagpuan sa pamamagitan ng kahilingan sa kabuuang bilang ng mga dokumento sa Internet na nakakatugon sa ibinigay na kahilingan. Halimbawa, kung mayroong 100 mga pahina sa Internet na naglalaman ng pariralang "kung paano pumili ng kotse," at 60 lamang sa kanila ang natagpuan para sa kaukulang query, kung gayon ang pagkakumpleto ng paghahanap ay magiging 0.6. Malinaw, kung mas kumpleto ang paghahanap, mas malamang na hindi mahahanap ng user ang dokumentong kailangan niya, sa kondisyon na ito ay umiiral sa Internet.

    Katumpakan

Ang katumpakan ay isa pang pangunahing katangian ng isang search engine, na tinutukoy ng antas kung saan ang mga nahanap na dokumento ay tumutugma sa query ng user. Halimbawa, kung ang query na "paano pumili ng kotse" ay naglalaman ng 100 mga dokumento, 50 sa mga ito ay naglalaman ng pariralang "paano pumili ng kotse", at ang iba ay naglalaman lamang ng mga salitang ito ("paano pumili ng tamang radyo at i-install ito sa isang kotse"), kung gayon ang katumpakan ng paghahanap ay itinuturing na katumbas ng 50/100 (=0.5). Paano mas tumpak na paghahanap, mas mabilis na mahahanap ng user ang mga dokumentong kailangan niya, mas kaunti ang iba't ibang uri ng "basura" na makikita sa kanila, mas madalas ang mga nahanap na dokumento ay hindi tumutugma sa kahilingan.

    Kaugnayan

Ang kaugnayan ay isang pantay na mahalagang bahagi ng paghahanap, na nailalarawan sa pamamagitan ng oras na lumilipas mula sa sandaling ang mga dokumento ay nai-publish sa Internet hanggang sa maipasok ang mga ito sa database ng index ng search engine. Halimbawa, sa araw pagkatapos lumitaw ang mga kawili-wiling balita, maraming user ang bumaling sa mga search engine na may mga kaugnay na query. Sa layunin, wala pang isang araw ang lumipas mula nang mailathala ang impormasyon ng balita sa paksang ito, ngunit ang mga pangunahing dokumento ay na-index na at magagamit para sa paghahanap, salamat sa pagkakaroon ng tinatawag na "mabilis na database" ng malalaking search engine, na ay ina-update ng ilang beses sa isang araw.

    Bilis ng paghahanap

Ang bilis ng paghahanap ay malapit na nauugnay sa paglaban nito sa pagkarga. Halimbawa, ayon sa Rambler Internet Holding LLC, ngayon, sa mga oras ng negosyo, ang Rambler search engine ay tumatanggap ng humigit-kumulang 60 mga kahilingan bawat segundo. Ang nasabing workload ay nangangailangan ng pagbawas sa oras ng pagproseso ng isang indibidwal na kahilingan. Dito nag-tutugma ang mga interes ng user at ng search engine: nais ng bisita na makakuha ng mga resulta sa lalong madaling panahon, at dapat iproseso ng search engine ang kahilingan sa lalong madaling panahon, upang hindi mapabagal ang pagkalkula ng mga kasunod na query.

    Visibility

Ang visual na presentasyon ng mga resulta ay isang mahalagang bahagi maginhawang paghahanap. Para sa karamihan ng mga query, nakakahanap ang search engine ng daan-daan, o kahit libu-libo, ng mga dokumento. Dahil sa hindi malinaw na mga query o hindi tumpak na paghahanap, kahit na ang mga unang pahina ng mga resulta ng paghahanap ay hindi palaging naglalaman lamang kinakailangang impormasyon. Nangangahulugan ito na madalas na kailangang gawin ng user ang sarili niyang paghahanap sa loob ng nahanap na listahan. Ang iba't ibang elemento ng pahina ng mga resulta ng search engine ay tumutulong sa iyo na mag-navigate sa mga resulta ng paghahanap. Ang mga detalyadong paliwanag ng pahina ng mga resulta ng paghahanap, halimbawa para sa Yandex, ay matatagpuan sa link http://help.yandex.ru/search/?id=481937.

4. Maikling kwento pag-unlad ng search engine

Sa unang panahon ng pag-unlad ng Internet, ang bilang ng mga gumagamit nito ay maliit, at ang halaga ng magagamit na impormasyon ay medyo maliit. Para sa karamihan, ang mga kawani ng pananaliksik lamang ang may access sa Internet. Sa oras na ito, ang gawain ng paghahanap ng impormasyon sa Internet ay hindi kasing-apura ng ngayon.

Ang isa sa mga unang paraan upang ayusin ang pag-access sa mga mapagkukunan ng impormasyon sa network ay ang paglikha ng mga bukas na direktoryo ng mga site, mga link sa mga mapagkukunan kung saan naka-grupo ayon sa paksa. Ang unang naturang proyekto ay ang website ng Yahoo.com, na binuksan noong tagsibol ng 1994. Matapos ang bilang ng mga site sa direktoryo ng Yahoo ay tumaas nang malaki, ang kakayahang maghanap para sa kinakailangang impormasyon sa direktoryo ay idinagdag. Sa buong kahulugan, hindi pa ito isang search engine, dahil ang lugar ng paghahanap ay limitado lamang sa mga mapagkukunang nasa catalog, at hindi sa lahat ng mapagkukunan ng Internet.

Ang mga direktoryo ng link ay malawakang ginagamit sa nakaraan, ngunit halos ganap na nawala ang kanilang katanyagan sa kasalukuyan. Dahil kahit na ang mga modernong katalogo, na malaki ang volume, ay naglalaman lamang ng impormasyon tungkol sa isang hindi gaanong bahagi ng Internet. Ang pinakamalaking direktoryo ng DMOZ network (tinatawag ding Open Directory Project) ay naglalaman ng impormasyon tungkol sa 5 milyong mapagkukunan, habang ang database ng search engine ng Google ay binubuo ng higit sa 8 bilyong dokumento.

Ang unang ganap na search engine ay ang proyekto ng WebCrawler, na inilathala noong 1994.

Noong 1995, lumitaw ang mga search engine na Lycos at AltaVista. Ang huli ay naging pinuno sa larangan ng paghahanap ng impormasyon sa Internet sa loob ng maraming taon.

Noong 1997, nilikha nina Sergey Brin at Larry Page ang Google search engine bilang bahagi ng isang proyekto sa pananaliksik sa Stanford University. SA kasalukuyan Ang Google ay ang pinakasikat na search engine sa mundo!

Noong Setyembre 1997, ang Yandex search engine, na kung saan ay ang pinakasikat sa Russian-language Internet, ay opisyal na inihayag.

Sa kasalukuyan, mayroong tatlong pangunahing internasyonal na search engine - Google, Yahoo at MSN, na may sariling mga database at algorithm sa paghahanap. Karamihan sa iba pang mga search engine (kung saan mayroong isang malaking bilang) ay gumagamit sa isang anyo o iba pang mga resulta ng tatlong nakalista. Halimbawa, ginagamit ng paghahanap sa AOL (search.aol.com) ang database ng Google, habang ginagamit ng AltaVista, Lycos at AllTheWeb ang database ng Yahoo.

5. Komposisyon at mga prinsipyo ng pagpapatakbo ng sistema ng paghahanap

Sa Russia, ang pangunahing search engine ay Yandex, na sinusundan ng Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bukod dito, sa ngayon, ginagamit ng Mail.ru ang Yandex search engine at database.

Halos lahat ng mga pangunahing search engine ay may sariling istraktura, naiiba sa iba. Gayunpaman, posibleng matukoy ang mga pangunahing bahagi na karaniwan sa lahat ng mga search engine. Ang mga pagkakaiba sa istraktura ay maaari lamang sa anyo ng pagpapatupad ng mga mekanismo ng pakikipag-ugnayan ng mga sangkap na ito.

Module ng pag-index

Ang indexing module ay binubuo ng tatlong auxiliary program (mga robot):

Ang spider ay isang program na idinisenyo upang mag-download ng mga web page. Dina-download ng gagamba ang pahina at kinukuha ang lahat ng panloob na link mula sa pahinang iyon. Ang html code ng bawat pahina ay nai-download. Gumagamit ang mga robot ng HTTP protocol para mag-download ng mga page. Ang gagamba ay gumagana tulad ng sumusunod. Ipinapadala ng robot ang kahilingang "get/path/document" at ilang iba pang HTTP request commands sa server. Bilang tugon, ang robot ay tumatanggap ng isang text stream na naglalaman ng impormasyon ng serbisyo at ang mismong dokumento.

    URL ng pahina

    petsa kung kailan na-download ang pahina

    http header ng tugon ng server

    katawan ng pahina (html code)

Ang crawler ("naglalakbay" spider) ay isang programa na awtomatikong sumusunod sa lahat ng mga link na makikita sa pahina. Pinipili ang lahat ng mga link na naroroon sa pahina. Ang trabaho nito ay upang matukoy kung saan dapat pumunta ang gagamba, batay sa mga link o batay sa isang paunang natukoy na listahan ng mga address. Ang crawler, kasunod ng mga link na natagpuan, ay naghahanap ng mga bagong dokumento na hindi pa rin alam ng search engine.

Ang Indexer (robot indexer) ay isang program na sinusuri ang mga web page na na-download ng mga spider. Ibina-parse ng indexer ang pahina sa mga bahaging bahagi nito at sinusuri ang mga ito gamit ang sarili nitong lexical at morphological algorithm. Sinusuri ang iba't ibang elemento ng pahina, tulad ng teksto, mga heading, link, mga tampok sa istruktura at istilo, mga tag ng HTML na espesyal na serbisyo, atbp.

Kaya, binibigyang-daan ka ng module ng pag-index na i-crawl ang isang naibigay na hanay ng mga mapagkukunan gamit ang mga link, i-download ang mga nakatagpo na pahina, i-extract ang mga link sa mga bagong pahina mula sa mga natanggap na dokumento, at magsagawa ng kumpletong pagsusuri ng mga dokumentong ito.

Database

Ang database, o index ng search engine, ay isang sistema ng pag-iimbak ng data, isang hanay ng impormasyon kung saan naka-imbak ang mga espesyal na na-convert na parameter ng lahat ng mga dokumentong na-download at naproseso ng module ng pag-index.

Search server

Ang server ng paghahanap ay ang pinakamahalagang elemento ang buong system, dahil ang kalidad at bilis ng paghahanap ay direktang nakasalalay sa mga algorithm na sumasailalim sa paggana nito.

Ang search server ay gumagana tulad ng sumusunod:

    Ang kahilingang natanggap mula sa user ay sumasailalim sa morphological analysis. Nabuo kapaligiran ng impormasyon bawat dokumentong nakapaloob sa database (na pagkatapos ay ipapakita sa anyo ng isang snippet, iyon ay, naaayon sa kahilingan impormasyon sa teksto sa pahina ng mga resulta ng paghahanap).

    Ang natanggap na data ay ipinadala bilang mga parameter ng input espesyal na ranggo na module. Pinoproseso ang data para sa lahat ng mga dokumento, bilang isang resulta kung saan ang bawat dokumento ay may sariling rating na nagpapakilala sa kaugnayan ng query na ipinasok ng user at ang iba't ibang bahagi ng dokumentong ito na nakaimbak sa index ng search engine.

    Depende sa pinili ng user, ang rating na ito ay maaaring isaayos ng mga karagdagang kundisyon (halimbawa, ang tinatawag na "advanced na paghahanap").

    Susunod, bubuo ang isang snippet, iyon ay, para sa bawat dokumentong natagpuan, ang pamagat, isang maikling abstract na pinakamahusay na tumutugma sa query, at isang link sa mismong dokumento ay kinukuha mula sa talahanayan ng dokumento, at ang mga salitang natagpuan ay naka-highlight.

    Ang mga resultang resulta ng paghahanap ay ipinapadala sa user sa anyo ng isang SERP (Search Engine Result Page) – isang pahina ng mga resulta ng paghahanap.

Tulad ng nakikita mo, ang lahat ng mga sangkap na ito ay malapit na nauugnay sa bawat isa at gumagana sa pakikipag-ugnayan, na bumubuo ng isang malinaw, medyo kumplikadong mekanismo para sa pagpapatakbo ng sistema ng paghahanap, na nangangailangan ng malaking halaga ng mga mapagkukunan.

Walang search engine na sumasaklaw sa lahat ng mapagkukunan ng Internet.

Ang bawat search engine ay nangongolekta ng impormasyon tungkol sa mga mapagkukunan ng Internet gamit ang sarili nitong natatanging mga pamamaraan at bumubuo ng sarili nitong pana-panahong na-update na database. Ang pag-access sa database na ito ay ibinibigay sa gumagamit.

Ang mga search engine ay nagpapatupad ng dalawang paraan upang maghanap ng mapagkukunan:

    Maghanap ayon sa paksa katalogo - impormasyon ipinakita sa anyo hierarchical na istraktura. Naka-on itaas na antas- mga pangkalahatang kategorya (“Internet”, “Negosyo”, “Sining”, “Edukasyon”, atbp.), sa susunod na antas ang mga kategorya ay nahahati sa mga seksyon, atbp. Karamihan Mas mababang antas- mga link sa mga partikular na web page o iba pang mapagkukunan ng impormasyon.

    Paghahanap ng keyword (paghahanap sa index o detalyadong paghahanap) - ipinapadala ng user sa search engine hiling, na binubuo ng mga keyword. Sistema nagbabalik sa user ng isang listahan ng mga mapagkukunang makikita kapag hiniling.

Karamihan sa mga search engine ay pinagsama ang parehong paraan ng paghahanap.

Ang mga search engine ay maaaring lokal, pandaigdigan, rehiyonal at dalubhasa.

Sa Russian na bahagi ng Internet (Runet), ang pinakasikat na general purpose search engine ay Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www. google.ru).

Karamihan sa mga search engineipinatupad sa anyo ng mga portal.

Portal (mula sa English.portal - pangunahing pasukan, gate) ay isang website na nagsasama ng iba't ibang serbisyo sa Internet: mga tool sa paghahanap, mail, balita, mga diksyunaryo, atbp.

Maaaring maging dalubhasa ang mga portal (tulad ng,www. museo. ru) at pangkalahatan (halimbawa,www. km. ru).

Maghanap ayon sa mga keyword

Ang hanay ng mga keyword na ginamit sa paghahanap ay tinatawag ding pamantayan sa paghahanap o paksa sa paghahanap.

Ang isang kahilingan ay maaaring binubuo ng alinman sa isang salita o isang kumbinasyon ng mga salita na pinagsama ng mga operator - mga simbolo kung saan tinutukoy ng system kung anong aksyon ang kailangan nitong gawin. Halimbawa: ang kahilingan na "Moscow St. Petersburg" ay naglalaman ng AND operator (ito ay kung paano nakikita ang isang puwang), na nagpapahiwatig na ang isa ay dapat maghanap ng mga dokumento na naglalaman ng parehong mga salita - Moscow at St.

Upang maging may-katuturan ang paghahanap (mula sa Ingles na may-katuturan - may-katuturan, may-katuturan), maraming pangkalahatang tuntunin ang dapat isaalang-alang:

    Anuman ang anyo kung saan ginamit ang salita sa query, isinasaalang-alang ng paghahanap ang lahat ng mga anyo ng salita nito ayon sa mga patakaran ng wikang Ruso. Halimbawa, mahahanap din ng query na "ticket" ang mga salitang "ticket", "ticket", atbp.

    Ang mga malalaking titik ay dapat lamang gamitin sa mga wastong pangalan upang maiwasan ang pagtingin sa mga hindi kinakailangang sanggunian. Sa kahilingan ng "mga panday," halimbawa, makikita ang mga dokumento na nagsasalita tungkol sa parehong mga panday at Kuznetsov.

    Maipapayo na paliitin ang iyong paghahanap gamit ang ilang mga keyword.

    Kung ang kinakailangang address ay wala sa unang dalawampung address na natagpuan, dapat mong baguhin ang kahilingan.

Ang bawat search engine ay gumagamit ng sarili nitong query language. Upang maging pamilyar dito, gamitin ang built-in na tulong ng search engine

Maaaring may built-in na mga sistema ng pagkuha ng impormasyon ang malalaking site sa loob ng kanilang mga web page.

Ang mga query sa naturang mga sistema ng paghahanap, bilang panuntunan, ay binuo ayon sa parehong mga patakaran tulad ng sa mga pandaigdigang search engine, gayunpaman, ang pamilyar sa tulong dito ay hindi magiging labis.

Masusing Paghahanap

Ang mga search engine ay maaaring magbigay ng isang mekanismo para sa gumagamit upang lumikha ng isang kumplikadong query. Kasunod ng isang link Masusing Paghahanap ginagawang posible na i-edit ang mga parameter ng paghahanap, tukuyin ang mga karagdagang parameter at piliin ang pinaka-maginhawang form para sa pagpapakita ng mga resulta ng paghahanap. Ang sumusunod ay naglalarawan ng mga parameter na maaaring itakda sa panahon ng isang advanced na paghahanap sa Yanex at Rambler system.

Paglalarawan ng parameter

Pangalan sa Yandex

Pangalan saRambler

Saan hahanapin ang mga keyword ( titulo ng dokumento, pangunahing teksto, atbp.)

Filter ng diksyunaryo

Maghanap sa pamamagitan ng text...

Anong mga salita ang dapat o hindi dapat naroroon sa dokumento at kung gaano katumpak dapat ang tugma

Filter ng diksyunaryo

Maghanap ng mga salitang query... Ibukod ang mga dokumentong naglalaman ng mga sumusunod na salita...

Gaano kalayo dapat matatagpuan ang mga keyword?

Filter ng diksyunaryo

Distansya sa pagitan ng query words...

Paghihigpit sa petsa ng dokumento

Petsa na dokumento...

Limitahan ang iyong paghahanap sa isa o higit pang mga site

Site/Nangungunang

Maghanap ng mga dokumento lamang sa mga sumusunod na site...

Nililimitahan ang paghahanap sa pamamagitan ng wika ng dokumento

Wika ng dokumento...

Maghanap ng mga dokumento naglalaman ng larawan na may partikular na pangalan o caption

Imahe

Maghanap ng mga pahina naglalaman ng mga bagay

Mga espesyal na bagay

Form ng pagtatanghal ng mga resulta ng paghahanap

Format ng isyu

Ipinapakita ang mga resulta ng paghahanap

Ang ilang mga search engine (halimbawa, Yandex) ay nagbibigay-daan sa iyo na magpasok ng mga query sa natural na wika. Isulat mo kung ano ang kailangan mong hanapin (halimbawa: pag-order ng mga tiket sa tren mula Moscow hanggang St. Petersburg). Sinusuri ng system ang kahilingan at naglalabas ng resulta. Kung hindi ka nasisiyahan dito, lumipat sa wika ng query.

SA mga nakaraang taon ang mga serbisyo mula sa Google at Yandex ay naging matatag sa ating buhay. Sa bagay na ito, malamang na marami ang nagtataka kung ano ang isang search engine? nagsasalita sa simpleng salita, Ito sistema ng software, na idinisenyo upang maghanap ng impormasyon sa Mundo Malawak na web. Ang mga resulta nito ay karaniwang ipinapakita sa isang format ng listahan, na kadalasang tinatawag na mga search engine results page (SERPs). Ang impormasyon ay maaaring kumbinasyon ng mga web page, mga larawan, at iba pang uri ng file. Ang ilang mga search engine ay naglalaman din ng impormasyong makukuha sa mga database o pampublikong direktoryo.

Hindi tulad ng mga web directory, na sinusuportahan lamang ng sarili nilang mga editor, ang mga search engine ay naglalaman din ng real-time na impormasyon sa pamamagitan ng pagpapatakbo ng algorithm sa web crawler.

Kasaysayan ng pinagmulan

Ang mga search engine mismo ay lumitaw nang mas maaga network sa buong mundo- noong Disyembre 1990. Ang unang naturang serbisyo ay tinawag na Archie, at hinanap nito ang mga nilalaman ng FTP file gamit ang mga command.

Ano ang isang search engine sa Internet? Hanggang Setyembre 1993 World Wide Ang Web ay ganap na na-index nang manu-mano. Mayroong listahan ng mga web server na na-edit ni Tim Berners-Lee na naka-host sa CERN web server. Bilang lahat malaking dami Ang mga server ay konektado sa Internet, ang serbisyo sa itaas ay hindi makasabay sa pagproseso ng ganoong dami ng impormasyon.

Ang isa sa mga unang search engine batay sa mga paghahanap sa web ay ang WebCrawler, na inilabas noong 1994. Hindi tulad ng mga nauna nito, pinapayagan nito ang mga user na maghanap ng anumang salita sa anumang web page. Ang algorithm na ito ay naging pamantayan para sa lahat ng mga pangunahing search engine. Ito rin ang unang desisyon na malawak na kilala sa publiko. Noong 1994 din, inilunsad ang serbisyo ng Lycos, na kalaunan ay naging isang malaking komersyal na proyekto.

Di nagtagal, maraming mga search engine ang lumitaw at ang kanilang katanyagan ay tumaas nang malaki. Kabilang dito ang Magellan, Excite, Infoseek, Inktomi, Northern Light at AltaVista. Yahoo! ay isa sa pinaka mga sikat na paraan paghahanap ng mga web page na interesado, ngunit ang algorithm ng paghahanap nito ay nagpapatakbo sa sarili nitong web directory sa halip na sa mga full-text na kopya ng mga pahina. Ang mga naghahanap ng impormasyon ay maaari ding mag-browse sa direktoryo sa halip na magsagawa ng paghahanap ng keyword.

Isang bagong yugto ng pag-unlad

Tinanggap ng Google ang ideya ng pagbebenta mga query sa paghahanap noong 1998, simula sa maliit na kumpanya goto.com. Ang paglipat na ito ay may malaking epekto sa negosyo ng SEO, na sa paglipas ng panahon ay naging isa sa mga pinaka kumikitang aktibidad sa Internet.

Sa paligid ng 2000, ang Google search engine ay naging malawak na kilala. Nakamit ng kumpanya pinakamahusay na mga resulta para sa maraming paghahanap gamit ang isang inobasyon na tinatawag na PageRank. Ang umuulit na algorithm na ito ay nagraranggo ng mga web page batay sa kanilang mga koneksyon sa iba pang mga site at pahina, batay sa premise na ang mabuti o kanais-nais na mga mapagkukunan ay madalas na binabanggit ng iba. Napanatili din ng Google ang isang minimalist na interface para sa search engine nito. Sa kabaligtaran, marami sa mga kakumpitensya ang nagtayo ng isang search engine sa web portal. Sa katunayan, ang Google ay naging napakapopular na ang mga scam engine tulad ng Mystery Seeker ay lumitaw. Ngayon ay maraming mga rehiyonal na bersyon ng serbisyong ito, sa partikular, paghahanap Google system.ru, na idinisenyo para sa mga user na nagsasalita ng Russian.

Paano gumagana ang mga serbisyong ito?

Paano ipinapakita ang mga ranggo at resulta? Ano ang mga search engine mula sa punto ng view ng algorithm ng pagkilos? Kumuha sila ng impormasyon sa pamamagitan ng pag-crawl sa web mula sa site patungo sa site. Robot o "gagamba" na mga tseke karaniwang pangalan robots.txt file na naka-address dito bago magpadala ng ilang partikular na impormasyon para sa pag-index. Nakatuon ito sa maraming salik, katulad ng mga header, content ng page, JavaScript, Cascading Style Sheets (CSS), at standard HTML markup nilalaman ng impormasyon o metadata sa mga HTML meta tag.

Ang ibig sabihin ng pag-index ay pag-uugnay ng mga salita at iba pang makikilalang mga token na makikita sa mga web page sa kanilang mga domain name at mga patlang sa Batay sa HTML. Ang mga asosasyon ay nilikha sa pampublikong database magagamit ang data para sa mga query sa paghahanap sa web. Ang kahilingan mula sa gumagamit ay maaaring isang salita. Tinutulungan ka ng isang index na mahanap ang impormasyong nauugnay sa isang query sa lalong madaling panahon.

Ang ilan sa mga diskarte sa pag-index at pag-cache ay mga trade secret, habang ang web crawling ay isang simpleng proseso ng pagbisita sa lahat ng website sa isang sistematikong paraan.

Sa pagitan ng mga pagbisita sa robot, naka-imbak ang isang naka-cache na bersyon ng page (ilan o lahat ng nilalamang kailangan para ipakita ito) gumaganang memorya search engine, ay mabilis na ipinadala sa humihiling na user. Kung ang pagbisita ay overdue, ang search engine ay maaaring kumilos bilang isang web proxy. Sa kasong ito, maaaring iba ang page sa mga index ng paghahanap. Ipinapakita ng naka-cache na pinagmulan ang bersyon kung saan ang mga salita ay na-index, kaya maaari itong maging kapaki-pakinabang kung ang aktwal na pahina ay nawala.

Mataas na antas ng arkitektura

Karaniwan, ang isang gumagamit ay naglalagay ng isang query sa isang search engine sa anyo ng ilang mga keyword. Ang index ay mayroon nang mga pangalan ng mga site na naglalaman ng mga keyword na ito, at ang mga ito ay agad na ipinapakita. Ang totoong workload ay ang paglikha ng mga web page na isang listahan ng mga resulta ng paghahanap. Ang bawat pahina sa buong listahan ay dapat na mai-ranggo ayon sa impormasyon sa mga index.

Sa kasong ito nangungunang elemento Ang resulta ay nangangailangan ng paghahanap, muling pagbuo at pagmamarka ng mga fragment na nagpapakita ng konteksto mula sa mga katugmang keyword. Ito ay bahagi lamang ng pagproseso ng bawat web page sa mga resulta ng paghahanap, at higit pang mga pahina (sa tabi nito) ay nangangailangan ng karamihan sa kasunod na pagproseso na ito.

Bilang karagdagan sa simpleng paghahanap ng mga keyword, nag-aalok ang mga search engine ng sarili nilang GUI-o command-driven na mga operator at mga parameter ng paghahanap upang pinuhin ang mga resulta.

Sila ay nagbigay mga kinakailangang elemento kontrol para sa gumagamit gamit ang isang loop puna, sa pamamagitan ng pag-filter at pagtimbang kapag pinipino ang kinakailangang data, na isinasaalang-alang mga home page unang resulta ng paghahanap. Halimbawa, mula noong 2007, ginawang posible ng Google.com na i-filter ang resultang listahan ayon sa petsa sa pamamagitan ng pag-click sa "Ipakita ang Mga Tool sa Paghahanap" sa pinakakaliwang column sa orihinal na pahina ng mga resulta at pagkatapos ay piliin ang hanay ng petsa na gusto mo.

Pagkakaiba-iba ng mga kahilingan

Karamihan sa mga search engine ay sumusuporta sa paggamit mga lohikal na operator AT, O at HINDI para tumulong mga end user linawin ang kahilingan. Ang ilang mga operator ay idinisenyo para sa mga literal, na nagpapahintulot sa user na pinuhin at palawakin ang mga termino para sa paghahanap. Ang robot ay naghahanap ng mga salita o parirala sa parehong paraan tulad ng paghahanap nito sa mga ipinasok na command. Ang ilang mga search engine ay nagbibigay ng advanced na tampok sa paghahanap na nagpapahintulot sa mga user na matukoy ang distansya sa pagitan ng mga keyword.

Mayroon ding konseptong nakabatay sa paghahanap kung saan ang pananaliksik ay kinabibilangan ng paggamit pagsusuri sa istatistika sa mga pahinang naglalaman ng mga salita o parirala na iyong hinahanap. Bilang karagdagan, ang mga kahilingan para sa natural na wika payagan ang user na maglagay ng tanong sa parehong form na itatanong niya sa isang tao (ang pinakakaraniwang halimbawa ay ask.com).

Ang pagiging kapaki-pakinabang ng isang search engine ay nakasalalay sa kaugnayan ng hanay ng mga resulta na ibinabalik nito. Maaaring may milyon-milyong mga web page na naglalaman ng isang partikular na salita o parirala, ngunit ang ilan ay maaaring mas may-katuturan, sikat, o may awtoridad kaysa sa iba. Karamihan sa mga search engine ay gumagamit ng mga paraan ng pagraranggo upang matiyak ang pinakamahusay na mga resulta.

Kung paano nagpapasya ang isang search engine kung aling mga pahina ang pinakamahusay na tumutugma para sa isang query, at sa anong pagkakasunud-sunod dapat ipakita ang mga nahanap na mapagkukunan, malaki ang pagkakaiba-iba mula sa isang robot patungo sa isa pa. Nagbabago rin ang mga pamamaraang ito sa paglipas ng panahon habang nagbabago ang paggamit ng Internet at umuunlad ang mga bagong teknolohiya.

Ano ang isang search engine: varieties

Mayroong dalawang pangunahing uri ng mga search engine. Ang una ay isang sistema ng mga paunang natukoy at hierarchically ordered na mga keyword kung saan ang mga tao ay maramihang nakaprograma nito. Ang pangalawa ay isang sistema na bumubuo ng isang "inverted index" sa pamamagitan ng pagsusuri sa mga tekstong natagpuan.

Karamihan sa mga search engine ay mga serbisyong pangkomersyo na sinusuportahan ng kita sa advertising, at sa gayon ay pinapayagan ng ilan ang mga advertiser na mag-ranggo sa mga resultang ipinapakita nila nang may bayad. Ang mga serbisyong hindi tumatanggap ng pera para sa mga ranggo ay kumikita sa pamamagitan ng pagtakbo mga patalastas sa konteksto sa tabi ng mga ipinapakitang site. Ngayon, ang pag-promote ng search engine ay isa sa pinaka kumikitang kita online.

Anong mga serbisyo ang pinakakaraniwan?

Ang Google ang pinakasikat na search engine sa mundo na may market share na 80.52% noong Marso 2017.

  • Google - 80.52%
  • Bing - 6.92%
  • Baidu - 5.94%
  • Yahoo! - 5.35%

Mga search engine sa Russia at East Asia

Sa Russia at ilang mga bansa Silangang Asya Hindi ang Google ang pinakasikat na serbisyo. Among mga gumagamit ng Ruso ang Yandex search engine ay nangunguna sa katanyagan (61.9%) kumpara sa Google (28.3%). SA China Baidu ay ang pinakasikat na serbisyo. Maghanap portal South Korea- Ginagamit ang Naver para sa 70% porsyento ng mga online na paghahanap sa bansa. Gayundin ang Yahoo! sa Japan at Taiwan ito ang pinakasikat na tool para sa paghahanap ng kinakailangang data.

Ang iba pang kilalang mga search engine sa Russia ay Mail at Rambler. Sa simula ng pag-unlad ng Runet, nasiyahan sila sa malawak na katanyagan, ngunit ngayon ay nawala na ang kanilang posisyon.

Mga paghihigpit at pamantayan sa paghahanap

Bagama't ang mga search engine ay naka-program upang i-rank ang mga website batay sa ilan sa kanilang kasikatan at kaugnayan, ang empirical na pananaliksik ay tumuturo sa iba't ibang pampulitika, pang-ekonomiya at panlipunang pamantayan para sa pagpili ng impormasyong ibibigay nila. Ang mga bias na ito ay maaaring direktang resulta ng mga pang-ekonomiya (halimbawa, ang mga kumpanyang nag-a-advertise ng search engine ay maaari ding maging mas popular sa mga resulta. regular na paghahanap) at mga prosesong pampulitika (halimbawa, pag-aalis ng mga resulta ng paghahanap alinsunod sa mga lokal na batas). Halimbawa, hindi magpapakita ang Google ng ilang neo-Nazi site sa France at Germany, kung saan ilegal ang pagtanggi sa Holocaust.

Mga search engine na Kristiyano, Islamiko at Hudyo

Pandaigdigang paglago ng Internet at elektronikong paraan Ang coverage ng media sa mundo ng Muslim sa nakalipas na dekada ay nag-udyok sa mga Islamic adherents sa Middle East at Asian subcontinent na subukang lumikha ng sarili nilang mga search engine at mga na-filter na portal na magpapahintulot sa mga user na magsagawa ng ligtas na paghahanap.

Ang mga naturang serbisyo ay naglalaman ng mga filter na higit pang nag-uuri sa mga website bilang "halal" o "haram" batay sa modernong ekspertong interpretasyon ng "Batas ng Islam".

Ang ImHalal portal ay lumabas online noong Setyembre 2011, at Halalgoogling noong Hulyo 2013. Gumagamit sila ng mga haram na filter batay sa mga algorithm mula sa Google at Bing.

Ang iba pang mga search engine na nakatuon sa relihiyon ay Jewgle (Jewish bersyon ng Google), gayundin ang Christian SeekFind.org. Sinasala nila ang mga site na tumatanggi o nagpapababa sa kanilang pananampalataya.