Mida otsingumootor sisaldab? Kuidas otsingumootor töötab? Otsingumootorite komponendid

Otsingusüsteem- veebiliidesega tarkvara- ja riistvarakompleks, mis annab võimaluse otsida teavet Internetist.

Kõiki otsingumootoreid ühendab asjaolu, et need asuvad spetsiaalselt spetsiaalsetes võimsates serverites ja on seotud tõhusate sidekanalitega. Otsingumootoreid nimetatakse ka infootsingusüsteemideks (IRS). Populaarsemate süsteemide samaaegselt teenindatavate külastajate arv ulatub mitme tuhandeni. Kõige kuulsamad teenindavad miljoneid kliente päevas. Juhtudel, kui otsingumootor põhineb kataloogil, nimetatakse seda kataloogiks. See põhineb moderaatorite tööl. Täistekstiotsinguga IRS-i aluseks on automaatne teabe kogumine. See viiakse läbi spetsiaalsete programmide abil. Need programmid uurivad perioodiliselt kõigi Interneti-ressursside sisu. Selleks liiguvad nad, või nagu öeldakse, roomavad läbi erinevate ressursside. Sellest tulenevalt nimetatakse selliseid programme robotiteks. Nimesid on teisigi: kuna WWW on lühend väljendist World Wide Web, siis on loomulik kutsuda sellist programmi inglise keeles ämblikuks. - ämblik. Viimasel ajal on kasutatud teisi nimetusi: automaatsed indeksid või kataloogid. Kõik need programmid uurivad ja laadivad alla teavet erinevatelt URL-idelt. Seda tüüpi programmid külastavad iga ressurssi teatud aja pärast. Ükski otsingumootor ei suuda kogu Internetti indekseerida. Seetõttu on andmebaasid, kuhu indekseeritud ressursside aadressid kogutakse, erinevate otsingumootorite jaoks erinevad. Paljud neist püüavad aga võimaluse korral oma töös katta kogu veebiruumi.

Otsingumootori abil teabe otsimiseks koostab kasutaja otsingupäringu. Kasutaja päringu alusel genereerib otsingumootor otsingutulemuste lehe. Sellised otsingutulemused võivad kombineerida erinevat tüüpi faile, näiteks veebilehti, pilte, videofaile. Mõned otsingumootorid toovad andmeid ka Interneti andmebaasidest ja ressursikataloogidest.

Otsingu- ja teenindusmeetodite põhjal on nelja tüüpi otsingumootoreid:

1.otsinguroboteid kasutavad süsteemid.

2. inimese juhitavad süsteemid

3.hübriidsüsteemid

4.metasüsteemid.

Otsingusüsteemi arhitektuur sisaldab: Interneti-saite skaneerivat otsingurobotit, kiiret otsingut pakkuvat indekseerijat ja otsingumootorit – graafilist liidest kasutajale.

Otsingumootori eesmärk on leida dokumente, mis sisaldavad kas märksõnu või märksõnadega mingil moel seotud sõnu. Otsingumootor on seda parem, mida rohkem dokumente see tagastab, mis on kasutaja päringu jaoks asjakohased.

Otsingumootori näited

Google- üks täiuslikumaid ja populaarsemaid välismaiseid IPS-e. Google'i IRS-i eripäraks on tehnoloogia dokumendi asjakohasuse määramiseks, analüüsides muudest allikatest antud ressursi linke. Mida rohkem linke lehele on teistel lehtedel, seda kõrgem on selle asetus Google'i IRS-is. Google kasutab PageRank volituse arvutamiseks algoritmi. PageRank on üks abitegureid saitide järjestamisel otsingutulemustes. PageRank ei ole ainus, kuid väga oluline viis saidi positsiooni määramiseks Google'i otsingutulemustes. Google kasutab päringuga leitud lehtede indikaatorit PageRank, et määrata, millises järjekorras need lehed otsingutulemustes külastajale esitatakse.2010. aastal käivitas ettevõte Venemaal häälotsingu. Otsimiseks peate vajutama oma telefonis otsingurea kõrval olevat nuppu ja ütlema oma päringu, telefon saadab teie hääle serverisse ja brauser kuvab rea, kus teie päring on tuvastatud ja selle otsingutulemused.

Yandex on praegu populaarseim kodumaine otsingumootor. Alustas tööd 1997. aastal. Ta haldab oma Interneti-ressursside kataloogi. Samuti parim otsingumootor illustratsioonide tuvastamiseks. Ingliskeelne versioon on varustatud Interneti-ressursside kataloogiga. Sellel on ulatuslik päringute genereerimise süsteem. Eelkõige on lubatud sisestada otsingujuhised loomulikus keeles – sel juhul tehakse kõik vajalikud laiendused automaatselt.

Lisaks HTML-vormingus veebilehtedele indekseerib Yandex dokumente PDF-vormingus (Adobe Acrobat), Rich Text Format (RTF), Wordis (.doc), Excelis (.xls), PowerPointis (.ppt), RSS-is (blogid ja foorumid) .

Mail.ru otsingumootor alustas tööd 2007. aastal. Indeksfaili maht oli 2009. aasta kevadel enam kui 1,5 miljardit lehekülge, mis paiknesid venekeelsetes serverites. Lisaks tekstide otsimisele otsib süsteem illustratsioone ja videoklippe, mis on postitatud spetsiaalsetesse "isepopuleerivatesse" Venemaa serveritesse: [email protected], Flamber.Ru, 35Photo.ru, PhotoForum.ru, [email protected], RuTube, Loadup, Rambler Vision jms. Gogo.ru võimaldab teil piirata otsingut kaubanduslike saitide, teabesaitidega, samuti foorumite ja ajaveebidega. Täpsem otsing võimaldab teil piirata otsinguid kindlate failitüüpidega (PDF, DOC, XLS, PPT), otsingusõnade asukohaga dokumendis või kindla domeeniga. 2013. aasta novembris ilmus Google Plays Mail.Ru otsingurakenduse uus versioon, mis võimaldab teil lülituda põhiekraanilt mis tahes suhtlusvõrgustikule ja pakub kiiret juurdepääsu piltide, videote ja uudiste otsimisele. Androidi rakendus on muutunud minibrauseriks, mis on loodud vajaliku teabe tõhusaks otsimiseks. Samuti on utiliit õppinud ära tundma mitte teksti, vaid häälega määratud otsingupäringuid. Samuti märgivad arendajad, et nad on loonud spetsiaalse vidina, mille saab paigutada Google Androidi süsteemil põhineva nutitelefoni või tahvelarvuti avaekraanile. Arusaadavalt vähendab see otsimisele kuluvat aega veelgi.

AltaVista– üks vanimaid otsingumootoreid on dokumentide mahu poolest ühel esikohal – üle 350 miljoni. AltaVista võimaldab lihtsaid ja täpsemaid otsinguid. „Abi” võimaldab isegi koolitamata kasutajatel lihtsaid ja keerulisi päringuid õigesti koostada.

Rambler– üks esimesi Venemaa infootsingusüsteeme, mis avati 1996. aastal. 2002. aasta lõpus viidi läbi radikaalne moderniseerimine, mille järel astus Rambler uuesti võrguotsingu juhtide rühma. Praegu on indeksi maht umbes 150 miljonit dokumenti. Keeruliste päringute koostamiseks on soovitatav kasutada režiimi "Detailne päring", mis annab palju võimalusi menüükäskude abil otsingujuhiste koostamiseks.

APORT. Täna sisaldab selle andmebaas enam kui 20 miljonit dokumenti. Süsteemil on lai valik otsinguvõimalusi. APORT-il on sisseehitatud tõlkija funktsioon, mis annab kasutajale võimaluse vormistada päringuid nii vene kui inglise keeles. Lisaks on APORTil spetsiaalsed režiimid illustratsioonide ja helifailide otsimiseks.

Viimase põlvkonna otsingumootorid indekseerivad kõik veebilehel või konverentsiartiklites olevad sõnad, samas kui varem piirdus indekseerimise ulatus tavaliselt dokumendi pealkirja, pealkirjade, esimeste ridade ja aadressiga. See piiras oluliselt kitsa teema materjalide tuvastamise võimalust, kuna otsingutulemused ei kajastanud alati tegelikke andmeid. Selle puuduse kõrvaldamisega on kaasaegsed otsingumootorid muutunud palju töökindlamaks kui nende eelkäijad.

Järgmine olulisem omadus on sisemise otsingumehhanismi täiustamine, mis väljendub operaatorite arvu ja muude päringu koostamise elementide arvu suurenemises. Mõned aastad tagasi kasutati ainult kahte, parimal juhul kolme klassikalist Boole'i ​​operaatorit: AND (ja), OR (või) ja NOT (mitte). Nüüd on Alta Vistas NEAR ja OpenTextis FOLLOWED BY – äärmiselt kasulikud kaugusoperaatorid, mis võimaldavad teil oma päringu võimalikult täpseks muuta. Paljud süsteemid võimaldavad kärpida terminite lõppu, piirata otsingut dokumendi loomise kuupäeva järgi, otsida märksõnu ainult veebilehtede määratud elementides (pealkiri, pealkirjad, e-posti aadress jne), samuti otsida täpne fraas. Viimased arengud võimaldavad tuvastada ka teatud tüüpi faile (näiteks graafika või heli) ning on tundlikud väike- ja suurtähtede suhtes. Võimalus otsida andmeid mis tahes keeles on muutumas igapäevaseks. Kõik see võimaldab luua suure täpsusega otsinguretsepti, mis loomulikult suurendab saadud tulemuste asjakohasust.

Hetkel on populaarseimad otsingumootorid Google ja Yandex, võrdleme neid:

    Indekseeritud lehtede arv. Google'il on 8 miljardit ja Yandexil ainult 2 miljardit. See tähendab, et neli korda vähem. Võit Google'ile.

    Lehekülje indekseerimise kiirus. Google indekseerib uued lehed 24 tunni jooksul, samas kui Yandexil võib kuluda mitu päeva. Google võidab taas.

    Probleemi asjakohasus. Asjakohasus viitab otsingumootori lehel kuvatavate tulemuste vastavusele teie päringule. Ütlen kohe, et võitjat on siin raske välja selgitada. Google näitas häid tulemusi Interneti välismaises segmendis, kuid Runetis oli Yandex alati veidi ees.

    Täiendavad Interneti-teenused. Siin kuulub eelis selgelt Yandexile. Sellel on kümneid erinevaid teenuseid, mis on mugavalt kategooriatesse rühmitatud, samas kui Google'il on neid vähem, lisaks on integratsioon Google+ sotsiaalvõrgustikuga, mis paljudele ei meeldi.

Viimastel aastatel on Google'i ja Yandexi teenused muutunud meie elu osaks. Sellega seoses mõtlevad paljud ilmselt, mis on otsingumootor? Lihtsamalt öeldes on see tarkvarasüsteem, mis on loodud veebist teabe otsimiseks. Selle tulemused esitatakse tavaliselt loendivormingus, mida sageli nimetatakse otsingumootori tulemuste lehtedeks (SERP). Teave võib olla veebilehtede, piltide ja muude failitüüpide kombinatsioon. Mõned otsingumootorid sisaldavad ka andmebaasides või avalikes kataloogides saadaolevat teavet.

Erinevalt veebikataloogidest, mida toetavad ainult nende enda toimetajad, sisaldavad otsingumootorid ka reaalajas teavet, käivitades veebiroomajas algoritmi.

Päritolu ajalugu

Otsingumootorid ise ilmusid varem kui World Wide Web - 1990. aasta detsembris. Esimene selline teenus kandis nime Archie ja see otsis käskude abil FTP-failide sisu.

Mis on Interneti otsingumootor? Kuni septembrini 1993 oli World Wide Web täielikult käsitsi indekseeritud. Seal oli Tim Berners-Lee toimetatud veebiserverite loend, mida majutati CERNi veebiserveris. Kuna üha enam servereid läks võrku, ei suutnud ülaltoodud teenus sellise teabehulga töötlemisega sammu pidada.

Üks esimesi veebiotsingutel põhinevaid otsingumootoreid oli WebCrawler, mis ilmus 1994. aastal. Erinevalt oma eelkäijatest võimaldas see kasutajatel otsida mis tahes sõna mis tahes veebilehel. Sellest ajast alates on see algoritm muutunud kõigi suuremate otsingumootorite standardiks. See oli ka esimene avalikkusele laiemalt tuntud otsus. Ka 1994. aastal käivitati Lycose teenus, millest sai hiljem suur kommertsprojekt.

Varsti pärast seda ilmusid paljud otsingumootorid ja nende populaarsus kasvas märkimisväärselt. Nende hulka kuuluvad Magellan, Excite, Infoseek, Inktomi, Northern Light ja AltaVista. Yahoo! oli üks populaarsemaid viise huvipakkuvate veebilehtede leidmiseks, kuid selle otsingualgoritm töötas pigem oma veebikataloogis, mitte lehtede täisteksti koopiates. Teabeotsijad võivad märksõnaotsingu asemel ka kataloogi sirvida.

Uus arendusring

Google võttis otsingupäringute müümise idee omaks 1998. aastal, alustades väikesest ettevõttest nimega goto.com. Sellel sammul oli oluline mõju SEO ärile, mis aja jooksul muutus üheks kõige tulusamaks tegevuseks Internetis.

2000. aasta paiku sai Google'i otsingumootor laialt tuntuks. Ettevõte on saavutanud paljude otsingute puhul paremaid tulemusi uuenduse nimega PageRank. See iteratiivne algoritm järjestab veebilehti nende ühenduste alusel teiste saitide ja lehtedega, lähtudes eeldusest, et teised mainivad sageli häid või soovitavaid allikaid. Google säilitas ka oma otsingumootori jaoks minimalistliku liidese. Vastupidi, paljud konkurendid on veebiportaali sisse ehitanud otsingumootori. Tegelikult on Google muutunud nii populaarseks, et on tekkinud sellised petumootorid nagu Mystery Seeker. Tänapäeval on sellel teenusel palju piirkondlikke versioone, eriti Google.ru otsingumootor, mis on mõeldud vene keelt kõnelevatele kasutajatele.

Kuidas need teenused töötavad?

Kuidas edetabelid ja tulemused kuvatakse? Mis on otsingumootorid tegevusalgoritmi seisukohalt? Nad saavad teavet veebis saidilt saidile roomamise kaudu. Robot või ämblik kontrollib enne teatud teabe indekseerimiseks saatmist talle adresseeritud faili robots.txt standardset nime. See keskendub paljudele teguritele, nimelt päistele, lehe sisule, JavaScriptile, kaskaadlaadilehtedele (CSS) ja teabesisu või metaandmete standardsele HTML-märgistusele HTML-i metamärgendites.

Indekseerimine tähendab veebilehtedel leiduvate sõnade ja muude tuvastatavate märkide seostamist nende domeeninimede ja HTML-põhiste väljadega. Seosed luuakse veebiotsingu päringute jaoks kättesaadavas avalikus andmebaasis. Kasutaja päring võib olla ühesõnaline. Indeks aitab teil leida päringuga seotud teavet nii kiiresti kui võimalik.

Mõned indekseerimise ja vahemällu salvestamise tehnikad on ärisaladused, samas kui veebi roomamine on lihtne protsess, mille käigus külastatakse kõiki veebisaite süstemaatilisel viisil.

Roboti külastuste vahel saadetakse otsingumootori töömällu salvestatud lehe vahemällu salvestatud versioon (osa või kogu selle kuvamiseks vajalik sisu) kiiresti päringu esitanud kasutajale. Kui külastus on hilinenud, võib otsingumootor toimida lihtsalt veebipuhverserverina. Sel juhul võib leht otsinguindeksitest erineda. Vahemällu salvestatud allikas näitab versiooni, mille sõnad on indekseeritud, nii et see võib olla kasulik, kui tegelik leht on kadunud.

Kõrgetasemeline arhitektuur

Tavaliselt sisestab kasutaja päringu otsingumootorisse mitme märksõna kujul. Indeksis on juba neid märksõnu sisaldavate saitide nimed ja need kuvatakse koheselt. Tõeline töökoormus on veebilehtede loomine, mis on otsingutulemuste loend. Kogu loendi iga leht tuleb järjestada indeksites oleva teabe järgi.

Sel juhul nõuab parima tulemuse element vastendatud märksõnade konteksti näitavate fragmentide otsimist, rekonstrueerimist ja märgistamist. See on vaid osa iga otsingutulemustes oleva veebilehe töötlemisest ja edasised lehed (kõrval) nõuavad suurema osa sellest hilisemast töötlemisest.

Lisaks lihtsalt märksõnade otsimisele pakuvad otsingumootorid tulemuste täpsustamiseks oma GUI- või käsupõhiseid operaatoreid ja otsinguparameetreid.

Need pakuvad kasutajale vajalikke juhtelemente tagasisideahela, filtreerimise ja kaalumise kaudu, täpsustades samal ajal otsitavaid andmeid esimeste otsingutulemuste alglehtede põhjal. Näiteks alates 2007. aastast on Google.com võimaldanud tulemuseks olevat loendit filtreerida kuupäeva järgi, klõpsates algse tulemuste lehe vasakpoolseimas veerus valikul "Kuva otsingutööriistad" ja valides seejärel soovitud kuupäevavahemiku.

Erinevad taotlused

Enamik otsingumootoreid toetab Boole'i ​​operaatorite AND, OR ja NOT kasutamist, et aidata lõppkasutajatel oma päringut täpsustada. Mõned operaatorid on loodud literaalide jaoks, mis võimaldavad kasutajal otsingutermineid täpsustada ja laiendada. Robot otsib sõnu või fraase samamoodi nagu sisestatud käske. Mõned otsingumootorid pakuvad täpsemat otsingufunktsiooni, mis võimaldab kasutajatel määrata märksõnade vahelise kauguse.

Samuti on olemas mõistepõhine otsing, mille puhul kasutatakse statistilist analüüsi lehtedel, mis sisaldavad otsitavaid sõnu või fraase. Lisaks võimaldavad loomuliku keele päringud kasutajal sisestada küsimuse samamoodi, nagu ta küsiks inimeselt (kõige tüüpilisem näide on ask.com).

Otsingumootori kasulikkus sõltub selle tagastatavate tulemuste komplekti asjakohasusest. Võib olla miljoneid veebilehti, mis sisaldavad konkreetset sõna või fraasi, kuid mõned võivad olla asjakohasemad, populaarsemad või autoriteetsemad kui teised. Enamik otsingumootoreid kasutab parimate tulemuste tagamiseks järjestamise meetodeid.

See, kuidas otsingumootor otsustab, millised lehed vastavad päringule kõige paremini ja millises järjekorras leitud allikaid kuvada, on robotite lõikes väga erinev. Need meetodid muutuvad aja jooksul ka Interneti kasutamise muutumise ja uute tehnoloogiate arenedes.

Mis on otsingumootor: sordid

Otsingumootoreid on kahte peamist tüüpi. Esimene on eelmääratletud ja hierarhiliselt järjestatud märksõnade süsteem, millega inimesed on selle massiliselt programmeerinud. Teine on süsteem, mis genereerib leitud tekste analüüsides "pööratud indeksi".

Enamik otsingumootoreid on kommertsteenused, mida toetavad reklaamitulud, ja seega võimaldavad mõned reklaamijatel tasu eest oma kuvatavates tulemustes järjestada. Teenused, mis ei võta järjestuse eest raha, teenivad raha, esitades kuvatavate saitide kõrval kontekstuaalseid reklaame. Tänapäeval on otsingumootorites reklaamimine Internetis üks tulusamaid sissetulekuid.

Millised teenused on levinumad?

Google on maailma populaarseim otsingumootor oma turuosaga 2017. aasta märtsi seisuga 80,52%.

  • Google – 80,52%
  • Bing – 6,92%
  • Baidu – 5,94%
  • Yahoo! - 5,35%

Otsingumootorid Venemaal ja Ida-Aasias

Venemaal ja mõnes Ida-Aasia riigis pole Google kõige populaarsem teenus. Venemaa kasutajate seas juhib Yandexi otsingumootor populaarsuselt (61,9%) võrreldes Google'iga (28,3%). Hiinas on Baidu kõige populaarsem teenus. Lõuna-Korea otsinguportaali Naver kasutatakse 70% protsendi ulatuses riigis toimuvatest veebiotsingutest. Samuti Yahoo! Jaapanis ja Taiwanis on see kõige populaarsem tööriist vajalike andmete leidmiseks.

Teised tuntud Venemaa otsingumootorid on Mail ja Rambler. Runeti väljatöötamise alguses nautisid nad laialdast populaarsust, kuid nüüd on nad oma positsiooni oluliselt kaotanud.

Otsingupiirangud ja -kriteeriumid

Kuigi otsingumootorid on programmeeritud järjestama veebisaite nende populaarsuse ja asjakohasuse põhjal, osutavad empiirilised uuringud nende pakutava teabe valimisel erinevatele poliitilistele, majanduslikele ja sotsiaalsetele kriteeriumidele. Need eelarvamused võivad tuleneda majanduslikest (näiteks otsingumootorit reklaamivad ettevõtted võivad muutuda populaarsemaks ka orgaanilistes otsingutulemustes) ja poliitilistest protsessidest (näiteks otsingutulemuste eemaldamine kohalike seaduste tõttu). Näiteks ei kuva Google mõnda neonatslikku saiti Prantsusmaal ja Saksamaal, kus holokausti eitamine on ebaseaduslik.

Kristlikud, islami- ja juudi otsingumootorid

Interneti ja elektroonilise meedia ülemaailmne kasv moslemimaailmas viimase kümnendi jooksul on ajendanud islamiusulisi Lähis-Idas ja Aasia subkontinendis proovima luua oma otsingumootoreid ja filtreeritud portaale, mis võimaldaksid kasutajatel teha turvalisi otsinguid.

Sellised teenused sisaldavad filtreid, mis klassifitseerivad veebisaidid veelgi "halal" või "haram", mis põhineb "islami seaduse" kaasaegsel eksperttõlgendusel.

ImHalali portaal ilmus veebis 2011. aasta septembris ja Halalgoogling 2013. aasta juulis. Nad kasutavad Google'i ja Bingi algoritmidel põhinevaid harami filtreid.

Teiste usulise suunitlusega otsingumootorite hulka kuuluvad Jewgle (Google'i juudi versioon) ja kristlikel põhinev SeekFind.org. Nad filtreerivad välja saidid, mis salgavad või alandavad nende usku.

Otsingusüsteem on terve tarkvara- ja riistvarakompleks, millel on kasutajaliides, mis võimaldab otsida infot kasutaja päringu alusel. Tavaliselt mõistetakse PS-i all funktsionaalset veebisaiti, mis on loodud nii, et iga kasutaja leiab Internetist teda huvitava teabe. Protsess ise on üsna lihtne ja hõlmab märksõna või fraasi sisestamist otsinguväljale ("string") ja seejärel nupu "Otsi" klõpsamist. Vastuseks pakub süsteem linkide loendi nendele ressursilehtedele, mis vastavad sellele päringule kõige paremini.

Tänapäeval on erinevaid otsingumootorite tüübid:

  • globaalne - võimaldavad otsida teavet kogu Internetist;
  • kohalik - võimaldab teil otsida kohalikus võrgus või üksikutel saitidel.

Lisaks klassifitseeritakse globaalsed süsteemid tavaliselt järgmisteks osadeks:

  • spetsialiseerunud - esitage teave, mis vastab mitmele konkreetsele parameetrile. Need võimaldavad teil otsida faile serveritest, virtuaalpoodidest jne;
  • universaalne - võimaldab otsida laia valikut sisu, st mitte ainult teksti, vaid ka pilte, heli- ja videofaile. Sel juhul tehakse otsing kõigil veebisaitidel, mis on esindatud veebis. Google PS-i peetakse selles valdkonnas teenitult liidriks;
  • temaatiline – mõeldud teatud kogukondadele huvitava teabe otsimiseks. See määratlus võib kehtida nii professionaalsete kui ka erinevate usuliikumiste kohta.

Millest otsingumootor koosneb?

Tähelepanu väärib järgmine. Kuigi otsingumootoreid on erinevat tüüpi, töötavad need kõik samal põhimõttel. Need põhinevad programmide komplektil, mida nimetatakse "otsingumootoriks" või "mootoriks". Nad koguvad selle jaoks andmeid otsi roboteid, mida nimetatakse ka "ämblikeks". Nende ülesanne on skaneerida Internetti linkide abil ja sisestada tuvastatud lehed registrifaili. Viimast nimetatakse PS-indeksiks.

Teine otsingusüsteemi element sisaldab moodulit, mis on loodud kasutaja päringute töötlemiseks. Tema on see, kes otsib registrist märksõnu ja fraase. See tähendab, et päringut ennast töödeldakse juba koostatud indeksis ja see ei vasta alati täielikult Internetis esitatud teabele.

Peamised tarnekvaliteedi omadused hõlmavad järgmist:

  • otsingutulemuste asjakohasus, st kui täpselt need vastavad päringule;
  • võttes arvesse selle keele morfoloogiat ja iseärasusi, milles taotlus esitati;
  • indeksi täielikkus, mida võib piirata otsinguroti kasutatav algoritm.

Kasutaja näeb ainult väikest osa otsingumootorist, mis on liidesega ressurss. Tänu sellele loob kasutaja otsingumootorisse päringuid ja see annab talle vastuseks tulemusi.

Teema 3.1.1 Internetist teabe otsimine

Internet kasvab väga kiiresti, mistõttu on sadade miljardite veebilehtede ja sadade miljonite failide hulgast vajaliku teabe leidmine üha keerulisem. Teabe otsimiseks kasutatakse spetsiaalseid otsingumootoreid, mis sisaldavad pidevalt uuendatavat teavet sadade miljonite Interneti-serverite veebilehtede ja failide asukoha kohta.

Infot otsides on vaja vastata kolmele küsimusele: mida otsida ehk milliseid infoallikaid, kust otsida (nende allikate asukohad) ja kuidas otsida (milliseid vahendeid selleks kasutada).

Millised on peamised Internetis saadaolevad teabeallikad? Need on WWW dokumendid, artiklid uudistegruppides ja meililistides, failid failikogudes, organisatsioonide ja inimeste aadressiinfo kataloogid (e-post, aadress, telefon), artiklid temaatilistes andmebaasides, entsüklopeediad.

Kus need teabeallikad asuvad? Need on sellised populaarsed Interneti-ressursid nagu WWW, uudisterühmad, meililistid ja FTP-serverid.

Loomulikult saate otsida vajalikke teabeallikaid käsitsi, otsida aadresse arvutiteaduse ja Interneti erialaajakirjadest ning kasutada spetsiaalseid paberkatalooge, mille aadressid on liigitatud kategooriatesse.

Sellise muutuva ruumi jaoks nagu Internet on aga vaja õppida kasutama spetsiaalseid tööriistu, mille eesmärk on koguda andmeid inforessursside kohta ja pakkuda kasutajatele kiirotsinguteenust.

IRS (teabeotsingusüsteem) on süsteem, mis pakub otsingut ja vajalike andmete valikut spetsiaalses andmebaasis koos teabeallikate kirjeldustega (indeks), mis põhinevad teabeotsingu keeles ja vastavatele otsingureeglitele.

Iga infosüsteemi põhiülesanne on otsida kasutaja infovajadustele vastavat teavet. Väga oluline on otsingu tulemusel mitte midagi kaotada, st leida üles kõik päringuga seotud dokumendid ja mitte leida midagi üleliigset. Seetõttu tuuakse sisse otsinguprotseduuri kvalitatiivne tunnus – asjakohasus.

Asjakohasus on otsingutulemuste vastavus sõnastatud päringule.

Interneti-otsinguserverid võib jagada kahte rühma:

– üldotstarbelised otsingumootorid;

– spetsiaalsed otsingumootorid.

Üldotstarbelised otsingumootorid

Üldotstarbeline otsingumootori liides sisaldab otsinguvälja ja kataloogiosade loendit. Eristatakse järgmisi WWW otsingutööriistu: kataloogid, otsingumootorid, metaotsingumootorid.


Kataloog

Kataloog– otsingusüsteem teemade kaupa liigitatud märkuste loendiga koos linkidega veebiressurssidele. Klassifikatsiooni teevad tavaliselt inimesed.


Kataloogist otsimine on väga mugav ja toimub järjestikuste teemade täpsustamise teel. Kataloogid toetavad aga võimalust otsida kohalikku otsingumootorit kasutades märksõnade abil kiiresti kindlat kategooriat või lehte. Kataloogi linkide andmebaas (indeks) on tavaliselt piiratud mahuga ja seda täidavad kataloogitöötajad käsitsi. Mõned kataloogid kasutavad automaatset indeksi värskendamist.

Otsingutulemused kataloogis esitatakse loeteluna, mis koosneb dokumentide lühikirjeldusest (annotatsioonist) koos hüperteksti lingiga allikale.

Populaarsed kataloogi aadressid:

1 Välismaised kataloogid:

a) Yahoo – www.yahoo.com;

b) Look Smart – www.looksmart.com;

c) Magellan – www.mckinley.com;

d) eiNET – www.einet.net.

2 venekeelset kataloogi:

a) Aport (Constellation Internet) – www.aport.ru;

b) AU – www.au.ru;

c) Veebiloend – www.weblist.ru;

d) Tigu – www.ulitka.ru.

Otsingumootori andmebaasis on veebisaidid rühmitatud hierarhilistesse teemakataloogidesse, mis on analoogsed teegi teemakataloogiga.

Tipptasemel temaatilised jaotised, näiteks Internet, Arvutid, Teadus ja Haridus jne, sisaldavad alamkatalooge. Näiteks võib Interneti-kataloog sisaldada alamkatalooge Search, Mail ja muud.

Teabe otsimine kataloogist taandub konkreetse kataloogi valimisega, misjärel kuvatakse kasutajale loend enim külastatud ja informatiivsemate veebisaitide Interneti-aadresside linkidest. Igale lingile on tavaliselt lisatud märkused, st see sisaldab lühikest kommentaari dokumendi sisu kohta.

Kõige täielikum venekeelsete Interneti-ressursside mitmetasandiline hierarhiline temaatiline kataloog on saadaval otsingusüsteemis Aport (www.aport.ru). Kataloog sisaldab üksikasjalikku kokkuvõtet veebisaitide sisust ja nende geograafilist asukohta.

Otsingumootor

Otsingumootor– otsingusüsteem robotite loodud andmebaasiga, mis sisaldab teavet inforessursside kohta.

Otsingumootorite eripäraks on asjaolu, et andmebaasi, mis sisaldab teavet veebilehtede, Useneti artiklite ja muu kohta, genereerib robotprogramm.

Sellises süsteemis tehakse otsing vastavalt kasutaja koostatud päringule, mis koosneb märksõnade komplektist või jutumärkides olevast fraasist. Indeksi genereerivad ja seda ajakohasena hoiavad indekseerivad robotid. Näiteks Interneti-otsingumootorite endi otsimiseks võite sisestada otsinguväljale märksõnad "Vene Interneti teabeotsingu süsteem".

Mõni aeg pärast päringu saatmist tagastab otsingumootor nende dokumentide Interneti-aadresside loendi, millest määratud märksõnad leiti. Dokumendi kirjeldus sisaldab enamasti esimesi lauseid või väljavõtteid dokumendi tekstist koos märksõnadega. Reeglina on märgitud dokumendi uuendamise (kontrollimise) kuupäev, selle suurus kilobaitides, mõned süsteemid määravad dokumendi keele ja kodeeringu (venekeelsete dokumentide puhul).

Selle dokumendi vaatamiseks brauseris lihtsalt aktiveerige sellele viitav link.

Kui märksõnad on valesti valitud, võib dokumendi aadresside loend olla liiga suur (võib sisaldada kümneid või isegi sadu tuhandeid linke). Nimekirja vähendamiseks võite sisestada otsinguväljale täiendavaid märksõnu või kasutada otsingumootori kataloogi.

Paljud otsingumootorid võimaldavad otsida leitud dokumente ja saate oma päringut täpsustada lisaterminite sisestamisega. Kui süsteemi intelligentsus on kõrge, võidakse teile pakkuda sarnaste dokumentide otsimise teenust. Selleks valite dokumendi, mis teile eriti meeldib, ja suunate selle süsteemi eeskujuks, mida järgida. Kuid sageli see funktsioon ei tööta ootuspäraselt. Mõned otsingumootorid võimaldavad teil tulemusi ümber sorteerida. Aja säästmiseks saate salvestada otsingutulemused failina kohalikule draivile, et seda hiljem võrguühenduseta uurida.

Kõige populaarsemate otsingumootorite aadressid välismaal ja Venemaal:

1 Välismaised otsingumootorid:

a) Google – www.google.com;

b) Alta Vista – www.altavista.com;

c) Excite – www.excite.com;

d) HotBot – www.hotbot.com;

e) Northern Light – www.northernlight.com;

f) Mine (Infoseek) – www.go.com (infoseek.com);

g) Lycos – www.lycos.com;

h) Kiire – www.alltheweb.com.

2 venekeelset otsingumootorit:

a) Yandex – www.yandex.ru (või www.ya.ru);

b) Rambler – www.rambler.ru;

c) Aport – www.aport.ru.

Üks täiuslikumaid ja võimsamaid otsingumootoreid on Google (www.google.ru), mille andmebaas sisaldab 8 miljardit veebilehte ja iga kuu lisavad robotprogrammid sellele 5 miljonit uut lehekülge. Runetis (Interneti Venemaa osa) on ulatuslikel andmebaasidel, mis sisaldavad igaüks 200 miljonit dokumenti, otsingumootorid Yandex (www.yandex.ru) ja Rambler (www.rambler.ru).

Metaotsingu mootor

Pange tähele, et erinevad otsingumootorid kirjeldavad Internetis erinevat arvu teabeallikaid. Seetõttu ei saa te oma otsingut piirata ainult ühe määratud otsingumootoriga. Nüüd tutvume otsingutööriistadega, mis ei loo oma indeksit, kuid saavad kasutada teiste otsingumootorite võimalusi. Need on metaotsingumootorid (otsinguteenused) - süsteemid, mis suudavad saata kasutaja päringuid korraga mitmele otsinguserverile, seejärel kombineerida tulemusi ja esitada need kasutajale linkidega dokumendi kujul.

Metaotsingumootoritel pole oma andmebaasi. Need on programmid, mis võtavad vastu kasutaja päringu, töötlevad seda tehisintellekti algoritme kasutades ja seejärel otsingumootorid. See tähendab, et nad on otsingumootorite otsingumootorid. Nende süsteemide eeliseks on nende võime sünteesida otsingu eesmärki, mitte lihtsalt otsida verbaalse päringu järgi. Sellise otsingu tulemused on kasutajale selged ja vastavad kõige rohkem sellele, mida ta otsib. Metasearch saidid pakuvad tohutul hulgal valikuid, mille eesmärk on olla kasulik igale kasutajale. On erinevaid metaotsingumootorite versioone, mis otsivad pidevalt Internetis teie otsingukriteeriumitele vastavat teavet.

Kui süsteem leiab uut teavet, annab see teile märku või laadib selle automaatselt alla. Kui soovite leida saite, mis on pühendatud üldistele probleemidele, reisimisele jne, võimaldavad metaotsingumootorid teil vajalikule teabele kiiresti juurde pääseda. Samuti pakuvad nad otsest juurdepääsu spetsiifilist teavet sisaldavatele saitidele, nagu telefonikataloogid, reisijuhid ja valitsuse saidid. Metaotsingumootoritel on tavaliselt pisut pikem tööaeg, kuna nad teevad päringuid teistest otsingumootoritest. Nende poole on mõttekas pöörduda siis, kui tavapärased otsingumootorid pole tulemusi andnud.

Tuntud metaotsingumootorite aadressid:

– MetaCrawler – www.metacrawler.com;

– SavvySearch – www.savvysearch.com

21.11.2017

Ükskõik, mis küsimus tänapäeva inimest muretseb, ei otsi ta vastuseid raamatutest. Ta otsib neid Internetist. Lisaks ei pea te teadma selle saidi aadressi, kus vajalik teave asub. Selliseid saite on miljoneid ja otsingumootor aitab teil leida õige.

Meie kodumaise Interneti avaruses on kaks kõige populaarsemat otsingumootorit Google ja Yandex.

Kas olete kunagi mõelnud, kuidas otsingumootor töötab? Kuidas ta mõistab, millist saiti näidata, millisel miljonitest ressurssidest on teie päringule kindlasti vastus?

Mis on otsingumootor?

Otsingumootor on tohutu veebidokumentide andmebaas, mida pidevalt uuendatakse ja täiendatakse. Igal otsingumootoril on otsinguämblikud; robotid on spetsiaalsed robotid, mis roomavad saitidel, indekseerivad neile postitatud sisu ja järjestavad need seejärel nende kvaliteedi ja asjakohasuse järgi kasutajate otsingupäringute jaoks.

Otsingumootorid töötavad nii, et igaüks võib leida mis tahes teavet. Seetõttu püüavad nad kõigepealt näidata neid veebidokumente, mis sisaldavad kõige üksikasjalikumat vastust inimese küsimusele.

Otsingumootor on oma olemuselt saitide kataloog, kataloog, mille põhiülesanne on otsida teavet just sellest kataloogist.

Nagu ma eespool kirjutasin, on meil kaks populaarset süsteemi - Google (globaalne) ja Yandex (venekeelne segment). Kuid on ka selliseid süsteeme nagu Rambler, Yahoo, Bing, Mail.Ru jt. Toimimispõhimõte on neil kõigil sarnane, erinevad ainult järjestamise algoritmid (ja ka siis mitte väga oluliselt).

Kuidas Interneti otsingumootor töötab?

Otsingumootorite tööpõhimõte on väga keeruline, kuid ma püüan seda selgitada lihtsate sõnadega.

Otsingurobot (ämblik) roomab saidi lehtedel, laadib alla nende sisu ja ekstraheerib linke. Järgmisena alustab oma tööd indekseerija - see on programm, mis analüüsib kõiki ämblike alla laaditud materjale, tuginedes oma algoritmidele.

Seega luuakse otsingumootori andmebaas, kuhu salvestatakse kõik algoritmi poolt töödeldud dokumendid.

Otsingupäringuga töötamine toimub järgmiselt:

  • analüüsitakse kasutaja sisestatud päringut;
  • analüüsi tulemused kantakse üle spetsiaalsesse järjestamise moodulisse;
  • töödeldakse kõigi dokumentide andmeid, valitakse sisestatud päringu jaoks kõige asjakohasemad;
  • genereeritakse jupp - pealkiri, kirjeldus, päringu sõnad on paksus kirjas esile tõstetud;
  • otsingutulemused esitatakse kasutajale SERP-i (tulemuste lehe) kujul.

Kuidas otsingumootorid töötavad

Iga otsingumootori põhiülesanne on pakkuda kasutajale tema päringu kohta kõige kasulikumat ja täpsemat teavet. Seetõttu indekseerib otsingurobot saitidel pidevalt. Kohe pärast käivitamist tuleb ämblik teatud ajakava järgi teile külla, indekseerib mitmeid lehti, misjärel need indekseeritakse.

Otsingumootorite tööpõhimõte põhineb kahel põhietapil:

  • lehtede roomamine, mille kaudu andmeid kogutakse;
  • indeksi määramine, tänu millele saab süsteem kiiresti otsida antud lehe sisust.

Kui saidi leht on indekseeritud, kuvatakse see juba konkreetse otsingupäringu otsingutulemustes. Veebihalduri tööriistade abil saate kontrollida, kas otsingumootori registrisse on lisatud uus leht. Näiteks Yandex.Webmasteris on kohe näha, millised lehed ja millal indekseeriti ning millised lehed indeksist välja langesid ja mis põhjusel.

Kuid millisele lehele see jõuab, sõltub indekseerimise astmest ja selle sisu kvaliteedist. Kui teie leht annab päringule kõige täpsema vastuse, on see kõrgem kui kõik teised.

Veebilehe järjestuse põhimõtted otsingumootorites

Saime aru, mis põhimõttel otsingurobotid töötavad. Aga kuidas saidid järjestatakse?

Edetabel põhineb kahel põhisambal – lehe tekstisisu ja tekstivälised tegurid.

Teksti sisu– see on lehe kontekst. Mida täielikum see on, seda täpsem, seda asjakohasem on päring, seda kõrgemal on leht otsingutulemustes. Lisaks tekstile endale pöörab otsingumootor tähelepanu pealkirja (lehe pealkiri), kirjelduse (lehe kirjelduse), H1 (teksti pealkiri) siltide täitmisele.

Tekstivälised tegurid Need on sisemised ja välised lingid. Asi on selles, et kui sait on huvitav ja kasulik, viitavad sellele muud temaatilised ressursid. Ja mida rohkem selliseid linke, seda autoriteetsem on ressurss.

Kuid need on kõige põhilisemad põhimõtted, väga lühidalt. Süveneme veidi sügavamale.

Põhilineveebisaidi järjestuse tegurid

Veebisaidi asetust mõjutavad mitmed tegurid. Peamised neist on:

1. Bveebisaidi sisemised reitingutegurid

See on saidil olev tekst ja selle kujundus - alampealkirjad, mis tõstavad esile teksti olulised punktid. Siin kehtib ka sisemise linkimise kasutamine. Olulised on ka visuaalsed elemendid: piltide, fotode, videote, graafikute kasutamine. Oluline on ka teksti enda kvaliteet, selle sisu.

2. Välised veebisaidi järjestuse tegurid mis määravad selle populaarsuse. Need on samad välised lingid, mis viivad teie saidile muudest ressurssidest. Määratakse mitte ainult nende saitide arv, vaid ka nende kvaliteet (soovitav on, et saitidel oleks teie omaga sarnane teema), samuti lingiprofiili üldine kvaliteet (kui kiiresti need lingid ilmusid, kas loomulikult või ostude kaudu vahetus).

Ülaltoodu põhjal võib teha ühe järelduse: otsingumootorid püüavad töötada nii, et näidata kasutajale neid saite, mis annavad tema päringule kõige täielikuma vastuse ja on juba pälvinud teatud volitused. Sel juhul võetakse arvesse mitmesuguseid tegureid: saidi sisu, selle sätted ja kasutajate suhtumine sellesse. Igas mõttes hea veebisait saavutab otsingutulemustes kindlasti kõrge koha.