Mitä hakukone sisältää? Miten hakukone toimii? Hakukoneiden komponentit

Hakujärjestelmä- ohjelmisto- ja laitteistokompleksi, jossa on verkkokäyttöliittymä, joka tarjoaa mahdollisuuden etsiä tietoa Internetistä.

Kaikkia hakukoneita yhdistää se, että ne sijaitsevat erityisesti omistetuilla tehokkailla palvelimilla ja on sidottu tehokkaisiin viestintäkanaviin. Hakukoneita kutsutaan myös tiedonhakujärjestelmiksi (IRS). Suosituimpien järjestelmien yhtäaikaisesti palveltujen vierailijoiden määrä yltää useisiin tuhansiin. Tunnetuimmat palvelevat miljoonia asiakkaita päivässä. Tapauksissa, joissa hakukone perustuu hakemistoon, sitä kutsutaan hakemistoksi. Se perustuu moderaattorien työhön. Verohallinnon perustana kokotekstihaulla on automaattinen tiedonkeruu. Se suoritetaan erityisohjelmilla. Nämä ohjelmat tutkivat säännöllisesti kaikkien Internet-resurssien sisältöä. Tätä varten he liikkuvat tai kuten sanotaan, ryömivät eri resurssien läpi. Vastaavasti tällaisia ​​ohjelmia kutsutaan roboteiksi. On muitakin nimiä: koska WWW on lyhenne ilmaisusta World Wide Web, on luonnollista kutsua tällaista ohjelmaa englanniksi hämähäkki. - hämähäkki. Viime aikoina on käytetty muita nimiä: automaattiset indeksit tai hakemistot. Kaikki nämä ohjelmat tutkivat ja "lataavat" tietoa eri URL-osoitteista. Tämän tyyppiset ohjelmat vierailevat jokaisessa resurssissa tietyn ajan kuluttua. Mikään hakukone ei voi indeksoida koko Internetiä. Siksi tietokannat, joihin indeksoitujen resurssien osoitteet kerätään, ovat erilaisia ​​​​eri hakukoneille. Monet heistä pyrkivät kuitenkin mahdollisuuksien mukaan kattamaan työssään koko World Wide Webin tilan.

Etsiäkseen tietoa hakukoneen avulla käyttäjä muotoilee hakukyselyn. Hakukone luo hakutulossivun käyttäjän pyynnöstä. Tällaisissa hakutuloksissa voidaan yhdistää erityyppisiä tiedostoja, esimerkiksi web-sivuja, kuvia, videotiedostoja. Jotkut hakukoneet myös hakevat tietoja Internetin tietokannoista ja resurssihakemistoista.

Haku- ja palvelumenetelmien perusteella hakukoneita on neljää tyyppiä:

1. hakurobotteja käyttävät järjestelmät.

2. ihmisen ohjaamat järjestelmät

3.hybridijärjestelmät

4.metajärjestelmät.

Hakujärjestelmän arkkitehtuuri sisältää: hakurobotin, joka skannaa Internet-sivustoja, indeksoijan, joka tarjoaa nopean haun, ja hakukoneen - graafisen käyttöliittymän käyttäjälle.

Hakukoneen tarkoituksena on löytää asiakirjoja, jotka sisältävät joko avainsanoja tai jollain tavalla avainsanoihin liittyviä sanoja. Hakukone on sitä parempi, mitä enemmän se palauttaa asiakirjoja, jotka liittyvät käyttäjän kyselyyn.

Esimerkkejä hakukoneista

Google- yksi täydellisimmistä ja suosituimmista ulkomaisista IPS:istä. Googlen IRS:n erottuva piirre on tekniikka, jolla määritetään asiakirjan osuvuus analysoimalla linkit muista lähteistä tiettyyn resurssiin. Mitä enemmän linkkejä sivulle on muilla sivuilla, sitä korkeampi on sen sijoitus Googlen verohallinnossa. Google käyttää algoritmia PageRank-arvon laskemiseen. PageRank on yksi aputekijöistä sijoitettaessa sivustoja hakutuloksissa. PageRank ei ole ainoa, mutta erittäin tärkeä tapa määrittää sivuston sijainti Googlen hakutuloksissa. Google käyttää kyselyllä löydettyjen sivujen PageRank-indikaattoria määrittääkseen, missä järjestyksessä nämä sivut esitetään kävijälle hakutuloksissa.Vuonna 2010 yhtiö käynnisti puhehaun Venäjällä. Hakua varten sinun on painettava puhelimesi hakurivin vieressä olevaa painiketta ja sanottava kyselysi, puhelin lähettää äänesi palvelimelle ja selain näyttää rivin, jossa kyselysi tunnistetaan ja sen hakutulokset.

Yandex on tällä hetkellä suosituin kotimainen hakukone. Aloitti toimintansa vuonna 1997. Se ylläpitää omaa luetteloa Internet-resursseista. Myös paras hakukone kuvien tunnistamiseen. Englanninkielinen versio on varustettu Internet-resurssien hakemistolla. Siinä on laaja pyyntöjen generointijärjestelmä. Erityisesti on sallittua kirjoittaa hakuohjeet luonnollisella kielellä - tässä tapauksessa kaikki tarvittavat laajennukset tehdään automaattisesti.

HTML-muodossa olevien verkkosivujen lisäksi Yandex indeksoi asiakirjat PDF-muodossa (Adobe Acrobat), Rich Text Format (RTF), Word (.doc), Excel (.xls), PowerPoint (.ppt), RSS (blogit ja keskustelupalstat) .

Mail.ru hakukone aloitti työnsä vuonna 2007. Hakemistotiedoston volyymi keväällä 2009 oli yli 1,5 miljardia sivua, jotka sijaitsevat venäjänkielisillä palvelimilla. Tekstien etsimisen lisäksi järjestelmä etsii piirroksia ja videoleikkeitä, jotka on lähetetty erikoistuneille "itsepopuloituville" venäläisille palvelimille: [email protected], Flamber.Ru, 35Photo.ru, PhotoForum.ru, [email protected], RuTube, Loadup, Rambler Vision ja vastaavat. Gogo.ru:n avulla voit rajoittaa haun kaupallisiin sivustoihin, tietosivustoihin sekä foorumeihin ja blogeihin. Tarkennettu haku -lomakkeella voit myös rajoittaa haut tiettyihin tiedostotyyppeihin (PDF, DOC, XLS, PPT), hakusanojen sijaintiin asiakirjassa tai tiettyyn verkkotunnukseen. Marraskuussa 2013 Google Playssa ilmestyi uusi versio Mail.Ru-hakusovelluksesta, jonka avulla voit siirtyä päänäytöstä mihin tahansa sosiaaliseen verkkoon ja joka sisältää nopean pääsyn kuvien, videoiden ja uutisten etsimiseen. Android-sovellus on muuttunut miniselaimeksi, joka on suunniteltu etsimään tehokkaasti tarvittavia tietoja. Apuohjelma on myös oppinut tunnistamaan hakukyselyt, jotka on määritetty ei tekstin, vaan äänen perusteella. Kehittäjät huomauttavat myös, että he ovat luoneet erityisen widgetin, joka voidaan sijoittaa Google Android -järjestelmään perustuvan älypuhelimen tai tabletin aloitusnäytölle. On selvää, että tämä vähentää entisestään etsimiseen käytettyä aikaa.

AltaVista– yksi vanhimmista hakukoneista on ykkössijalla asiakirjojen määrässä – yli 350 miljoonaa. AltaVista mahdollistaa yksinkertaiset ja tarkennetut haut. "Ohje" antaa jopa kouluttamattomille käyttäjille mahdollisuuden laatia oikein yksinkertaisia ​​ja monimutkaisia ​​kyselyitä.

Rambler– yksi ensimmäisistä venäläisistä tiedonhakujärjestelmistä, avattiin vuonna 1996. Vuoden 2002 lopussa suoritettiin radikaali modernisointi, jonka jälkeen Rambler tuli jälleen verkkohaun johtajien ryhmään. Tällä hetkellä hakemiston määrä on noin 150 miljoonaa asiakirjaa. Monimutkaisten kyselyiden laatimiseen on suositeltavaa käyttää "Yksityiskohtainen kysely" -tilaa, joka tarjoaa runsaasti mahdollisuuksia hakuohjeiden laatimiseen valikkokohtien avulla.

APORT. Nykyään sen tietokanta sisältää yli 20 miljoonaa asiakirjaa. Järjestelmässä on laaja valikoima hakutoimintoja. APORTissa on sisäänrakennettu kääntäjätoiminto, joka antaa käyttäjälle mahdollisuuden muotoilla kyselyitä sekä venäjäksi että englanniksi. Lisäksi APORTissa on erikoistilat kuvien ja äänitiedostojen etsimiseen.

Uusimman sukupolven hakukoneet indeksoivat kaikki verkkosivun tai konferenssiartikkelin sanat, kun taas aiemmin indeksointi rajoittui yleensä asiakirjan otsikkoon, otsikoihin, muutamaan ensimmäiseen riviin ja osoitteeseen. Tämä rajoitti merkittävästi kykyä tunnistaa materiaalia kapeasta aiheesta, koska hakutulokset eivät aina vastanneet todellista tietoa. Tämän puutteen poistamisen myötä nykyaikaisista hakukoneista on tullut paljon luotettavampia kuin edeltäjänsä.

Seuraavaksi tärkein piirre on sisäisen hakumekanismin parantaminen, joka ilmaistaan ​​operaattoreiden ja muiden kyselyn rakentamisen elementtien määrän kasvuna. Muutama vuosi sitten käytettiin vain kahta, tai parhaimmillaan kolmea klassista Boolen operaattoria: AND (ja), OR (tai) ja NOT (ei). Nyt Alta Vistassa on NEAR ja OpenTextissä FOLLOWED - erittäin hyödyllisiä etäisyysoperaattoreita, joiden avulla voit tehdä kyselystäsi mahdollisimman tarkan. Monissa järjestelmissä voit lyhentää termien päätteitä, rajoittaa hakua asiakirjan luomispäivämäärän mukaan, etsiä avainsanoja vain tietyistä verkkosivujen elementeistä (otsikko, otsikot, sähköpostiosoite jne.) sekä etsiä tarkka lause. Uusimman kehityksen avulla voit myös havaita tietyn tyyppiset tiedostot (esimerkiksi grafiikka tai ääni) ja ne ovat herkkiä pienille ja isoille kirjaimille. Mahdollisuus etsiä tietoja millä tahansa kielellä on yleistymässä. Kaikki tämä mahdollistaa hakureseptin luomisen suurella tarkkuudella, mikä tietysti lisää saatujen tulosten relevanssia.

Tällä hetkellä suosituimmat hakukoneet ovat Google ja Yandex, verrataan niitä:

    Indeksoitujen sivujen määrä. Googlella on 8 miljardia ja Yandexilla vain 2 miljardia. Eli neljä kertaa vähemmän. Voitto Googlelle.

    Sivun indeksointinopeus. Google indeksoi uudet sivut 24 tunnin sisällä, kun taas Yandex voi kestää useita päiviä. Google voittaa taas.

    Ongelman relevanssi. Relevanssi viittaa hakukonesivulla näkyvien tulosten vastaavuuteen kyselyäsi. Sanon heti, että tässä on vaikea määrittää voittaja. Google osoitti hyviä tuloksia Internetin ulkomaisessa segmentissä, mutta Runetissa Yandex oli aina hieman edellä.

    Internet-lisäpalvelut. Tässä etu kuuluu selvästi Yandexille. Siinä on kymmeniä erilaisia ​​palveluita, jotka on ryhmitelty kätevästi luokkiin, kun taas Googlella on niitä vähemmän, ja lisäksi siellä on integraatio Google+ -sosiaaliseen verkostoon, josta monet eivät pidä.

Viime vuosina Googlen ja Yandexin palveluista on tullut osa elämäämme. Tässä suhteessa monet luultavasti ihmettelevät, mikä hakukone on? Yksinkertaisesti sanottuna se on ohjelmistojärjestelmä, joka on suunniteltu etsimään tietoa World Wide Webistä. Sen tulokset esitetään yleensä luettelomuodossa, jota usein kutsutaan hakukonetulossivuiksi (SERP). Tiedot voivat olla yhdistelmä web-sivuja, kuvia ja muita tiedostotyyppejä. Jotkut hakukoneet sisältävät myös tietokannoista tai julkisista hakemistoista saatavilla olevia tietoja.

Toisin kuin verkkohakemistot, joita vain omat editorit tukevat, hakukoneet sisältävät myös reaaliaikaista tietoa suorittamalla algoritmin Web-indeksointirobotissa.

Alkuperähistoria

Hakukoneet itse ilmestyivät aiemmin kuin World Wide Web - joulukuussa 1990. Ensimmäinen tällainen palvelu oli nimeltään Archie, ja se haki FTP-tiedostojen sisältöä komentojen avulla.

Mikä on Internet-hakukone? Syyskuuhun 1993 asti World Wide Web indeksoitiin kokonaan manuaalisesti. Tim Berners-Leen editoima luettelo web-palvelimista oli CERN-verkkopalvelimella. Kun yhä useammat palvelimet siirtyivät verkkoon, yllä oleva palvelu ei pystynyt käsittelemään tällaista tietomäärää.

Yksi ensimmäisistä verkkohakuihin perustuvista hakukoneista oli WebCrawler, joka julkaistiin vuonna 1994. Toisin kuin edeltäjänsä, sen avulla käyttäjät voivat etsiä mitä tahansa sanaa miltä tahansa verkkosivulta. Tästä algoritmista on sittemmin tullut standardi kaikille suurille hakukoneille. Se oli myös ensimmäinen laajasti yleisön tiedossa oleva päätös. Myös vuonna 1994 lanseerattiin Lycos-palvelu, josta tuli myöhemmin suuri kaupallinen projekti.

Pian sen jälkeen ilmestyi monia hakukoneita ja niiden suosio kasvoi merkittävästi. Näitä ovat Magellan, Excite, Infoseek, Inktomi, Northern Light ja AltaVista. Yahoo! oli yksi suosituimmista tavoista löytää kiinnostavia verkkosivuja, mutta sen hakualgoritmi toimi omassa verkkohakemistossaan sivujen kokotekstikopioiden sijaan. Tiedonhakijat voivat myös selata hakemistoa avainsanahaun sijaan.

Uusi kehityskierros

Google omaksui idean myydä hakukyselyitä vuonna 1998 alkaen pienestä yrityksestä nimeltä goto.com. Tällä siirrolla oli merkittävä vaikutus SEO-liiketoimintaan, josta tuli ajan myötä yksi Internetin kannattavimmista toiminnoista.

Noin 2000 Googlen hakukone tuli laajalti tunnetuksi. Yritys on saavuttanut parempia tuloksia useissa hauissa PageRank-nimisen innovaation avulla. Tämä iteratiivinen algoritmi luokittelee verkkosivut niiden yhteyksien perusteella muihin sivustoihin ja sivuihin, sillä oletuksella, että muut mainitsevat usein hyvät tai toivottavat lähteet. Google ylläpitää myös minimalistista käyttöliittymää hakukoneelleen. Päinvastoin, monet kilpailijat ovat rakentaneet hakukoneen verkkoportaaliin. Itse asiassa Googlesta on tullut niin suosittu, että Mystery Seekerin kaltaisia ​​huijausmoottoreita on syntynyt. Nykyään tästä palvelusta on monia alueellisia versioita, erityisesti Google.ru-hakukone, joka on suunniteltu venäjänkielisille käyttäjille.

Miten nämä palvelut toimivat?

Miten sijoitukset ja tulokset näytetään? Mitä hakukoneet ovat toiminta-algoritmin näkökulmasta? He saavat tietoa Web-indeksoinnin kautta sivustolta toiselle. Robotti tai hämähäkki tarkistaa sille osoitetun tavallisen robots.txt-tiedostonimen ennen kuin lähettää tietyt tiedot indeksoitavaksi. Se keskittyy moniin tekijöihin, kuten otsikoihin, sivun sisältöön, JavaScriptiin, CSS-tyylisivuihin (CSS) ja HTML-sisällönkuvauskenttien tavanomaiseen HTML-merkintään tai metatietoihin.

Indeksointi tarkoittaa verkkosivuilta löytyvien sanojen ja muiden tunnistettavien tunnuksien yhdistämistä niiden verkkotunnusten nimiin ja HTML-pohjaisiin kenttiin. Yhteydet luodaan julkisesti saatavilla olevaan tietokantaan, joka on käytettävissä verkkohakukyselyille. Käyttäjän pyyntö voi olla yksi sana. Hakemisto auttaa sinua löytämään kyselyyn liittyvät tiedot mahdollisimman nopeasti.

Jotkut indeksointi- ja välimuistitekniikat ovat liikesalaisuuksia, kun taas verkkoindeksointi on yksinkertainen prosessi, jossa käydään kaikilla verkkosivustoilla järjestelmällisesti.

Robottikäyntien välillä välimuistissa oleva versio sivusta (osa tai kaikki sen näyttämiseen tarvittava sisältö), joka on tallennettu hakukoneen työmuistiin, lähetetään nopeasti pyynnön esittäneelle käyttäjälle. Jos käynti on myöhässä, hakukone voi toimia yksinkertaisesti web-välityspalvelimena. Tässä tapauksessa sivu voi poiketa hakuhakemistoista. Välimuistissa oleva lähde näyttää version, jonka sanat on indeksoitu, joten siitä voi olla hyötyä, jos varsinainen sivu on kadonnut.

Korkeatasoista arkkitehtuuria

Tyypillisesti käyttäjä kirjoittaa kyselyn hakukoneeseen useiden avainsanojen muodossa. Hakemistossa on jo näitä avainsanoja sisältävien sivustojen nimet, ja ne näkyvät välittömästi. Todellinen työmäärä on luoda verkkosivuja, jotka ovat luettelo hakutuloksista. Jokainen koko listan sivu on sijoitettava hakemistojen tietojen mukaan.

Tässä tapauksessa huipputuloselementti vaatii hakua, rekonstruoimista ja osuvien avainsanojen kontekstin näyttävien fragmenttien merkitsemistä. Tämä on vain osa jokaisen hakutuloksissa olevan web-sivun käsittelyä, ja muut sivut (vierellä) vaativat suurimman osan tästä myöhemmästä käsittelystä.

Pelkän avainsanojen etsimisen lisäksi hakukoneet tarjoavat omia GUI- tai komentopohjaisia ​​operaattoreita ja hakuparametreja tulosten tarkentamiseksi.

Ne tarjoavat käyttäjälle tarvittavat hallintalaitteet palautesilmukan, suodatuksen ja painotuksen kautta ja tarkentavat samalla haettavia tietoja ensimmäisten hakutulosten ensimmäisten sivujen perusteella. Esimerkiksi vuodesta 2007 lähtien Google.com on mahdollistanut tuloksena olevan luettelon suodattamisen päivämäärän mukaan napsauttamalla "Näytä hakutyökalut" alkuperäisen tulossivun vasemmanpuoleisessa sarakkeessa ja valitsemalla sitten haluamasi ajanjakson.

Vaihtelevia pyyntöjä

Useimmat hakukoneet tukevat Boolen operaattorien AND, OR ja NOT käyttöä auttamaan loppukäyttäjiä tarkentamaan kyselyään. Jotkut operaattorit on suunniteltu literaaleille, joiden avulla käyttäjä voi tarkentaa ja laajentaa hakutermejä. Robotti etsii sanoja tai lauseita samalla tavalla kuin syötettyjä komentoja. Jotkut hakukoneet tarjoavat lisähakuominaisuuden, jonka avulla käyttäjät voivat määrittää avainsanojen välisen etäisyyden.

On myös käsitepohjaista hakua, jossa tutkimuksessa käytetään tilastollista analyysiä sivuilla, jotka sisältävät etsimäsi sanat tai lauseet. Lisäksi luonnollisen kielen kyselyt antavat käyttäjälle mahdollisuuden kirjoittaa kysymyksen samalla tavalla kuin hän kysyisi ihmiseltä (tyypillisin esimerkki on ask.com).

Hakukoneen hyödyllisyys riippuu sen palauttamien tulosten osuvuudesta. Voi olla miljoonia verkkosivuja, jotka sisältävät tietyn sanan tai lauseen, mutta jotkut voivat olla osuvampia, suositumpia tai arvovaltaisempia kuin toiset. Useimmat hakukoneet käyttävät sijoitusmenetelmiä parhaan tuloksen varmistamiseksi.

Se, miten hakukone päättää, mitkä sivut sopivat parhaiten kyselyyn ja missä järjestyksessä löydetyt lähteet pitäisi näyttää, vaihtelee suuresti robottikohtaisesti. Nämä menetelmät muuttuvat myös ajan myötä Internetin käytön muuttuessa ja uuden tekniikan kehittyessä.

Mikä on hakukone: lajikkeet

Hakukoneita on kahta päätyyppiä. Ensimmäinen on ennalta määritettyjen ja hierarkkisesti järjestettyjen avainsanojen järjestelmä, jonka avulla ihmiset ovat massaohjelmoineet sen. Toinen on järjestelmä, joka luo "käänteisen indeksin" analysoimalla löydetyt tekstit.

Useimmat hakukoneet ovat kaupallisia palveluita, joita tuetaan mainostuloilla, ja siksi jotkut antavat mainostajille mahdollisuuden sijoittua näytettäviin tuloksiin maksua vastaan. Palvelut, jotka eivät hyväksy rahaa sijoituksesta, ansaitsevat rahaa näyttämällä kontekstuaalisia mainoksia näyttämiensä sivustojen vieressä. Nykyään hakukoneissa edistäminen on yksi Internetin kannattavimmista tuloista.

Mitkä palvelut ovat yleisimpiä?

Google on maailman suosituin hakukone 80,52 prosentin markkinaosuudella maaliskuussa 2017.

  • Google - 80,52 %
  • Bing - 6,92 %
  • Baidu - 5,94 %
  • Yahoo! - 5,35 %

Hakukoneet Venäjällä ja Itä-Aasiassa

Venäjällä ja joissakin Itä-Aasian maissa Google ei ole suosituin palvelu. Venäläisten käyttäjien keskuudessa Yandex-hakukone johtaa suosiota (61,9 %) verrattuna Googleen (28,3 %). Kiinassa Baidu on suosituin palvelu. Etelä-Korean hakuportaalia Naveria käytetään 70 %:ssa maan online-hauista. Myös Yahoo! Japanissa ja Taiwanissa se on suosituin työkalu tarvittavien tietojen etsimiseen.

Muita tunnettuja venäläisiä hakukoneita ovat Mail ja Rambler. Runetin kehityksen alkaessa he nauttivat laajasta suosiosta, mutta nyt he ovat menettäneet asemansa suuresti.

Hakurajoitukset ja kriteerit

Vaikka hakukoneet on ohjelmoitu luokittelemaan verkkosivustoja niiden suosion ja merkityksen perusteella, empiirinen tutkimus viittaa erilaisiin poliittisiin, taloudellisiin ja sosiaalisiin kriteereihin niiden tarjoaman tiedon valinnassa. Nämä ennakkoluulot voivat johtua suoraan taloudellisista (esimerkiksi hakukonetta mainostavista yrityksistä voi tulla suositumpia maksuttomissa hakutuloksissa) ja poliittisista prosesseista (esimerkiksi hakutulosten poistaminen paikallisten lakien vuoksi). Google ei esimerkiksi näytä joitakin uusnatsisivustoja Ranskassa ja Saksassa, joissa holokaustin kieltäminen on laitonta.

Kristilliset, islamilaiset ja juutalaiset hakukoneet

Internetin ja sähköisen median globaali kasvu muslimimaailmassa viimeisen vuosikymmenen aikana on saanut islamilaiset kannattajat Lähi-idässä ja Aasian niemimaalla yrittämään luoda omia hakukoneita ja suodatettuja portaaleja, joiden avulla käyttäjät voivat tehdä suojattuja hakuja.

Tällaiset palvelut sisältävät suodattimia, jotka luokittelevat verkkosivustot edelleen "halal" tai "haram" "islamin lain" nykyaikaiseen asiantuntijatulkintaan.

ImHalal-portaali ilmestyi verkossa syyskuussa 2011 ja Halalgoogling heinäkuussa 2013. He käyttävät haram-suodattimia, jotka perustuvat Googlen ja Bingin algoritmeihin.

Muita uskonnollisesti suuntautuneita hakukoneita ovat Jewgle (Googlen juutalainen versio) ja kristillinen SeekFind.org. He suodattavat pois sivustot, jotka kieltävät tai alentavat heidän uskoaan.

Hakujärjestelmä on kokonainen ohjelmisto- ja laitteistokompleksi, jossa on käyttöliittymä, jonka avulla voit etsiä tietoja käyttäjien pyyntöjen perusteella. Tyypillisesti PS:llä tarkoitetaan toimivaa verkkosivustoa, joka on suunniteltu siten, että kuka tahansa käyttäjä voi löytää häntä kiinnostavan tiedon Internetistä. Itse prosessi on melko yksinkertainen ja sisältää avainsanan tai lauseen kirjoittamisen hakukenttään ("merkkijono") ja sitten "Hae" -painikkeen napsautuksen. Vastauksena järjestelmä tarjoaa luettelon linkeistä niille resurssisivuille, jotka parhaiten vastaavat tätä pyyntöä.

Nykyään niitä on erilaisia hakukoneiden tyyppejä:

  • globaali - mahdollistaa tiedon etsimisen Internetistä;
  • paikallinen - voit etsiä paikallisverkosta tai yksittäisistä sivustoista.

Lisäksi globaalit järjestelmät luokitellaan yleensä:

  • erikoistunut - anna tietoja, jotka vastaavat useita tiettyjä parametreja. Niiden avulla voit etsiä tiedostoja palvelimilta, virtuaalikaupoista jne.;
  • universaali - mahdollistaa monenlaisen sisällön etsimisen, eli tekstin lisäksi myös kuvia, ääni- ja videotiedostoja. Tässä tapauksessa haku suoritetaan kaikilla sivustoilla, jotka ovat edustettuina World Wide Webissä. Google PS:tä pidetään ansaitusti johtavana tällä alalla;
  • temaattinen - suunniteltu etsimään tiettyjä yhteisöjä kiinnostavaa tietoa. Tämä määritelmä voi koskea sekä ammatillisia että erilaisia ​​uskonnollisia liikkeitä.

Mistä hakukone koostuu?

Kannattaa huomioida seuraava. Vaikka hakukoneita on erilaisia, ne kaikki toimivat samalla periaatteella. Ne perustuvat joukkoon ohjelmia, joita kutsutaan "hakukoneiksi" tai "moottoriksi". He keräävät tietoja sitä varten hakubotteja, joita kutsutaan myös "hämähäkkeiksi". Heidän tehtävänsä on selata Internetiä linkkien avulla ja syöttää havaitut sivut hakemistotiedostoon. Jälkimmäistä kutsutaan PS-indeksiksi.

Toinen hakujärjestelmän elementti sisältää moduulin, joka on suunniteltu käsittelemään käyttäjien kyselyitä. Hän on se, joka etsii hakemistosta avainsanoja ja lauseita. Tämä tarkoittaa, että itse pyyntö käsitellään jo laaditussa hakemistossa, eikä se aina täysin vastaa Internetissä esitettyä tietoa.

Toimituksen tärkeimmät laatuominaisuudet ovat:

  • hakutulosten relevanssi, eli kuinka tarkasti ne vastaavat kyselyä;
  • ottaen huomioon sen kielen morfologia ja ominaisuudet, jolla pyyntö esitettiin;
  • indeksin täydellisyys, jota hakubotin käyttämä algoritmi voi rajoittaa.

Käyttäjä näkee vain pienen osan hakukoneesta, joka on käyttöliittymällä varustettu resurssi. Sen ansiosta käyttäjä luo kyselyitä hakukoneeseen, ja se antaa hänelle tuloksia vastauksena.

Aihe 3.1.1 Tietojen etsiminen Internetistä

Internet kasvaa erittäin nopeasti, joten tarvitsemasi tiedon löytäminen satojen miljardien Web-sivujen ja satojen miljoonien tiedostojen joukosta on yhä vaikeampaa. Tiedon etsimiseen käytetään erityisiä hakukoneita, jotka sisältävät jatkuvasti päivitettävää tietoa satojen miljoonien Internet-palvelimien Web-sivujen ja tiedostojen sijainnista.

Tietoa haettaessa on vastattava kolmeen kysymykseen: mitä etsiä, eli mitä tietolähteitä, mistä etsiä (näiden lähteiden sijainnit) ja miten etsiä (mitä työkaluja tähän käyttää).

Mitkä ovat Internetin tärkeimmät tietolähteet? Näitä ovat WWW-asiakirjat, uutisryhmien ja postituslistojen artikkelit, tiedostokirjastojen tiedostot, organisaatioiden ja henkilöiden osoitetietohakemistot (sähköposti, osoite, puhelin), temaattisten tietokantojen artikkeleita, tietosanakirjoja.

Missä nämä tietolähteet sijaitsevat? Nämä ovat suosittuja Internet-resursseja, kuten WWW, uutisryhmät, postituslistat ja FTP-palvelimet.

Voit tietysti etsiä tarvittavia tietolähteitä manuaalisesti, etsiä osoitteita tietojenkäsittelytieteen ja Internetin erikoislehdistä ja käyttää erityisiä paperihakemistoja, joissa osoitteet on luokiteltu luokkiin.

Internetin kaltaisessa muuttuvassa tilassa on kuitenkin opeteltava käyttämään erikoistyökaluja, joiden tarkoituksena on kerätä tietoa tietoresursseista ja tarjota käyttäjille nopea hakupalvelu.

IRS (tiedonhakujärjestelmä) on järjestelmä, joka tarjoaa tarvittavan tiedon haun ja valinnan erityisessä tietokannassa tietolähteiden kuvauksilla (indeksillä) tiedonhakukieleen ja vastaaviin hakusääntöihin perustuen.

Minkä tahansa tietojärjestelmän päätehtävänä on etsiä käyttäjän tietotarpeisiin liittyvää tietoa. On erittäin tärkeää, että et menetä mitään haun seurauksena, eli löytää kaikki pyyntöön liittyvät asiakirjat etkä löydä mitään tarpeetonta. Siksi otetaan käyttöön hakumenettelyn laadullinen ominaisuus - merkityksellisyys.

Relevanssi tarkoittaa hakutulosten vastaavuutta muotoillun kyselyn kanssa.

Internet-hakupalvelimet voidaan jakaa kahteen ryhmään:

– yleiskäyttöiset hakukoneet;

– erikoistuneet hakukoneet.

Yleiskäyttöiset hakukoneet

Yleiskäyttöinen hakukoneen käyttöliittymä sisältää hakukentän ja luettelon hakemistoosioista. WWW:lle erotetaan seuraavat hakutyökalut: hakemistot, hakukoneet, metahakukoneet.


Luettelo

Luettelo– hakujärjestelmä, jossa on aiheittain luokiteltu merkintäluettelo ja linkit verkkoresursseihin. Luokittelun tekevät yleensä ihmiset.


Haku luettelosta on erittäin kätevää ja se suoritetaan selventämällä aiheita peräkkäin. Hakemistot tukevat kuitenkin mahdollisuutta etsiä nopeasti tiettyä luokkaa tai sivua avainsanoilla käyttämällä paikallista hakukonetta. Hakemiston linkkitietokannan (hakemiston) määrä on yleensä rajoitettu, ja hakemiston henkilökunta täyttää sen manuaalisesti. Jotkut hakemistot käyttävät automaattista hakemiston päivitystä.

Hakutulos luettelossa esitetään luettelona, ​​joka koostuu dokumenttien lyhyestä kuvauksesta (huomautus) ja hypertekstilinkki lähteeseen.

Suosituimmat hakemistoosoitteet:

1 Ulkomaiset luettelot:

a) Yahoo – www.yahoo.com;

b) Look Smart – www.looksmart.com;

c) Magellan – www.mckinley.com;

d) eiNET – www.einet.net.

2 venäläistä luetteloa:

a) Aport (Constellation Internet) – www.aport.ru;

b) AU – www.au.ru;

c) Verkkolista – www.weblist.ru;

d) Etana – www.ulitka.ru.

Hakukoneen tietokannassa Web-sivustot on ryhmitelty hierarkkisiin aihehakemistoihin, jotka ovat analogisia kirjaston aihehakemiston kanssa.

Huipputason temaattiset osiot, esimerkiksi Internet, Tietokoneet, Tiede ja koulutus ja niin edelleen, sisältävät alihakemistoja. Esimerkiksi Internet-hakemisto voi sisältää alihakemistoja Search, Mail ja muita.

Tietojen etsiminen luettelosta rajoittuu tietyn luettelon valitsemiseen, minkä jälkeen käyttäjälle esitetään luettelo linkeistä suosituimpien ja informatiivisimpien Web-sivustojen Internet-osoitteisiin. Jokainen linkki on yleensä merkitty, eli se sisältää lyhyen kommentin dokumentin sisällöstä.

Täydellisin monitasoinen hierarkkinen temaattinen luettelo venäjänkielisistä Internet-resursseista on saatavilla Aport-hakujärjestelmässä (www.aport.ru). Luettelo sisältää yksityiskohtaisen yhteenvedon Web-sivustojen sisällöstä ja osoituksen niiden maantieteellisestä sijainnista.

Hakukone

Hakukone– hakujärjestelmä, jossa on robottien luoma tietokanta, joka sisältää tietoa tietoresursseista.

Hakukoneiden erottuva piirre on se, että tietokanta, joka sisältää tietoa Web-sivuista, Usenet-artikkeleista ja niin edelleen, on robottiohjelman luoma.

Haku tällaisessa järjestelmässä suoritetaan käyttäjän laatiman kyselyn mukaan, joka koostuu avainsanajoukosta tai lainausmerkeistä kirjoitetusta lauseesta. Indeksointirobotit luovat indeksin ja pitävät sen ajan tasalla. Jos haluat esimerkiksi etsiä itse Internet-hakukoneita, voit kirjoittaa hakukenttään avainsanat "Venäjän Internet-tiedonhakujärjestelmä".

Jonkin ajan kuluttua pyynnön lähettämisestä hakukone palauttaa luettelon asiakirjojen Internet-osoitteista, joista määritetyt avainsanat löytyivät. Asiakirjan kuvaus sisältää useimmiten muutaman ensimmäisen lauseen tai otteen asiakirjan tekstistä avainsanat korostettuina. Pääsääntöisesti ilmoitetaan asiakirjan päivitys (varmennus) päivämäärä, sen koko kilotavuina; jotkut järjestelmät määrittävät asiakirjan kielen ja sen koodauksen (venäjänkielisille asiakirjoille).

Voit tarkastella tätä asiakirjaa selaimessa aktivoimalla siihen osoittavan linkin.

Jos avainsanat on valittu huonosti, asiakirjan osoiteluettelo voi olla liian suuri (saattaa sisältää kymmeniä tai jopa satoja tuhansia linkkejä). Listan pienentämiseksi voit syöttää hakukenttään lisää avainsanoja tai käyttää hakukonehakemistoa.

Monet hakukoneet antavat sinun etsiä löydetyistä asiakirjoista, ja voit tarkentaa kyselyäsi lisäämällä termejä. Jos järjestelmän älykkyys on korkea, sinulle voidaan tarjota palvelua vastaavien asiakirjojen etsimiseen. Voit tehdä tämän valitsemalla asiakirjan, josta pidät erityisen, ja osoittamalla sen järjestelmään malliksi, jota haluat seurata. Mutta usein tämä toiminto ei toimi odotetulla tavalla. Jotkut hakukoneet antavat sinun lajitella tuloksia uudelleen. Voit säästää aikaasi tallentamalla hakutulokset tiedostona paikalliselle asemallesi myöhempää offline-tutkimusta varten.

Suosituimpien hakukoneiden osoitteet ulkomailla ja Venäjällä:

1 Ulkomaiset hakukoneet:

a) Google – www.google.com;

b) Alta Vista – www.altavista.com;

c) Excite – www.excite.com;

d) HotBot – www.hotbot.com;

e) Northern Light – www.northernlight.com;

f) Go (Infoseek) – www.go.com (infoseek.com);

g) Lycos – www.lycos.com;

h) Nopea – www.alltheweb.com.

2 venäläistä hakukonetta:

a) Yandex – www.yandex.ru (tai www.ya.ru);

b) Rambler – www.rambler.ru;

c) Aport – www.aport.ru.

Yksi täydellisimmistä ja tehokkaimmista hakukoneista on Google (www.google.ru), jonka tietokanta tallentaa 8 miljardia Web-sivua ja joka kuukausi robottiohjelmat lisäävät siihen 5 miljoonaa uutta sivua. Runetissa (Internetin venäläinen osa) laajoissa 200 miljoonan asiakirjan tietokannassa on hakukoneet Yandex (www.yandex.ru) ja Rambler (www.rambler.ru).

Metahakukone

Huomaa, että eri hakukoneet kuvaavat erilaisia ​​tietolähteitä Internetissä. Siksi et voi rajoittaa hakuasi vain yhteen määritetyistä hakukoneista. Tutustutaan nyt hakutyökaluihin, jotka eivät luo omaa indeksiä, mutta voivat käyttää muiden hakukoneiden ominaisuuksia. Nämä ovat metahakukoneita (hakupalveluita) - järjestelmiä, jotka voivat lähettää käyttäjien kyselyitä useille hakupalvelimille samanaikaisesti, sitten yhdistää tulokset ja esittää ne käyttäjälle dokumentin muodossa, jossa on linkkejä.

Metahakukoneilla ei ole omaa tietokantaa. Ne ovat ohjelmia, jotka ottavat vastaan ​​käyttäjän pyynnön, käsittelevät pyynnön tekoälyalgoritmeilla ja sitten hakukoneita. Eli ne ovat hakukoneiden hakukoneita. Näiden järjestelmien etuna on niiden kyky syntetisoida hakutarkoitus sen sijaan, että hakisivat vain sanallisen kyselyn mukaan. Tällaisen haun tulokset ovat käyttäjälle selkeitä ja vastaavat parhaiten hänen etsimäänsä. Metasearch-sivustot tarjoavat valtavan määrän vaihtoehtoja, joiden tavoitteena on olla hyödyllinen kaikille käyttäjille. On olemassa erilaisia ​​versioita metahakukoneista, jotka indeksoivat jatkuvasti Internetistä hakuehtojasi vastaavia tietoja.

Kun järjestelmä löytää uutta tietoa, se hälyttää tai lataa ne automaattisesti. Jos haluat löytää sivustoja, jotka on omistettu yleisiin ongelmiin, matkustamiseen ja niin edelleen, metahakukoneiden avulla voit nopeasti käyttää tarvitsemiasi tietoja. Ne tarjoavat myös suoran pääsyn sivustoille, joilla on tiettyjä tietoja, kuten puhelinluetteloita, matkaoppaita ja valtion sivustoja. Metahakukoneilla on yleensä hieman pidempi käyttöaika, koska ne tekevät kyselyjä muilta hakukoneilta. Heidän puoleen kannattaa kääntyä, kun perinteiset hakukoneet eivät ole tuottaneet tuloksia.

Tunnettujen metahakukoneiden osoitteet:

– MetaCrawler – www.metacrawler.com;

– SavvySearch – www.savvysearch.com

21.11.2017

Mikä tahansa kysymys huolestuttaa nykyihmistä, hän ei etsi vastauksia kirjoista. Hän etsii niitä Internetistä. Lisäksi sinun ei tarvitse tietää sen sivuston osoitetta, jossa tarvitsemasi tiedot sijaitsevat. Tällaisia ​​sivustoja on miljoonia, ja hakukone auttaa sinua löytämään oikean.

Kotimaan Internetissämme kaksi suosituinta hakukonetta ovat Google ja Yandex.

Oletko koskaan miettinyt, kuinka hakukone toimii? Kuinka hän ymmärtää, mikä sivusto näytetään, millä miljoonista resursseista on varmasti vastaus pyyntöösi?

Mikä on hakukone?

Hakukone on valtava verkkodokumenttien tietokanta, jota päivitetään ja laajennetaan jatkuvasti. Jokaisella hakukoneella on hakuhämähäkkejä; robotit ovat erityisiä botteja, jotka indeksoivat sivustoja, indeksoivat niille lähetetyn sisällön ja luokittelevat ne sitten niiden laadun ja osuvuuden mukaan käyttäjien hakukyselyihin.

Hakukoneet toimivat niin, että kuka tahansa voi löytää mitä tahansa tietoa. Siksi he yrittävät näyttää ensin ne verkkodokumentit, jotka sisältävät yksityiskohtaisimman vastauksen henkilön kysymykseen.

Hakukone on pohjimmiltaan sivustohakemisto, hakemisto, jonka päätehtävä on etsiä tietoa juuri tästä hakemistosta.

Kuten edellä kirjoitin, meillä on kaksi suosittua järjestelmää - Google (globaali) ja Yandex (venäjänkielinen segmentti). Mutta on myös järjestelmiä, kuten Rambler, Yahoo, Bing, Mail.Ru ja muut. Toimintaperiaate on samanlainen kaikilla niillä, vain rankingalgoritmit eroavat (eikä silloinkaan kovin merkittävästi).

Kuinka Internet-hakukone toimii?

Hakukoneiden toimintaperiaate on hyvin monimutkainen, mutta yritän selittää sen yksinkertaisin sanoin.

Hakurobotti (hämähäkki) indeksoi sivuston sivut, lataa niiden sisällön ja poimii linkkejä. Seuraavaksi indeksoija aloittaa työnsä - tämä on ohjelma, joka analysoi kaikki hämähäkkien lataamat materiaalit omiin algoritmeihinsa luottaen.

Näin luodaan hakukonetietokanta, johon tallennetaan kaikki algoritmin käsittelemät asiakirjat.

Työskentely hakukyselyn kanssa tapahtuu seuraavasti:

  • käyttäjän syöttämä kysely analysoidaan;
  • analyysitulokset siirretään erityiseen ranking-moduuliin;
  • kaikkien asiakirjojen tiedot käsitellään, valitaan syötetyn pyynnön kannalta oleellisimmat;
  • katkelma luodaan - otsikko, kuvaus, pyynnön sanat on korostettu lihavoituna;
  • hakutulokset esitetään käyttäjälle SERP-muodossa (tulossivu).

Miten hakukoneet toimivat

Minkä tahansa hakukoneen päätehtävänä on tarjota käyttäjälle hyödyllisimmät ja tarkimmat tiedot hänen pyynnöstään. Siksi hakurobotti indeksoi sivustoja jatkuvasti. Heti käynnistämisen jälkeen hämähäkki tulee tietyn aikataulun mukaan luoksesi, indeksoi useita sivuja, minkä jälkeen ne indeksoidaan.

Hakukoneiden toimintaperiaate perustuu kahteen päävaiheeseen:

  • indeksointi sivuilla, joiden kautta tietoja kerätään;
  • hakemiston antaminen, jonka ansiosta järjestelmä voi nopeasti etsiä tietyn sivun sisällöstä.

Kun sivuston sivu on indeksoitu, se näkyy jo tietyn hakukyselyn hakutuloksissa. Verkkovastaavan työkalujen avulla voit tarkistaa, onko hakukoneen hakemistossa uusi sivu. Esimerkiksi Yandex.Webmasterissa näet heti, mitkä sivut indeksoitiin ja milloin ja mitkä sivut putosivat hakemistosta ja mistä syystä.

Mutta se, mille sivulle se päätyy, riippuu indeksoinnin asteesta ja sen sisällön laadusta. Jos sivusi antaa tarkimman vastauksen kyselyyn, se on korkeampi kuin kaikki muut.

Sivuston sijoituksen periaatteet hakukoneissa

Selvitimme, millä periaatteella hakurobotit toimivat. Mutta miten sivustot luokitellaan?

Ranking perustuu kahteen pääpilariin - sivun tekstisisältöön ja ei-tekstisiin tekijöihin.

Tekstin sisältö– Tämä on sivun konteksti. Mitä täydellisempi se on, sitä tarkempi, mitä osuvampi pyyntöön, sitä korkeammalle sivu tulee hakutuloksissa. Itse tekstin lisäksi hakukone kiinnittää huomiota otsikon (sivun otsikko), kuvauksen (sivun kuvaus), H1 (tekstin otsikko) -tunnisteiden täyttämiseen.

Ei-tekstitekijät Nämä ovat sisäiset linkit ja ulkoiset linkit. Asia on: jos sivusto on mielenkiintoinen ja hyödyllinen, niin muut temaattiset resurssit linkittävät siihen. Ja mitä enemmän tällaisia ​​linkkejä, sitä arvovaltaisempi resurssi.

Mutta nämä ovat kaikkein perusperiaatteita, hyvin lyhyesti. Kaivataanpa hieman syvemmälle.

Perusverkkosivuston sijoitustekijät

On olemassa useita tekijöitä, jotka vaikuttavat verkkosivuston sijoitukseen. Tärkeimmät ovat:

1. Bverkkosivuston sisäiset sijoitustekijät

Tämä on sivuston teksti ja sen suunnittelu - alaotsikot, jotka korostavat tärkeitä kohtia tekstissä. Sisäisen linkityksen käyttö pätee myös tässä. Myös visuaaliset elementit ovat tärkeitä: kuvien, valokuvien, videoiden, kaavioiden käyttö. Myös itse tekstin laatu ja sisältö ovat tärkeitä.

2. Ulkoiset verkkosivuston sijoitustekijät jotka määräävät sen suosion. Nämä ovat samoja ulkoisia linkkejä, jotka johtavat sivustollesi muista lähteistä. Näiden sivustojen lukumäärän lisäksi niiden laatu (on toivottavaa, että sivustoilla on samanlainen teema kuin sinulla) sekä linkkiprofiilin yleinen laatu (kuinka nopeasti nämä linkit ilmestyivät, luonnollisesti tai ostosten kautta vaihto).

Edellä olevan perusteella voidaan tehdä yksi johtopäätös: hakukoneet yrittävät toimia siten, että ne näyttävät käyttäjälle sivustot, jotka tarjoavat täydellisimmän vastauksen hänen pyyntöönsä ja jotka ovat jo ansainneet tietyn valtuutuksen. Tässä tapauksessa otetaan huomioon useita tekijöitä: sivuston sisältö, sen asetukset ja käyttäjien asenne sitä kohtaan. Kaikin puolin hyvä verkkosivusto sijoittuu varmasti korkealle hakutuloksissa.