1 wat wordt bedoeld met een zoekmachine. Hoe werkt een zoekmachine? Een korte geschiedenis van de ontwikkeling van zoekmachines

Om onze blog succesvol te kunnen onderhouden en ontwikkelen, moeten we allereerst weten met welke algoritmen ze werken. Een duidelijk begrip van de antwoorden op deze vragen zal ons in staat stellen de problemen van websitepromotie in zoekmachines met succes op te lossen. Maar het gesprek over zoekmachineoptimalisatie van websites staat nog steeds voor de deur, maar voor nu een beetje theorie over zoekmachines.

Wat zijn internetzoekmachines?

Als we Wikipedia raadplegen, ontdekken we dit:

Zoeksysteem is een software- en hardwarecomplex met een webinterface die de mogelijkheid biedt om informatie op internet te zoeken.”

En nu in een taal die wij begrijpen. Stel dat we dringend informatie nodig hebben over een bepaald onderwerp. Om het snel te kunnen vinden, zijn er zoekmachines gemaakt: sites waar we, door een zoekopdracht in het zoekformulier in te voeren, een lijst krijgen met sites waarop we met een hoge mate van waarschijnlijkheid zullen vinden wat we zoeken. zijn op zoek naar. Deze lijst wordt zoekresultaten genoemd. Het kan uit miljoenen pagina's bestaan ​​met elk 10 sites. De hoofdtaak van een webmaster is om in ieder geval in de top tien te komen.

Houd er rekening mee dat wanneer u iets op internet zoekt, u dit meestal op de eerste pagina van de zoekresultaten vindt en zelden naar de tweede pagina gaat, laat staan ​​naar de daaropvolgende pagina's. Dit betekent dat hoe hoger de site scoort, hoe meer bezoekers de pagina's zullen bezoeken. A veel verkeer(aantal bezoekers per dag) is onder andere een kans om het goed te doen.

Hoe vinden internetzoekmachines informatie op internet en op welke basis verdelen zij de plaatsen in de zoekresultaten?

In een paar woorden, internetzoekmachine- dit is een heel web waarin spinrobots voortdurend het netwerk scannen en alle teksten onthouden die op internet komen. Door de ontvangen gegevens te analyseren, selecteren zoekmachines documenten die het meest overeenkomen met de zoekopdracht, dat wil zeggen relevante documenten, waaruit zoekresultaten worden gevormd.

Het meest interessante is dat zoekmachines niet kunnen lezen. Hoe vinden ze dan informatie? Zoekmachinealgoritmen komen neer op een paar basisprincipes. Allereerst letten ze op de titel en beschrijving van het artikel, paragraafkoppen, semantische nadruk in de tekst en dichtheid trefwoorden, die moet overeenkomen met het onderwerp van het artikel. Hoe nauwkeuriger deze match is, hoe hoger de site in de zoekresultaten verschijnt. Bovendien moet rekening worden gehouden met de hoeveelheid informatie en vele andere factoren. Bijvoorbeeld de autoriteit van een webbron, die afhangt van het aantal en de autoriteit van de sites die ernaar verwijzen. Hoe groter de autoriteit, hoe hoger de ranking.

Een reeks maatregelen gericht op het verbeteren van de positie van de site in de zoekresultaten bepaalde verzoeken genaamd zoek machine optimalisatie. Dit is nu een hele wetenschap -. Maar daarover later meer.

Op dit moment Er zijn veel zoekmachines in de wereld. Ik noem de meest populaire. In het westen zijn dit: Google, Bing en Yahoo. In RuNet - Yandex, Mail.ru, Rambler en Nigma. Kortom, gebruikers geven de voorkeur aan de wereldleider en het Yandex-systeem is het populairst geworden op het Russisch-talige internet.

Een beetje geschiedenis. Google werd in 1997 opgericht door een inwoner van Moskou Sergej Brin en zijn Amerikaanse vriend Larry Pagina tijdens hun studie aan Stanford University.

Het bijzondere van Google was dat het de meest relevante zoekresultaten in een logische volgorde op de eerste posities in de zoekresultaten bracht, terwijl andere zoekmachines bezig waren eenvoudige vergelijking woorden in een zoekopdracht met woorden op een webpagina.

Op 23 september van hetzelfde jaar werd aangekondigd en Yandex-systeem, dat sinds 2000 begon te bestaan ​​als een afzonderlijk bedrijf “Yandex”.

Ik zal je niet meer vervelen, ik hoop dat het nu wat duidelijker is, wat zijn internetzoekmachines. Het is de moeite waard om te zeggen dat de algoritmen van zoekmachines voortdurend evolueren. Elke dag worden zoekmachines beter in het identificeren van gebruikersbehoeften en het tonen van de meest relevante behoeften in de zoekresultaten. relevante informatie, gebaseerd op vele factoren (regio, welke zoekopdrachten de gebruiker al heeft aangevraagd, welke sites hij heeft bezocht tijdens het zoekproces, waar hij vandaan kwam, enz.).

Binnenkort zullen Google en Yandex beter dan wij weten wat we nodig hebben en waar we aan denken!

Internet is voor veel gebruikers noodzakelijk om antwoorden te krijgen op vragen (vragen) die ze invoeren.

Als er geen zoekmachines zouden zijn, zouden gebruikers zelfstandig naar de sites moeten zoeken die ze nodig hebben, deze moeten onthouden en opschrijven. In veel gevallen zou het “handmatig” vinden van iets geschikts erg moeilijk zijn, en vaak simpelweg onmogelijk.

Dit alles voor ons routine werk Zoekmachines zoeken, bewaren en sorteren informatie op websites.

Laten we beginnen met bekende zoekmachines Runet.

Internetzoekmachines in het Russisch

1) Laten we beginnen met de binnenlandse zoekmachine. Yandex werkt niet alleen in Rusland, maar ook in Wit-Rusland en Kazachstan, Oekraïne en Turkije. Er is ook Yandex in het Engels.

2) Google-zoekmachine kwam vanuit Amerika naar ons toe, heeft lokalisatie in de Russisch-taal:

3) Binnenlandse zoekmachine Mail ru, die tegelijkertijd vertegenwoordigt sociaal netwerk VKontakte, Odnoklassniki, ook My World, de beroemde Answers Mail.ru en andere projecten.

4) Intelligente zoekmachine

Nigma (Nigma) http://www.nigma.ru/

Sinds 19 september 2017 heeft het nigma ‘intellectueel’ niet meer gewerkt. Het was niet langer van financieel belang voor de makers; ze schakelden over naar een andere zoekmachine genaamd CocCoc.

5) Beroemd bedrijf Rostelecom heeft de Spoetnik-zoekmachine gemaakt.

Er is een zoekmachine genaamd Spoetnik, speciaal ontworpen voor kinderen, waarover ik schreef.

6) Rambler was een van de eerste binnenlandse zoekmachines:

Er zijn andere bekende zoekmachines in de wereld:

  • Bing,
  • Yahoo!,
  • DuckDuckGo,
  • Baidu,
  • Ecosia,

Laten we proberen erachter te komen hoe een zoekmachine werkt, namelijk hoe sites worden geïndexeerd, indexeringsresultaten worden geanalyseerd en gegenereerd Zoekresultaten. De werkingsprincipes van zoekmachines zijn ongeveer hetzelfde: informatie zoeken op internet, deze opslaan en sorteren voor levering als reactie op verzoeken van gebruikers. Maar de algoritmen die zoekmachines gebruiken kunnen enorm verschillen. Deze algoritmen worden geheim gehouden en openbaarmaking ervan is verboden.

Door dezelfde zoekopdracht in te voeren zoekreeksen verschillende zoekmachines, u kunt verschillende antwoorden krijgen. De reden is dat alle zoekmachines hun eigen algoritmen gebruiken.

Het doel van zoekmachines

Allereerst moet u weten dat zoekmachines dat wel zijn commerciële organisaties. Hun doel is om winst te maken. Er kan winst worden gemaakt contextuele reclame, andere vormen van reclame, van het promoten van de benodigde sites tot bovenste lijnen uitgifte. Over het algemeen zijn er veel manieren.

Het hangt af van de grootte van het publiek, dat wil zeggen hoeveel mensen deze zoekmachine gebruiken. Hoe groter het publiek, hoe meer advertenties worden aan mensen getoond. Dienovereenkomstig zal deze reclame meer kosten. Zoekmachines kunnen hun publiek vergroten door hun eigen advertenties, maar ook door gebruikers aan te trekken door de kwaliteit van hun diensten, het algoritme en het zoekgemak te verbeteren.

Het belangrijkste en moeilijkste hier is de ontwikkeling van een volledig functionerend zoekalgoritme dat voor de meeste zoekopdrachten van gebruikers relevante resultaten zou opleveren.

Het werk van een zoekmachine en de acties van webmasters

Elke zoekmachine heeft zijn eigen algoritme, dat rekening moet houden met een groot aantal verschillende factoren bij het analyseren van informatie en het verzamelen van resultaten als reactie op het verzoek van een gebruiker:

  • de leeftijd van een bepaalde site,
  • kenmerken van websitedomeinen,
  • kwaliteit van de inhoud op de site en de typen ervan,
  • kenmerken van navigatie en sitestructuur,
  • bruikbaarheid (gemak voor gebruikers),
  • gedragsfactoren (de zoekmachine kan bepalen of de gebruiker op de site heeft gevonden wat hij zocht of dat de gebruiker opnieuw naar de zoekmachine terugkeert en daar opnieuw op zoek gaat naar een antwoord op dezelfde vraag)
  • enz.

Dit alles is juist nodig om de resultaten op verzoek van de gebruiker zo relevant mogelijk te maken en aan de verzoeken van de gebruiker te voldoen. Tegelijkertijd veranderen en worden de algoritmen van zoekmachines voortdurend verfijnd. Zoals ze zeggen: er is geen limiet aan perfectie.

Aan de andere kant bedenken webmasters en optimizers voortdurend nieuwe manieren om hun sites te promoten, die niet altijd eerlijk zijn. De taak van de algoritme-ontwikkelaars zoekmachines– breng er wijzigingen in aan waardoor “slechte” sites van oneerlijke optimizers niet in de TOP kunnen verschijnen.

Hoe werkt een zoekmachine?

Laten we het nu hebben over hoe de zoekmachine eigenlijk werkt. Het bestaat uit ten minste drie fasen:

  • scannen,
  • indexering,
  • variërend.

Het aantal sites op internet is simpelweg astronomisch. En elke site is informatie, informatieve inhoud, dat is gemaakt voor lezers (levende mensen).

Scannen

Dit is een zoekmachine die over het internet ronddwaalt om nieuwe informatie te verzamelen, links te analyseren en te zoeken naar nieuwe inhoud die kan worden gebruikt om terug te keren naar de gebruiker als antwoord op zijn verzoeken. Voor het scannen hebben zoekmachines speciale robots genaamd zoek robots of spinnen.

Zoekrobots zijn programma's die automatische modus websites bezoeken en er informatie van verzamelen. De crawl kan primair zijn (de robot bezoekt voor de eerste keer een nieuwe site). Nadat de eerste informatie van de site is verzameld en in de database van de zoekmachine is ingevoerd, begint de robot zijn pagina's met enige regelmaat te bezoeken. Als er wijzigingen zijn opgetreden (nieuwe inhoud is toegevoegd, oude inhoud is verwijderd), worden al deze wijzigingen door de zoekmachine vastgelegd.

De belangrijkste taak van een zoekspin is het vinden van nieuwe informatie en deze naar de zoekmachine sturen voor de volgende verwerkingsfase, dat wil zeggen voor indexering.

Indexering

Een zoekmachine kan alleen naar informatie zoeken op de sites die al in de database zijn opgenomen (door de zoekmachine geïndexeerd). Als crawlen het proces is van het zoeken en verzamelen van informatie die op een bepaalde site beschikbaar is, dan is indexeren het proces waarbij deze informatie in de database van zoekmachines wordt ingevoerd. In dit stadium beslist de zoekmachine automatisch of hij deze of gene informatie in zijn database moet invoeren en waar hij deze moet invoeren, in welk gedeelte van de database. Google indexeert bijvoorbeeld bijna alle informatie die zijn robots op internet vinden, terwijl Yandex kieskeuriger is en niet alles indexeert.

Voor nieuwe sites kan de indexeringsfase lang duren, waardoor bezoekers van zoekmachines lang kunnen wachten op nieuwe sites. A nieuwe informatie, dat verschijnt op oude, goed gepromote sites, kan vrijwel onmiddellijk worden geïndexeerd en vrijwel onmiddellijk in de "index" terechtkomen, dat wil zeggen in de database van zoekmachines.

Variërend

Ranking is de rangschikking van informatie die eerder is geïndexeerd en in de database van een bepaalde zoekmachine is ingevoerd, op basis van rang, dat wil zeggen welke informatie de zoekmachine in de eerste plaats aan zijn gebruikers zal tonen en welke informatie zal worden geplaatst. rang” lager. De ranking kan worden toegeschreven aan het stadium van de zoekmachineservice aan de klant – de gebruiker.

Op de servers van de zoekmachines wordt de ontvangen informatie verwerkt en worden er resultaten gegenereerd voor een groot aantal allerlei soorten zoekopdrachten. Dit is waar de algoritmen van zoekmachines een rol gaan spelen. Alle sites in de database zijn geclassificeerd op onderwerp en onderwerpen zijn onderverdeeld in groepen verzoeken. Voor elke groep verzoeken kan een voornummer worden samengesteld, dat vervolgens wordt aangepast.

Een zoeksysteem is een software- en hardwarecomplex dat is ontworpen om op internet te zoeken en te reageren op een verzoek van een gebruiker, gespecificeerd in de vorm van een tekstzin (zoekopdracht), door een lijst met links naar informatiebronnen te produceren, in volgorde van relevantie ( in overeenstemming met het verzoek). De grootste internationale zoekmachines: "Google", "Yahoo", "MSN". Op het Russische internet is het - "Yandex", "Rambler", "Aport".

Laten we de belangrijkste kenmerken van zoekmachines beschrijven:

    Volledigheid

Volledigheid is een van de belangrijkste kenmerken van een zoeksysteem: de verhouding tussen het aantal op verzoek gevonden documenten en het totale aantal documenten op internet dat aan het gegeven verzoek voldoet. Als er bijvoorbeeld 100 pagina's op internet zijn met de zinsnede 'hoe kies je een auto', en er zijn er slechts 60 gevonden voor de overeenkomstige zoekopdracht, dan is de volledigheid van de zoekopdracht 0,6. Het is duidelijk dat hoe vollediger de zoekopdracht is, hoe kleiner de kans is dat de gebruiker het document dat hij nodig heeft niet zal vinden, op voorwaarde dat het überhaupt op internet bestaat.

    Nauwkeurigheid

Nauwkeurigheid is een ander hoofdkenmerk van een zoekmachine, die wordt bepaald door de mate waarin de gevonden documenten overeenkomen met de zoekopdracht van de gebruiker. Als de vraag 'hoe kies je een auto' bijvoorbeeld 100 documenten bevat, bevatten 50 daarvan de zinsnede 'hoe kies je een auto', en de rest bevat eenvoudigweg deze woorden ('hoe kies je de juiste radio en installeer je deze in een auto”), dan wordt de zoeknauwkeurigheid gelijk geacht aan 50/100 (=0,5). Hoe nauwkeuriger zoeken, hoe sneller de gebruiker de documenten vindt die hij nodig heeft, hoe minder verschillende soorten "afval" er tussen zullen worden gevonden, hoe minder vaak de gevonden documenten niet overeenkomen met het verzoek.

    Relevantie

Relevantie is een even belangrijk onderdeel van zoeken, dat wordt gekenmerkt door de tijd die verstrijkt vanaf het moment dat documenten op internet worden gepubliceerd totdat ze in de indexdatabase van zoekmachines worden ingevoerd. Zo wendde een groot aantal gebruikers zich de dag nadat interessant nieuws verscheen tot zoekmachines met relevante vragen. Objectief gezien is er minder dan een dag verstreken sinds de publicatie van nieuwsinformatie over dit onderwerp, maar de belangrijkste documenten zijn al geïndexeerd en beschikbaar voor doorzoeking, dankzij het bestaan ​​van de zogenaamde “snelle database” van grote zoekmachines, die wordt meerdere keren per dag bijgewerkt.

    Zoeksnelheid

De zoeksnelheid hangt nauw samen met de belastingsweerstand. Volgens Rambler Internet Holding LLC ontvangt de Rambler-zoekmachine bijvoorbeeld tijdens kantooruren ongeveer 60 verzoeken per seconde. Een dergelijke werklast vereist het verkorten van de verwerkingstijd van een individueel verzoek. Hier vallen de belangen van de gebruiker en de zoekmachine samen: de bezoeker wil zo snel mogelijk resultaten krijgen en de zoekmachine moet het verzoek zo snel mogelijk verwerken, om de berekening van daaropvolgende zoekopdrachten niet te vertragen.

    Zichtbaarheid

Visuele presentatie van resultaten is een belangrijk onderdeel handig zoeken. Voor de meeste zoekopdrachten vindt de zoekmachine honderden of zelfs duizenden documenten. Door onduidelijke zoekopdrachten of onnauwkeurige zoekopdrachten bevatten zelfs de eerste pagina's met zoekresultaten niet altijd alleen maar Nodige informatie. Dit betekent dat de gebruiker vaak zelf moet zoeken binnen de gevonden lijst. Verschillende elementen van de resultatenpagina van de zoekmachine helpen u bij het navigeren door de zoekresultaten. Gedetailleerde uitleg van de zoekresultatenpagina, bijvoorbeeld voor Yandex, kunt u vinden op de link http://help.yandex.ru/search/?id=481937.

4. Kort verhaal ontwikkeling van zoekmachines

In de beginperiode van de internetontwikkeling was het aantal gebruikers klein en de hoeveelheid beschikbare informatie relatief klein. Voor het grootste deel had alleen het onderzoekspersoneel toegang tot internet. Op dat moment was het zoeken naar informatie op internet niet zo urgent als nu.

Een van de eerste manieren om de toegang tot netwerkinformatiebronnen te organiseren was het creëren van open directory's met sites, links naar bronnen die op onderwerp waren gegroepeerd. Het eerste dergelijke project was de website Yahoo.com, die in het voorjaar van 1994 werd geopend. Nadat het aantal sites in de Yahoo-directory aanzienlijk was toegenomen, werd de mogelijkheid toegevoegd om in de directory naar de benodigde informatie te zoeken. In de volle zin was het nog geen zoekmachine, aangezien het zoekgebied alleen beperkt was tot de bronnen die in de catalogus aanwezig waren, en niet tot alle internetbronnen.

Linkmappen werden in het verleden op grote schaal gebruikt, maar hebben tegenwoordig vrijwel hun populariteit verloren. Omdat zelfs moderne catalogi, die enorm in volume zijn, slechts informatie bevatten over een verwaarloosbaar deel van internet. De grootste directory van het DMOZ-netwerk (ook wel het Open Directory Project genoemd) bevat informatie over 5 miljoen bronnen, terwijl de zoekmachinedatabase van Google uit meer dan 8 miljard documenten bestaat.

De eerste volwaardige zoekmachine was het WebCrawler-project, gepubliceerd in 1994.

In 1995 verschenen zoekmachines Lycos en AltaVista. Deze laatste is al jaren toonaangevend op het gebied van het zoeken naar informatie op internet.

In 1997 creëerden Sergey Brin en Larry Page de Google-zoekmachine als onderdeel van een onderzoeksproject aan de Stanford University. IN momenteel Google is de populairste zoekmachine ter wereld!

In september 1997 werd de Yandex-zoekmachine, de meest populaire op het Russischtalige internet, officieel aangekondigd.

Momenteel zijn er drie belangrijke internationale zoekmachines: Google, Yahoo en MSN, die hun eigen databases en zoekalgoritmen hebben. De meeste andere zoekmachines (waarvan er een groot aantal zijn) gebruiken in een of andere vorm de resultaten van de drie genoemde zoekmachines. AOL Search (search.aol.com) gebruikt bijvoorbeeld de Google-database, terwijl AltaVista, Lycos en AllTheWeb de Yahoo-database gebruiken.

5. Samenstelling en werkingsprincipes van het zoeksysteem

In Rusland is Yandex de belangrijkste zoekmachine, gevolgd door Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bovendien gebruikt Mail.ru momenteel de Yandex-zoekmachine en database.

Bijna alle grote zoekmachines hebben hun eigen structuur, anders dan andere. Het is echter mogelijk om de belangrijkste componenten te identificeren die alle zoekmachines gemeen hebben. Verschillen in structuur kunnen alleen bestaan ​​in de vorm van implementatie van de interactiemechanismen van deze componenten.

Indexeringsmodule

De indexeringsmodule bestaat uit drie hulpprogramma's (robots):

Spider is een programma dat is ontworpen om webpagina's te downloaden. De spider downloadt de pagina en haalt alle interne links van die pagina op. De html-code van elke pagina wordt gedownload. Robots gebruiken HTTP-protocollen om pagina's te downloaden. De spin werkt als volgt. De robot stuurt het verzoek “get/path/document” en enkele andere HTTP-verzoekopdrachten naar de server. Als reactie ontvangt de robot een tekststroom met service-informatie en het document zelf.

    pagina URL

    datum waarop de pagina is gedownload

    HTTP-header van serverreactie

    paginatekst (html-code)

Crawler (“reizende” spider) is een programma dat automatisch alle links op de pagina volgt. Selecteert alle links die op de pagina aanwezig zijn. Het is zijn taak om te bepalen waar de spin vervolgens naartoe moet gaan, op basis van links of een vooraf bepaalde lijst met adressen. Crawler volgt de gevonden links en zoekt naar nieuwe documenten die nog onbekend zijn bij de zoekmachine.

Indexer (robotindexer) is een programma dat webpagina's analyseert die door spiders zijn gedownload. De indexer ontleedt de pagina in zijn samenstellende delen en analyseert deze met behulp van zijn eigen lexicale en morfologische algoritmen. Verschillende pagina-elementen worden geanalyseerd, zoals tekst, koppen, links, structuur- en stijlkenmerken, speciale HTML-tags, enz.

Met de indexeringsmodule kunt u dus een bepaalde set bronnen doorzoeken met behulp van koppelingen, gevonden pagina's downloaden, koppelingen naar nieuwe pagina's extraheren uit ontvangen documenten en een volledige analyse van deze documenten uitvoeren.

Database

Een database, of zoekmachine-index, is een gegevensopslagsysteem, een informatiearray waarin speciaal geconverteerde parameters van alle documenten die door de indexeringsmodule zijn gedownload en verwerkt, zijn opgeslagen.

Zoekserver

De zoekserver is het belangrijkste element het hele systeem, omdat de kwaliteit en snelheid van het zoeken rechtstreeks afhangen van de algoritmen die aan de werking ervan ten grondslag liggen.

De zoekserver werkt als volgt:

    Het van de gebruiker ontvangen verzoek wordt onderworpen aan morfologische analyse. Gegenereerd informatie omgeving elk document in de database (dat vervolgens wordt weergegeven in de vorm van een fragment, dat wil zeggen dat overeenkomt met het verzoek tekst informatie op de zoekresultatenpagina).

    De ontvangen gegevens worden verzonden als invoerparameters speciale rankingmodule. Voor alle documenten worden gegevens verwerkt, waardoor elk document zijn eigen beoordeling krijgt die de relevantie karakteriseert van de door de gebruiker ingevoerde zoekopdracht en de verschillende componenten van dit document die zijn opgeslagen in de index van de zoekmachine.

    Afhankelijk van de keuze van de gebruiker kan deze beoordeling worden aangepast door aanvullende voorwaarden (bijvoorbeeld het zogenaamde “geavanceerd zoeken”).

    Vervolgens wordt een fragment gegenereerd, dat wil zeggen dat voor elk gevonden document de titel, een korte samenvatting die het beste bij de zoekopdracht past, en een link naar het document zelf uit de documenttabel wordt gehaald, en de gevonden woorden worden gemarkeerd.

    De resulterende zoekresultaten worden naar de gebruiker verzonden in de vorm van een SERP (Search Engine Result Page) – een zoekresultatenpagina.

Zoals u kunt zien, zijn al deze componenten nauw met elkaar verbonden en werken ze in interactie, waardoor ze een duidelijk, tamelijk complex mechanisme vormen voor de werking van het zoeksysteem, waarvoor enorme hoeveelheden middelen nodig zijn.

Geen enkele zoekmachine dekt alle internetbronnen.

Elke zoekmachine verzamelt informatie over internetbronnen met behulp van zijn eigen unieke methoden en vormt zijn eigen periodiek bijgewerkte database. Toegang tot deze database wordt verleend aan de gebruiker.

Zoekmachines implementeren twee manieren om naar een bron te zoeken:

    Zoek op onderwerp catalogi - informatie gepresenteerd in de vorm hiërarchische structuur. Op bovenste niveau- algemene categorieën (“Internet”, “Zakelijk”, “Kunst”, “Onderwijs”, enz.), op het volgende niveau zijn de categorieën onderverdeeld in secties, enz. Meest Lager niveau- links naar specifieke webpagina's of andere informatiebronnen.

    Zoeken op trefwoord (indexzoeken of gedetailleerd zoeken) - de gebruiker verzendt naar de zoekmachine verzoek, bestaande uit trefwoorden. Systeem geeft terug aan de gebruiker een lijst met op verzoek gevonden bronnen.

De meeste zoekmachines combineren beide zoekmethoden.

Zoekmachines kunnen lokaal, mondiaal, regionaal en gespecialiseerd zijn.

In het Russische deel van het internet (Runet) zijn de populairste zoekmachines voor algemene doeleinden Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www. google.ru).

De meeste zoekmachinesgeïmplementeerd in de vorm van portalen.

Portaal (uit het Engels.portaal - hoofdingang, gate) is een website die verschillende internetdiensten integreert: zoekhulpmiddelen, mail, nieuws, woordenboeken, enz.

Portalen kunnen gespecialiseerd zijn (zoalswww. museum. Ru) en algemeen (bijvoorbeeldwww. km. Ru).

Zoek op trefwoorden

De set trefwoorden waarmee wordt gezocht, wordt ook wel het zoekcriterium of zoekonderwerp genoemd.

Een verzoek kan bestaan ​​uit één woord of uit een combinatie van woorden gecombineerd door operators: symbolen waarmee het systeem bepaalt welke actie het moet uitvoeren. Bijvoorbeeld: het verzoek "Moskou St. Petersburg" bevat de AND-operator (zo wordt een spatie waargenomen), wat aangeeft dat men moet zoeken naar documenten die beide woorden bevatten: Moskou en St. Petersburg.

Om de zoekopdracht relevant te maken (van het Engelse relevant - relevant, relevant), moet rekening worden gehouden met een aantal algemene regels:

    Ongeacht de vorm waarin het woord in de zoekopdracht wordt gebruikt, houdt de zoekopdracht rekening met alle woordvormen volgens de regels van de Russische taal. De zoekopdracht “ticket” zal bijvoorbeeld ook de woorden “ticket”, “ticket”, enz. opleveren.

    Hoofdletters mogen alleen in eigennamen worden gebruikt om onnodige verwijzingen te voorkomen. Op verzoek van 'smeden' zullen er bijvoorbeeld documenten worden gevonden die spreken over zowel smeden als Kuznetsovs.

    Het is raadzaam om uw zoekopdracht te verfijnen met behulp van enkele trefwoorden.

    Als het gewenste adres niet tussen de eerste twintig gevonden adressen staat, moet u de aanvraag wijzigen.

Elke zoekmachine gebruikt zijn eigen zoektaal. Gebruik de ingebouwde hulp van de zoekmachine om er kennis mee te maken

Grote sites kunnen ingebouwde systemen voor het ophalen van informatie in hun webpagina's hebben.

Zoekopdrachten in dergelijke zoeksystemen worden in de regel gebouwd volgens dezelfde regels als in wereldwijde zoekmachines, maar bekendheid met de hulp hier is niet overbodig.

geavanceerd zoeken

Zoekmachines kunnen de gebruiker een mechanisme bieden om een ​​complexe zoekopdracht te maken. Na een link geavanceerd zoeken maakt het mogelijk om zoekparameters te bewerken, aanvullende parameters op te geven en de handigste vorm te selecteren voor het weergeven van zoekresultaten. Hieronder worden de parameters beschreven die kunnen worden ingesteld tijdens een geavanceerd zoeken in de Yanex- en Rambler-systemen.

Parameterbeschrijving

Naam in Yandex

Naam erinWandelaar

Waar moet u zoeken naar trefwoorden ( document titel, hoofdtekst, enz.)

Woordenboekfilter

Zoeken op tekst...

Welke woorden wel of niet in het document moeten voorkomen en hoe nauwkeurig de match moet zijn

Woordenboekfilter

Zoeken naar zoekwoorden... Documenten uitsluiten die de volgende woorden bevatten...

Hoe ver moeten trefwoorden uit elkaar liggen?

Woordenboekfilter

Afstand tussen zoekwoorden...

Beperking op documentdatum

Document datum...

Beperk uw zoekopdracht tot een of meer sites

Locatie/Boven

Zoek alleen documenten op de volgende sites...

Zoeken beperken op documenttaal

Documenttaal...

Documenten zoeken met een afbeelding met een specifieke naam of bijschrift

Afbeelding

Zoek pagina's voorwerpen bevatten

Bijzondere objecten

Presentatieformulier voor zoekresultaten

Uitgifteformaat

Zoekresultaten weergeven

Bij sommige zoekmachines (bijvoorbeeld Yandex) kunt u zoekopdrachten in natuurlijke taal invoeren. Je schrijft wat je moet vinden (bijvoorbeeld: treinkaartjes bestellen van Moskou naar Sint-Petersburg). Het systeem analyseert de aanvraag en produceert het resultaat. Als u er niet tevreden mee bent, schakelt u over naar de querytaal.

IN afgelopen jaren diensten van Google en Yandex zijn stevig verankerd in ons leven. In dit opzicht vragen velen zich waarschijnlijk af wat een zoekmachine is? Spreken in eenvoudige woorden, Dit softwaresysteem, ontworpen om informatie te zoeken in World Wijde web. De resultaten worden meestal gepresenteerd in een lijstformaat, ook wel zoekmachineresultatenpagina's (SERP's) genoemd. De informatie kan een combinatie zijn van webpagina's, afbeeldingen en andere bestandstypen. Sommige zoekmachines bevatten ook informatie die beschikbaar is in databases of openbare telefoongidsen.

In tegenstelling tot webgidsen, die alleen door hun eigen editors worden ondersteund, bevatten zoekmachines ook realtime informatie door een algoritme op de webcrawler uit te voeren.

Geschiedenis van oorsprong

Zoekmachines zelf verschenen eerder wereldwijd netwerk- december 1990. De eerste dienst heette Archie en doorzocht de inhoud van FTP-bestanden met behulp van opdrachten.

Wat is een internetzoekmachine? Tot september 1993 Wereldwijd Het web werd volledig handmatig geïndexeerd. Er was een lijst met webservers, bewerkt door Tim Berners-Lee, die werd gehost op de CERN-webserver. Zoals alles grote hoeveelheid servers met internet waren verbonden, kon bovengenoemde dienst een dergelijke hoeveelheid informatie niet verwerken.

Een van de eerste zoekmachines gebaseerd op zoekopdrachten op internet was WebCrawler, die in 1994 werd uitgebracht. In tegenstelling tot zijn voorgangers konden gebruikers op elke webpagina naar elk woord zoeken. Dit algoritme is inmiddels de standaard geworden voor alle grote zoekmachines. Het was ook de eerste beslissing die algemeen bekend was bij het publiek. Eveneens in 1994 werd de Lycos-service gelanceerd, die later een groot commercieel project werd.

Kort daarna verschenen er veel zoekmachines en hun populariteit nam aanzienlijk toe. Deze omvatten Magellan, Excite, Infoseek, Inktomi, Northern Light en AltaVista. Yahoo! was een van de meest populaire manieren het vinden van interessante webpagina's, maar het zoekalgoritme werkte op zijn eigen webdirectory in plaats van op volledige tekstkopieën van de pagina's. Informatiezoekers kunnen ook door de directory bladeren in plaats van op trefwoord te zoeken.

Een nieuwe ontwikkelingsronde

Google accepteerde het idee van verkopen zoekopdrachten in 1998, te beginnen met klein bedrijf goto.com. Deze stap had een aanzienlijke impact op de SEO-activiteiten, die in de loop van de tijd een van de meest winstgevende activiteiten op internet werden.

Rond 2000 werd de zoekmachine Google algemeen bekend. Het bedrijf heeft bereikt beste resultaten voor veel zoekopdrachten met behulp van een innovatie genaamd PageRank. Dit iteratieve algoritme rangschikt webpagina's op basis van hun verbindingen met andere sites en pagina's, op basis van de veronderstelling dat goede of wenselijke bronnen vaak door anderen worden genoemd. Google handhaafde ook een minimalistische interface voor zijn zoekmachine. Integendeel, veel concurrenten hebben een zoekmachine in het webportaal ingebouwd. Google is zelfs zo populair geworden dat er oplichtingsmachines zoals Mystery Seeker zijn ontstaan. Tegenwoordig zijn er veel regionale versies van deze dienst, met name zoeken Google-systeem.ru, ontworpen voor Russischsprekende gebruikers.

Hoe werken deze diensten?

Hoe worden rankings en resultaten weergegeven? Wat zijn zoekmachines vanuit het oogpunt van het actie-algoritme? Ze verkrijgen informatie door het web van site naar site te crawlen. Robot- of "spider"-controles standaard naam robots.txt-bestand dat eraan is geadresseerd voordat bepaalde informatie voor indexering wordt verzonden. Het richt zich op veel factoren, namelijk headers, pagina-inhoud, JavaScript, Cascading Style Sheets (CSS) en standaard HTML-opmaak informatie-inhoud of metagegevens in HTML-metatags.

Indexeren betekent het koppelen van woorden en andere identificeerbare tokens die op webpagina's worden gevonden, aan hun domeinnamen en velden aan HTML-gebaseerd. Er ontstaan ​​associaties openbare databank gegevens beschikbaar voor zoekopdrachten op internet. Het verzoek van de gebruiker kan uit één woord bestaan. Met een index kunt u zo snel mogelijk informatie over een zoekopdracht vinden.

Sommige indexerings- en cachingtechnieken zijn bedrijfsgeheimen, terwijl webcrawlen een eenvoudig proces is waarbij alle websites op een systematische manier worden bezocht.

Tussen robotbezoeken wordt een in het cachegeheugen opgeslagen versie van de pagina (een deel of alle inhoud die nodig is om deze weer te geven) opgeslagen werkgeheugen zoekmachine, wordt snel naar de aanvragende gebruiker verzonden. Als het bezoek te laat is, kan de zoekmachine eenvoudigweg als webproxy fungeren. In dit geval kan de pagina afwijken van de zoekindexen. De in de cache opgeslagen bron toont de versie waarvan de woorden zijn geïndexeerd, dus dit kan handig zijn als de daadwerkelijke pagina verloren is gegaan.

Architectuur op hoog niveau

Normaal gesproken voert een gebruiker een zoekopdracht in een zoekmachine in in de vorm van verschillende trefwoorden. De index bevat al de namen van sites die deze trefwoorden bevatten, en deze worden onmiddellijk weergegeven. De echte werklast bestaat uit het maken van webpagina's met een lijst met zoekresultaten. Elke pagina in de gehele lijst moet worden gerangschikt volgens de informatie in de indexen.

In dit geval bovenste element resultaat vereist het zoeken, reconstrueren en markeren van fragmenten die de context van de overeenkomende trefwoorden tonen. Dit is slechts een deel van de verwerking van elke webpagina in de zoekresultaten, en verdere pagina's (ernaast) vereisen het grootste deel van deze daaropvolgende verwerking.

Naast het eenvoudig zoeken naar trefwoorden, bieden zoekmachines hun eigen GUI- of opdrachtgestuurde operators en zoekparameters om de resultaten te verfijnen.

Zij bieden noodzakelijke elementen controle voor de gebruiker met behulp van een lus feedback, door te filteren en te wegen bij het verfijnen van de benodigde gegevens, rekening houdend met startpagina's eerste zoekresultaten. Sinds 2007 maakt Google.com het bijvoorbeeld mogelijk om de resulterende lijst op datum te filteren door op 'Zoekhulpmiddelen weergeven' in de meest linkse kolom op de oorspronkelijke resultatenpagina te klikken en vervolgens het gewenste datumbereik te selecteren.

Verschillende verzoeken

De meeste zoekmachines ondersteunen het gebruik logische operatoren EN, OF en NIET om te helpen eindgebruikers het verzoek verduidelijken. Sommige operators zijn ontworpen voor letterlijke waarden, waardoor de gebruiker de zoektermen kan verfijnen en uitbreiden. De robot zoekt naar woorden of zinsdelen op dezelfde manier als naar ingevoerde commando's. Sommige zoekmachines bieden een geavanceerde zoekfunctie waarmee gebruikers de afstand tussen trefwoorden kunnen bepalen.

Er is ook sprake van conceptueel zoeken, waarbij het onderzoek gebruik inhoudt statistische analyse op pagina's met de woorden of zinsdelen waarnaar u op zoek bent. Daarnaast verzoeken om natuurlijke taal laat de gebruiker een vraag invoeren in dezelfde vorm die hij aan een persoon zou stellen (het meest typische voorbeeld is ask.com).

Het nut van een zoekmachine hangt af van de relevantie van de reeks resultaten die hij retourneert. Er kunnen miljoenen webpagina's zijn die een bepaald woord of een bepaalde zinsnede bevatten, maar sommige kunnen relevanter, populairder of gezaghebbender zijn dan andere. De meeste zoekmachines gebruiken rankingmethoden om de beste resultaten te garanderen.

Hoe een zoekmachine bepaalt welke pagina's het beste bij een zoekopdracht passen, en in welke volgorde de gevonden bronnen moeten worden weergegeven, verschilt sterk van robot tot robot. Deze methoden veranderen ook in de loop van de tijd naarmate het internetgebruik verandert en nieuwe technologieën zich ontwikkelen.

Wat is een zoekmachine: variëteiten

Er zijn twee hoofdtypen zoekmachines. De eerste is een systeem van vooraf gedefinieerde en hiërarchisch geordende trefwoorden waarmee mensen het massaal hebben geprogrammeerd. De tweede is een systeem dat een ‘omgekeerde index’ genereert door de gevonden teksten te analyseren.

De meeste zoekmachines zijn commerciële diensten die worden ondersteund door advertentie-inkomsten, en sommige bieden adverteerders daarom de mogelijkheid om tegen betaling een rangschikking te maken in de resultaten die ze weergeven. Diensten die geen geld accepteren voor ranglijsten verdienen geld door te rennen contextuele advertenties naast de weergegeven sites. Tegenwoordig is zoekmachinepromotie een van de meest voorkomende winstgevende inkomsten online.

Welke diensten komen het meest voor?

Google is de populairste zoekmachine ter wereld met een marktaandeel van 80,52% in maart 2017.

  • Google - 80,52%
  • Bing-6,92%
  • Baidu - 5,94%
  • Yahoo! - 5,35%

Zoekmachines in Rusland en Oost-Azië

In Rusland en sommige landen Oost-Azië Google is niet de meest populaire dienst. Te midden van Russische gebruikers de Yandex-zoekmachine is leider in populariteit (61,9%) vergeleken met Google (28,3%). IN China Baidu is de populairste dienst. Portaal zoeken Zuid-Korea- Naver wordt gebruikt voor 70% van de online zoekopdrachten in het land. Ook Yahoo! in Japan en Taiwan is het het populairste hulpmiddel om de benodigde gegevens te vinden.

Andere bekende Russische zoekmachines zijn Mail en Rambler. Met het begin van de ontwikkeling van de Runet genoten ze een grote populariteit, maar nu hebben ze hun positie grotendeels verloren.

Zoekbeperkingen en criteria

Hoewel zoekmachines zijn geprogrammeerd om websites te rangschikken op basis van hun populariteit en relevantie, wijst empirisch onderzoek op verschillende politieke, economische en sociale criteria voor het selecteren van de informatie die zij verstrekken. Deze vooroordelen kunnen een direct gevolg zijn van economische vooroordelen (bedrijven die reclame maken voor een zoekmachine kunnen bijvoorbeeld ook populairder worden in de resultaten regelmatig zoeken) en politieke processen (bijvoorbeeld het verwijderen van zoekresultaten in overeenstemming met lokale wetgeving). Google zal bijvoorbeeld bepaalde neo-nazi-sites in Frankrijk en Duitsland, waar het ontkennen van de Holocaust illegaal is, niet weergeven.

Christelijke, Islamitische en Joodse zoekmachines

Mondiale groei van internet en elektronische middelen De berichtgeving in de media in de moslimwereld van de afgelopen tien jaar heeft islamitische aanhangers in het Midden-Oosten en het Aziatische subcontinent ertoe aangezet te proberen hun eigen zoekmachines en gefilterde portalen te creëren waarmee gebruikers veilige zoekopdrachten kunnen uitvoeren.

Dergelijke diensten bevatten filters die websites verder classificeren als “halal” of “haram” op basis van moderne deskundige interpretatie van de “Wet van de islam”.

Het ImHalal-portaal verscheen online in september 2011 en Halalgoogling in juli 2013. Ze gebruiken haramfilters op basis van algoritmen van Google en Bing.

Andere religiegerichte zoekmachines zijn Jewgle (Joods Google-versie), evenals de christelijke SeekFind.org. Ze filteren sites uit die hun geloof ontkennen of vernederen.