Wat zijn zoekmachines? Apparaten en materialen. Bewaken van de huidige status van uw documenten in de zoekmachine-index

Classificatie

Per zoekgebied (voorwaardelijk)

Lokaal

Ontworpen om informatie over elk onderdeel te zoeken wereldwijd netwerk bijvoorbeeld via een of meer sites, of via een lokaal netwerk.

Globaal

Ontworpen om informatie op het hele internet of een aanzienlijk deel ervan te zoeken. Vertegenwoordigers van dergelijke zoekmachines zijn dat wel zoekmachines Google, Yandex, enz. Zoekmachines zoeken naar informatie verschillende soorten, bijvoorbeeld teksten, video's, afbeeldingen, geografische objecten, persoonlijke gegevens, enz. In dit geval kunnen de bestanden waarmee een zoekmachine kan werken de tekstindeling hebben (bijvoorbeeld .html, .htm, .txt, . doc, .rtf...) en grafisch (.gif, .png, .svg...) of multimedia (video en geluid). Tot nu toe is het zoeken in tekstdocumenten het meest gebruikelijk.

Zoekvraag

De initiële informatie voor de zoekopdracht is de zoekopdracht.

Functies

Zoekmachines vervullen verschillende functies:

Zoek naar koppelingen

Zoek naar links naar pagina's en andere sitedocumenten.

Auto

Handmatige modus

Gebruikers voegen zelf links naar de pagina's van hun sites toe aan de database van de zoekmachine

Websitedocumenten indexeren

Het extraheren van zoekrelevante informatie uit documenten, het omzetten van die informatie in een zoekmachinevriendelijk formaat en het opslaan van die informatie in een zoekmachinedatabase

Doorzoek de database met geïndexeerde documenten

Kan uit verschillende fasen bestaan

Documenten zoeken die overeenkomen met een zoekopdracht

Documenten rangschikken op basis van hun relevantie voor zoekopdrachten

Documentclustering

Opmerkingen

Zie ook


Stichting Wikimedia.

2010.

, goederen in... ... Wikipedia

e-boek

Met zoekmachines kunt u WWW-documenten vinden die betrekking hebben op bepaalde onderwerpen of zijn voorzien van trefwoorden of combinaties daarvan. Er worden twee zoekmethoden gebruikt op zoekservers:

· Volgens de hiërarchie van concepten;

· Op trefwoorden.

Zoekservers worden automatisch of handmatig gevuld. De zoekserver heeft meestal links naar de rest zoekservers en stuurt op verzoek van de gebruiker een zoekverzoek.

Er zijn twee soorten zoekmachines.

1. "Full-text"-zoekmachines, die elk woord op een webpagina indexeren, met uitzondering van stopwoorden.

2. "Abstracte" zoekmachines die van elke pagina een samenvatting maken.

Voor webmasters zijn full-text-engines nuttiger omdat elk woord dat op een webpagina wordt gevonden, wordt geanalyseerd om de relevantie ervan voor zoekopdrachten van gebruikers te bepalen. Abstracte zoekmachines kunnen pagina's echter beter indexeren dan pagina's met volledige tekst. Dit hangt af van het algoritme voor het extraheren van informatie, bijvoorbeeld door de frequentie van het gebruik van dezelfde woorden.

Belangrijkste kenmerken van zoekmachines.

1.De grootte van een zoekmachine wordt bepaald door het aantal geïndexeerde pagina's. De links die naar aanleiding van verzoeken van gebruikers worden verstrekt, kunnen echter op elk moment van verschillende leeftijd zijn. Redenen waarom dit gebeurt:

· sommige zoekmachines indexeren de pagina onmiddellijk op verzoek van de gebruiker, en gaan vervolgens door met het indexeren van pagina's die nog niet zijn geïndexeerd.

· anderen indexeren vaak de populairste webpagina's.

2.Indexatiedatum. Sommige zoekmachines tonen de datum waarop een document is geïndexeerd. Hierdoor kan de gebruiker bepalen wanneer een document online is verschenen.

3. De indexeringsdiepte laat zien hoeveel pagina's na de opgegeven pagina de zoekmachine zal indexeren. De meeste machines hebben geen beperkingen op de indexeerdiepte. Redenen waarom niet alle pagina's geïndexeerd kunnen worden:

· Niet correct gebruik frameconstructies.

· gebruik van een sitemap zonder duplicatie reguliere koppelingen

4.Werken met kaders. Als een zoekrobot niet weet hoe hij met frameconstructies moet werken, worden bij het indexeren veel constructies met frames gemist.

5. Frequentie van links. Grote zoekmachines kunnen de populariteit van een document bepalen aan de hand van hoe vaak er naar wordt gelinkt. Sommige machines ‘concluderen’ op basis van dergelijke gegevens of het document al dan niet geïndexeerd moet worden.

6. Updatefrequentie van de server. Als de server regelmatig wordt bijgewerkt, zal de zoekmachine deze vaker opnieuw indexeren.

7. Indexatiecontrole. Laat zien welke tools u kunt gebruiken om de zoekmachine te beheren.

8. Omleiding. Sommige sites leiden bezoekers door van de ene server naar de andere, en deze optie laat zien hoe dit verband houdt met de gevonden documenten.

9. Stop met woorden. Sommige zoekmachines nemen bepaalde woorden niet op in hun indexen of nemen deze woorden mogelijk niet op in zoekopdrachten van gebruikers. Deze woorden worden meestal beschouwd als voorzetsels of veelgebruikte woorden.

10. Spamboetes. Mogelijkheid om spam te blokkeren.

11.Oude gegevens verwijderen. Een parameter die de acties van de webmaster bepaalt bij het sluiten van de server of het verplaatsen naar een ander adres.

Voorbeelden van zoekmachines.

1. Altavista. Het systeem werd in december 1995 geopend. Eigendom van DEC. Sinds 1996 werkt hij samen met Yahoo. AltaVista is beste optie voor aangepast zoeken . Resultaten sorteren op categorie Dit gebeurt niet en u moet de verstrekte informatie handmatig bekijken. AltaVista biedt geen mogelijkheid om lijsten op te halen actieve knooppunten, nieuws of andere zoekmogelijkheden voor inhoud.

2. Zoekopdracht opwinden. Gelanceerd eind 1995. In september 1996 - overgenomen door WebCrawler. Deze eenheid beschikt over een krachtige zoekbontlaag, mogelijkheid tot automatische individuele instellingenverstrekte informatie, evenals samengestelde kwalificatiesbeschrijvingen van meerdere knooppunten door gekwalificeerd personeel. Opwinden verschilt daarin van andere zoekknooppuntenHiermee kunt u nieuwsdiensten zoeken en recensies publiceren Webpagina's. De zoekmachine maakt gebruik van toolsstandaard zoeken op trefwoorden en heuristiekzoekmethoden voor inhoud. Dankzij deze combinatieu kunt relevante pagina's vinden Web, als ze niet bevatten opgegeven door de gebruiker sleutel woorden Nadeel van Excite is een enigszins chaotische interface.

3. HotBot. Gelanceerd in mei 1996. Eigendom van Wired. Gebaseerd op Berkeley Inktomi-zoekmachinetechnologie. HotBot is een database met documenten die zijn geïndexeerd door volledige tekst en een van de meest uitgebreide zoekmachines op internet. Het is een manier om te zoeken op logische voorwaarden en om de zoekopdracht te beperken tot welk gebied dan ook Website help de gebruiker te vinden noodzakelijke informatie, het overbodige uitbannen. HotBot biedt de mogelijkheid om de gewenste zoekparameters uit vervolgkeuzelijsten te selecteren.

4.InfoZoeken. Gelanceerd vóór 1995, gemakkelijk toegankelijk. Bevat momenteel ongeveer 50 miljoen URL's. Infoseek heeft een goed ontworpen interface en uitstekende zoekfaciliteiten. De meeste antwoorden op vragen gaan vergezeld van links naar 'gerelateerde onderwerpen', en elk antwoord wordt gevolgd door links naar 'soortgelijke pagina's'. Database zoekmachine pagina's geïndexeerd op volledige tekst. Antwoorden worden gerangschikt op basis van twee indicatoren: de frequentie waarmee het woord of de zinsdelen op de pagina voorkomen tsakh, evenals de locatie van woorden of zinsdelen op de pagina's. Er is een webdirectory, onderverdeeld in 12 categorieën met honderden subcategorieën waarin kan worden gezocht. Elke cataloguspagina bevat een lijst met re aanbevolen knooppunten.

5. Lycos. In bedrijf sinds mei 1994. Algemeen bekend en gebruikt. Het bevat een map met een groot aantal URL's. en de Point-zoekmachine met technologie statistische analyse pagina-inhoud, in tegenstelling tot volledige tekstindexering. Lycos bevat nieuws, siterecensies, links naar populaire sites, stadsplattegronden en hulpmiddelen voor het vinden van adressen en afbeeldingen uitingen en geluids- en videoclips. Lycos rangschikt de antwoorden op mate van correlatiehet voldoen aan een verzoek op basis van verschillende criteria, bijvoorbeeld het aantallu zoektermen gevonden in de samenvatting van het documentment, interval tussenin woorden in een specifieke zin van het document, locatietermen in het document.

6. WebCrawler. Geopend op 20 april 1994 als een project van de Universiteit van Washington. WebCrawler biedt kansen syntaxis voor het specificeren van zoekopdrachten, evenals een grote selectie knooppuntannotaties met een eenvoudige interface.


Na elk antwoord zal WebCrawler een klein pictogram weergeven dat aangeeft dat het verzoek bij benadering overeenkomt. Comee geeft ook een pagina weer met een korte samenvatting voor elk antwoord, de volledige URL, een exacte matchscore en ook het gebruik ervan dit antwoord in het voorbeeldverzoek zoals het trefwoorden. Grafische interface voor het configureren van queries in Er is geen webcrawler. N is niet toegestaanhet gebruik van universele symbolen is ook onmogelijkwijs gewichten toe aan trefwoorden.Er is geen manier om het zoekveld te beperkeneen bepaald gebied.

7. Yahoo. De oudste directory van Yahoo werd begin 1994 gelanceerd. Algemeen bekend, veelgebruikt en meest gerespecteerd. In maart 1996 werd de Yahooligans-catalogus voor kinderen gelanceerd. Regionale en topmappen van Yahoo verschijnen. Yahoo is gebaseerd op gebruikersabonnementen. Het kan als startpunt dienen voor elke zoekopdracht op internet, omdat het classificatiesysteem de gebruiker helpt een site met goed georganiseerde informatie te vinden. Webinhoud is onderverdeeld in 14 algemene categorieën, vermeld op de startpagina. Yahoo-pagina!. Afhankelijk van de specifieke kenmerken van het verzoek van de gebruiker, is het mogelijk om met deze categorieën te werken om kennis te maken met subcategorieën en lijsten met knooppunten, of om te zoeken specifieke woorden en termen in de hele database. De gebruiker kan de zoekopdracht ook beperken binnen elke sectie of subsectie van Yahoo!. Vanwege het feit dat de classificatie van knooppunten door mensen wordt uitgevoerd, en niet via de computer, de kwaliteit van de links is meestal erg hoog. Het verfijnen van de zoektocht in geval van een mislukking is echter een moeilijke taak. Sluit je aan bij Yahoo ! zoekmachine inbegrepen AltaVista, dus als uw zoekopdracht op Yahoo! het gebeurt automatisch herhaling met behulp van een zoekmachine AltaVista . De resultaten worden vervolgens verzonden naar Yahoo!. Yahoo! biedt de mogelijkheid om zoekopdrachten naar Usenet en Fourl 1 te sturen om adressen te achterhalen e-mail.

Naar Russisch zoekmachines erbij betrekken:

1. Rambler Dit is een Russischtalige zoekmachine. Secties vermeld op home Rambler-pagina, gedekt door Russischtalige webbronnen. Er is een informatieclassificator. Een handige mogelijkheid Het werk is om voor elk een lijst te geven met de meest bezochte knooppunten het voorgestelde onderwerp.

2. Zoeken naar een haven. Apoort behoort tot de toonaangevende gecertificeerde zoekmachines Microsoft zoals lokale zoekmachinessystemen voor de Russische versie Microsoft Internet Explorer. Een van de voordelen van Aport is de vertaling Engels-Russisch en Russisch-Engels online-modus zoekopdrachten en zoekopdrachten naar resultaten, waardoor u kunt zoeken in Russische internetbronnen , zelfs zonder Russisch te kennen. Bovendien je kunt zoeken naar informatie gebruik van uitdrukkingen, zelfs voor zinnen.Een van de belangrijkste eigenschappen van het Aport-zoeksysteem is dat u dat kuntverdeel het volgende:

Vertaling van zoekopdrachten en zoekresultaten van het Russisch naar het EngelsChinese taal en omgekeerd;

Automatische controle spelfouten in het verzoek;

Informatieve weergave van zoekresultaten voor gevonden sites;

Mogelijkheid om in elke grammaticale vorm te zoeken;


geavanceerde zoektaal voor professionals contante gebruikers.

Andere zoekeigenschappen zijn onder meer:ondersteuning van vijf hoofdcodepagina's (verschillende besturingssystemen).systemen) voor de Russische taal, zoektechnologie met behulp vaner zijn geen beperkingen URL en datum van documenten, zoekimplementatiedoor koppen, commentaren en handtekeningennaar afbeeldingen, enz., zoekparameters opslaan en definiëren aantal eerdere gebruikersverzoeken, samenvoegen kopieën van het document die zich op verschillende servers bevinden.

3.Lijst. ru ( http://www.list.ru) Bij de implementatie heeft deze server er veelgemeen met het Engelstalige systeem Yahoo!. Op startpagina server bevat links naar de meest populaire zoekcategorieën.


Een lijst met links naar de hoofdcategorieën van de catalogus vormt het centrale deel. Zoeken in de catalogus is zo geïmplementeerd dat het resultaat van een zoekopdracht zowel op individuele sites als in categorieën kan worden gevonden. Als de zoekopdracht succesvol is, worden de URL, titel, beschrijving en trefwoorden weergegeven. Acceptabel gebruik Yandex-querytaal. METlink "Structuurcatalogus" opent de volledige kata-categorie in een apart vensterloggen. De mogelijkheid om van de rubricator naar elke geselecteerde subcategorie te gaan is geïmplementeerd. Meer gedetailleerde thematische indelingde huidige sectie wordt weergegeven door een lijst met links. De catalogus is als volgt opgebouwd zodanig dat alle sites erop staan lagere niveaus beroerterondleidingen worden ook in secties gepresenteerd.De weergegeven lijst met bronnen is alfabetisch gesorteerd, maar u kunt ervoor kiezen om te sorteren op: op tijd menu toevoegen, door overgang, door volgorde van toevoeging aan de catalogus, volgenspopulariteit onder catalogusbezoekers.

4. Yandex. Softwareproducten De Yandex-serie vertegenwoordigt een reeks hulpmiddelen voor het indexeren van volledige tekst en het zoeken naar tekstgegevens, waarbij rekening wordt gehouden met de morfologie van de Russische taal. Yandex bevat modules voor morfologische analyse en synthese, indexering en zoeken, evenals een reeks hulpmodules, zoals een documentanalysator, opmaaktalen, formaatconverters en een spider.

Morfologische analyse- en synthese-algoritmen op basis van het basiswoordenboek zijn in staat woorden te normaliseren, dat wil zeggen hun oorspronkelijke vorm te vinden, en ook hypothesen op te bouwen voor woorden die niet in het basiswoordenboek voorkomen. Systeem indexering van volledige tekst Hiermee kunt u een compacte index maken en snel zoeken op basis van logische operatoren.

Yandex is ontworpen om lokaal en intern met teksten te werken mondiaal netwerk, en kan ook als module op andere systemen worden aangesloten.

e-boek

Met zoekmachines kunt u WWW-documenten vinden die betrekking hebben op bepaalde onderwerpen of zijn voorzien van trefwoorden of combinaties daarvan. Er worden twee zoekmethoden gebruikt op zoekservers:

· Volgens de hiërarchie van concepten;

· Op trefwoorden.

Zoekservers worden automatisch of handmatig gevuld. De zoekserver heeft doorgaans links naar andere zoekservers en stuurt deze op verzoek van de gebruiker een zoekverzoek.

Er zijn twee soorten zoekmachines.

1. "Full-text"-zoekmachines, die elk woord op een webpagina indexeren, met uitzondering van stopwoorden.

2. "Abstracte" zoekmachines die van elke pagina een samenvatting maken.

Voor webmasters zijn full-text-engines nuttiger omdat elk woord dat op een webpagina wordt gevonden, wordt geanalyseerd om de relevantie ervan voor zoekopdrachten van gebruikers te bepalen. Abstracte zoekmachines kunnen pagina's echter beter indexeren dan pagina's met volledige tekst. Dit hangt af van het algoritme voor het extraheren van informatie, bijvoorbeeld door de frequentie van het gebruik van dezelfde woorden.

Belangrijkste kenmerken van zoekmachines.

1.De grootte van een zoekmachine wordt bepaald door het aantal geïndexeerde pagina's. De links die naar aanleiding van verzoeken van gebruikers worden verstrekt, kunnen echter op elk moment van verschillende leeftijd zijn. Redenen waarom dit gebeurt:

· sommige zoekmachines indexeren de pagina onmiddellijk op verzoek van de gebruiker, en gaan vervolgens door met het indexeren van pagina's die nog niet zijn geïndexeerd.

· anderen indexeren vaak de populairste webpagina's.

2.Indexatiedatum. Sommige zoekmachines tonen de datum waarop een document is geïndexeerd. Hierdoor kan de gebruiker bepalen wanneer een document online is verschenen.

3. De indexeringsdiepte laat zien hoeveel pagina's na de opgegeven pagina de zoekmachine zal indexeren. De meeste machines hebben geen beperkingen op de indexeerdiepte. Redenen waarom niet alle pagina's geïndexeerd kunnen worden:

· onjuist gebruik van frameconstructies.

· gebruik van een sitemap zonder reguliere links te dupliceren

4.Werken met kaders. Als een zoekrobot niet weet hoe hij met frameconstructies moet werken, worden bij het indexeren veel constructies met frames gemist.

5. Frequentie van links. Grote zoekmachines kunnen de populariteit van een document bepalen aan de hand van hoe vaak er naar wordt gelinkt. Sommige machines ‘concluderen’ op basis van dergelijke gegevens of het document al dan niet geïndexeerd moet worden.

6. Updatefrequentie van de server. Als de server regelmatig wordt bijgewerkt, zal de zoekmachine deze vaker opnieuw indexeren.

7. Indexatiecontrole. Laat zien welke tools u kunt gebruiken om de zoekmachine te beheren.

8. Omleiding. Sommige sites leiden bezoekers door van de ene server naar de andere, en deze optie laat zien hoe dit verband houdt met de gevonden documenten.

9. Stop met woorden. Sommige zoekmachines nemen bepaalde woorden niet op in hun indexen of nemen deze woorden mogelijk niet op in zoekopdrachten van gebruikers. Deze woorden worden meestal beschouwd als voorzetsels of veelgebruikte woorden.

10. Spamboetes. Mogelijkheid om spam te blokkeren.

11.Oude gegevens verwijderen. Een parameter die de acties van de webmaster bepaalt bij het sluiten van de server of het verplaatsen naar een ander adres.

Voorbeelden van zoekmachines.

1. Altavista. Het systeem werd in december 1995 geopend. Eigendom van DEC. Sinds 1996 werkt hij samen met Yahoo. AltaVista is de beste optie voor aangepast zoeken . Resultaten sorteren op categorie Dit gebeurt niet en u moet de verstrekte informatie handmatig bekijken. AltaVista biedt geen enkele manier om lijsten met actieve sites, nieuws of andere zoekmogelijkheden voor inhoud op te halen.

2. Zoekopdracht opwinden. Gelanceerd eind 1995. In september 1996 - overgenomen door WebCrawler. Deze eenheid beschikt over een krachtige zoekbontlaag, mogelijkheid tot automatische individuele instellingenverstrekte informatie, evenals samengestelde kwalificatiesbeschrijvingen van meerdere knooppunten door gekwalificeerd personeel. Opwinden verschilt daarin van andere zoekknooppuntenHiermee kunt u nieuwsdiensten zoeken en recensies publiceren Webpagina's. De zoekmachine maakt gebruik van toolsstandaard zoeken op trefwoorden en heuristiekzoekmethoden voor inhoud. Dankzij deze combinatieu kunt relevante pagina's vinden Web, als ze geen door de gebruiker opgegeven sleutel bevatten woorden Nadeel van Excite is een enigszins chaotische interface.

3. HotBot. Gelanceerd in mei 1996. Eigendom van Wired. Gebaseerd op Berkeley Inktomi-zoekmachinetechnologie. HotBot is een database met geïndexeerde volledige tekstdocumenten en een van de meest uitgebreide zoekmachines op internet. De Booleaanse zoekmogelijkheden en de mogelijkheid om zoekopdrachten te beperken tot elk gebied of elke website helpen de gebruiker de informatie te vinden die hij nodig heeft, terwijl hij de informatie eruit filtert die hij niet nodig heeft. HotBot biedt de mogelijkheid om de gewenste zoekparameters uit vervolgkeuzelijsten te selecteren.

4.InfoZoeken. Gelanceerd vóór 1995, gemakkelijk toegankelijk. Bevat momenteel ongeveer 50 miljoen URL's. Infoseek heeft een goed ontworpen interface en uitstekende zoekfaciliteiten. De meeste antwoorden op vragen gaan vergezeld van links naar 'gerelateerde onderwerpen', en elk antwoord wordt gevolgd door links naar 'soortgelijke pagina's'. Zoekmachinedatabase met pagina's geïndexeerd op volledige tekst. Antwoorden worden gerangschikt op basis van twee indicatoren: de frequentie waarmee het woord of de zinsdelen op de pagina voorkomen tsakh, evenals de locatie van woorden of zinsdelen op de pagina's. Er is een webdirectory, onderverdeeld in 12 categorieën met honderden subcategorieën waarin kan worden gezocht. Elke cataloguspagina bevat een lijst met re aanbevolen knooppunten.

5. Lycos. In bedrijf sinds mei 1994. Algemeen bekend en gebruikt. Het bevat een map met een groot aantal URL's. en de Point-zoekmachine met technologie voor statistische analyse van pagina-inhoud, in tegenstelling tot volledige tekstindexering. Lycos bevat nieuws, siterecensies, links naar populaire sites, stadsplattegronden en hulpmiddelen voor het vinden van adressen en afbeeldingen uitingen en geluids- en videoclips. Lycos rangschikt de antwoorden op mate van correlatiehet voldoen aan een verzoek op basis van verschillende criteria, bijvoorbeeld het aantallu zoektermen gevonden in de samenvatting van het documentment, interval tussenin woorden in een specifieke zin van het document, locatietermen in het document.

6. WebCrawler. Geopend op 20 april 1994 als een project van de Universiteit van Washington. WebCrawler biedt kansen syntaxis voor het specificeren van zoekopdrachten, evenals een grote selectie knooppuntannotaties met een eenvoudige interface.


Na elk antwoord zal WebCrawler een klein pictogram weergeven dat aangeeft dat het verzoek bij benadering overeenkomt. Comee geeft ook een pagina weer met een korte samenvatting voor elk antwoord, de volledige URL, een exacte matchscore en ook het gebruik ervan dit antwoord in de voorbeeldquery als trefwoorden.Grafische interface voor het configureren van queries in Er is geen webcrawler. N is niet toegestaanhet gebruik van universele symbolen is ook onmogelijkwijs gewichten toe aan trefwoorden.Er is geen manier om het zoekveld te beperkeneen bepaald gebied.

7. Yahoo. De oudste directory van Yahoo werd begin 1994 gelanceerd. Algemeen bekend, veelgebruikt en meest gerespecteerd. In maart 1996 werd de Yahooligans-catalogus voor kinderen gelanceerd. Regionale en topmappen van Yahoo verschijnen. Yahoo is gebaseerd op gebruikersabonnementen. Het kan als startpunt dienen voor elke zoekopdracht op internet, omdat het classificatiesysteem de gebruiker helpt een site met goed georganiseerde informatie te vinden. Webinhoud valt in 14 algemene categorieën, vermeld op startpagina Yahoo!. Afhankelijk van de specifieke kenmerken van de zoekopdracht van de gebruiker, is het mogelijk om met deze categorieën te werken om subcategorieën en lijsten met knooppunten te verkennen, of om in de hele database naar specifieke woorden en termen te zoeken. De gebruiker kan de zoekopdracht ook beperken binnen elke sectie of subsectie van Yahoo!. Vanwege het feit dat de classificatie van knooppunten door mensen wordt uitgevoerd, en niet via de computer, de kwaliteit van de links is meestal erg hoog. Het verfijnen van de zoektocht in geval van een mislukking is echter een moeilijke taak. Sluit je aan bij Yahoo ! zoekmachine inbegrepen AltaVista, dus als uw zoekopdracht op Yahoo! het gebeurt automatisch herhaling met behulp van een zoekmachine AltaVista . De resultaten worden vervolgens verzonden naar Yahoo!. Yahoo! biedt de mogelijkheid om zoekopdrachten naar Usenet en Fourl 1 te sturen om e-mailadressen te achterhalen.

Russische zoekmachines zijn onder meer:

1. Rambler Dit is een Russischtalige zoekmachine. De secties op de Rambler-startpagina hebben betrekking op Russischtalige webbronnen. Er is een informatieclassificator. Een handige functie is om voor elk knooppunt een lijst weer te geven met de meest bezochte knooppunten het voorgestelde onderwerp.

2. Zoeken naar een haven. Apoort behoort tot de toonaangevende gecertificeerde zoekmachines Microsoft zoals lokale zoekmachinessystemen voor de Russische versie Microsoft Internet Explorer. Een van de voordelen van Aport is de Engels-Russische en Russisch-Engelse vertaling van online zoekopdrachten en zoekopdrachten naar resultaten, waardoor u kunt zoeken in Russische internetbronnen , zelfs zonder Russisch te kennen. Bovendien je kunt zoeken naar informatie gebruik van uitdrukkingen, zelfs voor zinnen.Een van de belangrijkste eigenschappen van het Aport-zoeksysteem is dat u dat kuntverdeel het volgende:

Vertaling van zoekopdrachten en zoekresultaten van het Russisch naar het EngelsChinese taal en omgekeerd;

Controleer automatisch spelfouten in uw aanvraag;

Informatieve weergave van zoekresultaten voor gevonden sites;

Mogelijkheid om in elke grammaticale vorm te zoeken;


geavanceerde zoektaal voor professionals contante gebruikers.

Andere zoekeigenschappen zijn onder meer:ondersteuning van vijf hoofdcodepagina's (verschillende besturingssystemen).systemen) voor de Russische taal, zoektechnologie met behulp vaner zijn geen beperkingen URL en datum van documenten, zoekimplementatiedoor koppen, commentaren en handtekeningennaar afbeeldingen, enz., zoekparameters opslaan en definiëren aantal eerdere gebruikersverzoeken, samenvoegen kopieën van het document die zich op verschillende servers bevinden.

3.Lijst. ru ( http://www.list.ru) Bij de implementatie heeft deze server er veelgemeen met het Engelstalige systeem Yahoo!. Op de hoofdpagina van de server staan ​​links naar de populairste zoekcategorieën.


Een lijst met links naar de hoofdcategorieën van de catalogus vormt het centrale deel. Zoeken in de catalogus is zo geïmplementeerd dat het resultaat van een zoekopdracht zowel op individuele sites als in categorieën kan worden gevonden. Als de zoekopdracht succesvol is, worden de URL, titel, beschrijving en trefwoorden weergegeven. Acceptabel gebruik Yandex-querytaal. METlink "Structuurcatalogus" opent de volledige kata-categorie in een apart vensterloggen. De mogelijkheid om van de rubricator naar elke geselecteerde subcategorie te gaan is geïmplementeerd. Meer gedetailleerde thematische indelingde huidige sectie wordt weergegeven door een lijst met links. De catalogus is als volgt opgebouwd zodanig dat alle locaties zich op de lagere niveaus van de structuren bevindenrondleidingen worden ook in secties gepresenteerd.De weergegeven lijst met bronnen is alfabetisch gesorteerd, maar u kunt ervoor kiezen om te sorteren op: op tijd menu toevoegen, door overgang, door volgorde van toevoeging aan de catalogus, volgenspopulariteit onder catalogusbezoekers.

4. Yandex. Softwareproducten uit de Yandex-serie vertegenwoordigen een reeks hulpmiddelen voor het indexeren van volledige tekst en het zoeken naar tekstgegevens, rekening houdend met de morfologie van de Russische taal. Yandex bevat modules voor morfologische analyse en synthese, indexering en zoeken, evenals een reeks hulpmodules, zoals een documentanalysator, opmaaktalen, formaatconverters en een spider.

Morfologische analyse- en synthese-algoritmen op basis van het basiswoordenboek zijn in staat woorden te normaliseren, dat wil zeggen hun oorspronkelijke vorm te vinden, en ook hypothesen op te bouwen voor woorden die niet in het basiswoordenboek voorkomen. Met het full-text indexeringssysteem kunt u een compacte index maken en snel zoeken met behulp van logische operatoren.

Yandex is ontworpen om met teksten op lokale en mondiale netwerken te werken, en kan ook als module op andere systemen worden aangesloten.

25/04/05 5,4K

Invoering

Een van de belangrijkste manieren om informatie op internet te vinden is via zoekmachines. Zoekmachines doorzoeken elke dag het internet: ze bezoeken webpagina's en voeren deze in gigantische databases in. Hierdoor kan de gebruiker een aantal trefwoorden intypen, op Verzenden klikken en zien welke pagina's overeenkomen met zijn zoekopdracht.

Begrijpen hoe zoekmachines werken is essentieel voor webmasters. Voor hen is de juiste structuur van documenten en de gehele server of website vanuit het oogpunt van zoekmachines van cruciaal belang. Zonder dit zullen documenten niet vaak genoeg verschijnen als reactie op gebruikersverzoeken aan de zoekmachine of zelfs helemaal niet worden geïndexeerd.

Webmasters willen de ranking van hun pagina's verhogen, en dat is begrijpelijk: elk verzoek aan een zoekmachine kan immers honderden en duizenden overeenkomstige links naar documenten opleveren. In de meeste gevallen zijn alleen de eerste 10 links voldoende relevant voor de zoekopdracht.

U wilt uiteraard dat het document in de top tien staat, aangezien de meeste gebruikers zelden de links na de top tien bekijken. Met andere woorden: als de link naar het document de elfde is, dan is het net zo erg alsof deze helemaal niet bestond.

Grote zoekmachines

Welke van de honderden zoekmachines zijn echt belangrijk voor een webmaster? Nou ja, natuurlijk algemeen bekend en vaak gebruikt. Maar tegelijkertijd moet u rekening houden met het publiek waarvoor uw server is ontworpen. Als uw server bijvoorbeeld zeer gespecialiseerde informatie bevat over de nieuwste methoden koeien melken, dan moet u waarschijnlijk niet op zoekmachines vertrouwen algemeen doel. In dit geval zou ik adviseren om links uit te wisselen met je collega's die met soortgelijke problemen te maken hebben :) Laten we dus eerst de terminologie definiëren.

Er zijn twee soorten informatie bases gegevens over webpagina's: zoekmachines en directory's.

Zoekmachines: (spiders, crawlers) verkennen voortdurend het internet om hun documentdatabases aan te vullen. Meestal vergt dit geen enkele inspanning van de persoon. Een voorbeeld hiervan is de Altavista-zoekmachine.

Het ontwerp van elk document is behoorlijk belangrijk voor zoekmachines. Grote waarde hebben titel, metatags en pagina-inhoud.

Catalogi: in tegenstelling tot zoekmachines wordt informatie op initiatief van een persoon in een catalogus ingevoerd. De toegevoegde pagina moet strikt gekoppeld zijn aan de categorieën die in de catalogus worden geaccepteerd. Een voorbeeld van een directory is Yahoo. Het ontwerp van de pagina's doet er niet toe. Hieronder zullen we het vooral hebben over zoekmachines.

Altavista

Het systeem werd in december 1995 geopend. Eigendom van DEC. Sinds 1996 werkt hij samen met Yahoo.

Opwinden zoeken

Het systeem werd eind 1995 gelanceerd en ontwikkelde zich snel. In juli 1996 werd Magellan gekocht, in september 1996 werd WebCrawler overgenomen. Beide gebruiken het echter afzonderlijk van elkaar. Misschien zullen ze in de toekomst samenwerken.

Er is ook een map in dit systeem - Excite Reviews. Het is een geluk om in deze map terecht te komen, aangezien niet alle sites daar zijn opgenomen. De informatie uit deze directory wordt echter niet standaard door de zoekmachine gebruikt, maar is wel mogelijk na het bekijken van de zoekresultaten.

HotBot

Gelanceerd in mei 1996. Eigendom van Wired. Gebaseerd op Berkeley Inktomi-zoekmachinetechnologie.

InfoZoek

Het werd iets eerder gelanceerd dan 1995 en is algemeen bekend, goed doorzoekbaar en gemakkelijk toegankelijk. Momenteel bevat "Ultrasmart/Ultraseek" ongeveer 50 miljoen URL's.

De standaardzoekoptie is Ultrasmart. In dit geval wordt er in beide mappen gezocht. Met de Ultraseek-optie worden zoekopdrachtresultaten geretourneerd zonder aanvullende informatie. Echt nieuw zoektechnologie Hiermee kunt u ook zoekopdrachten eenvoudiger maken en vele andere functies die u over InfoSeek kunt lezen. Er is een aparte map van de zoekmachine: InfoSeek Select.

Lycos

Een van de oudste zoekmachines, Lycos, is sinds ongeveer mei 1994 actief. Algemeen bekend en vaak gebruikt. Het omvat de Point-zoekmachine (actief sinds 1995) en de A2Z-catalogus (actief sinds februari 1996).

OpenTekst

Het OpenText-systeem verscheen iets eerder dan 1995. Sinds juni 1996 begon het samen te werken met Yahoo. Het verliest geleidelijk zijn positie en zal binnenkort niet langer een van de belangrijkste zoekmachines zijn.

WebCrawler

Geopend op 20 april 1994 als onderzoeksproject Universiteit van Washington. In maart 1995 werd het overgenomen door America Online. Er is een WebCrawler Select-directory.

Yahoo

De oudste directory van Yahoo werd begin 1994 gelanceerd. Algemeen bekend, veelgebruikt en meest gerespecteerd. In maart 1996 werd een nieuwe Yahoo-catalogus gelanceerd: Yahooligans voor kinderen. Er verschijnen steeds meer regionale en top Yahoo-gidsen.

Omdat Yahoo op abonnementen is gebaseerd, zijn sommige sites mogelijk niet inbegrepen. Als een Yahoo-zoekopdracht geen geschikte resultaten oplevert, kunnen gebruikers de zoekmachine gebruiken. Dit gebeurt heel eenvoudig. Wanneer er een zoekopdracht naar Yahoo wordt gedaan, stuurt de directory deze door naar een van de grote zoekmachines. De eerste links in de lijst met adressen die aan het verzoek voldoen, zijn adressen uit de directory, en dan zijn er adressen die zijn ontvangen van zoekmachines, met name van Altavista.

Kenmerken van zoekmachines

Elke zoekmachine heeft een aantal functies. Met deze kenmerken moet rekening worden gehouden bij het maken van uw pagina's.

Zoekmachinetype

‘Full-text’-zoekmachines indexeren elk woord op een webpagina, met uitzondering van slechts enkele stopwoorden. “Abstracte” zoekmachines maken van elke pagina een soort uittreksel.

Voor webmasters zijn full-text-engines nuttiger omdat elk woord dat op een webpagina wordt gevonden, wordt geanalyseerd om de relevantie ervan voor zoekopdrachten van gebruikers te bepalen. Bij abstracte zoekmachines kan het echter voorkomen dat pagina's beter worden geïndexeerd dan bij full-text zoekmachines. Dit kan afkomstig zijn van het extractiealgoritme, bijvoorbeeld door de frequentie waarmee dezelfde woorden op de pagina worden gebruikt.

Maat

De grootte van een zoekmachine wordt bepaald door het aantal geïndexeerde pagina's. Bijvoorbeeld in een zoekmachine met groot formaat bijna al uw pagina's kunnen worden geïndexeerd, bij een gemiddeld volume kan uw server gedeeltelijk worden geïndexeerd en bij een laag volume worden uw pagina's mogelijk helemaal niet opgenomen in de directory's van zoekmachines.

Updateperiode

  • Sommige zoekmachines indexeren de pagina onmiddellijk op basis van het verzoek van de gebruiker en gaan vervolgens door met het indexeren van pagina's die nog niet zijn geïndexeerd
  • anderen kunnen vaak het meest “meekruipen”. populaire pagina's netwerken dan andere

Documentindexdatum

Sommige zoekmachines tonen de datum waarop een bepaald document is geïndexeerd. Dit helpt de gebruiker te begrijpen hoe ‘vers’ de link door de zoekmachine wordt geretourneerd. Anderen laten gebruikers er gewoon naar raden.

Ingezonden pagina's

Idealiter zouden zoekmachines elke pagina op elke server moeten vinden als gevolg van het volgen van links. Echte foto ziet er anders uit. Serverpagina's verschijnen veel eerder in de indexen van zoekmachines als ze rechtstreeks worden opgegeven (URL toevoegen).

Niet-ingezonden pagina's

Als er ten minste één serverpagina is opgegeven, zullen zoekmachines deze zeker vinden volgende pagina's via de aangeboden links. Dit kost echter meer tijd. Sommige machines indexeren onmiddellijk de hele server, maar de meeste machines verlaten, nadat ze de opgegeven pagina in de index hebben opgenomen, het indexeren van de server voor de toekomst.

Indexeringsdiepte

Deze optie is alleen van toepassing op niet- gespecificeerde pagina's. Het laat zien hoeveel pagina's na de opgegeven pagina de zoekmachine zal indexeren.

De meeste grote machines hebben geen beperkingen op de indexeerdiepte. In de praktijk is dit niet helemaal waar. Hier volgen enkele redenen waarom niet alle pagina's worden geïndexeerd:

  • niet erg zorgvuldig gebruik van framestructuren (zonder het dupliceren van links in het controlebestand (frameset))
  • gebruik van imagemaps zonder ze te dupliceren met reguliere links

Frame-ondersteuning

Als een zoekrobot niet weet hoe hij met frameconstructies moet werken, worden bij het indexeren veel constructies met frames gemist.

ImageMap-ondersteuning

Dit is ongeveer hetzelfde probleem als bij serverframestructuren.

Met wachtwoord beveiligde mappen en servers

Sommige zoekmachines kunnen dergelijke servers indexeren als u ze een gebruikersnaam en wachtwoord verstrekt. Waarom is dit nodig? Zodat gebruikers kunnen zien wat er op uw server staat. Hierdoor weet u in ieder geval dat dergelijke informatie bestaat, en wellicht zullen zij zich dan op uw informatie abonneren.

Linkfrequentie

Grote zoekmachines kunnen de populariteit van een document bepalen aan de hand van hoe vaak er vanaf andere plekken op internet naar wordt gelinkt. Sommige machines ‘concluderen’ op basis van dergelijke gegevens of het wel of niet de moeite waard is om tijd te besteden aan het indexeren van zo’n document.

Leervermogen

Als de server regelmatig wordt bijgewerkt, zal de zoekmachine deze vaker opnieuw indexeren; als deze zelden wordt bijgewerkt, wordt deze minder vaak opnieuw geïndexeerd.

Indexatiecontrole

Laat zien welke tools kunnen worden gebruikt om een ​​bepaalde zoekmachine te beheren. Alle grote zoekmachines volgen de instructies van het robots.txt-bestand. Sommige ondersteunen ook controle met behulp van META-tags van de geïndexeerde documenten zelf.

Omleiden

Sommige sites leiden bezoekers door van de ene server naar de andere, en deze parameter geeft aan welke URL aan uw documenten wordt gekoppeld. Dit is belangrijk omdat als de zoekmachine de omleiding niet afhandelt, er problemen met niet-bestaande bestanden kunnen ontstaan.

Veilige woorden

Sommige zoekmachines nemen bepaalde woorden niet op in hun indexen of nemen deze woorden mogelijk niet op in zoekopdrachten van gebruikers. Deze woorden worden meestal beschouwd als voorzetsels of eenvoudigweg zeer vaak gebruikte woorden. Maar ze zijn niet opgenomen om ruimte op media te besparen. Altavista negeert bijvoorbeeld het woordweb voor zoekopdrachten als webontwikkelaar Er worden alleen links weergegeven voor het tweede woord. Er zijn manieren om dit te vermijden.

Impact op het algoritme voor relevantiebepaling

Zoekmachines gebruiken noodzakelijkerwijs de locatie en frequentie van herhaling van trefwoorden in een document. Aanvullende mechanismen om de mate van relevantie te vergroten zijn echter per machine verschillend. Deze parameter laat precies zien welke mechanismen er voor een bepaalde machine bestaan.

Spamboetes

Alle grote zoekmachines houden er niet van als een site zijn ranking probeert te verhogen door zichzelf bijvoorbeeld meerdere keren aan te geven via URL toevoegen of hetzelfde trefwoord meerdere keren te noemen, etc. In de meeste gevallen zijn dergelijke acties (spammen, stapelen) gestraft, en de waardering van de site daalt daarentegen.

Ondersteuning voor META-tags

In theorie zouden alle zoekmachines bij het indexeren van pagina's rekening moeten houden met metadata, maar in de praktijk doen ze dit niet allemaal.

Titel

Deze parameter laat zien hoe zoekmachines linktitels voor de gebruiker genereren als reactie op zijn verzoek.

Beschrijving

Deze parameter laat zien hoe zoekmachines linkbeschrijvingen voor de gebruiker genereren als reactie op zijn verzoek.

URL-status controleren

Een zeer nuttige functie van een zoekmachine voor een webmaster is of het mogelijk is om te controleren hoe diep de server is geïndexeerd en of deze wel in de index van de zoekmachine staat.

Oude gegevens verwijderen

Een parameter die de acties van de webmaster bepaalt bij het sluiten van de server of het verplaatsen naar een ander adres. Er zijn twee mogelijke acties: verwijder simpelweg de oude inhoud en herschrijf het robots.txt-bestand.

  • verwijdering van inhoud: Wanneer een zoekmachine documenten opnieuw probeert te indexeren en deze niet vindt, worden de oude links in de index verwijderd. In dit geval hangt het allemaal af van de gegevensupdateperiode voor de zoekmachine.
  • robots.txt: wanneer een zoekmachine dit bestand opvraagt ​​en “ziet” dat de server volledig afgesloten is voor indexering, dan worden alle links naar bestanden op deze server uit de index verwijderd.

Goed slecht

Hoofdelement moderne internet- Dit zoekmachines of zoekmachines, Yandex, Rambler, Google en anderen. Er is een zee op internet diverse informatie, en het zijn zoekmachines die de gebruiker helpen snel de benodigde informatie te vinden.

In leerboeken of wetenschappelijke boeken staat een lijst met belangrijke termen - alfabetisch onderwerpindex of index. In de index staan ​​de belangrijkste termen uit dit boek (trefwoorden) en de paginanummers waarop ze voorkomen.

Het werk van zoekmachines is gebaseerd op een soortgelijk principe. Wanneer een gebruiker een zoekopdracht (trefwoord) invoert, wordt hij of zij doorverwezen naar een internetonderwerpenindex of -index: een lijst met alle internettrefwoorden, samen met de pagina's waarop ze verschijnen.

Bekijk wat een ‘zoekmachine’ is in andere woordenboeken: is een programma dat een internetonderwerpenindex (index) samenstelt en opslaat, en daarin ook specifieke trefwoorden vindt.

Fasen bij het samenstellen van een index en het doorzoeken ervan:

Het verzamelen van webpagina-adressen op internet

Een eerste lijst met websitepagina-adressen wordt in de zoekmachine geladen. Dan de zoekmachine, of beter gezegd de zoekmachine bestanddeelzoekrobot, verzamelt alle hyperlinks van elk gegeven pagina's naar andere pagina's en voegt alle adressen in de links toe aan de oorspronkelijke lijst met adressen. Zo groeit de initiële lijst snel.

Pagina's leegpompen

Een zoekrobot of spider doorzoekt pagina's, downloadt er tekstmateriaal van, slaat dit op de schijven van zijn computers op en draagt ​​het vervolgens voor indexering over naar de indexeringsrobot.

Indexcompilatie

Om te beginnen wordt de tekst van de geïndexeerde pagina ontdaan van alle niet-tekstuele elementen (afbeeldingen, opmaak HTML-taal enz.). Vervolgens worden de uit de tekst geselecteerde woorden teruggebracht tot hun stammen of nominatief naamval. De verzamelde woordstammen zijn gerangschikt in alfabetische volgorde aangeeft paginanummers, waar de basis wordt genomen, en aantallen voorvallen, waar was de basis op deze pagina.

Zoekopdracht

Wanneer een gebruiker een woord in een zoekreeks invoert, heeft de zoekmachine toegang tot de index. Vindt alle paginanummers gerelateerd aan gegeven woord en toont de gebruiker het zoekresultaat (lijst met pagina's).

Kwaliteit van zoekmachines

Een synoniem voor zoekkwaliteit is haar relevantie. In relatie tot zoekmachines het woord relevant(gerelateerd aan de zaak) is bijna de hoofdterm. De relevantie van de zoekresultaten van een zoekmachine betekent dat die resultaten pagina's bevatten die relevant zijn voor de betekenis zoekopdracht. Relevantie of zoekkwaliteit is een behoorlijk complex iets.

Nog één belangrijk criterium de kwaliteit van de zoekmachine is nauwkeurigheid.

Nauwkeurigheid is een maatstaf voor de kwaliteit van de geproduceerde resultaten; deze wordt berekend als de kwantiteit relevante pagina's in het totale aantal pagina's dat in de zoekresultaten wordt geretourneerd. Niet alleen de nauwkeurigheid van de zoekopdracht is echter belangrijk, maar ook variërend zoekresultaten.

Variërend– rangschikking van zoekresultaten op relevantie.

Het is onmogelijk om te zeggen welke zoekmachine beter is. Voor de gebruiker betere zoekmachine, wat de meest relevante en nauwkeurige resultaten oplevert. Voor de site-eigenaar is een goede machine er een waarin de site duidelijk zichtbaar is en die grootste aantal bezoekers targeten.