Pregled programa za pretraživanje dokumenata i podataka. Softver i usluge za profesionalno pretraživanje Internet programi za pretraživanje podataka

Profesionalno pretraživanje interneta zahtijeva specijalizirani softver, kao i specijalizirane tražilice i usluge pretraživanja.

PROGRAMI

http://dr-watson.wix.com/home – program je dizajniran za proučavanje nizova tekstualnih informacija kako bi se identificirali entiteti i veze između njih. Rezultat rada je izvješće o predmetu koji se proučava.

http://www.fmsasg.com/ - jedan od najboljih programa na svijetu za vizualizaciju veza i odnosa Sentinel Vizualizer. Tvrtka je potpuno rusificirala svoje proizvode i povezala telefonsku liniju na ruskom jeziku.

http://www.newprosoft.com/ – “Web Content Extractor” je najmoćniji softver jednostavan za korištenje za izdvajanje podataka s web stranica. Također ima učinkovit Visual Web pauk.

SiteSputnik programski paket koji nema analoga u svijetu, a omogućuje pretraživanje i obradu njegovih rezultata na vidljivom i nevidljivom internetu, koristeći sve tražilice koje su korisniku potrebne.

WebSite-Watcher – omogućuje praćenje web stranica, uključujući one zaštićene lozinkom, nadzor foruma, RSS feedova, grupa s vijestima, lokalnih datoteka. Ima snažan sustav filtriranja. Nadzor se provodi automatski i isporučuje se u jednostavnom obliku. Program s naprednim funkcijama stoji 50 eura. Stalno ažuriran.

http://www.scribd.com/ je najpopularnija platforma na svijetu i sve se više koristi u Rusiji za postavljanje raznih vrsta dokumenata, knjiga itd. za besplatan pristup s vrlo zgodnom tražilicom za naslove, teme itd.

http://www.atlasti.com/ je najmoćniji i najučinkovitiji alat za kvalitativnu analizu informacija dostupan individualnim korisnicima, malim i srednjim tvrtkama. Program je višenamjenski i stoga koristan. Kombinira mogućnost stvaranja jedinstvenog informacijskog okruženja za rad s različitim tekstualnim, tabličnim, audio i video datotekama kao jedinstvenom cjelinom, kao i alate za kvalitativnu analizu i vizualizaciju.

Ashampoo ClipFinder HD – sve veći udio protoka informacija dolazi od videa. Sukladno tome, službenici konkurentske obavještajne službe trebaju alate koji im omogućuju rad s ovim formatom. Jedan takav proizvod je besplatni uslužni program koji predstavljamo. Omogućuje vam pretraživanje videozapisa na temelju određenih kriterija na stranicama za pohranu videodatoteka kao što je YouTube. Program je jednostavan za korištenje, prikazuje sve rezultate pretraživanja na jednoj stranici s detaljnim informacijama, naslovima, trajanjem, vremenom kada je video postavljen u pohranu itd. Postoji rusko sučelje.

http://www.advego.ru/plagiatus/ – program su izradili SEO optimizatori, ali je sasvim prikladan kao alat za internetsku inteligenciju. Plagijat pokazuje stupanj jedinstvenosti teksta, izvore teksta i postotak podudaranja teksta. Program također provjerava jedinstvenost navedenog URL-a. Program je besplatan.

http://neiron.ru/toolbar/ – uključuje dodatak za kombiniranje Google i Yandex pretraživanja, a također omogućuje konkurentsku analizu na temelju procjene učinkovitosti web stranica i kontekstualnog oglašavanja. Implementirano kao dodatak za FF i GC.

http://web-data-extractor.net/ je univerzalno rješenje za dobivanje svih podataka dostupnih na internetu. Postavljanje rezanja podataka s bilo koje stranice vrši se u nekoliko klikova mišem. Vi samo trebate odabrati područje podataka koje želite spremiti i Datacol će automatski odabrati formulu za izrezivanje ovog bloka.

CaptureSaver je profesionalni alat za internetsko istraživanje. Jednostavno nezamjenjiv radni program koji vam omogućuje snimanje, pohranjivanje i izvoz bilo koje internetske informacije, uključujući ne samo web stranice, blogove, već i RSS vijesti, e-poštu, slike i još mnogo toga. Ima najširu funkcionalnost, intuitivno sučelje i smiješnu cijenu.

http://www.orbiscope.net/en/software.html – sustav za web nadzor po više nego pristupačnim cijenama.

http://www.kbcrawl.co.uk/ – softver za rad, uključujući i na “nevidljivom internetu”.

http://www.copernic.com/en/products/agent/index.html – program omogućuje pretraživanje preko više od 90 tražilica, koristeći više od 10 parametara. Omogućuje kombiniranje rezultata, uklanjanje duplikata, blokiranje pokvarenih veza i prikaz najrelevantnijih rezultata. Dolazi u besplatnoj, osobnoj i profesionalnoj verziji. Koristi ga više od 20 milijuna korisnika.

Maltego je temeljno novi softver koji vam omogućuje uspostavljanje odnosa subjekata, događaja i objekata u stvarnom životu i na Internetu.

USLUGE

novo – web preglednik s desecima unaprijed instaliranih alata za OSINT.

– učinkovita tražilica-agregator za pronalaženje ljudi na glavnim ruskim društvenim mrežama.

https://hunter.io/ je učinkovita usluga za otkrivanje i provjeru e-pošte.

https://www.whatruns.com/ jednostavan je za korištenje, ali učinkovit skener za otkrivanje što radi, a što ne radi na web stranici i koje su njezine sigurnosne rupe. Također implementiran kao dodatak za Chrom.

https://www.crayon.co/ je američka proračunska platforma za tržišne i konkurentske informacije na internetu.

http://www.cs.cornell.edu/~bwong/octant/ – identifikator hosta.

https://iplogger.ru/ – jednostavna i praktična usluga za određivanje tuđeg IP-a.

http://linkurio.us/ moćan je novi proizvod za djelatnike ekonomske sigurnosti i istražitelje korupcije. Obrađuje i vizualizira ogromne količine nestrukturiranih informacija iz financijskih izvora.

http://www.intelsuite.com/en – online platforma na engleskom jeziku za konkurentsku inteligenciju i praćenje.

http://yewno.com/about/ je prvi operativni sustav za prevođenje informacija u znanje i vizualizaciju nestrukturiranih informacija. Trenutno podržava engleski, francuski, njemački, španjolski i portugalski.

https://start.avalancheonline.ru/landing/?next=%2F – usluge predviđanja i analitike Andreya Masalovicha.

https://www.outwit.com/products/hub/ – kompletan skup samostalnih programa za profesionalni rad u web 1.

https://github.com/search?q=user%3Acmlh+maltego – proširenja za Maltego.

http://www.whoishostingthis.com/ – tražilica za hosting, IP adrese itd.

http://appfollow.ru/ – analiza aplikacija na temelju recenzija, ASO optimizacije, pozicija u vrhu i rezultata pretraživanja za App Store, Google Play i Windows Phone Store.

http://spiraldb.com/ je usluga implementirana kao dodatak za Chrom, koji vam omogućuje da dobijete mnogo vrijednih informacija o bilo kojem elektroničkom izvoru.

https://millie.northernlight.com/dashboard.php?id=93 - besplatna usluga koja prikuplja i strukturira ključne informacije o industrijama i tvrtkama. Moguće je koristiti informacijske ploče na temelju analize teksta.

http://byratino.info/ – prikupljanje činjeničnih podataka iz javno dostupnih izvora na internetu.

http://www.datafox.co/ – CI platforma prikuplja i analizira informacije o tvrtkama od interesa za klijente. Postoji demo.

https://unwiredlabs.com/home - specijalizirana aplikacija s API-jem za pretraživanje po geolokaciji bilo kojeg uređaja spojenog na internet.

http://visualping.io/ – servis za praćenje stranica i prije svega fotografija i slika dostupnih na njima. Čak i ako se fotografija pojavi samo na sekundu, bit će u e-pošti pretplatnika. Ima dodatak za Google Chrome.

http://spyonweb.com/ je alat za istraživanje koji omogućuje dubinsku analizu bilo kojeg internetskog izvora.

http://bigvisor.ru/ – usluga vam omogućuje praćenje reklamnih kampanja za određene segmente robe i usluga ili određene organizacije.

http://www.itsec.pro/2013/09/microsoft-word.html – upute Artema Ageeva o korištenju Windows programa za potrebe konkurentske inteligencije.

http://granoproject.org/ je alat otvorenog koda za istraživače koji prate mreže veza između pojedinaca i organizacija u politici, gospodarstvu, kriminalu itd. Omogućuje vam povezivanje, analizu i vizualizaciju informacija dobivenih iz različitih izvora, kao i prikaz značajnih veza.

http://imgops.com/ – servis za izdvajanje metapodataka iz grafičkih datoteka i rad s njima.

http://sergeybelove.ru/tools/one-button-scan/ – mali mrežni skener za provjeru sigurnosnih rupa na web stranicama i drugim resursima.

http://isce-library.net/epi.aspx – servis za pretraživanje primarnih izvora pomoću fragmenta teksta na engleskom jeziku

https://www.rivaliq.com/ je učinkovit alat za provođenje obavještajnih podataka o konkurenciji na zapadnim, prvenstveno europskim i američkim tržištima roba i usluga.

http://watchthatpage.com/ je usluga koja vam omogućuje automatsko prikupljanje novih informacija iz nadziranih internetskih izvora. Usluga je besplatna.

http://falcon.io/ je vrsta Rapportivea za web. Nije zamjena za Rapportive, ali pruža dodatne alate. Nasuprot tome, Rapportive pruža opći profil osobe, kao da je zalijepljen iz podataka s društvenih mreža i spominjanja na webu - usluga koja vam omogućuje automatsko prikupljanje novih informacija iz nadziranih izvora Internet. Usluga je besplatna.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – dodatak za Firefox. Prati ažuriranja web stranice. Korisno za web stranice koje nemaju izvore vijesti (Atom ili RSS).

http://agregator.pro/ – agregator portala vijesti i medija. Koriste ga marketinški stručnjaci, analitičari itd. analizirati tokove vijesti o određenim temama.

http://price.apishops.com/ – automatizirani web servis za praćenje cijena za odabrane grupe proizvoda, određene online trgovine i druge parametre.

http://www.la0.ru/ je praktična i relevantna usluga za analizu veza i povratnih veza na internetski resurs.

www.recordedfuture.com moćan je alat za analizu i vizualizaciju podataka, implementiran kao online usluga izgrađena na računalstvu u oblaku.

http://advse.ru/ je usluga sa sloganom "Saznaj sve o svojim konkurentima." Omogućuje vam da dobijete web stranice konkurenata u skladu s upitima za pretraživanje i analizirate oglašivačke kampanje konkurenata na Googleu i Yandexu.

http://spyonweb.com/ – usluga vam omogućuje da identificirate stranice s istim karakteristikama, uključujući one koje koriste iste identifikatore usluge statistike Google Analytics, IP adrese itd.

http://www.connotate.com/solutions – linija proizvoda za konkurentsku inteligenciju, upravljanje protokom informacija i pretvaranje informacija u informacijsku imovinu. Uključuje i složene platforme i jednostavne, jeftine usluge koje omogućuju učinkovito praćenje uz kompresiju informacija i dobivanje samo potrebnih rezultata.

http://www.clearci.com/ - konkurentska obavještajna platforma za tvrtke različitih veličina od novoosnovanih i malih tvrtki do Fortune 500 tvrtki Solved as saas.

http://startingpage.com/ je Googleov dodatak koji vam omogućuje pretraživanje na Googleu bez bilježenja vaše IP adrese. U potpunosti podržava sve mogućnosti Google pretraživanja, uključujući i ruski.

http://newspapermap.com/ je jedinstvena usluga koja je vrlo korisna za konkurentskog obavještajca. Povezuje geolokaciju s tražilicom internetskih medija. one. odaberete regiju koja vas zanima, ili čak grad, ili jezik, vidite mjesto na karti i popis online verzija novina i časopisa, kliknete na odgovarajući gumb i čitate. Podržava ruski jezik, vrlo jednostavno sučelje.

http://infostream.com.ua/ – vrlo praktičan sustav za praćenje vijesti “Infostream”, koji se odlikuje prvoklasnim odabirom, potpuno dostupnim svakom novčaniku, jednog od klasika internetskog pretraživanja, D.V.

http://www.instapaper.com/ je vrlo jednostavan i učinkovit alat za spremanje potrebnih web stranica. Može se koristiti na računalima, iPhone, iPad, itd.

http://screen-scraper.com/ – omogućuje automatsko izdvajanje svih informacija s web stranica, preuzimanje velike većine formata datoteka i automatski unos podataka u različite obrasce. Sprema preuzete datoteke i stranice u baze podataka i obavlja mnoge druge iznimno korisne funkcije. Radi na svim većim platformama, ima potpuno funkcionalne besplatne i vrlo moćne profesionalne verzije.

http://www.mozenda.com/ - ima nekoliko tarifnih planova i dostupan je i malim tvrtkama, web servis za višenamjensko praćenje weba i dostavu korisniku potrebnih informacija s odabranih stranica.

http://www.recipdonor.com/ - usluga omogućuje automatsko praćenje svega što se događa na web stranicama konkurenata.

http://www.spyfu.com/ – i to ako su vaši konkurenti strani.

www.webground.su je servis za nadzor Runeta koji su izradili stručnjaci za pretraživanje interneta, a koji uključuje sve glavne pružatelje informacija, vijesti itd., te ima mogućnost individualnih postavki nadzora prema potrebama korisnika.

TRAŽILICE

https://www.idmarch.org/ je po kvaliteti najbolja tražilica za svjetsku arhivu pdf dokumenata. Trenutno je indeksirano više od 18 milijuna pdf dokumenata, od knjiga do tajnih izvješća.

http://www.marketvisual.com/ je jedinstvena tražilica koja vam omogućuje pretragu vlasnika i top menadžmenta prema punom imenu, nazivu tvrtke, položaju ili kombinaciji istih. Rezultati pretraživanja ne sadrže samo objekte koje tražite, već i njihove veze. Dizajniran prvenstveno za zemlje engleskog govornog područja.

http://worldc.am/ je tražilica za slobodno dostupne fotografije povezane s geolokacijom.

https://app.echosec.net/ javna je tražilica koja sebe opisuje kao najnapredniji analitički alat za stručnjake za provedbu zakona i sigurnosne i obavještajne službe. Omogućuje vam traženje fotografija objavljenih na raznim stranicama, društvenim platformama i društvenim mrežama u odnosu na određene geolokacijske koordinate. Trenutno je povezano sedam izvora podataka. Do kraja godine njihov će broj biti veći od 450. Hvala Dementyju na savjetu.

http://www.quandl.com/ je tražilica za sedam milijuna financijskih, ekonomskih i društvenih baza podataka.

http://bitzakaz.ru/ – tražilica za natječaje i državne naloge s dodatnim plaćenim funkcijama

Website-Finder - omogućuje pronalaženje stranica koje Google ne indeksira dobro. Jedino ograničenje je da pretražuje samo 30 web stranica za svaku ključnu riječ. Program je jednostavan za korištenje.

http://www.dtsearch.com/ je moćna tražilica koja vam omogućuje obradu terabajta teksta. Radi na radnoj površini, webu i intranetu. Podržava i statičke i dinamičke podatke. Omogućuje pretraživanje u svim MS Office programima. Pretraživanje se provodi pomoću fraza, riječi, oznaka, indeksa i još mnogo toga. Jedina dostupna federalna tražilica. Ima i plaćene i besplatne verzije.

http://www.strategator.com/ – pretražuje, filtrira i skuplja informacije o tvrtki iz desetaka tisuća web izvora. Pretrage u SAD-u, Velikoj Britaniji, većim zemljama EEZ-a. Vrlo je relevantan, jednostavan za korištenje i ima besplatne i plaćene opcije (14 USD mjesečno).

http://www.shodanhq.com/ je neobična tražilica. Odmah po pojavljivanju dobio je nadimak “Google za hakere”. Ne traži stranice, već određuje IP adrese, vrste usmjerivača, računala, poslužitelja i radnih stanica koji se nalaze na određenoj adresi, prati lance DNS poslužitelja i omogućuje implementaciju mnogih drugih zanimljivih funkcija za konkurentsku inteligenciju.

http://search.usa.gov/ je tražilica za web stranice i otvorene baze podataka svih američkih vladinih agencija. Baze podataka sadrže puno praktičnih, korisnih informacija, uključujući i za korištenje u našoj zemlji.

http://visual.ly/ – danas se vizualizacija sve više koristi za prezentiranje podataka. Ovo je prva infografska tražilica na webu. Portal uz tražilicu ima moćne alate za vizualizaciju podataka koji ne zahtijevaju programerske vještine.

http://go.mail.ru/realtime – traženje rasprava o temama, događajima, objektima, predmetima u stvarnom ili prilagodljivom vremenu. Prethodno vrlo kritizirana pretraga na Mail.ru radi vrlo učinkovito i daje zanimljive, relevantne rezultate.

Zanran je tek pokrenut, ali već radi odlično, prvi i jedini pretraživač podataka koji izvlači podatke iz PDF datoteka, EXCEL tablica, podataka na HTML stranicama.

http://www.ciradar.com/Competitive-Analysis.aspx jedan je od najboljih svjetskih sustava za pronalaženje informacija za konkurentsku inteligenciju na dubokom webu. Dohvaća gotovo sve vrste datoteka u svim formatima na temu koja vas zanima. Implementiran kao web servis. Cijene su više nego prihvatljive.

http://public.ru/ – Učinkovito pretraživanje i profesionalna analiza informacija, medijska arhiva od 1990. Internetska medijska knjižnica nudi širok raspon informacijskih usluga: od pristupa elektroničkim arhivama medijskih publikacija na ruskom jeziku i gotovih tematskih pregleda tiska do individualnog praćenja i ekskluzivnih analitičkih istraživanja temeljenih na materijalima za tisak.

Cluuz je mlada tražilica s brojnim mogućnostima za konkurentsku inteligenciju, posebno na internetu na engleskom jeziku. Omogućuje vam ne samo pronalaženje, već i vizualizaciju i uspostavljanje veza između ljudi, tvrtki, domena, e-mailova, adresa itd.

www.wolframalpha.com – tražilica sutrašnjice. Kao odgovor na zahtjev za pretraživanje, pruža statističke i činjenične informacije dostupne na objektu zahtjeva, uključujući vizualizirane informacije.

www.ist-budget.ru – univerzalna pretraga u bazama podataka o državnoj nabavi, natječajima, aukcijama itd.

TRAGANJE STRUČNIH INFORMACIJA NA INTERNETU

Pretraživanje interneta važan je element rada na internetu. Malo je vjerojatno da itko sa sigurnošću zna točan broj web izvora na modernom Internetu. U svakom slučaju, broji se u milijardama. Kako biste mogli koristiti informaciju potrebnu u određenom trenutku, bilo u poslovne ili zabavne svrhe, prvo je morate pronaći u ovom oceanu resursa koji se stalno obnavlja.

Da bi internetska pretraga bila uspješna, moraju biti ispunjena dva uvjeta: upiti moraju biti dobro formulirani i postavljeni na odgovarajućim mjestima. Drugim riječima, od korisnika se, s jedne strane, traži da zna prevesti svoje interese pretraživanja na jezik upita za pretraživanje, as druge strane, da dobro poznaje tražilice, dostupne alate za pretraživanje, njihovu prednosti i nedostatke, što će mu omogućiti da odabere najprikladnije alate za pretraživanje u svakom konkretnom slučaju.

Trenutačno ne postoji niti jedan izvor koji zadovoljava sve zahtjeve internetskog pretraživanja. Stoga, ako svoju pretragu shvatite ozbiljno, neizbježno morate koristiti različite alate, koristeći svaki u najprikladnijem slučaju.

Osnovno Alati za pretraživanje Internetamogu se podijeliti u sljedeće glavne skupine:

tražilice;

Web imenici;

Resursi za pomoć;

Lokalni programi za pretraživanje interneta.

Najpopularniji alati za pretraživanje sutražilice– tzv. Internet tražilice (Search Engines). Prva tri lidera na globalnoj razini prilično su stabilna - Google, Yahoo! i Bing. U mnogim zemljama, vlastite lokalne tražilice, optimizirane za rad s lokalnim sadržajem, dodaju se na ovaj popis. Uz njihovu pomoć, teoretski možete pronaći bilo koju određenu riječ na stranicama mnogih milijuna stranica. Sa stajališta korisnika, glavni nedostatak tražilica je neizbježna prisutnostinformacijski šumu rezultatima. Ovo je uobičajeni naziv za rezultate koji su iz ovog ili onog razloga uključeni u popis pretraživanja i ne odgovaraju zahtjevu.

Unatoč brojnim razlikama, sve internetske tražilice rade na sličnim principima i tehnički se sastoje od sličnih podsustava. Prvi strukturni dio tražilice su posebni programi koji se koriste za automatsko pretraživanje i naknadno indeksiranje web stranica. Takvi se programi obično nazivaju pauci ili botovi. Oni gledaju kod web stranica, pronalaze poveznice koje se nalaze na njima i tako otkrivaju nove web stranice. Postoji alternativni način uključivanja stranice u indeks. Mnoge tražilice nude vlasnicima resursa priliku da samostalno dodaju web mjesto u svoju bazu podataka. Međutim, web stranice se zatim preuzimaju, analiziraju i indeksiraju. Oni ističu strukturalne elemente, pronalaze ključne riječi i određuju njihove veze s drugim mjestima i web stranicama. Provode se i druge operacije čiji je rezultat formiranje baze podataka indeksa tražilice. Ova baza podataka je drugi glavni element svake tražilice. Trenutno ne postoji jedinstvena apsolutno cjelovita indeksna baza podataka koja bi sadržavala podatke o svim internetskim sadržajima. Budući da različite tražilice koriste različite programe za pretraživanje web stranica i grade svoje indekse pomoću različitih algoritama, baze podataka indeksa tražilica mogu se značajno razlikovati. Neke stranice indeksira nekoliko tražilica, ali uvijek postoji određeni postotak resursa uključenih u bazu podataka samo jedne tražilice. Prisutnost takvog originalnog i nepreklapajućeg dijela indeksa u svakoj tražilici omogućuje nam da izvučemo važan praktičan zaključak: ako koristite samo jednu tražilicu, čak i onu najveću, sigurno ćete izgubiti određeni postotak korisnih poveznica .

Sljedeći dio internetske tražilice su pravi programi za pretraživanje i sortiranje. Ovi programi rješavaju dva glavna problema: prvo pronalaze stranice i datoteke u bazi podataka koje odgovaraju dolaznom zahtjevu, a zatim sortiraju dobiveni niz podataka u skladu s različitim kriterijima. Uspjeh u postizanju ciljeva pretraživanja uvelike ovisi o učinkovitosti njihova rada.

Posljednji element internetske tražilice je korisničko sučelje. Uz uobičajene zahtjeve za estetikom i praktičnošću za bilo koje mjesto, sučelja tražilice imaju još jedan važan zahtjev: moraju nuditi različite alate za sastavljanje i razjašnjavanje upita, kao i sortiranje i filtriranje rezultata. Prednosti tražilica su izvrsna pokrivenost izvora, relativno brzo ažuriranje sadržaja baza podataka te dobar izbor dodatnih funkcija.

Glavni alat za rad s tražilicama je upit.

Za pretraživanje interneta koriste se i posebne aplikacije koje se instaliraju na lokalno računalo. To mogu biti jednostavni programi ili prilično složeni kompleksi za pretraživanje i analizu podataka. Najčešći su dodaci za pretraživanje za preglednike, ploče preglednika dizajnirane za rad s određenim servisom pretraživanja i metapretraživački paketi s mogućnostima analize rezultata.

Web imenici – to su resursi u kojima su stranice podijeljene u tematske kategorije. Ako korisnik radi s tražilicama samo putem upita, tada je u katalogu moguće pregledati tematske dijelove u cijelosti. Druga temeljna razlika između direktorija i automatskih tražilica je da su ljudi u pravilu izravno uključeni u njihovo popunjavanje, pregledavanje resursa i klasificiranje web mjesta u jednu ili drugu kategoriju. Web direktorije obično dijelimo na univerzalne i tematske. One univerzalne nastoje pokriti što više tema. Tamo možete pronaći bilo što: od web stranica o poeziji do računalnih izvora. Drugim riječima, njihova širina pretraživanja je maksimalna. Tematski imenici specijalizirani su za određenu temu, pružajući maksimalnu dubinu pretraživanja smanjujući širinu pokrivenosti izvora.

Prednosti imenika su relativno visoka kvaliteta resursa, jer svako mjesto u njima pregledava i odabire osoba. Tematsko grupiranje web-mjesta omogućuje vam prikladno raspoređivanje web-mjesta sličnih tema. Ovaj način rada je dobar za otkrivanje stranica koje su vam nove o temi koja vas zanima - precizniji je od korištenja tražilice. Preporuča se korištenje web kataloga za prvo upoznavanje s bilo kojim predmetnim područjem, kao i traženje nejasnih upita - imat ćete priliku "lutati" kroz odjeljke kataloga i točnije odrediti što točno trebate.

Nedostaci web imenika su poznati. Prije svega, ovo je sporo nadopunjavanje baze podataka, jer uključivanje stranice u katalog zahtijeva ljudsko sudjelovanje. Što se tiče učinkovitosti, web imenik nije konkurent tražilicama. Osim toga, web imenici znatno su inferiorni u odnosu na tražilice u pogledu veličine baze podataka.

Kada govorimo o pretraživanju interneta, ne možemo zanemariti niz pojmova koji su usko povezani s ovim područjem i često se koriste za opis i ocjenu tražilica. Na primjer:širina i dubina Internetska pretraga. Široko pretraživanje je ono koje obuhvaća što više izvora informacija. U tom slučaju, barem spominjanje jednog ili drugog mjesta prikladnog za zahtjev smatra se dovoljnim. Dubina pretraživanja odnosi se na detalje indeksiranja i naknadnog pretraživanja svakog pojedinog izvora. Na primjer, mnoge tražilice različito pristupaju indeksiranju različitih stranica. Velike i popularne stranice su maksimalno indeksirane; roboti pokušavaju ne propustiti niti jednu stranicu takvog resursa. U isto vrijeme, na drugim stranicama, samo naslovna stranica i nekoliko stranica sa sadržajem mogu biti indeksirane. Ove okolnosti prirodno utječu na naknadne pretrage. Duboko pretraživanje funkcionira na principu "bolje je uključiti nepotrebne informacije u rezultate nego propustiti bilo koji podatak relevantan za temu pretraživanja."

Vrlo često možete naići na takve koncepte kao globalno i lokalno Internetska pretraga. Lokalna internetska pretraživanja uzimaju u obzir geografski položaj korisnika i daju prednost rezultatima koji su na neki način povezani s određenom zemljom ili lokalitetom. Tijekom globalne pretrage ti se podaci ne uzimaju u obzir, već se pretraga provodi u svim dostupnim resursima.

Prilikom sastavljanja upita na internetskim tražilicama djeluju različiti načini pretraživanja. Tipični načini pretraživanja koji se nalaze na većini internetskih strojeva uključuju: jednostavan i napredan pretraživanje. Jednostavno pretraživanje omogućuje vam da navedete samo jednu značajku pretraživanja u jednom zahtjevu. Napredno pretraživanje omogućuje stvaranje upita iz nekoliko uvjeta, povezujući ih logičkim operatorima.

Za pročišćavanje upita za pretraživanje, raznih filteri . Filtri su ona ili druga pomoćna sredstva za sastavljanje upita koja se ne odnose na sadržajnu stranu uvjeta upita, već ograničavaju rezultate pretraživanja nekom formalnom značajkom. Tako, primjerice, korištenjem filtra tipa datoteke prilikom pretraživanja korisnik ne daje sustavu informacije vezane uz temu svog zahtjeva, već jednostavno ograničava dobivene rezultate na određenu vrstu datoteke navedenu u uvjetu njegovog zahtjeva.

Za većinu korisnika univerzalne tražilice su glavno, a često i jedino sredstvo pretraživanja interneta. Nude dobru pokrivenost izvora, kao i skup alata dovoljan za rješavanje osnovnih problema pretraživanja.

Tržište univerzalnih tražilica prilično je veliko. Pokušali smo analizirati najpoznatije tražilice, a rezultate smo prikazali u tablici 1.

Prilikom odabira univerzalne tražilice važnu ulogu igra kvaliteta resursa pronađenih uz njegovu pomoć. Možete odrediti željenu tražilicu za određene zadatke pomoću "metode markera". Njegova je bit da se prvo sastavlja određeni tematski upit za pretraživanje, nakon čega se anketira skupina ljudi - stručnjaka u ovom području - kako bi se identificirali najbolji, po njihovom mišljenju, internetski resursi o odabranoj temi. Na temelju anketnih podataka generira se popis markera koji su zajamčeno relevantni za zahtjev i sadrže visokokvalitetne informacije. Zahtjev se zatim šalje testiranim tražilicama. Logika procjene je jednostavna: što su mjesta markera smještena više u rezultatima pretraživanja, to je određeni izvor prikladniji za traženje informacija o ispitnoj temi.


što je ovo

DuckDuckGo je prilično poznata tražilica otvorenog koda. Serveri se nalaze u SAD-u. Osim vlastitog robota, tražilica koristi rezultate iz drugih izvora: Yahoo, Bing, Wikipedia.

Što bolje

DuckDuckGo se pozicionira kao tražilica koja pruža maksimalnu privatnost i povjerljivost. Sustav ne prikuplja nikakve podatke o korisniku, ne pohranjuje logove (nema povijesti pretraživanja), a korištenje kolačića je maksimalno ograničeno.

DuckDuckGo ne prikuplja niti dijeli osobne podatke korisnika. Ovo je naša politika privatnosti.

Gabriel Weinberg, osnivač DuckDuckGo

Zašto ti ovo treba

Sve veće tražilice pokušavaju personalizirati rezultate pretraživanja na temelju podataka o osobi ispred monitora. Taj se fenomen naziva "mjehurić filtera": korisnik vidi samo one rezultate koji su u skladu s njegovim preferencijama ili koje sustav takvima smatra.

Formira objektivnu sliku koja ne ovisi o vašem prethodnom ponašanju na internetu i eliminira Google i Yandex tematsko oglašavanje na temelju vaših upita. Uz DuckDuckGo lako je pretraživati ​​informacije na stranim jezicima, dok Google i Yandex prema zadanim postavkama daju prednost stranicama na ruskom jeziku, čak i ako je upit unesen na drugom jeziku.


što je ovo

not Evil je sustav koji pretražuje anonimnu Tor mrežu. Da biste ga koristili, morate otići na ovu mrežu, na primjer pokretanjem specijalizirane .

not Evil nije jedina tražilica te vrste. Postoji LOOK (zadana pretraga u pregledniku Tor, dostupna s običnog interneta) ili TORCH (jedna od najstarijih tražilica na mreži Tor) i drugi. Odlučili smo se za not Evil zbog jasnog savjeta s Googlea (samo pogledajte početnu stranicu).

Što bolje

Pretražuje tamo gdje su Google, Yandex i druge tražilice općenito zatvorene.

Zašto ti ovo treba

Mreža Tor sadrži mnoge resurse koji se ne mogu pronaći na Internetu koji poštuje zakone. A njihov broj će rasti kako vlada bude pojačavala kontrolu sadržaja na Internetu. Tor je vrsta mreže unutar Interneta sa svojim društvenim mrežama, torrent trackerima, medijima, platformama za trgovanje, blogovima, bibliotekama itd.

3. YaCy

što je ovo

YaCy je decentralizirana tražilica koja radi na principu P2P mreže. Svako računalo na kojem je instaliran glavni softverski modul samostalno skenira internet, odnosno analogno je robotu za pretraživanje. Dobiveni rezultati skupljaju se u zajedničku bazu koju koriste svi sudionici YaCy-a.

Što bolje

Teško je reći je li to bolje ili lošije, budući da je YaCy potpuno drugačiji pristup organizaciji pretraživanja. Nepostojanje jednog poslužitelja i vlasničke tvrtke čini rezultate potpuno neovisnima o bilo čijim preferencijama. Autonomija svakog čvora eliminira cenzuru. YaCy može pretraživati ​​duboki web i neindeksirane javne mreže.

Zašto ti ovo treba

Ako ste pobornik softvera otvorenog koda i besplatnog interneta, ne podliježete utjecaju državnih agencija i velikih korporacija, onda je YaCy vaš izbor. Također se može koristiti za organiziranje pretraživanja unutar korporativne ili druge autonomne mreže. Iako YaCy nije baš koristan u svakodnevnom životu, dostojna je alternativa Googleu u smislu procesa pretraživanja.

4. Pipl

što je ovo

Pipl je sustav dizajniran za traženje informacija o određenoj osobi.

Što bolje

Autori Pipla tvrde da njihovi specijalizirani algoritmi pretražuju učinkovitije od “običnih” tražilica. Posebno su prioritetni profili na društvenim mrežama, komentari, popisi članova te razne baze podataka koje objavljuju podatke o osobama, poput baza sudskih odluka. Vodstvo Pipla u ovom području potvrđuju ocjene Lifehacker.com, TechCrunch i drugih publikacija.

Zašto ti ovo treba

Ako trebate pronaći informacije o osobi koja živi u SAD-u, tada će Pipl biti puno učinkovitiji od Googlea. Baze podataka ruskih sudova očito su nedostupne tražilici. Stoga se ne nosi tako dobro s ruskim građanima.

što je ovo

FindSounds je još jedna specijalizirana tražilica. Pretražuje različite zvukove u otvorenim izvorima: kuća, priroda, automobili, ljudi i tako dalje. Usluga ne podržava upite na ruskom, ali postoji impresivan popis oznaka na ruskom jeziku koje možete koristiti za pretraživanje.

Što bolje

Izlaz sadrži samo zvukove i ništa dodatno. U postavkama možete postaviti željeni format i kvalitetu zvuka. Svi pronađeni zvukovi dostupni su za preuzimanje. Postoji pretraživanje po uzorku.

Zašto ti ovo treba

Ako trebate brzo pronaći zvuk pucnja iz muškete, udarce djetlića koji doji ili krik Homera Simpsona, onda je ova usluga za vas. I ovo smo odabrali samo među dostupnim upitima na ruskom jeziku. Na engleskom je spektar još širi.

Ozbiljno, specijalizirana usluga zahtijeva specijaliziranu publiku. Ali što ako i vama dobro dođe?

što je ovo

Wolfram|Alpha je računalna tražilica. Umjesto poveznica na članke koji sadrže ključne riječi, daje gotov odgovor na zahtjev korisnika. Na primjer, ako upišete "usporedi stanovništvo New Yorka i San Francisca" u obrazac za pretraživanje na engleskom jeziku, Wolfram|Alpha će odmah prikazati tablice i grafikone s usporedbom.

Što bolje

Ova je usluga bolja od drugih za pronalaženje činjenica i izračunavanje podataka. Wolfram|Alpha prikuplja i organizira znanje dostupno na webu iz različitih područja, uključujući znanost, kulturu i zabavu. Ako ova baza podataka sadrži gotov odgovor na upit za pretraživanje, sustav ga prikazuje; ako ne, izračunava i prikazuje rezultat. U ovom slučaju korisnik ne vidi ništa suvišno.

Zašto ti ovo treba

Ako ste student, analitičar, novinar ili istraživač, na primjer, možete koristiti Wolfram|Alpha za pronalaženje i izračunavanje podataka koji se odnose na vaš rad. Usluga ne razumije sve zahtjeve, ali se stalno razvija i postaje sve pametnija.

što je ovo

Metatražilica Dogpile prikazuje kombinirani popis rezultata iz rezultata pretraživanja Googlea, Yahooa i drugih popularnih sustava.

Što bolje

Prvo, Dogpile prikazuje manje oglasa. Drugo, usluga koristi poseban algoritam za pronalaženje i prikazivanje najboljih rezultata iz različitih tražilica. Prema programerima Dogpilea, njihovi sustavi generiraju najpotpunije rezultate pretraživanja na cijelom Internetu.

Zašto ti ovo treba

Ako ne možete pronaći informacije na Googleu ili nekoj drugoj standardnoj tražilici, potražite ih u nekoliko tražilica odjednom koristeći Dogpile.

što je ovo

BoardReader je sustav za pretraživanje teksta na forumima, servisima za pitanja i odgovore i drugim zajednicama.

Što bolje

Usluga vam omogućuje sužavanje polja pretraživanja na društvene platforme. Zahvaljujući posebnim filtrima, možete brzo pronaći objave i komentare koji odgovaraju vašim kriterijima: jeziku, datumu objave i nazivu stranice.

Zašto ti ovo treba

BoardReader može biti koristan za PR stručnjake i druge medijske stručnjake koji su zainteresirani za mišljenje masa o određenim pitanjima.

U zaključku

Život alternativnih tražilica često je prolazan. Lifehacker je pitao bivšeg generalnog direktora ukrajinske podružnice Yandexa, Sergeja Petrenka, o dugoročnim izgledima takvih projekata.


Sergej Petrenko

Bivši generalni direktor Yandex.Ukraine.

Što se tiče sudbine alternativnih tražilica, ona je jednostavna: biti vrlo nišni projekti s malom publikom, dakle bez jasnih komercijalnih izgleda ili, obrnuto, s potpunom jasnoćom njihovog odsustva.

Ako pogledate primjere u članku, možete vidjeti da su takve tražilice ili specijalizirane za usku, ali popularnu nišu, koja možda još nije dovoljno narasla da bude uočljiva na radarima Googlea ili Yandexa, ili testiraju izvorna hipoteza u rangiranju, koja još nije primjenjiva u redovnom pretraživanju.

Na primjer, ako se iznenada ispostavi da je traženo pretraživanje na Tor-u, odnosno da rezultati odatle trebaju barem postotak Googleove publike, tada će, naravno, obične tražilice početi rješavati problem kako pronaći ih i pokazati korisniku. Ako ponašanje publike pokaže da se značajnom udjelu korisnika u značajnom broju upita rezultati dani bez uzimanja u obzir čimbenika koji ovise o korisniku čine relevantnijima, tada će Yandex ili Google početi proizvoditi takve rezultate.

"Biti bolji" u kontekstu ovog članka ne znači "biti bolji u svemu". Da, u mnogim su aspektima naši junaci daleko od Yandexa (čak i od Binga). Ali svaka od ovih usluga daje korisniku nešto što divovi pretraživačke industrije ne mogu ponuditi. Sigurno i vi znate slične projekte. Podijelite s nama - razgovarajmo.

Uvod

Trenutno Internet objedinjuje stotine milijuna poslužitelja koji ugošćuju milijarde različitih stranica i pojedinačnih datoteka koje sadrže različite vrste informacija. Ovo je ogromno skladište informacija. Postoje različite metode za pretraživanje informacija na Internetu.

Pretraživanje po poznatoj adresi. Potrebne adrese su preuzete iz imenika. Znajući adresu, samo je unesite u adresnu traku preglednika.

Primjer 1. www.gov.ru je poslužitelj ruskih državnih tijela.

Konstruiranje adrese od strane korisnika. Poznavajući sustav za formiranje internetskih adresa, možete konstruirati adrese prilikom pretraživanja web stranica.

Ključnoj riječi (ime tvrtke, poduzeća, organizacije ili jednostavna engleska imenica) potrebno je dodati tematsku ili geografsku domenu, te povezati svoju intuiciju.

Primjer 2. Adrese komercijalnih web stranica:

www.samsung.com (tvrtka SAMSUNG),

www.mtv.com (MTV glazbene vijesti).

Primjer 3. Adrese obrazovnih ustanova:

www.ntu.edu (Nacionalno sveučilište SAD-a).

Internetske tražilice

Za traženje informacija na internetu razvijeni su posebni sustavi za pretraživanje informacija. Tražilice imaju uobičajenu adresu i prikazuju se kao web stranica koja sadrži posebne alate za organiziranje pretraživanja (niz za pretraživanje, imenik predmeta, poveznice). Za pozivanje tražilice jednostavno unesite njenu adresu u adresnu traku preglednika.

Prema statističkoj usluzi LiveInternet.ru, distribucija tražilica u Rusiji otprilike je sljedeća:

2) Google – 35,0%

3) Pretraživanje Mail.ru – 8,3%

4) Rambler – 0,9%

Sustavi za pretraživanje informacija prema načinu organiziranja informacija dijele se na dvije vrste: klasifikacijske (rubrikatore) i rječničke.

Kategorije (klasifikatori)- tražilice koje koriste hijerarhijsku (stablastu) organizaciju informacija. Prilikom traženja informacija, korisnik pregledava tematske naslove, postupno sužavajući polje pretraživanja (na primjer, ako trebate pronaći značenje riječi, prvo trebate pronaći rječnik u klasifikatoru, a zatim pronaći željenu riječ u to).



Tražilice rječnika- To su snažni automatski softverski i hardverski sustavi. Uz njihovu pomoć informacije se pregledavaju (skeniraju) na internetu. Podaci o lokaciji ove ili one informacije unose se u posebne imenike indeksa. Kao odgovor na zahtjev, vrši se pretraga prema nizu upita. Kao rezultat, korisniku se nude one adrese (URL-ovi) na kojima je pronađena tražena riječ ili skupina riječi u trenutku skeniranja. Odabirom bilo koje od predloženih adresa poveznica možete otići na pronađeni dokument. Većina modernih tražilica je mješovita.

Najpoznatije i najpopularnije tražilice:

Postoje sustavi koji su specijalizirani za traženje izvora informacija u različitim područjima.

https://my.mail.ru

https://ru-ru.facebook.com

https://twitter.com

https://www.tumblr.com

https://www.instagram.com, itd.

Predmetne tražilice:

Softver za pretraživanje:

Katalozi (tematske zbirke poveznica s komentarima):

http://www.atrus.ru

Pravila za izvršavanje zahtjeva

Odjeljak pomoći svake tražilice pruža informacije o tome kako pretraživati ​​i kako sastaviti niz upita. Ispod su informacije o tipičnom, "prosječnom" jeziku upita.

Jednostavan zahtjev

Unesite jednu riječ koja definira temu pretraživanja. Na primjer, u tražilicu Rambler.ru dovoljno je unijeti: automatizacija.

Pronađeni su dokumenti koji sadrže riječi navedene u zahtjevu. U pravilu se prepoznaju svi oblici ruskih riječi, velika slova se zanemaruju.

U upitu možete koristiti znak "*" ili "?" Znak "?" u ključnoj riječi zamjenjuje se jedan znak umjesto kojeg se može zamijeniti bilo koje slovo, a znak “*” je niz znakova.

Na primjer, upit automatski* omogućit će vam da pronađete dokumente koji uključuju riječi automatski, automatizacija itd.

Kompleksan zahtjev

Često postoji potreba za kombiniranjem ključnih riječi kako bi se dobile preciznije informacije. U tom se slučaju koriste dodatne povezne riječi, funkcije, operatori, simboli, kombinacije operatora odvojene zagradama.

Na primjer, upit music & (beatles beatles) znači da korisnik traži dokumente koji sadrže riječi glazba i beatles ili glazba i beatlesi.

Popis tražilica i imenika

Adresa Opis
www.excite.com Tražilica s pregledima stranica i vodičima
www.alta-vista.com Poslužitelj za pretraživanje, dostupne mogućnosti naprednog pretraživanja
www.hotbot.com Poslužitelj za pretraživanje
www.ifoseek.com Poslužitelj za pretraživanje (jednostavan za korištenje)
www.ipl.org Internet Publik knjižnica, narodna knjižnica koja djeluje u okviru projekta Svjetsko selo
www.wisewire.com WiseWire - organizacija pretraživanja pomoću umjetne inteligencije
www.webcrawler.com WebCrawler - poslužitelj za pretraživanje, jednostavan za korištenje
www.yahoo.com CatalogWeb i sučelje za pristup pretrazi cijelog teksta na AltaVista poslužitelju
www.aport.ru Aport - poslužitelj za pretraživanje na ruskom jeziku
www.yandex.ru Yandex - poslužitelj za pretraživanje na ruskom jeziku
www.rambler.ru Rambler - poslužitelj za pretraživanje na ruskom jeziku
Internetski izvori pomoći
www.yellow.com Yellow Pages Internet
monk.newmail.ru Tražilice raznih profila
www.top200.ru Top 200 web stranica
www.allru.net
www.ru Katalog ruskih internetskih izvora
www.allru.net/z09.htm Obrazovni resursi
www.students.ru Ruski studentski poslužitelj
www.cdo.ru/index_new.asp Centar za učenje na daljinu
www.open.ac.uk UK Open University
www.ntu.edu Nacionalno sveučilište SAD-a
www.translate.ru Elektronički prevoditelj teksta
www.pomorsu.ru/guide.library.html Popis poveznica na mrežne knjižnice
www.elibrary.ru Znanstvena elektronička knjižnica
www.citforum.ru Elektronička knjižnica
www.infamed.com/psy Psihološki testovi
www.pokoleniye.ru Web stranica Internet Education Federation
www.metod.narod.ru Obrazovni resursi
www.spb.osi.ru/ic/distant Učenje na daljinu na internetu
www.examen.ru Ispiti i kolokviji
www.kbsu.ru/~book/ Udžbenik informatike
Mega.km.ru Enciklopedije i rječnici

Profesionalno traženje informacija na internetu

Traženje informacija jedan je od najčešćih, a ujedno i najtežih zadataka s kojima se svaki korisnik mora susresti na internetu. No, ako je za običnog člana online zajednice poznavanje metoda učinkovitog pronalaženja informacija poželjna, ali daleko od obvezne kvalitete, onda je za informacijske stručnjake sposobnost brzog snalaženja u internetskim resursima i pronalaženja traženih izvora jedna od osnovnih kvalifikacija. vještine.

Razlog za poteškoće koje se javljaju pri traženju informacija na internetu određen je dvama glavnim čimbenicima. Prvo, broj izvora na internetu je iznimno velik. Krajem 2001. godine, najgrublje procjene ukazivale su na procijenjenu brojku od 7,5 milijardi dokumenata smještenih na poslužiteljima diljem svijeta. Drugo, količina informacija na Internetu nije samo kolosalna, već je i iznimno dinamična. U pola minute koliko ste proveli čitajući prve retke ovog odjeljka, u virtualnom svemiru pojavilo se stotinjak novih ili promijenjenih dokumenata, deseci su preseljeni na nove adrese, a nekoliko ih je zauvijek prestalo postojati. Internet nikada ne „spava“, kao što nikada ne „spava“ ni naš planet, kojim se kontinuirano kotrlja val ljudske poslovne aktivnosti točno u skladu s promjenom vremenskih zona.

Za razliku od stabilne i kontrolirane zbirke dokumenata u knjižnici, na Internetu imamo posla s gigantskim i stalno promjenjivim nizom informacija u kojem je potraga za podacima vrlo, vrlo složen proces. Situacija često jako podsjeća na dobro poznati problem pronalaženja igle u plastu sijena, a ponekad informacije velike vrijednosti ostanu nepretražene samo zbog teškoće u pronalaženju.

Većina korisnika globalnih računalnih mreža ima vještine istraživanja informacija u jednoj ili drugoj mjeri. I amateri i profesionalci često koriste iste alate. Međutim, rezultati pretraga i vrijeme utrošeno na njih jako variraju.

Svrha ovog odjeljka je detaljno se upoznati s alatima i metodama pretraživanja informacija te razviti stabilne vještine za profesionalno pretraživanje na Internetu svih vrsta podataka: od tekstova u bilo kojem formatu, do videa i animacija.

Pronalaženje potrebnih i relevantnih informacija na internetu ponekad je vrlo teško. Količina informacijskog smeća na internetu raste poput grudve snijega, a ponekad je jednostavno nemoguće doći do podataka koji su vam stvarno potrebni koristeći tradicionalne Yandex i Google. Knjiga koju držite u rukama višestruko će povećati učinkovitost vašeg traženja informacija na internetu. Opisuje tehnike, mjesta pretraživanja i programe za specijalizirano pronalaženje informacija. Razmatraju se suvremeni oblici pretraživanja interneta: univerzalno pretraživanje, vertikalno pretraživanje, sustavi metapretraživanja, izgradnja osobnih tražilica, pretraživanje audiovizualnih sadržaja, pretraživanje na skrivenom internetu. Za sve razmatrane sustave dane su njihove karakteristike i savjeti kako ih što učinkovitije koristiti.

Uvod

Pretraživanje interneta važan je element rada na internetu. Malo je vjerojatno da itko sa sigurnošću zna točan broj web izvora na modernom Internetu. U svakom slučaju, broji se u milijardama. Kako biste mogli koristiti informaciju potrebnu u određenom trenutku, bilo u poslovne ili zabavne svrhe, prvo je morate pronaći u ovom oceanu resursa koji se stalno obnavlja. To nije nimalo lak zadatak, budući da informacije na suvremenom internetu nisu strukturirane, što stvara probleme u pronalaženju istih. Nije slučajno da su internetske tražilice postale jedinstveni “prozori” u taj informacijski prostor.

Malo je vjerojatno da će među korisnicima interneta biti ljudi koji nikada nisu koristili velike univerzalne tražilice. Imena Google, Yandex i još nekoliko velikih strojeva svima su na usnama. Izvanredno se dobro nose sa svakodnevnim zadacima pretraživanja interneta, a korisnici često niti ne pokušavaju potražiti zamjenu. Istodobno, broj internetskih tražilica u naše vrijeme broji se tisućama. Razlozi za takvu raznolikost alternativnih strojeva imaju različite korijene. Neki projekti pokušavaju se izravno natjecati s vodećima na globalnom tržištu kroz pažljiv rad s nacionalnim internetskim resursima. Drugi nude mogućnosti upita koje nisu dostupne u poznatim tražilicama. Značajan broj alternativnih motora specijalizirao se za traženje određenog tematskog područja ili određene vrste sadržaja, postižući impresivne rezultate u rješavanju ovih problema. Bilo kako bilo, uključivanje takvih tražilica u korisnikov vlastiti arsenal internetskih alata za pretraživanje može značajno poboljšati njegovu kvalitetu. Međutim, ovdje postoji jedna nijansa: morate znati o takvim strojevima i moći koristiti njihove mogućnosti.

Pretpostavljamo da su čitatelji ove knjige već prilično upoznati s tehnikama pretraživanja pomoću univerzalnih tražilica. Bilo je toliko dobro da su osjetili ograničenja povezana s njihovom upotrebom. Najvjerojatnije su takvi ljudi već pokušali potražiti i koristiti određene dodatne alate. Tiskana riječ ne zanemaruje temu pretraživanja interneta: povremeno se pojavljuju članci i objavljuju se knjige. Ali njihovi heroji, u pravilu, su isti - nekoliko vodećih univerzalnih tražilica. Ono što ovu knjigu čini drugačijom je to što pokušava pokriti cijeli niz modernih rješenja za pretraživanje. Ovdje ćete pronaći opise i preporuke za korištenje najboljih suvremenih usluga usmjerenih na rješavanje najčešćih problema pretraživanja. Ova je knjiga za ljude koji puno rade na Internetu i koriste se Mrežom za pronalaženje potrebnih informacija - bilo da se radi o poslu, studiju ili hobiju.

Da bi internetska pretraga bila uspješna, moraju biti ispunjena dva uvjeta: upiti moraju biti dobro formulirani i postavljeni na odgovarajućim mjestima. Drugim riječima, od korisnika se, s jedne strane, traži da zna prevesti svoje interese pretraživanja na jezik upita za pretraživanje, as druge strane, da dobro poznaje tražilice, dostupne alate za pretraživanje, njihovu prednosti i nedostatke, što će mu omogućiti da odabere najprikladnije alate za pretraživanje u svakom konkretnom slučaju.

Trenutačno ne postoji niti jedan izvor koji zadovoljava sve zahtjeve internetskog pretraživanja. Stoga, ako svoju pretragu shvatite ozbiljno, neizbježno morate koristiti različite alate, koristeći svaki u najprikladnijem slučaju.

Poglavlje 1

Univerzalne internetske tražilice

Univerzalne internetske tražilice glavno su i najpoznatije sredstvo pretraživanja interneta. Takve tražilice pružaju maksimalnu pokrivenost različitih izvora. Najveće i najpopularnije tražilice pripadaju univerzalnom tipu. Ovo su uistinu moćna rješenja s puno značajki i alata kojih mnogi korisnici često nisu svjesni. Razumijevanje značajki i mogućnosti univerzalnog pretraživanja omogućuje vam da prepoznate prednosti i slabosti takvih sustava i svjesno odaberete najučinkovitije alate za pretraživanje.

Tržište univerzalnih tražilica prilično je veliko. U ovom poglavlju razmotrit ćemo samo najmoćnije strojeve koji mogu adekvatno raditi s upitima na ruskom. Poglavlje počinje pričama o liderima ruske pretrage - sustavima Google.ru i Yandex. O svakoj od ovih tražilica napisano je mnogo knjiga i članaka. Usredotočit ćemo se na glavne značajke koje su važne krajnjem korisniku i pokušati identificirati njihove prednosti.

Uz njih ide i novi Microsoftov pretraživački razvoj - sustav Bing, koji je dosad bio primjetno zapostavljen, kao i korisna i prilično moćna tražilica Exalead, čija je prednost dobra podrška za pretraživanje europskih internetskih izvora. Ovaj sustav je još uvijek rijedak gost u pretraživačkom arsenalu naših korisnika, pa se razmatra detaljnije od ostalih.

U ovom poglavlju, pri pregledu Google i Yandex sustava, usredotočit ćemo se samo na mogućnosti web pretraživanja, a pretraživanje u specijaliziranim bazama podataka ovih projekata raspravlja se u sljedećim poglavljima posvećenim pretrazi slika i videa. Za ostale univerzalne tražilice informacije o multimedijskom pretraživanju dane su odmah nakon upoznavanja s njima.

Budući da su tri od četiri heroja ovog poglavlja stranog podrijetla, odmah napominjemo da analiziramo mogućnosti samo njihovih ruskih verzija. Činjenica je da su neke funkcije stranih sustava, posebice onih eksperimentalnih, često dostupne samo u izvornim, obično engleskim verzijama usluga.

Google

Tražilica Google zasluženo se smatra svjetskim liderom u modernom pretraživanju Interneta. Osnovan 1998., Google je i dalje jedan od vodećih trendsetera u području internetskog pretraživanja i web usluga.

Googleovi programeri oduvijek su se razlikovali po povećanoj pažnji na poboljšanju algoritama svoje tražilice, kao i razumnom konzervativizmu na području korisničkog sučelja. Mogućnosti sastavljanja upita na Googleu mogu se nazvati klasičnim, a načini prikaza rezultata pretraživanja također su postali svojevrstan standard. Nedavno su Google programeri napravili ozbiljne promjene u tim područjima - najveća tražilica počela je izgledati previše staromodno u usporedbi sa svojim mladim konkurentima.

Google ima jednu od najvećih baza podataka indeksa na svijetu, koja pruža širok raspon izvora informacija. Podaci Google indeksa konsolidirani su u nekoliko vertikalnih baza podataka. Uz najpoznatiju “Web” bazu, postoji nekoliko multimedijskih baza (“Slike”, “Video”) koje rade s izvorima aktualnih informacija i poruka na RSS feedovima, baza “Novosti”, kao i “Blogovi” baza podataka koja indeksira online dnevnike. Osim toga, Google nudi širok izbor dodatnih resursa, među kojima vrijedi istaknuti uslugu kartiranja, imenik web stranica i uslugu pitanja i odgovora. Ovi se resursi također mogu smatrati alatima za pretraživanje.

U bazi podataka “Web” Google nudi jednostavne i napredne načine pretraživanja za sastavljanje upita. U jednostavnom načinu pretraživanja od dodatnih alata dostupna je samo virtualna tipkovnica. Napredno pretraživanje nudi više opcija. Budući da je obrazac za napredno pretraživanje dostupan u gotovo svim Google proizvodima za pretraživanje, pogledajmo ga detaljnije (Slika 1.1).

Yandex

Službeno predstavljena široj javnosti 1997. godine, tražilica Yandex uspješno se razvijala i deset godina kasnije po prvi put postala jedna od deset najvećih tražilica na svijetu. U ruskom segmentu interneta zauzeo je vodeću poziciju koju još ne planira prepustiti unatoč sve većoj konkurenciji. Posebnosti Yandexa od početka njegovog postojanja bili su vlastiti originalni algoritmi za određivanje relevantnosti rezultata pretraživanja, fleksibilni alati za rad s tekstom upita i uzimanje u obzir osobitosti morfologije ruskog jezika pri njihovoj obradi.

Yandex se oslanja na vlastite baze podataka indeksa. Osim pretraživanja web dokumenata, sustav nudi dobar izbor specijaliziranih izvora i dodatnih usluga. Yandex trenutno radi sa slikama, videozapisima, vijestima, blogovima i rječnicima. Moćne mogućnosti pretraživanja također su uključene u našu vlastitu uslugu karata i sustav pretraživanja proizvoda. Osim toga, Yandex održava vlastiti imenik web stranica. Snaga Yandexa je njegov razvijen program lokalnog pretraživanja, što je posebno važno za naše korisnike. Yandex razvojnim programerima trećih strana omogućuje pristup svojim bazama podataka. Kao rezultat toga, mnogi ruski alternativni projekti internetskog pretraživanja koriste resurse Yandexa na ovaj ili onaj način. Uz uobičajeni sustav pretraživanja, nudi se i skraćena verzija Yandexa, dostupna na ya.ru. Sučelje ove verzije sastoji se samo od polja za unos upita i gumba za pretraživanje.

Web Document Search nudi jednostavne i napredne načine pretraživanja. Jednostavna pretraga ne nudi nikakve filtere, što se kompenzira mogućnošću automatskog parsiranja upita na prirodnom jeziku, pouzdanom obradom relativno dugih upita, kao i sustavom za automatsko dovršavanje upita. Maksimalna duljina zahtjeva je četrdeset riječi.

Obrazac za napredno pretraživanje nudi samo jedno polje za podnošenje zahtjeva. Predlaže se da se logički operatori koji povezuju riječi upita unose ručno, na sreću. Yandex ima prilično detaljan jezik upita. Ostali alati obrasca za napredno pretraživanje su razni filteri (1.4).

Bing

Povijest internetskog pretraživanja Microsofta ne može se nazvati jednostavnom. Algoritmi, korištene baze podataka i, naravno, nazivi stalno su se mijenjali na uslugama koje se dosljedno nude javnosti. Sve do ranih 2000-ih tražilica nije imala vlastite baze podataka i radila je s vanjskim indeksima AltaVista, Inktomi i Looksmart. Izvorni naziv MSN Search koristio se do 2006. godine, a onda je mijenjanje naziva tražilica postalo višegodišnja Microsoftova tradicija.

Uz konačni prijelaz na pretraživanje u vlastitim indeksima, MSN Search je prvo preimenovan u Windows LiveLive Search. Konačno, početkom ljeta 2009., Live Search je zamijenjen novim projektom pretraživanja, Bing.

“Bing će vam omogućiti drugačiji pogled na traženje informacija na Internetu i pomoći korisnicima u donošenju važnih odluka”, ovom je izjavom započela Microsoftova izjava za tisak o lansiranju Binga. Težnje programera bile su jasne: tražilice iz Microsofta, usprkos svim njihovim naporima, na Zapadu su bile dosljedno inferiorne u popularnosti od vodećih - Googlea i Yahooa!. Ako govorimo o verzijama prethodnih Microsoftovih pretraživačkih projekata na ruskom jeziku, tada su u pogledu količine i kvalitete pronađenih veza bile mnogo inferiornije od velikih ruskih tražilica. U pokušaju sustizanja konkurencije, Bing programeri oslanjali su se na poboljšanje kvalitete pretraživanja i uvođenje novih tehnologija, od kojih su mnoge nabavljene zajedno s tvrtkama koje su ih stvorile.

Treba napomenuti da verzija Binga na ruskom jeziku, kao i većina drugih lokaliziranih verzija, nema niz dodatnih funkcija, kao što je pretraživanje kupnje. Budući da oni, zapravo, rade samo na sjeveru. Amerika, nema smisla o njima se detaljnije zadržavati.

Exalead

Jedna od značajki Europe, pa tako iu području internetskog pretraživanja, jest veliki broj nacionalnih jezika. Tražilica koja pretendira da bude vodeća u Europi jednostavno mora dobro indeksirati nacionalne segmente interneta i učinkovito obrađivati ​​upite na brojnim europskim jezicima – kako najvećim tako i manje uobičajenim. Upravo u tom području europski razvoj može steći ozbiljnu konkurentsku prednost u odnosu na moćne prekomorske konkurente. Sustav Exalead trenutno se ozbiljno natječe za ulogu takve europske tražilice. Ovaj projekt razvijen je u okviru Quaere istraživačkog programa koji financira Europska unija.

Exalead ima vlastite baze podataka indeksa. Glavni pretraživački resursi sustava su baze podataka web dokumenata, slika, videa i vijesti. Početna stranica Exaleada nudi mogućnosti prilagodbe. Na ovoj stranici možete postaviti poveznice na svoje omiljene stranice - one će biti prikazane u obliku grafičkih minijaturnih snimaka zaslona. Međutim, da biste to učinili, morat ćete besplatno registrirati račun i dopustiti svom pregledniku da sprema Exalead kolačiće.

Exalead Web Search nudi jednostavne i napredne načine pretraživanja. Obrazac za napredno pretraživanje, kao u Bingu, otvara se izravno na stranici s rezultatima pretraživanja. Imajte na umu da Exalead ne nudi samo poznati obrazac sa skupom dodatnih polja, već i složeni padajući izbornik koji igra ulogu čarobnjaka za pročišćavanje. upit (Slika 1.7). Kada odaberete jednu ili drugu stavku u izborniku čarobnjaka, nizu upita se dodaju novi elementi i, ako je potrebno, operatori i posebni znakovi.