1 nini maana ya injini ya utafutaji. Je, injini ya utafutaji inafanyaje kazi? Historia fupi ya Ukuzaji wa Injini za Utafutaji

Ili kudumisha na kukuza blogu yetu kwa mafanikio, sisi, kwanza kabisa, tunahitaji kujua ni kanuni gani wanafanya kazi nazo. Uelewa wazi wa majibu ya maswali haya utatuwezesha kutatua kwa mafanikio matatizo ya kukuza tovuti katika injini za utafutaji. Lakini mazungumzo juu ya uboreshaji wa injini ya utaftaji ya tovuti bado iko mbele, lakini kwa sasa nadharia kidogo juu ya injini za utaftaji.

Injini za utaftaji kwenye mtandao ni nini?

Tukigeukia Wikipedia, hivi ndivyo tunavyopata:

Mfumo wa utafutaji ni programu na kiolesura cha wavuti ambacho hutoa uwezo wa kutafuta habari kwenye Mtandao.

Na sasa katika lugha tunayoelewa. Wacha tuseme tunahitaji habari haraka juu ya mada fulani. Ili tuweze kuipata haraka, injini za utaftaji zimeundwa - tovuti ambapo, kwa kuingiza swali la utaftaji katika fomu ya utaftaji, tutapewa orodha ya tovuti ambazo, kwa kiwango cha juu cha uwezekano, tutapata kile tunachopata. wanatafuta. Orodha hii inaitwa matokeo ya utafutaji. Inaweza kujumuisha mamilioni ya kurasa zilizo na tovuti 10 kwa kila moja. Kazi kuu ya msimamizi wa wavuti ni kuingia angalau kumi bora.

Kumbuka kwamba unapotafuta kitu kwenye mtandao, kawaida hukipata kwenye ukurasa wa kwanza wa matokeo ya utafutaji, mara chache huhamia kwa pili, kidogo zaidi kwa zinazofuata. Hii ina maana kwamba kadiri tovuti inavyoweka viwango vya juu, ndivyo wageni wengi wanavyotembelea kurasa zake. A trafiki kubwa(idadi ya wageni kwa siku) ni, miongoni mwa mambo mengine, fursa ya kufanya vizuri.

Je, injini za utafutaji za mtandao hupataje taarifa kwenye Mtandao na kwa msingi gani zinasambaza maeneo katika matokeo ya utafutaji?

Kwa maneno machache, injini ya utafutaji ya mtandao- hii ni mtandao mzima ambao roboti za buibui huchambua mtandao kila wakati na kukumbuka maandishi yote yanayoingia kwenye mtandao. Kuchambua data iliyopokelewa, injini za utaftaji huchagua hati ambazo zinalingana zaidi na swali la utaftaji, i.e. zile zinazofaa, ambazo matokeo ya utaftaji huundwa.

Jambo la kuvutia zaidi ni kwamba injini za utafutaji haziwezi kusoma. Kwa hivyo wanapataje habari? Algorithms ya injini ya utafutaji hupungua hadi kanuni chache za msingi. Kwanza kabisa, wanazingatia kichwa na maelezo ya kifungu, vichwa vya aya, msisitizo wa semantic katika maandishi na wiani. maneno muhimu, ambayo inapaswa kuendana na mada ya kifungu. Kadiri ulinganifu huu unavyokuwa sahihi zaidi, ndivyo tovuti inavyoonekana kwenye matokeo ya utafutaji. Kwa kuongeza, kiasi cha habari na mambo mengine mengi lazima izingatiwe. Kwa mfano, mamlaka ya rasilimali ya mtandao, ambayo inategemea idadi na mamlaka ya tovuti zinazounganishwa nayo. Kadiri mamlaka inavyokuwa kubwa, ndivyo cheo kinavyoongezeka.

Seti ya hatua zinazolenga kuinua nafasi ya tovuti katika matokeo ya utafutaji maombi fulani kuitwa uboreshaji wa injini ya utafutaji. Sasa hii ni sayansi nzima -. Lakini zaidi juu ya hilo baadaye.

Washa wakati huu Kuna injini nyingi za utafutaji duniani. Nitataja maarufu zaidi. Upande wa magharibi hizi ni: Google, Bing na Yahoo. Katika RuNet - Yandex, Mail.ru, Rambler na Nigma. Kimsingi, watumiaji hutoa upendeleo kwa kiongozi wa ulimwengu, na mfumo wa Yandex umekuwa maarufu zaidi kwenye mtandao wa lugha ya Kirusi.

Historia kidogo. Google iliundwa mnamo 1997 na mzaliwa wa Moscow Sergey Brin na rafiki yake wa Marekani Larry Page wakati wa masomo yao katika Chuo Kikuu cha Stanford.

Upekee wa Google ulikuwa kwamba ilileta matokeo muhimu zaidi ya utafutaji kwa nafasi za kwanza katika matokeo ya utafutaji katika mlolongo wa kimantiki, wakati injini nyingine za utafutaji zilikuwa na shughuli nyingi. kulinganisha rahisi maneno katika swala yenye maneno kwenye ukurasa wa wavuti.

Mnamo Septemba 23 mwaka huo huo ilitangazwa na Mfumo wa Yandex, ambayo tangu 2000 ilianza kuwepo kama kampuni tofauti "Yandex".

Sitakuchosha tena, natumai ni wazi zaidi sasa, injini za utafutaji za mtandao ni nini. Inafaa kusema kuwa algorithms za injini ya utaftaji zinaendelea kubadilika. Kila siku, injini za utafutaji zinaboreka katika kutambua mahitaji ya mtumiaji na kuwaonyesha yale muhimu zaidi katika matokeo ya utafutaji. habari muhimu, kwa kuzingatia mambo mengi (eneo, ni maswali gani ambayo mtumiaji tayari ameomba, ni tovuti gani alizotembelea wakati wa mchakato wa utafutaji, ambako alienda kutoka kwao, nk).

Hivi karibuni Google na Yandex watajua bora kuliko sisi kile tunachohitaji na kile tunachofikiria!

Mtandao ni muhimu kwa watumiaji wengi ili kupokea majibu ya maswali (maswali) ambayo huingia.

Ikiwa hakukuwa na injini za utaftaji, watumiaji wangelazimika kutafuta kwa uhuru tovuti wanazohitaji, kuzikumbuka, na kuziandika. Katika hali nyingi, kupata kitu kinachofaa "kwa mikono" itakuwa ngumu sana, na mara nyingi haiwezekani.

Yote haya kwa ajili yetu kazi ya kawaida Injini za utaftaji, kuhifadhi na kupanga habari kwenye wavuti.

Hebu tuanze na injini za utafutaji maarufu Runet.

Injini za utaftaji wa mtandao kwa Kirusi

1) Wacha tuanze na injini ya utaftaji ya ndani. Yandex haifanyi kazi tu nchini Urusi, lakini pia inafanya kazi huko Belarusi na Kazakhstan, Ukraine, na Uturuki. Kuna pia Yandex kwa Kiingereza.

2) Injini ya utafutaji ya Google alikuja kwetu kutoka Amerika, ina ujanibishaji wa lugha ya Kirusi:

3) Injini ya utaftaji ya ndani Barua ru, ambayo inawakilisha wakati huo huo mtandao wa kijamii VKontakte, Odnoklassniki, pia Ulimwengu Wangu, Majibu maarufu Mail.ru na miradi mingine.

4) Injini ya utafutaji yenye akili

Nigma (Nigma) http://www.nigma.ru/

Tangu Septemba 19, 2017, nigma ya "kielimu" haijafanya kazi. Iliacha kuwa na manufaa ya kifedha kwa waundaji wake; walibadilisha kwa injini nyingine ya utafutaji inayoitwa CocCoc.

5) Kampuni maarufu Rostelecom imeunda injini ya utafutaji ya Sputnik.

Kuna injini ya utaftaji inayoitwa Sputnik, iliyoundwa mahsusi kwa watoto, ambayo niliandika juu yake.

6) Rambler ilikuwa mojawapo ya injini za kwanza za utafutaji za ndani:

Kuna injini nyingine za utafutaji maarufu duniani:

  • Bing,
  • Yahoo!,
  • DuckDuckGo,
  • Baidu,
  • Ekosia,

Wacha tujaribu kujua jinsi injini ya utaftaji inavyofanya kazi, ambayo ni, jinsi tovuti zinavyoorodheshwa, kuchambuliwa matokeo ya indexing na kuzalishwa. matokeo ya utafutaji. Kanuni za uendeshaji wa injini za utafutaji ni takriban sawa: kutafuta habari kwenye mtandao, kuihifadhi na kuipanga kwa utoaji kwa kukabiliana na maombi ya mtumiaji. Lakini algorithms ambazo injini za utaftaji hutumia zinaweza kutofautiana sana. Kanuni hizi huwekwa siri na ufichuzi wake umepigwa marufuku.

Kwa kuingiza swali sawa ndani tafuta masharti injini za utafutaji tofauti, unaweza kupata majibu tofauti. Sababu ni kwamba injini zote za utafutaji hutumia algorithms zao wenyewe.

Madhumuni ya injini za utafutaji

Kwanza kabisa, unahitaji kujua kwamba injini za utafutaji ni mashirika ya kibiashara. Lengo lao ni kupata faida. Faida inaweza kufanywa kutoka matangazo ya muktadha, aina nyingine za utangazaji, kutoka kwa kukuza tovuti muhimu hadi mistari ya juu utoaji. Kwa ujumla, kuna njia nyingi.

Inategemea ukubwa wa watazamaji, yaani, ni watu wangapi wanaotumia injini hii ya utafutaji. Kadiri watazamaji wanavyokuwa wengi, ndivyo zaidi matangazo yataonyeshwa kwa watu. Ipasavyo, utangazaji huu utagharimu zaidi. Mitambo ya kutafuta inaweza kuongeza hadhira yao kupitia utangazaji wao wenyewe, na pia kwa kuvutia watumiaji kwa kuboresha ubora wa huduma zao, kanuni na urahisi wa utafutaji.

Jambo muhimu na gumu zaidi hapa ni uundaji wa algoriti ya utafutaji inayofanya kazi kikamilifu ambayo inaweza kutoa matokeo muhimu kwa hoja nyingi za watumiaji.

Kazi ya injini ya utafutaji na vitendo vya wasimamizi wa wavuti

Kila injini ya utaftaji ina algorithm yake, ambayo lazima izingatie idadi kubwa ya sababu tofauti wakati wa kuchambua habari na kuandaa matokeo kwa kujibu ombi la mtumiaji:

  • umri wa tovuti fulani,
  • sifa za kikoa cha tovuti,
  • ubora wa yaliyomo kwenye wavuti na aina zake,
  • sifa za urambazaji na muundo wa tovuti,
  • utumiaji (urahisi kwa watumiaji),
  • vipengele vya tabia (injini ya utafutaji inaweza kubainisha ikiwa mtumiaji alipata alichokuwa akitafuta kwenye tovuti au mtumiaji alirejea kwenye injini ya utafutaji tena na hapo kutafuta jibu la swali sawa)
  • na kadhalika.

Yote hii ni muhimu kwa usahihi ili matokeo kwa ombi la mtumiaji yanafaa iwezekanavyo, kukidhi maombi ya mtumiaji. Wakati huo huo, algorithms ya injini ya utaftaji inabadilika kila wakati na inaboreshwa. Kama wanasema, hakuna kikomo kwa ukamilifu.

Kwa upande mwingine, wasimamizi wa wavuti na viboreshaji mara kwa mara wanavumbua njia mpya za kukuza tovuti zao, ambazo sio waaminifu kila wakati. Kazi ya watengenezaji wa algorithm injini za utafutaji- fanya mabadiliko kwake ambayo hayataruhusu tovuti "mbaya" za viboreshaji visivyo waaminifu kuonekana kwenye TOP.

Je, injini ya utafutaji inafanyaje kazi?

Sasa hebu tuzungumze kuhusu jinsi injini ya utafutaji inavyofanya kazi. Inajumuisha angalau hatua tatu:

  • skanning,
  • indexing,
  • kuanzia.

Idadi ya tovuti kwenye mtandao ni ya astronomia tu. Na kila tovuti ni habari, maudhui ya habari, ambayo imeundwa kwa wasomaji (watu wanaoishi).

Inachanganua

Hiki ni injini ya utafutaji inayozunguka kwenye Mtandao ili kukusanya taarifa mpya, kuchanganua viungo na kutafuta maudhui mapya ambayo yanaweza kutumika kumrejesha mtumiaji kujibu maombi yake. Kwa skanning, injini za utafutaji zina robots maalum zinazoitwa tafuta roboti au buibui.

Tafuta roboti ni programu ambazo mode otomatiki tembelea tovuti na kukusanya taarifa kutoka kwao. Utambazaji unaweza kuwa msingi (roboti hutembelea tovuti mpya kwa mara ya kwanza). Baada ya mkusanyiko wa kwanza wa habari kutoka kwa wavuti na kuiingiza kwenye hifadhidata ya injini ya utaftaji, roboti huanza kutembelea kurasa zake kwa utaratibu fulani. Ikiwa mabadiliko yoyote yametokea (maudhui mapya yameongezwa, maudhui ya zamani yamefutwa), basi mabadiliko haya yote yatarekodiwa na injini ya utafutaji.

Kazi kuu ya buibui ya utafutaji ni kupata habari mpya na kuituma kwa injini ya utafutaji kwa hatua inayofuata ya usindikaji, yaani, kwa indexing.

Kuweka faharasa

Injini ya utaftaji inaweza kutafuta habari tu kati ya tovuti hizo ambazo tayari zimejumuishwa kwenye hifadhidata yake (iliyoonyeshwa nayo). Ikiwa kutambaa ni mchakato wa kutafuta na kukusanya taarifa zinazopatikana kwenye tovuti fulani, basi kuweka faharasa ni mchakato wa kuingiza taarifa hii kwenye hifadhidata ya injini ya utafutaji. Katika hatua hii, injini ya utaftaji huamua moja kwa moja ikiwa itaingiza hii au habari hiyo kwenye hifadhidata yake na wapi kuiingiza, katika sehemu gani ya hifadhidata. Kwa mfano, Google inaashiria karibu habari zote zinazopatikana na roboti zake kwenye mtandao, wakati Yandex ni ya kuchagua zaidi na haitoi kila kitu.

Kwa tovuti mpya, hatua ya kuorodhesha inaweza kuwa ndefu, kwa hivyo wageni kutoka kwa injini za utafutaji wanaweza kusubiri kwa muda mrefu kwa tovuti mpya. A habari mpya, ambayo inaonekana kwenye tovuti za zamani, zilizokuzwa vizuri, zinaweza kuorodheshwa karibu mara moja na karibu mara moja kuingia kwenye "index", yaani, kwenye hifadhidata ya injini ya utafutaji.

Kuanzia

Cheo ni mpangilio wa habari ambayo hapo awali iliorodheshwa na kuingizwa kwenye hifadhidata ya injini fulani ya utaftaji, kulingana na kiwango, ambayo ni, ni habari gani injini ya utaftaji itaonyesha kwa watumiaji wake hapo awali, na ni habari gani itawekwa " cheo” chini. Nafasi inaweza kuhusishwa na hatua ya huduma ya injini ya utaftaji kwa mteja wake - mtumiaji.

Kwenye seva za injini ya utaftaji, habari iliyopokelewa huchakatwa na matokeo hutolewa kwa anuwai kubwa ya kila aina ya maswali. Hapa ndipo algorithms za injini ya utafutaji hutumika. Tovuti zote zilizojumuishwa kwenye hifadhidata zimeainishwa kulingana na mada, na mada zimegawanywa katika vikundi vya maswali. Kwa kila kikundi cha maombi, suala la awali linaweza kukusanywa, ambalo baadaye litarekebishwa.

Mfumo wa utaftaji ni programu na tata ya vifaa iliyoundwa kutafuta mtandao na kujibu ombi la mtumiaji, lililoainishwa kwa njia ya kifungu cha maandishi (swala la utaftaji), kwa kutoa orodha ya viungo kwa vyanzo vya habari, kwa mpangilio wa umuhimu ( kwa mujibu wa ombi). Injini kubwa zaidi za utaftaji za kimataifa: "Google", "Yahoo", "MSN". Kwenye mtandao wa Kirusi ni - "Yandex", "Rambler", "Aport".

Wacha tueleze sifa kuu za injini za utaftaji:

    Ukamilifu

Ukamilifu ni mojawapo ya sifa kuu za mfumo wa utafutaji, ambayo ni uwiano wa idadi ya nyaraka zilizopatikana kwa ombi kwa jumla ya nyaraka kwenye mtandao zinazokidhi ombi lililopewa. Kwa mfano, ikiwa kuna kurasa 100 kwenye mtandao zilizo na maneno "jinsi ya kuchagua gari," na 60 tu kati yao yalipatikana kwa swali linalofanana, basi ukamilifu wa utafutaji utakuwa 0.6. Kwa wazi, utafutaji kamili zaidi, kuna uwezekano mdogo kwamba mtumiaji hatapata hati anayohitaji, mradi iko kwenye mtandao kabisa.

    Usahihi

Usahihi ni sifa nyingine kuu ya injini ya utafutaji, ambayo imedhamiriwa na kiwango ambacho hati zilizopatikana zinalingana na swali la mtumiaji. Kwa mfano, ikiwa swali "jinsi ya kuchagua gari" lina hati 100, 50 kati yao zina kifungu "jinsi ya kuchagua gari", na zingine zina maneno haya tu ("jinsi ya kuchagua redio inayofaa na kuisakinisha. gari"), basi usahihi wa utafutaji unachukuliwa kuwa sawa na 50/100 (=0.5). Vipi utafutaji sahihi zaidi, haraka mtumiaji atapata hati anazohitaji, chini ya aina tofauti za "takataka" zitapatikana kati yao, mara chache hati zilizopatikana hazitalingana na ombi.

    Umuhimu

Umuhimu ni sehemu muhimu sawa ya utaftaji, ambayo inaonyeshwa na wakati unaopita kutoka wakati hati zinachapishwa kwenye Mtandao hadi zimeingizwa kwenye hifadhidata ya index ya injini ya utaftaji. Kwa mfano, siku moja baada ya habari za kupendeza kuonekana, idadi kubwa ya watumiaji waligeukia injini za utaftaji na maswali muhimu. Kwa kusudi, chini ya siku imepita tangu kuchapishwa kwa habari juu ya mada hii, lakini hati kuu tayari zimeorodheshwa na zinapatikana kwa utaftaji, kwa sababu ya uwepo wa kinachojulikana kama "database ya haraka" ya injini kubwa za utaftaji, ambazo. inasasishwa mara kadhaa kwa siku.

    Kasi ya utafutaji

Kasi ya utafutaji inahusiana kwa karibu na upinzani wake wa mzigo. Kwa mfano, kulingana na Rambler Internet Holding LLC, leo, wakati wa saa za kazi, injini ya utafutaji ya Rambler inapokea maombi 60 kwa sekunde. Mzigo huo wa kazi unahitaji kupunguza muda wa usindikaji wa ombi la mtu binafsi. Hapa masilahi ya mtumiaji na injini ya utaftaji sanjari: mgeni anataka kupata matokeo haraka iwezekanavyo, na injini ya utaftaji inapaswa kushughulikia ombi haraka iwezekanavyo, ili usipunguze hesabu ya maswali yafuatayo.

    Mwonekano

Uwasilishaji wa kuona wa matokeo ni sehemu muhimu utafutaji unaofaa. Kwa maswali mengi, injini ya utafutaji hupata mamia, au hata maelfu, ya hati. Kwa sababu ya maswali yasiyoeleweka au utafutaji usio sahihi, hata kurasa za kwanza za matokeo ya utafutaji huwa hazina pekee. taarifa muhimu. Hii ina maana kwamba mtumiaji mara nyingi lazima afanye utafutaji wake mwenyewe ndani ya orodha iliyopatikana. Vipengele mbalimbali vya ukurasa wa matokeo ya injini ya utafutaji hukusaidia kuabiri matokeo ya utafutaji. Maelezo ya kina ya ukurasa wa matokeo ya utafutaji, kwa mfano kwa Yandex, yanaweza kupatikana kwenye kiungo. http://help.yandex.ru/search/?id=481937.

4. Hadithi fupi maendeleo ya injini ya utafutaji

Katika kipindi cha awali cha maendeleo ya mtandao, idadi ya watumiaji wake ilikuwa ndogo, na kiasi cha habari kilichopatikana kilikuwa kidogo. Kwa sehemu kubwa, wafanyikazi wa utafiti pekee ndio walikuwa na ufikiaji wa mtandao. Kwa wakati huu, kazi ya kutafuta habari kwenye mtandao haikuwa ya dharura kama ilivyo sasa.

Njia moja ya kwanza ya kuandaa ufikiaji wa rasilimali za habari za mtandao ilikuwa uundaji wa saraka wazi za tovuti, viungo vya rasilimali ambazo ziliwekwa kulingana na mada. Mradi wa kwanza kama huo ulikuwa tovuti ya Yahoo.com, ambayo ilifunguliwa katika chemchemi ya 1994. Baada ya idadi ya tovuti katika saraka ya Yahoo kuongezeka kwa kiasi kikubwa, uwezo wa kutafuta taarifa muhimu katika saraka iliongezwa. Kwa maana kamili, haikuwa injini ya utaftaji, kwani eneo la utaftaji lilikuwa mdogo tu kwa rasilimali zilizopo kwenye orodha, na sio kwa rasilimali zote za mtandao.

Saraka za kiunganishi zilitumika sana hapo awali, lakini karibu zimepoteza umaarufu wao kwa sasa. Kwa kuwa hata katalogi za kisasa, kubwa kwa kiasi, zina habari tu kuhusu sehemu isiyo na maana ya Mtandao. Saraka kubwa zaidi ya mtandao wa DMOZ (pia inaitwa Mradi wa Open Directory) ina habari kuhusu rasilimali milioni 5, wakati hifadhidata ya injini ya utaftaji ya Google ina hati zaidi ya bilioni 8.

Injini ya kwanza ya utaftaji kamili ilikuwa mradi wa WebCrawler, uliochapishwa mnamo 1994.

Mnamo 1995, injini za utaftaji Lycos na AltaVista zilionekana. Mwisho amekuwa kiongozi katika uwanja wa utafutaji wa habari kwenye mtandao kwa miaka mingi.

Mnamo 1997, Sergey Brin na Larry Page waliunda injini ya utaftaji ya Google kama sehemu ya mradi wa utafiti katika Chuo Kikuu cha Stanford. KATIKA kwa sasa Google ndiyo injini ya utafutaji maarufu zaidi duniani!

Mnamo Septemba 1997, injini ya utafutaji ya Yandex, ambayo ni maarufu zaidi kwenye mtandao wa lugha ya Kirusi, ilitangazwa rasmi.

Hivi sasa, kuna injini kuu tatu za utaftaji za kimataifa - Google, Yahoo na MSN, ambazo zina hifadhidata zao na algorithms ya utaftaji. Injini zingine nyingi za utaftaji (ambazo kuna idadi kubwa) hutumia kwa fomu moja au nyingine matokeo ya tatu zilizoorodheshwa. Kwa mfano, utafutaji wa AOL (search.aol.com) unatumia hifadhidata ya Google, huku AltaVista, Lycos na AllTheWeb wakitumia hifadhidata ya Yahoo.

5. Muundo na kanuni za uendeshaji wa mfumo wa utafutaji

Katika Urusi, injini kuu ya utafutaji ni Yandex, ikifuatiwa na Rambler.ru, Google.ru, Aport.ru, Mail.ru. Kwa kuongezea, kwa sasa, Mail.ru hutumia injini ya utaftaji ya Yandex na hifadhidata.

Karibu injini zote kuu za utafutaji zina muundo wao, tofauti na wengine. Hata hivyo, inawezekana kutambua vipengele vikuu vya kawaida kwa injini zote za utafutaji. Tofauti katika muundo inaweza tu kuwa katika mfumo wa utekelezaji wa taratibu za mwingiliano wa vipengele hivi.

Moduli ya kuorodhesha

Moduli ya kuorodhesha ina programu tatu za usaidizi (roboti):

Spider ni programu iliyoundwa kupakua kurasa za wavuti. Buibui hupakua ukurasa na kurejesha viungo vyote vya ndani kutoka kwa ukurasa huo. Msimbo wa html wa kila ukurasa unapakuliwa. Roboti hutumia itifaki za HTTP kupakua kurasa. Buibui hufanya kazi kama ifuatavyo. Roboti hutuma ombi "pata/njia/hati" na amri zingine za ombi la HTTP kwa seva. Kwa kujibu, roboti hupokea mkondo wa maandishi ulio na habari ya huduma na hati yenyewe.

    URL ya ukurasa

    tarehe ambayo ukurasa ulipakuliwa

    Kichwa cha http cha majibu ya seva

    mwili wa ukurasa (msimbo wa html)

Crawler ("kusafiri" buibui) ni programu ambayo inafuata moja kwa moja viungo vyote vinavyopatikana kwenye ukurasa. Huchagua viungo vyote vilivyopo kwenye ukurasa. Kazi yake ni kuamua ni wapi buibui anapaswa kwenda, kulingana na viungo au orodha iliyotanguliwa ya anwani. Crawler, kufuatia viungo vilivyopatikana, hutafuta hati mpya ambazo bado hazijulikani kwa injini ya utafutaji.

Indexer (kiashiria cha roboti) ni programu inayochanganua kurasa za wavuti zilizopakuliwa na buibui. Kielezo huchanganua ukurasa katika sehemu za vijenzi vyake na kuzichanganua kwa kutumia algoriti zake za kileksika na kimofolojia. Vipengele mbalimbali vya ukurasa vinachanganuliwa, kama vile maandishi, vichwa, viungo, vipengele vya muundo na mtindo, vitambulisho maalum vya HTML, n.k.

Kwa hivyo, moduli ya indexing inakuwezesha kutambaa seti fulani ya rasilimali kwa kutumia viungo, kupakua kurasa zilizokutana, dondoo viungo vya kurasa mpya kutoka kwa hati zilizopokelewa, na kufanya uchambuzi kamili wa nyaraka hizi.

Hifadhidata

Hifadhidata, au faharisi ya injini ya utaftaji, ni mfumo wa kuhifadhi data, safu ya habari ambayo vigezo vilivyobadilishwa haswa vya hati zote zilizopakuliwa na kusindika na moduli ya indexing huhifadhiwa.

Tafuta seva

Seva ya utafutaji ni kipengele muhimu zaidi mfumo mzima, kwa kuwa ubora na kasi ya utafutaji moja kwa moja inategemea algorithms ambayo inasimamia utendaji wake.

Seva ya utafutaji inafanya kazi kama ifuatavyo:

    Ombi lililopokelewa kutoka kwa mtumiaji linakabiliwa na uchambuzi wa kimofolojia. Imetolewa mazingira ya habari kila hati iliyo kwenye hifadhidata (ambayo baadaye itaonyeshwa kwa njia ya kijisehemu, ambayo ni, inayolingana na ombi. habari ya maandishi kwenye ukurasa wa matokeo ya utafutaji).

    Data iliyopokelewa hupitishwa kama vigezo vya pembejeo moduli maalum ya cheo. Data inachakatwa kwa hati zote, kama matokeo ambayo kila hati ina rating yake ambayo inaashiria umuhimu wa swali lililoingizwa na mtumiaji na vipengele mbalimbali vya hati hii iliyohifadhiwa kwenye index ya injini ya utafutaji.

    Kulingana na chaguo la mtumiaji, rating hii inaweza kubadilishwa na hali ya ziada (kwa mfano, kinachojulikana kama "utaftaji wa hali ya juu").

    Kisha, kijisehemu kinatolewa, yaani, kwa kila hati inayopatikana, kichwa, muhtasari mfupi unaolingana vyema na swali, na kiungo cha hati yenyewe hutolewa kutoka kwa jedwali la hati, na maneno yaliyopatikana yanasisitizwa.

    Matokeo ya utafutaji yanayotokana yanatumwa kwa mtumiaji kwa namna ya SERP (Ukurasa wa Matokeo ya Injini ya Utafutaji) - ukurasa wa matokeo ya utafutaji.

Kama unaweza kuona, vipengele hivi vyote vinahusiana kwa karibu na hufanya kazi kwa mwingiliano, na kutengeneza utaratibu wazi, badala ngumu wa uendeshaji wa mfumo wa utafutaji, ambao unahitaji kiasi kikubwa cha rasilimali.

Hakuna injini ya utafutaji inayoshughulikia rasilimali zote za mtandao.

Kila injini ya utafutaji hukusanya taarifa kuhusu rasilimali za mtandao kwa kutumia mbinu zake za kipekee na kuunda hifadhidata yake iliyosasishwa mara kwa mara. Ufikiaji wa hifadhidata hii umetolewa kwa mtumiaji.

Injini za utaftaji hutumia njia mbili za kutafuta rasilimali:

    Tafuta kwa mada katalogi - habari iliyotolewa katika fomu muundo wa kihierarkia. Washa ngazi ya juu- kategoria za jumla ("Mtandao", "Biashara", "Sanaa", "Elimu", nk), katika ngazi inayofuata kategoria zimegawanywa katika sehemu, nk. Wengi Kiwango cha chini- viungo kwa kurasa maalum za wavuti au rasilimali zingine za habari.

    Utafutaji wa neno kuu (utafutaji wa index au utafutaji wa kina) - mtumiaji hutuma kwa injini ya utafutaji ombi, inayojumuisha maneno muhimu. Mfumo anarudi kwa mtumiaji orodha ya rasilimali zilizopatikana kwa ombi.

Injini nyingi za utaftaji huchanganya njia zote mbili za utaftaji.

Injini za utaftaji zinaweza kuwa za kawaida, za kimataifa, za kikanda na maalum.

Katika sehemu ya Kirusi ya Mtandao (Runet), injini za utafutaji za madhumuni ya jumla maarufu zaidi ni Rambler (www.rambler.ru), Yandex (www.yandex.ru), Aport (www.aport.ru), Google (www. google.ru).

Injini nyingi za utaftajikutekelezwa kwa namna ya portaler.

Portal (kutoka Kiingereza.lango - mlango mkuu, gate) ni tovuti inayounganisha huduma mbalimbali za Intaneti: zana za utafutaji, barua, habari, kamusi, n.k.

Milango inaweza kuwa maalum (kama,www. makumbusho. ru) na jumla (kwa mfano,www. km. ru).

Tafuta kwa maneno muhimu

Seti ya maneno muhimu yanayotumiwa kutafuta pia huitwa kigezo cha utafutaji au mada ya utafutaji.

Ombi linaweza kujumuisha ama neno moja au mchanganyiko wa maneno pamoja na waendeshaji - alama ambazo mfumo huamua ni hatua gani inahitaji kufanya. Kwa mfano: ombi "Moscow St. Petersburg" lina NA operator (hii ni jinsi nafasi inavyoonekana), ambayo inaonyesha kwamba mtu anapaswa kutafuta nyaraka zilizo na maneno yote mawili - Moscow na St.

Ili utaftaji uwe muhimu (kutoka kwa Kiingereza muhimu - muhimu, muhimu), sheria kadhaa za jumla zinapaswa kuzingatiwa:

    Bila kujali fomu ambayo neno hutumiwa katika swala, utafutaji unazingatia fomu zake zote za maneno kulingana na sheria za lugha ya Kirusi. Kwa mfano, swali "tiketi" pia itapata maneno "tiketi", "tiketi", nk.

    Herufi kubwa zitumike katika majina yanayofaa pekee ili kuepuka kutazama marejeleo yasiyo ya lazima. Kwa ombi la "wahunzi," kwa mfano, hati zitapatikana ambazo zinazungumza juu ya wahunzi na Kuznetsovs.

    Inashauriwa kupunguza utafutaji wako kwa kutumia maneno muhimu machache.

    Ikiwa anwani inayohitajika sio kati ya anwani ishirini za kwanza zilizopatikana, unapaswa kubadilisha ombi.

Kila injini ya utafutaji hutumia lugha yake ya kuuliza. Ili kuifahamu, tumia usaidizi uliojengwa wa injini ya utafutaji

Tovuti kubwa zinaweza kuwa na mifumo iliyojengewa ndani ya kupata taarifa ndani ya kurasa zao za wavuti.

Maswali katika mifumo kama hii ya utaftaji, kama sheria, hujengwa kulingana na sheria sawa na katika injini za utaftaji za ulimwengu, hata hivyo, kufahamiana na usaidizi hapa hakutakuwa mbaya zaidi.

Utafutaji wa Juu

Injini za utaftaji zinaweza kutoa utaratibu kwa mtumiaji kuunda swali ngumu. Kufuatia kiungo Utafutaji wa Juu inafanya uwezekano wa kuhariri vigezo vya utafutaji, taja vigezo vya ziada na uchague fomu rahisi zaidi ya kuonyesha matokeo ya utafutaji. Ifuatayo inaelezea vigezo vinavyoweza kuwekwa wakati wa utafutaji wa juu katika mifumo ya Yanex na Rambler.

Maelezo ya parameta

Jina katika Yandex

Jina ndaniRambler

Mahali pa kutafuta maneno muhimu ( kichwa cha hati, maandishi kuu, n.k.)

Kichujio cha kamusi

Tafuta kwa maandishi...

Ni maneno gani yanapaswa au yasiwepo kwenye hati na jinsi mechi inavyopaswa kuwa sahihi

Kichujio cha kamusi

Tafuta maneno ya swali... Usijumuishe hati zilizo na maneno yafuatayo...

Maneno muhimu yanapaswa kupatikana kwa umbali gani?

Kichujio cha kamusi

Umbali kati ya maneno ya swali...

Kizuizi cha tarehe ya hati

Tarehe ya hati...

Weka kikomo utafutaji wako kwenye tovuti moja au zaidi

Tovuti/Juu

Tafuta hati kwenye tovuti zifuatazo pekee...

Kupunguza utafutaji kwa lugha ya hati

Lugha ya hati...

Tafuta hati iliyo na picha iliyo na jina maalum au maelezo mafupi

Picha

Tafuta kurasa zenye vitu

Vitu maalum

Fomu ya uwasilishaji wa matokeo ya utafutaji

Muundo wa suala

Inaonyesha matokeo ya utafutaji

Injini zingine za utaftaji (kwa mfano, Yandex) hukuruhusu kuingiza maswali kwa lugha asilia. Unaandika kile unachohitaji kupata (kwa mfano: kuagiza tiketi za treni kutoka Moscow hadi St. Petersburg). Mfumo huchambua ombi na hutoa matokeo. Ikiwa haujaridhika nayo, badilisha hadi lugha ya hoja.

KATIKA miaka iliyopita huduma kutoka Google na Yandex zimekuwa imara katika maisha yetu. Katika suala hili, wengi labda wanashangaa injini ya utafutaji ni nini? Akizungumza kwa maneno rahisi,Hii mfumo wa programu, iliyoundwa kutafuta habari katika Ulimwengu Mtandao mpana. Matokeo yake kwa kawaida huwasilishwa katika umbizo la orodha, mara nyingi huitwa kurasa za matokeo ya injini ya utafutaji (SERPs). Taarifa inaweza kuwa mchanganyiko wa kurasa za wavuti, picha, na aina nyingine za faili. Baadhi ya injini za utafutaji pia zina taarifa zinazopatikana katika hifadhidata au saraka za umma.

Tofauti na saraka za wavuti, ambazo zinaauniwa tu na wahariri wao wenyewe, injini za utafutaji pia zina maelezo ya wakati halisi kwa kuendesha algoriti kwenye kitambazaji cha wavuti.

Historia ya asili

Injini za utaftaji wenyewe zilionekana mapema mtandao duniani kote- mnamo Desemba 1990. Huduma ya kwanza kama hiyo iliitwa Archie, na ilitafuta yaliyomo kwenye faili za FTP kwa kutumia amri.

Je, injini ya utafutaji kwenye mtandao ni nini? Hadi Septemba 1993 Ulimwenguni Pote Wavuti iliorodheshwa kabisa kwa mikono. Kulikuwa na orodha ya seva za wavuti iliyohaririwa na Tim Berners-Lee ambayo ilipangishwa kwenye seva ya wavuti ya CERN. Kama kila kitu kiasi kikubwa seva ziliunganishwa kwenye Mtandao, huduma iliyo hapo juu haikuweza kuendelea na usindikaji wa kiasi kama hicho cha habari.

Mojawapo ya injini za kwanza za utaftaji kulingana na utaftaji wa wavuti ilikuwa WebCrawler, ambayo ilitolewa mnamo 1994. Tofauti na watangulizi wake, iliruhusu watumiaji kutafuta neno lolote kwenye ukurasa wowote wa wavuti. Algorithm hii tangu wakati huo imekuwa kiwango kwa injini zote kuu za utaftaji. Pia ulikuwa uamuzi wa kwanza kujulikana sana kwa umma. Pia mnamo 1994, huduma ya Lycos ilizinduliwa, ambayo baadaye ikawa mradi mkubwa wa kibiashara.

Muda mfupi baadaye, injini nyingi za utaftaji zilionekana na umaarufu wao uliongezeka sana. Hizi ni pamoja na Magellan, Excite, Infoseek, Inktomi, Mwanga wa Kaskazini na AltaVista. Yahoo! alikuwa mmoja wa wengi njia maarufu kutafuta kurasa za wavuti za kuvutia, lakini kanuni yake ya utafutaji ilifanya kazi kwenye saraka yake ya wavuti badala ya nakala kamili za kurasa. Wanaotafuta habari wanaweza pia kuvinjari saraka badala ya kutafuta neno kuu.

Mzunguko mpya wa maendeleo

Google ilikubali wazo la kuuza maswali ya utafutaji mwaka 1998, kuanzia kampuni ndogo goto.com. Hatua hii ilikuwa na athari kubwa kwa biashara ya SEO, ambayo baada ya muda ikawa moja ya shughuli za faida zaidi kwenye mtandao.

Karibu 2000, injini ya utaftaji ya Google ilijulikana sana. Kampuni imepata mafanikio matokeo bora kwa utafutaji mwingi kwa kutumia uvumbuzi unaoitwa PageRank. Kanuni hii ya kurudiarudia huweka kurasa za wavuti kulingana na miunganisho yao kwa tovuti na kurasa zingine, kulingana na dhana kwamba vyanzo vyema au vinavyohitajika mara nyingi hutajwa na wengine. Google pia ilidumisha kiolesura cha minimalist kwa injini yake ya utafutaji. Kinyume chake, wengi wa washindani wamejenga injini ya utafutaji kwenye bandari ya mtandao. Kwa kweli, Google imekuwa maarufu sana hivi kwamba injini za kashfa kama Mystery Seeker zimeibuka. Leo kuna matoleo mengi ya kikanda ya huduma hii, hasa, tafuta Mfumo wa Google.ru, iliyoundwa kwa watumiaji wanaozungumza Kirusi.

Je, huduma hizi hufanyaje kazi?

Je, viwango na matokeo vinaonyeshwaje? Injini za utaftaji ni nini kutoka kwa mtazamo wa algorithm ya hatua? Wanapata habari kupitia kutambaa kwa wavuti kutoka tovuti hadi tovuti. Roboti au hundi ya "buibui". jina la kawaida robots.txt faili iliyoshughulikiwa kwake kabla ya kutuma taarifa fulani kwa indexing. Inaangazia mambo mengi, ambayo ni vichwa, yaliyomo kwenye ukurasa, JavaScript, Laha za Mitindo ya Kupunguza (CSS), na kiwango cha kawaida. Alama ya HTML maudhui ya habari au metadata katika tagi za meta za HTML.

Kuorodhesha kunamaanisha kuunganisha maneno na ishara zingine zinazotambulika zinazopatikana kwenye kurasa za wavuti hadi zao majina ya vikoa na mashamba juu HTML msingi. Mashirika yanaundwa ndani hifadhidata ya umma data inayopatikana kwa maswali ya utafutaji wa wavuti. Ombi kutoka kwa mtumiaji linaweza kuwa neno moja. Faharasa hukusaidia kupata taarifa zinazohusiana na hoja haraka iwezekanavyo.

Baadhi ya mbinu za kuorodhesha na kuweka akiba ni siri za biashara, wakati kutambaa kwenye wavuti ni mchakato rahisi wa kutembelea tovuti zote kwa utaratibu.

Kati ya ziara za roboti, toleo la ukurasa lililoakibishwa (baadhi au maudhui yote yanayohitajika ili kuionyesha) huhifadhiwa ndani. kumbukumbu ya kazi injini ya utafutaji, inatumwa haraka kwa mtumiaji anayeomba. Ikiwa ziara imechelewa, injini ya utafutaji inaweza tu kutenda kama wakala wa wavuti. Katika kesi hii, ukurasa unaweza kutofautiana na indexes za utafutaji. Chanzo kilichoakibishwa kinaonyesha toleo ambalo maneno yake yamewekwa katika faharasa, kwa hivyo inaweza kuwa muhimu ikiwa ukurasa halisi umepotea.

Usanifu wa hali ya juu

Kwa kawaida, mtumiaji huingiza swala kwenye injini ya utafutaji kwa namna ya maneno kadhaa. Faharasa tayari ina majina ya tovuti zilizo na manenomsingi haya, na yanaonyeshwa papo hapo. Mzigo halisi wa kazi ni kuunda kurasa za wavuti ambazo ni orodha ya matokeo ya utafutaji. Kila ukurasa katika orodha nzima lazima uorodheshwe kulingana na maelezo katika faharasa.

Kwa kesi hii kipengele cha juu matokeo yanahitaji kutafuta, kuunda upya na kuweka alama kwenye vipande vinavyoonyesha muktadha kutoka kwa maneno muhimu yanayolingana. Hii ni sehemu tu ya uchakataji wa kila ukurasa wa wavuti katika matokeo ya utafutaji, na kurasa zaidi (karibu nayo) zinahitaji uchakataji mwingi unaofuata.

Mbali na kutafuta kwa urahisi maneno muhimu, injini za utafutaji hutoa GUI- au waendeshaji wanaoendeshwa na amri na vigezo vya utafutaji ili kuboresha matokeo.

Wao hutoa vipengele muhimu udhibiti kwa mtumiaji kwa kutumia kitanzi maoni, kwa kuchuja na kupima wakati wa kuboresha data zinazohitajika, kwa kuzingatia kurasa za nyumbani matokeo ya kwanza ya utafutaji. Kwa mfano, tangu 2007, Google.com imewezesha kuchuja orodha inayotokana na tarehe kwa kubofya "Onyesha Zana za Utafutaji" katika safu wima ya kushoto kabisa kwenye ukurasa wa matokeo asilia na kisha kuchagua kipindi unachotaka.

Maombi tofauti

Injini nyingi za utaftaji zinaunga mkono utumiaji waendeshaji mantiki NA, AU na SI kusaidia watumiaji wa mwisho kufafanua ombi. Baadhi ya waendeshaji wameundwa kwa tafsiri halisi, ambayo huruhusu mtumiaji kuboresha na kupanua maneno ya utafutaji. Roboti hutafuta maneno au vifungu vya maneno kwa njia sawa na vile inavyotafuta amri zilizoingizwa. Baadhi ya injini za utafutaji hutoa kipengele cha utafutaji cha juu ambacho kinaruhusu watumiaji kuamua umbali kati ya maneno muhimu.

Pia kuna utafutaji unaozingatia dhana ambapo utafiti unahusisha kutumia Uchambuzi wa takwimu kwenye kurasa zenye maneno au vifungu vya maneno unavyotafuta. Aidha, maombi ya lugha ya asili ruhusu mtumiaji kuingiza swali katika fomu ile ile ambayo angemuuliza mtu (mfano wa kawaida zaidi ni ask.com).

Umuhimu wa injini ya utafutaji inategemea umuhimu wa seti ya matokeo ambayo inarudi. Kunaweza kuwa na mamilioni ya kurasa za wavuti ambazo zina neno au kifungu fulani cha maneno, lakini zingine zinaweza kuwa muhimu zaidi, maarufu, au zenye mamlaka kuliko zingine. Injini nyingi za utaftaji hutumia njia za kuorodhesha ili kuhakikisha matokeo bora.

Jinsi injini ya utafutaji huamua ni kurasa zipi zinazolingana vyema na swali, na ni kwa utaratibu gani vyanzo vilivyopatikana vinapaswa kuonyeshwa, hutofautiana sana kutoka kwa roboti moja hadi nyingine. Mbinu hizi pia hubadilika kadri muda unavyobadilika matumizi ya Intaneti na teknolojia mpya zinavyokua.

Injini ya utaftaji ni nini: aina

Kuna aina mbili kuu za injini za utafutaji. Ya kwanza ni mfumo wa maneno msingi yaliyofafanuliwa awali na yaliyoagizwa kwa utaratibu ambao watu kwa ujumla wameupanga. Ya pili ni mfumo unaozalisha "inverted index" kwa kuchambua maandiko yaliyopatikana.

Mitambo mingi ya utafutaji ni huduma za kibiashara zinazoungwa mkono na mapato ya utangazaji, na hivyo basi baadhi huruhusu watangazaji kuorodhesha katika matokeo wanayoonyesha kwa ada. Huduma ambazo hazikubali pesa kwa viwango hupata pesa kwa kukimbia matangazo ya muktadha karibu na tovuti zilizoonyeshwa. Leo, uendelezaji wa injini ya utafutaji ni mojawapo ya wengi mapato ya faida mtandaoni.

Ni huduma gani zinazojulikana zaidi?

Google ndiyo injini ya utafutaji maarufu zaidi duniani ikiwa na sehemu ya soko ya 80.52% kufikia Machi 2017.

  • Google - 80.52%
  • Bing - 6.92%
  • Baidu - 5.94%
  • Yahoo! - 5.35%

Injini za utaftaji nchini Urusi na Asia ya Mashariki

Katika Urusi na baadhi ya nchi Asia ya Mashariki Google sio huduma maarufu zaidi. Miongoni mwa Watumiaji wa Kirusi injini ya utafutaji ya Yandex inaongoza kwa umaarufu (61.9%) ikilinganishwa na Google (28.3%). KATIKA Uchina Baidu ni huduma maarufu zaidi. Tafuta lango Korea Kusini- Naver inatumika kwa asilimia 70% ya utafutaji wa mtandaoni nchini. Pia Yahoo! huko Japani na Taiwan ni chombo maarufu zaidi cha kutafuta data muhimu.

Injini zingine za utafutaji za Kirusi zinazojulikana ni Mail na Rambler. Na mwanzo wa maendeleo ya Runet, walifurahia umaarufu mkubwa, lakini sasa wamepoteza sana nafasi zao.

Vikwazo na vigezo vya utafutaji

Ingawa injini za utaftaji zimeratibiwa kuorodhesha tovuti kulingana na umaarufu na umuhimu wake, utafiti wa kisayansi unaelekeza kwenye vigezo tofauti vya kisiasa, kiuchumi na kijamii vya kuchagua taarifa wanazotoa. Upendeleo huu unaweza kuwa matokeo ya moja kwa moja ya zile za kiuchumi (kwa mfano, kampuni zinazotangaza injini ya utaftaji pia zinaweza kuwa maarufu zaidi katika matokeo. utafutaji wa mara kwa mara) na michakato ya kisiasa (kwa mfano, kuondolewa kwa matokeo ya utafutaji kwa mujibu wa sheria za eneo). Kwa mfano, Google haitaonyesha baadhi ya tovuti za Wanazi mamboleo nchini Ufaransa na Ujerumani, ambapo kukataa Maangamizi Makubwa ni kinyume cha sheria.

Injini za utafutaji za Kikristo, Kiislamu na Kiyahudi

Ukuaji wa kimataifa wa mtandao na njia za kielektroniki utangazaji wa vyombo vya habari katika ulimwengu wa Kiislamu katika kipindi cha muongo mmoja uliopita umewafanya wafuasi wa Kiislamu katika Mashariki ya Kati na bara la Asia kujaribu kuunda injini zao za utafutaji na tovuti zilizochujwa ambazo zingewaruhusu watumiaji kufanya upekuzi kwa usalama.

Huduma kama hizo zina vichungi ambavyo huainisha zaidi tovuti kama "halal" au "haram" kulingana na tafsiri ya kisasa ya kitaalamu ya "Sheria ya Uislamu".

Tovuti ya ImHalal ilionekana mtandaoni mnamo Septemba 2011, na Halalgoogling mnamo Julai 2013. Wanatumia vichujio vya haram kulingana na kanuni za Google na Bing.

Mitambo mingine ya utafutaji yenye mwelekeo wa dini ni Jewgle (Jewish Toleo la Google), pamoja na Christian SeeFind.org. Wanachuja tovuti zinazokana au kudhalilisha imani yao.