Matatizo yanayotokea wakati wa mchakato wa utafutaji. Kutafuta habari katika mitandao ya kompyuta: mbinu mpya


Katika hali ya jumla, utafutaji wa maneno ya swali unafanywa kwenye kurasa za mtandao, na kwa kutumia vigezo fulani na algorithms, matokeo ya utafutaji yanawekwa na kuwasilishwa kwa mtumiaji. Vigezo vinavyotumika sana vya kuorodhesha katika injini za utaftaji ni:
- uwepo wa maneno kutoka kwa swali kwenye hati, nambari yao, ukaribu na mwanzo wa hati, ukaribu wa kila mmoja;
- uwepo wa maneno kutoka kwa ombi katika vichwa na vichwa vya hati;
- idadi ya viungo vya hati hii kutoka kwa hati zingine;
- "heshima" ya hati zinazorejelea.
Kama inavyoweza kuonekana kutoka kwa vigezo vya cheo, kigezo halisi cha umuhimu wa hati - uwepo wa maneno kutoka kwa swali (maneno ya utafutaji) - haina athari kali juu ya cheo chake katika matokeo ya utafutaji. Hali hii inasababisha kupungua kwa ubora wa utaftaji, kwani hati zinazoweza kuwa muhimu zaidi bila shaka zinasukumwa hadi chini ya orodha na washindani wao "walioboreshwa". Hakika, wengi wamekutana na ukweli kwamba rasilimali muhimu sana katika injini za utafutaji ziko kwenye ukurasa wa pili wa tatu wa swali la utafutaji. Hapa ndipo utendakazi wa algoriti za kupanga hati zilizopatikana hujidhihirisha. Hii ni kwa sababu ya ukweli kwamba maswali ya utafutaji kwa wastani yanajumuisha maneno matatu hadi matano pekee, yaani, hakuna maelezo ya awali ya kutosha ili kuorodhesha matokeo ya utafutaji kwa ufanisi.

Na hapa kuna shida wakati wa kutafuta ....

Hapa ndipo kanuni za kuorodhesha hati zilizopatikana hazifanyi kazi 100%. Bila shaka, hali hii pia hutokea kwa sababu maswali ya utafutaji wa mtumiaji kwa wastani yanajumuisha maneno matatu hadi matano tu. Hiyo ni, taarifa kama hizo za awali za injini za utafutaji ni chache sana kwa upangaji bora wa matokeo.
Shida ya pili ni jinsi ya kusindika idadi kubwa ya habari (= "digest", "fikiria", "angazia jambo kuu", "kupalilia isiyo ya lazima na isiyo na maana") kwa mtumiaji fulani, kwa kuzingatia mahitaji yake, maana na mada ya ombi, historia yake ya utafutaji ya awali, eneo la kijiografia, maoni yake juu ya matokeo ya utafutaji, nk. Bila shaka, injini za utafutaji zinaendelea kikamilifu katika mwelekeo huu, lakini ni dhahiri kwamba injini ya utafutaji ni mbali na kamilifu. Kwa sababu leo ​​ni mtu pekee anayeweza kutathmini manufaa ya semantic, ubora, maalum ya habari iliyopatikana, nk.

Search Engine Alternatives

Kwa hivyo, kama mbadala, huduma zinaonekana ambazo kwa njia fulani zinaunda Mtandao ili kurahisisha kupata habari anayohitaji. Na kwa sasa tayari kuna alamisho za kijamii, saraka, wafuatiliaji wa mafuriko, mabaraza, injini za utaftaji maalum, huduma za mwenyeji wa faili, n.k. Huduma hizi zote, kwa kiwango kimoja au nyingine, hutengeneza mtandao na "kupunguza umbali" kati ya mtumiaji na habari anayohitaji (iwe sinema, muziki, vitabu, majibu ya maswali, nk). Na muhimu zaidi, mtandao "umeundwa" hasa na watumiaji wenyewe.
Hapana, hakuna kidokezo hapa kwamba injini za utafutaji hazina maana au hazifanyi kazi. Ninaamini kuwa injini za utaftaji ni bora kwa kupata habari ya juu juu na maarufu zaidi. Na kutafuta maelezo ya kina zaidi, ikiwa ni pamoja na vitabu muhimu, makala, majarida, muziki, n.k. (maana na uwezo wa kupakua haya yote) rasilimali zilizotajwa hapo juu "kuunda mtandao" zinafaa zaidi.

Jinsi ya kuepuka kupotea kwenye mtandao?


Kwa ufupi:
1.Ili kutafuta maelezo ya juu juu, tumia injini za utafutaji, kwa mfano http://google.com, http://yandex.ru, http://nigma.ru, http://nibbo.com
2.Kutafuta tovuti zinazohusiana na mada, tumia saraka za mtandao, kwa mfano,

Inaweza kuonekana kuwa hakuna kitu rahisi kuliko kupata data muhimu kwenye mtandao. Kwa kweli, hata wale ambao walitumia huduma za injini za utafutaji kwanza wanaweza kukabiliana na hili. Hata hivyo, wakati huo huo, ufanisi wa utafutaji huo unaweza kujadiliwa kwa uzito. Unaweza kutumia muda kidogo sana kutafuta habari kwenye mtandao, kuwa na taarifa muhimu kuhusu vipengele vya injini za utafutaji maarufu.

Mtandao wa kimataifa hutumia mantiki ya mashine yake wakati wa kuchakata maombi. Kulingana na sheria chache rahisi na kuwa na taarifa za kutosha kuhusu kutumia injini za utafutaji maarufu, unaweza kuharakisha kwa kiasi kikubwa mchakato wa kupata taarifa muhimu, na muhimu zaidi, kama matokeo utapata kile unachohitaji.

Vipengele vya kuunda swali la utafutaji

Jinsi ya kutafuta habari muhimu kwenye mtandao? Ili kufanya hivyo, kwanza kabisa, unahitaji kujua mbinu bora za kutunga maswali ya utafutaji kwa mafanikio. Kufanya utafutaji wa neno moja kwa kawaida husababisha mamilioni ya kurasa za matokeo, mengi ambayo hayana umuhimu kabisa. Ikiwa kuna maadili nne hadi sita au zaidi kwenye safu ya utaftaji, idadi ya matokeo hupunguzwa kiotomatiki hadi elfu kadhaa na mamia, na wakati mwingine hupunguzwa kwa kurasa chache tu.

Aidha, kutafuta kwenye mtandao kunahitaji maandalizi ya maswali yenye uwezo. Kadiri neno au fungu la maneno lililotafutwa linavyobainishwa kwa usahihi zaidi, ndivyo uwezekano wa kupata data muhimu kwenye ukurasa wa kwanza wa matokeo unavyoongezeka. Jambo ni kwamba injini za utaftaji sio kila wakati zinaweza kusahihisha makosa ya tahajia yaliyofanywa na mtumiaji, na baadhi yao hukosa tu. Lakini katika hali nyingine, usahihi wa ombi unaweza kugeuka kuwa muhimu sana.

Miongoni mwa mambo mengine, hupaswi kupuuza haja ya kuingiza herufi kubwa ikiwa ombi linahusu kutafuta mtu kwa jina la mwisho au majina sahihi. Vinginevyo, kati ya kurasa zinazofaa kama matokeo ya utafutaji hakika kutakuwa na kiasi cha kutosha cha data isiyofaa inayohusiana moja kwa moja na ombi.

Kwa nini ni muhimu kutumia injini nyingi za utafutaji?

Wakati wa kutafuta mtandao, ni muhimu sana kutumia angalau injini mbili za utafutaji. Baada ya yote, mbinu tofauti zitaathiri matokeo yaliyopatikana.Ni nini injini moja ya utafutaji haioni, mfumo mwingine utaona dhahiri. Kwa mfano, kutumia injini ya utaftaji ya ndani kunaweza kusonga habari muhimu mbele ya kurasa kadhaa, na wakati huo huo mtu wa kigeni atarudisha matokeo sawa katika tano za juu.

Kufanya utafutaji kulingana na visawe

Watu hutafuta nini zaidi kwenye Mtandao? Kwa kawaida, somo la utafutaji wa watumiaji ni maudhui ya vyombo vya habari na burudani, hasa, filamu, muziki, na michezo ya kompyuta. Wakati huo huo, watu hawana haja ya kupata ombi maalum kila wakati. Mara nyingi katika matokeo ya utafutaji unahitaji kuona maelezo ya jumla, matoleo tofauti ya thamani sawa.

Ili kutafuta taarifa sawa kulingana na swali lililochaguliwa, tumia alama ya "~", ambayo lazima iwekwe kabla ya swala kwenye mstari wa utafutaji. Kwa mfano, ukitafuta "~michezo bora," unaweza kuishia kuona viungo vya kurasa ambazo hazilingani na "bora." Hata hivyo, kutakuwa na visawe vya kutosha kwa ufafanuzi huu.

Jinsi ya kupata matokeo mengi kwa wakati mmoja?

Jinsi ya kutafuta habari kwenye mtandao ili kupata matokeo kadhaa kwa wakati mmoja? Ili kufanya hivyo, tunatumia mgawanyo wa maswali na opereta maalum "|", ambayo inaweza kupatikana kati ya maneno na misemo kadhaa. Kwa mfano, kwa kutenganisha maswali "nunua gari" na "nunua pikipiki" kwa njia hii, unaweza kupata haraka kurasa zilizo na chaguo zote mbili.

Tumia fursa ya utafutaji wa juu

Kutumia kipengele cha utafutaji wa hali ya juu hufanya iwezekanavyo kuepuka kuunda maswali ya kufafanua mwenyewe. Badala yake, unaweza kutumia chaguo ambazo injini ya utafutaji hutoa moja kwa moja.

Injini nyingi za utaftaji zinajua kuwa utaftaji wa mtandao ni bora zaidi kuliko watumiaji wa hali ya juu zaidi, kwani wanaweka kazi zao kwa takwimu juu ya uundaji wa maswali maarufu. Kwa hivyo, unapouliza injini ya utaftaji swali kwa namna ya neno la utaftaji, ni bora kutaja mara moja kwa kutumia utendaji wa juu wa utaftaji.

Jinsi ya kupata haraka maana ya dhana isiyojulikana?

Watu wanatafuta nini kwenye mtandao? Mara nyingi mada ya utaftaji ni nyenzo ambazo hazijafahamika kwa mtumiaji, na vile vile dhana ambazo kiini chake kinahitaji kueleweka. Ili kupata maana ya ufafanuzi fulani mara moja, unahitaji tu kuweka "fafanua:" kabla ya ombi.

Tazama matokeo kutoka kurasa kumi za kwanza

Nini cha kutafuta kwenye mtandao? Kwanza kabisa, unapaswa kuzingatia matokeo ya kwanza ya injini ya utaftaji. Baada ya yote, hapa ndipo kwa kawaida hupata data muhimu zaidi kwa swali lako, lakini pia matokeo yaliyopatikana kwenye kurasa ambazo ni maarufu zaidi kati ya watumiaji. Kama sheria, hizi ni tovuti zinazoheshimiwa zaidi na zinazoaminika za Mtandao zenye taarifa sahihi zinazokidhi mahitaji ya mtumiaji.

Ufafanuzi wa jiografia ya data inayohitajika

Haja ya kufafanua jiografia ya ombi inaonekana haifai sana kwa wakazi wa miji mikuu na miji mikubwa, lakini inabaki kuwa muhimu kwa watumiaji kutoka mikoa ya mbali. Licha ya ugunduzi wa kiotomatiki wa eneo la mtumiaji, ambalo linafanywa na injini za utafutaji za juu zaidi, nafasi za kwanza katika matokeo hakika zitajumuisha viungo vinavyohusiana na maeneo makubwa ya watu. Baada ya yote, ni katika maeneo kama hayo kwamba wingi wa watumiaji wanaofanya kazi hujilimbikizia.

Kulingana na hapo juu, hupaswi kutegemea sana ukweli kwamba injini ya utafutaji itaamua kutoka kwa hatua gani kwenye ramani ombi linatoka. Badala yake, ni bora kuongeza mara moja kutajwa kwa eneo lako kwenye hoja ya utafutaji.

Wakazi wa maeneo ya mji mkuu hawapaswi kusahau kwamba inashauriwa zaidi kutafuta habari kwenye mtandao kwa njia hii. Baada ya yote, bidhaa au huduma zinazohitajika zinaweza kuishia nje ya jiji kwa urahisi. Wakati mwingine kutaja rahisi zaidi kwa kanda maalum, barabara au hata kituo cha metro husaidia kupata haraka maduka muhimu, makampuni au huduma ambazo ziko karibu na eneo la mtumiaji.

Wanasema kwamba mtandao una kila kitu. Kwa kweli, hii sivyo. Nyenzo za kuchapisha kwenye Mtandao zimeandaliwa na watu halisi, na kwa hivyo unaweza kupata tu kile walichoona ni muhimu kuchapisha. Hata hivyo, mto huo unalishwa na vijito, na kutokana na ubunifu wao, takriban kurasa bilioni mbili za Wavuti tayari zimeundwa kwenye Mtandao leo. Kwa hivyo, kuorodhesha rasilimali zinazopatikana kwenye wavuti imekuwa changamoto kubwa. Licha ya ukweli kwamba maelfu ya mashirika yanafanyia kazi tatizo hilo, sio tu kwamba inakaribia kutatuliwa, lakini pia inazidi kuwa mbaya zaidi. Asilimia ya rasilimali zilizoorodheshwa inazidi kushuka. Katika miaka ya hivi karibuni, kupungua huku kumekuwa janga. Kwa hivyo, ikiwa mnamo 1999 asilimia ya rasilimali zilizoorodheshwa ilikuwa karibu na 40%, basi kwa mwaka mmoja tu ilishuka hadi 25%.

Hitimisho ni rahisi: Nafasi ya Wavuti inajaza haraka kuliko inavyoratibiwa.

Kwa bahati mbaya, hatuna sababu ya kuamini kwamba chochote kitabadilika na kuwa bora katika siku za usoni. Matokeo yake, kutafuta habari kwenye mtandao inaweza kuchukuliwa kuwa moja ya kazi ngumu zaidi.

Ili kutafuta habari unayopenda, unahitaji kuelekeza kivinjari chako kwa anwani ya ukurasa wa Wavuti ambayo iko. Hii ndiyo aina ya utafutaji wa haraka na wa kuaminika zaidi. Ili kufikia rasilimali kwa haraka, fungua kivinjari chako na uandike anwani ya ukurasa kwenye upau wa anwani.

Anwani za kurasa za wavuti hutolewa katika vitabu maalum vya kumbukumbu, machapisho yaliyochapishwa, na husikika kwenye vituo maarufu vya redio na kwenye skrini za TV.

Ikiwa hujui anwani, kuna njia za kupata habari kwenye mtandao: injini za utafutaji, ambayo yana habari kuhusu rasilimali za mtandao.

Kila injini ya utafutaji ni hifadhidata kubwa ya maneno muhimu yanayohusiana na kurasa za Wavuti ambazo zilipatikana. Ili kutafuta anwani ya seva na maelezo unayopenda, unahitaji kuingiza neno kuu, maneno kadhaa au maneno kwenye uwanja wa injini ya utafutaji. Kwa hivyo, unatuma ombi kwa injini ya utaftaji. Matokeo ya utafutaji yanaonyeshwa kama orodha ya anwani za kurasa za Wavuti ambapo maneno haya yalipatikana.

Kwa kawaida, injini za utafutaji huwa na sehemu tatu: robot, index na programu ya usindikaji wa hoja.

Roboti (Spider, Robot au Bot) ni programu inayotembelea kurasa za wavuti na kusoma (kwa ujumla au sehemu) yaliyomo.

Roboti za injini za utaftaji hutofautiana katika mpango wao wa kibinafsi wa kuchambua yaliyomo kwenye ukurasa wa wavuti.

Faharasa ni hifadhi ya data ambayo ina nakala za kurasa zote zilizotembelewa na roboti.

Fahirisi katika kila injini ya utaftaji hutofautiana kwa kiasi na njia ya kupanga habari iliyohifadhiwa. Hifadhidata za injini kuu za utaftaji huhifadhi habari kuhusu makumi ya mamilioni ya hati, na ujazo wao wa faharasa ni mamia ya gigabytes. Fahirisi husasishwa mara kwa mara na kuongezewa, kwa hivyo matokeo ya injini moja ya utafutaji yenye hoja sawa yanaweza kutofautiana ikiwa utafutaji ulifanyika kwa nyakati tofauti.

Programu ya usindikaji wa hoja ni mpango ambao, kwa mujibu wa ombi la mtumiaji, "hutazama" kupitia faharisi kwa uwepo wa habari muhimu na kurejesha viungo kwa hati zilizopatikana.

Seti ya viungo kwenye pato la mfumo husambazwa na programu kwa mpangilio wa kushuka kutoka kwa kiwango kikubwa cha mawasiliano ya kiunga hadi ombi hadi kidogo.

Huko Urusi, injini za utaftaji za kawaida ni:

  • Rambler (www.rambler.ru);
  • Yandex (www.yandex.ru);
  • Barua (www.mail.ru).

Kuna injini nyingi zaidi za utafutaji nje ya nchi. Maarufu zaidi ni:

  • Alta Vista (www.altavista.com);
  • Utafutaji wa Haraka (www.alltheweb.com);
  • Mwanga wa Kaskazini (www.northernlight.com).

Yandex labda ni injini ya utafutaji bora kwenye mtandao wa Kirusi. Hifadhidata hii ina takriban seva 200,000 na hadi hati milioni 30, ambazo mfumo huchanganua ndani ya sekunde. Kwa kutumia mfumo huu kama mfano, tutaonyesha jinsi utafutaji wa habari unavyofanywa.

Utafutaji wa habari umeelezwa kwa kuingiza neno muhimu katika sura maalum na kubofya kitufe cha "Pata" upande wa kulia wa sura.

Matokeo ya utafutaji yanaonekana ndani ya sekunde, kuwekwa kwa umuhimu - nyaraka muhimu zaidi zimewekwa juu ya orodha. Katika kesi hii, kiwango cha hati iliyopatikana imedhamiriwa na wapi katika hati neno kuu liko (katika kichwa cha hati ni muhimu zaidi kuliko mahali pengine popote) na idadi ya kutajwa kwa neno kuu (kutajwa zaidi. , cheo cha juu).

Kwa hivyo, tovuti ziko juu ya orodha haziongozi kutoka kwa mtazamo wa yaliyomo, lakini kivitendo, kuhusiana na mzunguko wa kutajwa kwa neno kuu. Katika suala hili, hupaswi kujizuia kutazama tovuti kumi za kwanza zilizopendekezwa na injini ya utafutaji.

Maudhui ya tovuti yanaweza kutathminiwa kwa njia isiyo ya moja kwa moja na maelezo yake mafupi yaliyowekwa na Mfumo wa Utafutaji chini ya anwani ya Tovuti. Waandishi wengine wa tovuti wasio na uaminifu, ili kuongeza uwezekano wa ukurasa wao wa Wavuti kuonekana katika maeneo ya kwanza ya Injini ya Utafutaji, kwa makusudi hujumuisha marudio yasiyo na maana ya neno kuu katika hati. Lakini mara tu injini ya utaftaji inapogundua hati kama hiyo "iliyo na taka", inaiondoa kiotomatiki kutoka kwa hifadhidata yake.

Hata orodha iliyoorodheshwa ya hati zinazotolewa na injini ya utaftaji kwa kujibu kifungu au neno muhimu inaweza kuwa karibu kutokuwa na mwisho. Katika suala hili, Yandex (pamoja na Injini nyingine za Utafutaji zenye nguvu) hutoa fursa, ndani ya orodha ya kwanza, kuchagua nyaraka zinazoonyesha kwa usahihi madhumuni ya utafutaji, yaani, kufafanua au kuboresha matokeo ya utafutaji. Kwa mfano, kwa neno kuu kuna orodha ya kurasa za Wavuti 34,899. Baada ya kuingiza neno kuu la kuhitimu katika amri ya "Tafuta Imepatikana", orodha imepunguzwa hadi kurasa 750, na baada ya kuingiza neno lingine la kustahili katika amri hii, orodha hii imepunguzwa hadi kurasa 130 za Wavuti.

Saraka za utaftaji ni mkusanyiko wa kimfumo (uteuzi) wa viungo kwa rasilimali zingine za Mtandao. Viungo vinapangwa kama kielekezi cha mada, ambayo inawakilisha muundo wa kihierarkia, kwa kusonga kupitia ambayo unaweza kupata habari muhimu.

Wacha tutoe kwa mfano muundo wa orodha ya utaftaji wa mtandao wa Yandex.

Hii ni saraka ya madhumuni ya jumla, kwani ina viungo vya rasilimali za mtandao karibu na maeneo yote yanayowezekana. Katalogi hii inaangazia yafuatayo Mada:

  • Biashara na Uchumi;
  • Jamii na Siasa;
  • Sayansi na elimu;
  • Kompyuta na mawasiliano;
  • Saraka na viungo;
  • Nyumbani na familia;
  • Burudani na kupumzika;
  • Utamaduni na sanaa.

Kila moja somo inajumuisha nyingi vifungu , na wao, kwa upande wake, huwa na vichwa na kadhalika.

Tuseme unatayarisha tukio la Siku ya Ushindi na unataka kupata maneno ya wimbo maarufu wa kijeshi wa Bulat Okudzhava "Unasikia buti zikicheza" kwenye mtandao. Utafutaji unaweza kupangwa kama ifuatavyo:

Yandex> Katalogi> Utamaduni na sanaa> Muziki> Wimbo wa Mwandishi

Njia hii ya utafutaji ni ya haraka sana na yenye ufanisi. Mwishoni hutolewa viungo vichache tu, kati ya ambayo kuna viungo vya tovuti zilizo na nyimbo za badi maarufu. Yote iliyobaki ni kupata kumbukumbu na maneno ya nyimbo za B. Okudzhava kwenye tovuti na kuchagua maandishi yaliyotakiwa kutoka kwake.

Mfano mwingine. Tuseme utaenda kununua simu ya rununu na unataka kulinganisha sifa za vifaa kutoka kwa kampuni tofauti. Utafutaji unaweza kufanywa kulingana na vichwa vya orodha vifuatavyo:.

Yandex > Katalogi > Kompyuta na mawasiliano > Mawasiliano ya simu > Simu za mkononi

Baada ya kupokea idadi ndogo ya viungo, unaweza kuviangalia haraka na kuchagua simu kwa kuchunguza sifa za makampuni na marekebisho ya vifaa.

Injini nyingi za utaftaji zina uwezo wa kutafuta kwa neno kuu. Hii ni moja ya aina ya kawaida ya utafutaji.

Ili kutafuta kwa maneno, unahitaji kuingiza neno au maneno kadhaa unayotaka kutafuta kwenye dirisha maalum na ubofye kitufe cha Tafuta.

Injini ya utafutaji itapata na kuonyesha hati zilizo na maneno haya katika hifadhidata yake. Kunaweza kuwa na hati nyingi kama hizo, lakini nyingi katika kesi hii haimaanishi nzuri.

Wacha tufanye majaribio kadhaa na injini yoyote ya utaftaji. Hebu tufikiri kwamba tunaamua kuanza aquarium na tunavutiwa na taarifa yoyote juu ya mada hii. Kwa mtazamo wa kwanza, jambo rahisi zaidi ni kutafuta neno "aquarium". Hebu tuangalie hii, kwa mfano, katika injini ya utafutaji ya Yandex. Matokeo ya utafutaji yatakuwa idadi kubwa ya kurasa - idadi kubwa ya viungo. Zaidi ya hayo, ikiwa unatazama kwa karibu zaidi, kati yao kutakuwa na maeneo ambayo yanataja kikundi cha B. Grebenshchikov "Aquarium", vituo vya ununuzi na vyama visivyo rasmi na jina moja, na mengi zaidi ambayo hayahusiani na samaki ya aquarium.

Si vigumu nadhani kwamba utafutaji huo hauwezi kutosheleza hata mtumiaji asiye na heshima. Muda mwingi sana utalazimika kutumika katika kuchagua kati ya hati zote zilizopendekezwa zile zinazohusiana na somo tunalohitaji, na hata zaidi kufahamiana na yaliyomo.

Tunaweza kuhitimisha mara moja kuwa kutafuta kwa neno moja, kama sheria, haiwezekani, kwa sababu kutumia neno moja ni ngumu sana kuamua mada ambayo hati, ukurasa wa wavuti au tovuti imejitolea. Isipokuwa ni maneno na istilahi adimu ambazo karibu hazitumiwi nje ya eneo la mada.

Kuwa na seti fulani ya maneno ya kawaida katika eneo linalohitajika, unaweza kutumia utafutaji wa juu. Katika Mtini. inaonyesha dirisha la utafutaji la juu katika injini ya utafutaji ya Yandex. Katika hali hii, uwezo wa lugha ya swala hutekelezwa kwa namna ya fomu. Huduma sawa, ikiwa ni pamoja na vichungi vya kamusi, hutolewa na karibu injini zote za utafutaji.

Wacha tujaribu kufafanua hali ya utaftaji na ingiza kifungu "samaki wa aquarium". Idadi ya viungo itapungua kwa zaidi ya mara 20. Matokeo haya yanatufaa zaidi, lakini bado kati ya viungo vilivyopendekezwa kunaweza kuwa, kwa mfano, seti za kumbukumbu za Kirusi za lebo za mechi na picha za samaki, na makusanyo ya skrini za kompyuta ya mezani, na orodha za samaki wa aquarium na picha, na vifaa vya aquarium. maduka. Ni dhahiri kwamba tunapaswa kuendelea kuelekea kufafanua hali ya utafutaji.

Ili kufanya utafutaji kuwa na tija zaidi, injini zote za utafutaji zina maalum lugha ya kuuliza na syntax yake mwenyewe. Lugha hizi zinafanana kwa njia nyingi. Ni ngumu sana kusoma zote, lakini injini yoyote ya utaftaji ina mfumo wa usaidizi ambao utakuruhusu kujua lugha unayotaka.

Hapa kuna sheria chache rahisi za kuunda swala katika injini ya utafutaji ya Yandex.

Maneno muhimu katika swala yanapaswa kuandikwa kwa herufi ndogo (ndogo).

Hii itahakikisha kwamba maneno yote muhimu yanatafutwa, sio tu yale yanayoanza na herufi kubwa.

Wakati wa kutafuta, aina zote za neno huzingatiwa kulingana na sheria za lugha ya Kirusi, bila kujali fomu ya neno katika swala.

Kwa mfano, ikiwa neno "kujua" lilibainishwa katika swali, basi maneno "tunajua", "unajua", nk pia yatakidhi hali ya utafutaji.

Ili kupata kifungu thabiti, unapaswa kuambatanisha maneno katika alama za nukuu.

Kwa mfano, "sahani za porcelaini".

Ili kutafuta kwa umbo halisi wa neno, unahitaji kuweka alama ya mshangao mbele ya neno.

Kwa mfano, kutafuta neno "Septemba" katika kesi ya jeni, ungeandika "!Septemba".

Ili kutafuta ndani ya sentensi sawa, maneno katika hoja hutenganishwa na nafasi au & ishara.

Kwa mfano, "riwaya ya matukio" au "adventure&romance". Maneno kadhaa yaliyoandikwa katika swali, yakitenganishwa na nafasi, inamaanisha kwamba yote lazima yajumuishwe katika sentensi moja ya hati inayotafutwa.

Ikiwa ungependa tu zile hati ambazo zina kila neno lililobainishwa katika swali litakalochaguliwa, weka ishara ya kuongeza "+" mbele ya kila moja yao. Ikiwa, kinyume chake, unataka kuwatenga maneno yoyote kutoka kwa matokeo ya utaftaji, weka minus "-" mbele ya neno hili. Alama "+" na "-" lazima ziandikwe zikitenganishwa na nafasi kutoka kwa ile iliyotangulia na pamoja na neno linalofuata.

Kwa mfano, swali "Volga-gari" litapata hati zilizo na neno "Volga" na sio neno "gari".

Unapotafuta visawe au maneno yenye maana sawa, unaweza kuweka upau wima "|" kati ya maneno.

Kwa mfano, kwa swali "mtoto | mtoto | baby" hati zilizo na neno lolote kati ya haya zitapatikana.

Badala ya neno moja katika swali, unaweza kubadilisha usemi mzima. Ili kufanya hivyo, unahitaji kuiweka kwenye mabano

Kwa mfano, "(mtoto | mtoto mchanga | watoto | mtoto mchanga) + (huduma | uzazi)."

Alama ya "~" (tilde) hukuruhusu kupata hati zilizo na sentensi iliyo na neno la kwanza lakini sio la pili.

Kwa mfano, swali "vitabu ~ store" litapata hati zote zilizo na neno "vitabu", karibu na ambayo (ndani ya sentensi) hakuna neno "duka".

Ikiwa opereta anarudiwa mara moja (kwa mfano, & au ~), utafutaji unafanywa ndani ya sentensi. Opereta maradufu (&&,~~) hubainisha utafutaji ndani ya hati.

Kwa mfano, swali "cancer ~~ astrology" litapata hati zenye neno "kansa" ambazo hazihusiani na unajimu.

Hebu turudi kwa mfano na samaki ya aquarium. Baada ya kusoma nyaraka kadhaa zinazotolewa na injini ya utafutaji, inakuwa wazi kwamba kutafuta habari kwenye mtandao haipaswi kuanza na kuchagua samaki ya aquarium. Aquarium ni mfumo mgumu wa kibaolojia, uundaji na matengenezo ambayo inahitaji maarifa maalum, wakati na uwekezaji mkubwa.

Kulingana na taarifa iliyopokelewa, mtu anayetafuta kwenye Mtandao anaweza kubadilisha kwa kiasi kikubwa mkakati wa utafutaji zaidi kwa kuamua kusoma fasihi maalumu inayohusiana na suala linalosomwa.

Ili kutafuta hati za fasihi au maandishi kamili, swali lifuatalo linawezekana:

"+(aquarium | aquarist | hobby ya aquarium) + kwa wanaoanza + (ushauri | fasihi) + (makala | thesis | maandishi kamili) - (bei | duka | utoaji | katalogi)."

Baada ya kusindika ombi na injini ya utaftaji, matokeo yalifanikiwa sana. Tayari viungo vya kwanza vinaongoza kwenye nyaraka zinazohitajika.

Sasa unaweza kufanya muhtasari wa matokeo ya utafutaji, kupata hitimisho fulani na kuamua juu ya hatua zinazowezekana:

  • Acha utafutaji zaidi, kwani kwa sababu mbalimbali huwezi kudumisha aquarium.
  • Soma makala zilizopendekezwa na uanze kuanzisha aquarium.
  • Angalia nyenzo kuhusu hamsters au budgies.
  1. Ni aina gani ya utafutaji ambayo ni ya haraka zaidi na ya kuaminika zaidi?
  2. Mtumiaji anaweza kupata wapi anwani za ukurasa wa wavuti?
  3. Kusudi kuu la injini ya utaftaji ni nini?
  4. Je, injini ya utafutaji inajumuisha sehemu gani?
  5. Je! Unajua injini gani za utaftaji?
  6. Je, ni teknolojia gani ya kutafuta kwa kutumia rubricator ya injini ya utafutaji?
  7. Je, ni teknolojia gani ya kutafuta kwa maneno muhimu?
  8. Ni wakati gani unapaswa kutaja + au - katika vigezo vya utafutaji?
  9. Ni vigezo gani vya utaftaji katika Yandex vilivyoainishwa na kifungu kifuatacho:

    (yaya|mwalimu|mtawala)++(huduma|elimu|usimamizi) ?

  10. Kuongeza alama mara mbili (~~ au ++) kunamaanisha nini wakati wa kuunda hoja tata?

Zoezi.

Kazi ya 1. Tafuta katika katalogi.

Kwa kutumia saraka ya injini ya utafutaji, pata taarifa ifuatayo (kama ilivyoelekezwa na mwalimu wako):

  1. Nyimbo za wimbo maarufu wa kikundi cha muziki
  2. Repertoire ya ukumbi wa michezo wa Mariinsky kwa wiki ya sasa
  3. Vipengele vya mtindo wa hivi karibuni wa simu ya rununu kutoka kwa kampuni inayojulikana (ya chaguo lako)
  4. Kichocheo cha borscht ya Kiukreni na dumplings
  5. Utabiri wa hali ya hewa wa muda mrefu katika eneo lako (angalau siku 10)
  6. Picha ya mwimbaji wako wa kisasa unayempenda
  7. Gharama ya takriban ya kompyuta ya media titika (orodha ya bei)
  8. Taarifa kuhusu nafasi za kazi za katibu katika mkoa au jiji lako
  9. Nyota ya ishara yako ya zodiac kwa siku ya sasa

Kulingana na matokeo ya utafutaji, fanya ripoti iliyoandikwa kwa Neno: wasilisha nyenzo zilizopatikana, zilizonakiliwa na kupangiliwa katika hati. Peana ripoti yako kwa mwalimu wako.

Kazi ya 2. Kuunda ombi kwa kutumia kichwa halisi au nukuu.

Unajua jina halisi la hati, kwa mfano, "Mahitaji ya usafi kwa kompyuta za kibinafsi za kielektroniki na shirika la kazi." Unda swali ili kutafuta mtandao kwa maandishi kamili ya hati.

Hifadhi matokeo ya utafutaji kwenye folda yako. Onyesha kwa mwalimu wako.

Kazi ya 3. Uundaji wa maswali magumu.

  • Katika injini yoyote ya utafutaji, tengeneza swala ili kutafuta habari kuhusu umwagaji wa Kirusi. Ondoa matoleo ya huduma, utangazaji wa vifaa vya kuoga na matangazo mengine. Kuzingatia utafutaji wako juu ya athari za umwagaji wa Kirusi kwenye mwili.
  • Unda swali tata ili kupata taarifa kuhusu kutunza paka wa ndani. Usijumuishe paka wakubwa (kama vile simba) kwenye utafutaji wako, pamoja na ofa za kununua, kuuza, picha za mandhari, n.k.
  • Tengeneza maandishi ya ombi na matokeo ya utaftaji katika Neno na uwasilishe kwa mwalimu.
Kazi ya 4. Utafutaji wa mada.

Kwa njia zote zinazojulikana kwako, tafuta mtandao kwa habari juu ya historia ya maendeleo ya teknolojia ya kompyuta. Fanya utafutaji wako katika maeneo mbalimbali: hali ya kihistoria, teknolojia, haiba. Wasilisha matokeo yako ya utafutaji kwa namna ya wasilisho. Tumia jedwali la hatua nyingi la yaliyomo katika mfumo wa viungo katika wasilisho lako.

Fedotov A.M., Barakhnin V.B. Chuo Kikuu cha Jimbo la Novosibirsk, Taasisi ya Teknolojia ya Kompyuta SB RAS
maelezo
Nakala hiyo imejitolea kwa majadiliano ya shida za kupata habari katika mazingira ya kisasa ya habari, njia za kihistoria, shida za kiteknolojia na algorithms.

Utangulizi
Shida ya kutafuta habari ni moja ya shida za milele za jamii ya wanadamu. Katika kipindi chote cha maendeleo yake ya miaka elfu nyingi, wawakilishi wake wanatafuta bila kuchoka mahali kitu kiko: chakula, nyumba, malisho, barabara, hazina, n.k. Kwa muhtasari wa kazi za utafutaji, tunaweza kusema kwamba ubinadamu ni daima katika kutafuta ujuzi, na. hasa, “habari kuhusu mahali hazina ziko.” Mwandishi mkubwa wa Argentina Jorge Luis Borgeve aliandika katika insha yake "Mizunguko Nne" kwamba mada nne ni za milele katika fasihi ya ulimwengu:
1. Kuanguka kwa jiji.
2. Kurudi kwa shujaa.
3. Tafuta.
4. Kujitolea kwa Mungu.
Sio ngumu kugundua kuwa mada ya kawaida katika fasihi na kwa ukweli ni mada ya tatu - tafuta, kwa maana mada ya nne inapita zaidi ya wigo wa uzoefu wa kawaida wa mwanadamu, na mbili za kwanza zinaonekana tu katika "dakika za kutisha za maisha." dunia.”
Pamoja na ujio wa kategoria mpya ya kiuchumi, ambayo ni rasilimali za habari, shida ya utaftaji ilihamia eneo hili. Ubinadamu unazidi kuanza kutumia rasilimali za habari kutafuta maarifa muhimu. Ili kutatua shida ya ufikiaji wa habari, ubinadamu uliunda maktaba - kama mfumo wa ulimwengu wa kuhifadhi "maarifa", utaratibu wake na uorodheshaji.
Hali inabadilika sana kama mabwana wa ustaarabu wa binadamu (kwa usahihi zaidi, huunda) nafasi ya "habari". Visiwa vya kwanza vya nafasi ya habari ya ustaarabu vilikuwa maktaba za umma, kubwa zaidi (Maktaba ya Jumba la Makumbusho la Uingereza, Maktaba ya Kitaifa ya Paris, Maktaba ya Congress ya Merika, Maktaba ya Jimbo la Urusi, n.k.) tayari. mwanzo wa karne ya ishirini ilikuwa na makusanyo ya mamilioni ya juzuu.
Kwa muda mrefu, moja ya zana zenye nguvu za kutafuta habari katika hazina za vitabu ilikuwa ufikiaji wa moja kwa moja wa wasomaji kwa vitabu, wakati wangeweza kupekua maktaba kwa uhuru, wakitumia wakati mwingi wa kibinafsi. Hili linaeleweka, kwa kuwa mtu anayehitaji habari za kisayansi (maarifa) kimsingi hapendezwi na kitabu chenyewe kama vile, bali ni sehemu yake tu iliyo na ujuzi anaohitaji. Zaidi ya hayo, yeye mwenyewe mara nyingi hawezi kueleza jinsi ujuzi huu unaweza kuhusiana na kichwa cha kitabu au mwandishi wake.
Mkusanyiko wa vitabu ulisababisha matokeo ya kutatanisha yaliyohusishwa na kutenganishwa kwa hazina za vitabu kutoka kwa wasomaji anuwai. Zana ya kutafuta maarifa kwa wote kulingana na ufikiaji wa moja kwa moja wa habari imekuwa inapatikana kwa wachache waliochaguliwa. Wingi wa wale walio na kiu ya ujuzi walianza kuridhika tu na utafutaji katika orodha, ambayo, kimsingi, haikuweza kukidhi mahitaji ya habari inayojitokeza. Ili kutatua tatizo la upatikanaji wa wasomaji wa habari, majaribio yalifanywa kuainisha na kupanga habari - vyumba vya vitabu maalum vilianza kuundwa, ambapo vyanzo vya habari vilichaguliwa kulingana na vigezo vingine (sio wazi sana).
Kwa upande mmoja, kama ilivyobainishwa na mwanahistoria wa Uingereza na mwanasosholojia wa sayansi D. de Solla Price, kuanzia katikati ya karne ya 18, sehemu yoyote kubwa ya kutosha ya sayansi chini ya hali ya kawaida imekuwa ikiongezeka kwa kasi, yaani, vigezo vyovyote vya sayansi. sayansi, ikiwa ni pamoja na kiasi cha habari iliyokusanywa, kwa muda fulani mara mbili (sheria ya ukuaji wa kielelezo wa sayansi). Kwa upande mwingine, katika kipindi hiki cha wakati, kuna ongezeko la idadi ya watu wanaohitaji habari za kisayansi. Hatuzungumzii tu juu ya wanasayansi (idadi yao pia inatii sheria ya ukuaji mkubwa), lakini pia juu ya wawakilishi wa fani zingine nyingi za kazi ya akili: wahandisi, wataalam wa kilimo, madaktari, wasimamizi, n.k.
Vitabu vinapojilimbikiza na, kwa hivyo, habari iliyomo, mbinu za kitamaduni za utaftaji huwezekana: kwa kutumia orodha ya alfabeti (kutafuta kitabu kwa jina la mwandishi anayejulikana) na orodha ya utaratibu (kutafuta kitabu au darasa la vitabu juu ya somo fulani. ), - wameacha kukidhi wasomaji, kimsingi wanasayansi, ambao mahitaji yao ya habari katika mchakato wa utafiti wa kisayansi yanajulikana kwa uwazi mdogo wa ufahamu na kujieleza (tazama, kwa mfano,).
Teknolojia za kisasa za habari humpa mtafiti kifaa chenye nguvu cha "kubadilisha data" badala ya habari. Data iliyobadilishwa kuwa fomu ya kielektroniki hupata ubora mpya, kuhakikisha usambazaji mpana na matumizi bora. Kwa mtazamo wa kwanza, mtu anaweza kupata hisia kwamba maendeleo ya teknolojia ya habari yenyewe ni uwezo wa kuleta kazi na habari za kisayansi kwa kiwango kipya cha ubora, lakini, kwa bahati mbaya, hii sivyo kabisa. Teknolojia za kisasa za habari bado haziwezi kutoa vifaa vya kutosha vya kufanya kazi na "habari" na rasilimali za habari.
Hata hivyo, data yenyewe (kama seti ya biti) haiwakilishi thamani yoyote ya habari bila maelezo au miundo inayofaa. Matumizi ya teknolojia ya habari inapaswa kuzingatia matumizi ya mifano mbalimbali (phenomenological, habari, hisabati, nk). Kama A. A. Lyapunov alivyosema mara kwa mara (tazama, kwa mfano,): "hakuna mfano, hakuna habari." Ili kuweza kufanya kazi kwa tija, tunahitaji data kubadilishwa kuwa "habari", iliyotolewa kwa njia ya "maarifa" - "tafakari ya kutosha ya ukweli katika akili ya mwanadamu kwa namna ya mawazo, dhana, hukumu za nadharia."
Tayari wanajaribu kutatua tatizo lililopo la uteuzi wa habari kwa kuunda mifumo ya kurejesha habari ya ulimwengu wote au maalum. Kama matokeo ya maendeleo ya haraka ya teknolojia ya utaftaji kwa kulinganisha na njia za kufanya kazi na habari ya kisemantiki, pengo linaloonekana limeundwa kati ya mbinu ya kufanya kazi na data (tafuta) na uwezo wa kufanya kazi na yaliyomo kwenye data hii. Kulingana na intuition, wataalam wanafikia hitimisho kwamba hali ya sasa ni mbaya, lakini hakuna mazungumzo ya kufikiria tena kwa kina juu ya shida za kupata habari kutoka kwa data.

1 Usuli
Kama tunavyoona, shida ya utaftaji - ufikiaji wa habari ni moja wapo ya shida kubwa zinazokabili "jamii ya habari" ya kisasa.
Inavyoonekana, tatizo lililotokea kwa mara ya kwanza lilitambuliwa kwa uwazi zaidi na mwanasosholojia wa Ubelgiji Paul Otlet, ambaye mwishoni mwa karne ya 19 alipendekeza kuongeza sayansi ya maktaba, ambayo ilikuwa inasimamia habari za kisayansi na kiufundi na sayansi ya maktaba ya jadi. njia mpya kabisa, ambayo aliiita "Nyaraka":
“Malengo ya Hati ni kuweza kutoa majibu yaliyoandikwa kwa maswali kuhusu somo lolote katika uwanja wowote wa maarifa: 1) maudhui kwa wote; 2) sahihi na kweli; 3) kamili; 4) uendeshaji; 5) data inayoakisi ya hivi punde; 6) kupatikana; 7) kabla ya kusanyiko na tayari kwa uhamisho; 8) zinazotolewa kwa watu wengi iwezekanavyo” (ona, uk. 190,).
Kiini cha njia ya Hati ilikuwa kwamba yaliyomo kwenye kitabu (yaliyotengwa na mwandishi) yameandikwa kwenye kadi, na mkusanyiko wa kadi unaweza kupangwa kwa njia ambayo miunganisho ya somo inaonyeshwa. Paul Otlet aliona maendeleo ya mapinduzi ya teknolojia ya kufanya kazi na habari, hadi uwasilishaji wake wa media titika na ufikiaji wa mbali kwa benki za data:
“... maarifa ya binadamu yatawezesha kuunda vifaa vinavyofanya kazi kwa mbali, vikichanganya redio, x-rays, sinema na upigaji picha wa hadubini. Vitu vyote vya Ulimwengu, vitu vyote vilivyoundwa na Mwanadamu, vitasajiliwa kwa umbali kutoka wakati wa kuumbwa kwao. Kwa hivyo, picha ya kusonga ya ulimwengu itaundwa - kumbukumbu yake, nakala yake ya kweli. Mtu yeyote anaweza kusoma kifungu kilichoonyeshwa kwenye skrini yake binafsi” (ona uk. 16).
Mawazo ya Paul Otlet hayakukubaliwa na jumuia ya habari (maktaba) ya wakati huo, haswa kwa sababu haikuungwa mkono kabisa na usaidizi wa kiufundi: wafanyikazi wa habari na wasimamizi wa maktaba wa enzi hiyo walikuwa na tapureta, kamera na katalogi za kadi tu. Kuonekana baada ya Vita vya Kwanza vya Kidunia vya usindikaji wa kadi zilizopigwa (kwa usahihi zaidi, aina zao rahisi - kadi zilizopigwa na utoboaji wa makali) pia haukuwa mafanikio ya kimsingi ya kiteknolojia, kwani hata miaka 40 baadaye, katika miaka ya 1960, vifaa kama hivyo vinaweza kusindika. safu ndogo (hadi elfu 30) za hati (tazama.
Na. 549).
Tatizo la kuongezeka kwa wingi wa habari ambazo zilitishia kuwalemea wasomaji liliendelea kuwatia wasiwasi watafiti. Katika 1941, J. L. Borges aliyetajwa hapo juu aliunda fumbo lake maarufu “Maktaba ya Babeli.” Katika mfano huu, Ulimwengu unawakilishwa kama Maktaba, isiyo na kikomo na inayojumuisha yote, kwenye rafu ambayo "mtu anaweza kupata mchanganyiko wote wa ishara ishirini na zisizo za kawaida za tahajia (idadi yao, ingawa ni kubwa, sio isiyo na kikomo) au kila kitu ambacho inaweza kuonyeshwa - katika lugha zote." Maana ya kifalsafa ya mfano huo, kwa kweli, ni ya kina zaidi kuliko shida ya kupata habari, lakini picha ya asili ilichukuliwa na mwandishi kutoka kwa ukweli wa kila siku. Ni vigumu kukataa kutaja angalau nukuu fupi kutoka kwa mfano ambazo zinalingana na mada ya kifungu.
“Ilipotangazwa kwamba Maktaba ilitia ndani vitabu vyote, hisia ya kwanza ilikuwa shangwe isiyozuilika. Kila mtu alihisi kama mmiliki wa hazina ya siri na ambayo haijaguswa. Hakukuwa na tatizo, la kibinafsi au la kimataifa, ambalo hapakuwa na suluhisho la kushawishi. . . Ulimwengu ulikuwa na maana, ulimwengu ghafla ukawa mkubwa kama tumaini. Kwa wakati huu, mengi yalisemwa juu ya Uhalalishaji: vitabu vya msamaha na unabii ambavyo vilihalalisha milele vitendo vya kila mtu katika ulimwengu na kuweka siri za ajabu za maisha yake ya baadaye. Maelfu ya watu wenye kiu waliacha hexagons zao za asili na kukimbilia ngazi, wakiongozwa na hamu ya bure ya kupata uhalali wao. . . , lakini wale walioanzisha utafutaji walisahau kwamba kwa mtu uwezekano wa kupata Uhalalishaji wake au toleo lake potofu ni sifuri. . .
Matumaini, kwa kawaida, yalibadilishwa na kukata tamaa bila tumaini. Wazo la kwamba kwenye rafu fulani katika baadhi ya vitabu vya thamani vilifichwa na kwamba vitabu hivyo havingeweza kufikiwa lilikuwa karibu kutoweza kuvumilika. Dhehebu moja la kufuru lilitoa wito kwa kila mtu kuacha kutafuta na kuanza kuchanganya herufi na ishara hadi vitabu vya kisheria viundwe, kwa sababu ya ajali ya ajabu. . . Wengine, kinyume chake, waliamini kwamba vitabu visivyo na maana vinapaswa kuharibiwa kwanza. . .
Ushirikina mwingine wa wakati huo pia unajulikana: Mtu wa Kitabu. Kwenye rafu fulani katika heksagoni fulani (watu waliamini) kuna kitabu chenye kiini na muhtasari wa vingine vyote: mtunza maktaba fulani alikisoma na akawa kama Mungu. Katika lugha ya maeneo haya mtu anaweza kuona athari za ibada ya mfanyakazi huyu wa nyakati za mbali. Wengi walihiji kumtafuta Yeye. Kwa karne moja kulikuwa na utafutaji usio na matunda. Jinsi ya kutambua hexagon takatifu ya ajabu ambayo Anakaa? Mtu alipendekeza njia ya kurejesha: ili kupata kitabu A, unapaswa kwanza kurejea kwenye kitabu B, ambacho kitaonyesha mahali pa A; kupata kitabu
B, kwanza unapaswa kushauriana katika kitabu C, na kadhalika ad infinitum... »
Nguvu iliyochochea “mapinduzi ya habari” yaliyotokea katikati ya karne ya 20 haikuwa watunzaji wa habari—wasimamizi wa maktaba—bali watumiaji wayo—wanasayansi na wahandisi. Mnamo 1931, Mashine ya Takwimu ya Emmanuel Goldberg iliundwa nchini Ujerumani, ambayo ilitoa usomaji wa filamu ndogo iliyoandaliwa maalum ambayo safu ya hati ilihifadhiwa. Upekee wa shirika la uhifadhi wa habari ni kwamba maelezo ya hati hii, iliyosimbwa kwa utoboaji, yalirekodiwa kwenye filamu pamoja na hati iliyo na filamu ndogo. Utafutaji wa hati unafanywa kwa kulinganisha ombi (pia limesimbwa) na utoboaji wa filamu. Mashine ya Goldberg ilitofautishwa na mechanics ya hali ya juu na macho: mtumiaji alipata fursa ya kutazama zaidi ya fremu 100,000 za filamu 35 mm kwa saa moja. Injini ya takwimu ya Goldberg ilikuwa, inaonekana, chombo cha kwanza cha kufanya kazi cha kubinafsisha utafutaji katika kiasi kikubwa cha data kulingana na alama zao. Kwa njia, kulingana na watafiti wengine, Vanniver Bush, mwandishi wa nakala maarufu "Kama Tunaweza Kufikiria," iliyoandikwa mnamo 1939, ambayo ilitengeneza wazo la hypertext na kutabiri kutokea kwa kifaa cha kibinafsi, ilitegemea mawazo ya Emmanuel Goldberg.kuhifadhi taarifa na kufanyia kazi mchakato wa kuzitafuta kiotomatiki. Hivi ndivyo mojawapo ya mawazo yake yanavyoonekana:
Hebu tujadili kifaa cha kibinafsi. Acha iitwe Memex na iwakilishe kitu kama kumbukumbu ya kiotomatiki au maktaba. Memex huhifadhi vitabu vyote muhimu, rekodi, na mawasiliano kwa mmiliki wake. Kifaa kinajiendesha kwa kiasi kwamba kinatoa majibu kwa maswali yaliyoulizwa kwa fomu rahisi - yaani, ni rahisi sana katika mawasiliano.
Kasi ya majibu ni ya juu na haikufanyi kusubiri. Kuna skrini ya picha, kibodi na vifungo vya kudhibiti. Mtumiaji anapotafuta kitabu anachotaka, lazima aweke msimbo wake wa mnemonic na bonyeza kitufe kinachohitajika kutafuta. Ukurasa wa kwanza utaonekana kwenye skrini mbele yake. Inapaswa kuwa rahisi kupitia kitabu kwa mwelekeo wowote. Unaweza kuacha kwenye ukurasa uliochaguliwa, na kisha ufuate kiungo na upate nyenzo zifuatazo za kupendeza. Katika kesi hii, unaweza kurudi kwenye ukurasa uliopita au kutazama kurasa kadhaa kwa wakati mmoja.
Encyclopedias itaonekana na viungo vilivyotengenezwa tayari vya kuunganisha habari na utafutaji wa haraka. Unaweza kuzipakia kwa Memex na utafute kila kitu unachohitaji.
Mara nyingi unaweza kupata taarifa katika fasihi kwamba V. Bush alitabiri wazo la kompyuta ya kibinafsi, lakini sio sahihi kabisa kusema hivyo, kwa sababu wakati halisi wa kuandika kifungu "Kama Tunaweza Kufikiria" ulianza kipindi ambacho, chini ya uongozi wa V. Bush, Taasisi ya Teknolojia ya Massachusetts ilikuwa mfano wa kufanya kazi wa kichagua filamu ndogo ya Memex iliundwa.
Ikiwa tunazungumza juu ya vifaa vya utaftaji vya enzi hiyo, kwa msingi sio kwa analog, lakini kwa uwakilishi wa dijiti wa habari (haswa kile kinachotumiwa kwenye kompyuta za kisasa), basi tunapaswa kutambua mfumo wa utaftaji wa hati miliki uliotekelezwa kwenye kadi zilizopigwa za juu, ambazo ziliundwa mnamo 1939. na U Batten kwa wasiwasi wa Uingereza wa Imperial Chemical Industries, Ltd. Algorithm yake ya uendeshaji ilitokana na kuratibu kuorodhesha - kuwakilisha maudhui ya hati kwa kutumia orodha ya maneno muhimu yaliyomo ndani yake. Wazo hili liliendelezwa zaidi katika kazi za mwanahisabati wa Marekani Calvin Mooers, ambaye aliunda na hati miliki mwaka wa 1947 mfumo wa urejeshaji wa hati wa mechanized ambao ulifanya kazi kwenye kadi maalum zilizo na vipandikizi kando (kinachojulikana kama "kadi za Zato").
Mfumo huo pia ulitegemea njia ya kuratibu ya kuorodhesha. Ilikuwa K. Muers ambaye alikua mwanzilishi wa mbinu ya kisayansi ya kurejesha habari, akianzisha mwaka wa 1950 maneno "upataji wa habari", "mfumo wa kurejesha habari", "lugha ya kurejesha habari", "picha ya utafutaji", "descriptor", "descriptor". kamusi” n.k. Tangu wakati huo, maendeleo ya haraka ya sayansi ya kompyuta yalianza kama sayansi kuhusu muundo na sifa za habari za kisemantiki (kimsingi kisayansi). Mahali muhimu katika sayansi hii ilichukuliwa na maswala ya kurejesha habari, katika mchakato ambao, kwa kusema madhubuti, mahitaji ya habari ya mtumiaji yanakidhiwa moja kwa moja. Ujumla wa matokeo yaliyokusanywa ulifanyika katika monograph na wafanyakazi wa Taasisi ya All-Union ya Habari za Sayansi na Ufundi (VINITI), ambao walielezea misingi ya mbinu ya sayansi ya kompyuta ya kinadharia.
Uwezekano wa utekelezaji wa vitendo wa algorithms ya kurejesha habari uliongezeka kwa kasi wakati, katikati ya miaka ya 1960 - mapema miaka ya 1970, badala ya vifaa vya mitambo, kompyuta za elektroniki za kizazi cha tatu na cha nne zilianza kutumika sana, kwa misingi ambayo mifumo ya kiotomatiki. ziliundwa kukusanya, kuchambua, kuainisha, kuhifadhi, kusambaza kwa umbali, kutafuta na kutoa taarifa. Hasa, kikundi cha utafiti kilichoongozwa na profesa wa Chuo Kikuu cha Harvard J. Salton kilitengeneza mfumo wa kuchanganua na kutoa maandishi SMART (Salton's Magic Automatic Retriever of Text), ambapo kanuni nyingi za msingi za injini za kisasa za utafutaji zilitekelezwa kwanza. Maelezo ya kinadharia na uelewa wa kanuni hizi ulifanywa na J. Salton katika monograph, na mkazo maalum ndani yake uliwekwa juu ya uwasilishaji wa mbinu mpya za masuala ya uainishaji wa nyaraka na maombi, uchambuzi wa maudhui, utafutaji wa maingiliano na utoaji wa habari. kitabu bado hakijapoteza umuhimu wake.
Msingi wa kiteknolojia wa uundaji wa mifumo kama hiyo ya urejeshaji habari ilikuwa matumizi ya kinachojulikana kama mfumo mkuu - mifumo ya kompyuta ya kati ya watumiaji wengi ambayo safu za data na programu za usindikaji zilipatikana kwenye kompyuta kuu yenye nguvu, na ufikiaji wa watumiaji ulifanyika kupitia. vituo vya alphanumeric (maonyesho), vinavyofanya kazi chini ya udhibiti wa mashine za satelaiti. Kuna maoni kwamba mifumo ya kurejesha habari ya wakati huo haikuendelezwa ipasavyo kwa sababu ya nguvu na kumbukumbu ya kutosha ya kompyuta za wakati huo, na ukosefu wa njia za mawasiliano za hali ya juu (haswa umbali mrefu). Hapa shida zingekuwa tofauti. Kwanza, ukosefu wa itifaki za mtandao wa ulimwengu wote ulipunguza sana ufikiaji wa mbali kwa mifumo kama hiyo. Pili, mzigo mzito wa kazi za hesabu haukuruhusu kuandaa uendeshaji wa mifumo kama hiyo saa nzima. Haya yote yaliipa mifumo ya urejeshaji habari tabia ya kawaida ya kawaida.
Licha ya hayo, katika mifumo ya habari ya wakati huo, kiasi kikubwa cha habari kwa nyakati hizo kilikusanywa na kuratibiwa. Kwa mfano, katika Kituo cha Kompyuta cha Novosibirsk SB RAS, kwenye mashine za aina ya BESM-6, usajili wote kwa majarida ya dhahania ya VINITI, maelezo ya biblia ya machapisho yaliyopokelewa na Maktaba ya Umma ya Sayansi na Teknolojia na idadi kubwa ya kisayansi na kiufundi. nyaraka zilihifadhiwa. Shida kuu zinazohusiana na matumizi yake ni ukosefu wa kazi ya maingiliano, kwani, kama sheria, ombi lilitumwa kutoka kwa terminal, na majibu yalikuja kwa njia ya uchapishaji wa "kilomita" kwenye ADCP. Na hii ilikuwa hitaji muhimu, kwani hapakuwa na njia ya kuchambua majibu nyuma ya onyesho. Kweli, shida ya pili ilihusiana na taswira ya nyenzo - hakukuwa na programu ambayo ingeruhusu kutazama habari katika fomu iliyo karibu na uchapishaji uliochapishwa.
Katika miaka ya 1980, mainframes ilianza kubadilishwa hatua kwa hatua na kompyuta za kibinafsi, ambayo ilifanya iwezekanavyo kusindika habari moja kwa moja mahali pa kazi, bila mawasiliano na processor ya kati, na, kwa kuongeza, ilikuwa na nguvu kabisa (kwa nyakati hizo) zana za taswira ya habari. Hii ilisababisha kupungua kwa hamu katika uundaji wa mifumo ya habari ya kati na, kwa sababu hiyo, kusimamishwa kwa utafiti wa kimsingi wa kisayansi katika uwanja wa urejeshaji habari, ambao ulianza tena na ujio wa Mtandao, ambao ulisababisha uhifadhi uliosambazwa. ya habari.

2 Kanuni za kuandaa mifumo ya habari na kumbukumbu
Kama ilivyoelezwa tayari, kanuni za msingi za kurejesha habari zilizoundwa katika kazi za K. Muers na J. Salton bado zinafaa leo. Hata hivyo, kuna nuance ndogo katika matumizi yao. "Classics" iliita mifumo kama hiyo Mfumo wa Urejeshaji Habari (IRS). Mnamo 1950-1970, neno la Kiingereza la Urejeshaji Habari (IR) lilitafsiriwa kwa Kirusi kama "upataji wa habari", na ipasavyo, mifumo ya darasa hili iliitwa mifumo ya kupata habari. Mifumo hii ilitumia taratibu za mwongozo za kuorodhesha hati na kuunda thesauri na maelezo. Lakini, kilicho muhimu sana, mifumo hii ilikusudiwa kutoa habari (yaani habari na uchimbaji haswa) kutoka kwa hati tofauti. "Uteuzi" ni maana sahihi zaidi ya neno kurejesha. Sasa katika ensaiklopidia IR inafafanuliwa kuwa sanaa na sayansi ya kutafuta taarifa katika hati na kutafuta hati zenyewe na metadata zinazoelezea hati katika hifadhidata (ikiwa ni pamoja na za mtandao). Sehemu ndogo ya IR ni uteuzi wa habari katika maandishi (Urejeshaji wa Maandishi, TR) na uteuzi wa habari katika hati (Urejeshaji wa Hati, DR).
Tunataja hili ili kuonyesha tofauti kati ya kutafuta kama utaratibu wa kiotomatiki na kutoa maelezo yanayohitajika kutoka kwa hati zilizorejeshwa. Kiini cha tofauti ni kama ifuatavyo:
. Kurejesha habari ni shughuli ya mtu anayetumia injini ya utafutaji. Inaingiliana, inarudia na inaunganishwa na aina zingine za shughuli za kiakili za mwanadamu.
. Msomaji hatafuti hati kama hizo, lakini kwa habari iliyomo kwa madhumuni yao wenyewe (kujifunza, kufanya maamuzi, nk).
. Msomaji anahitaji ufikiaji wa vyanzo anuwai vya data ili kupata ufahamu wa kina wa kitu cha kutafuta.
. Haijalishi maunzi na programu inayotumiwa na mtu inaweza kuwa ya juu kiasi gani, hubaki kuwa zana, na akili ni sifa ya Msomaji.
Hatua kali zaidi ya "mapinduzi ya habari" ilianza miaka ya 1990. Ilihusishwa na usambazaji mkubwa wa kweli wa kompyuta za kibinafsi zenye nguvu na za bei nafuu ambazo zinaweza kushikamana na mtandao wa kompyuta ulioundwa ulimwenguni kote, Mtandao. Ni mtandao, ambao hutofautiana na machapisho yaliyochapishwa kwa kasi ya uwekaji na utoaji wa habari ya karibu aina yoyote, na kutoka kwa vyombo vya habari vya elektroniki vya classical katika uwezo wa kusambaza maandishi yaliyochapishwa, ambayo hufanya matarajio ya kuunda nafasi ya habari ya umoja wa ustaarabu wa binadamu. zaidi na zaidi ya kweli.
Hivi sasa, mtandao ndio chanzo kikuu cha hati za elektroniki. Idadi ya hati kwenye Mtandao inajikopesha tu kwa makadirio yasiyo ya moja kwa moja, na ni dhahiri yasiyokadiriwa. Kwa hivyo, kuanzia mwanzoni mwa Agosti 2005, idadi ya hati zilizoorodheshwa na mfumo wa utaftaji wa Yahoo ilizidi hati bilioni 20, ambapo bilioni 19.2 zilikuwa hati za maandishi, bilioni 1.6 zilikuwa picha na karibu milioni 50 zilikuwa faili za sauti na video. Walakini, kwa kweli, haiwezi kusemwa kuwa Yahoo inaashiria hati zote za Mtandao.
Walakini, hati nyingi kama hizi zinazoweza kufikiwa zilifanya iwe muhimu sana kuwapa watumiaji wa mtandao zana za kutosha za kutafuta habari, ambazo bila hiyo Mtandao unaweza kugeuka kuwa mfano halisi wa "Maktaba ya Babeli." Tunapozungumza kuhusu zana za kurejesha taarifa kwenye Mtandao, kwa kawaida tunamaanisha injini tafuti ambazo hutoa uwezo wa kutafuta taarifa kwenye Mtandao wote (angalau katika kurasa zote za www). Mifumo hiyo inajulikana kwa watumiaji wote wa mtandao: hizi ni Google, Yahoo, MSN, nk (kati ya maendeleo ya ndani, maarufu zaidi ni Yandex, Rambler na Mail.ru). Hata hivyo, ili kutafuta nyaraka zinazohusiana na eneo fulani la somo, watumiaji wa mtandao mara nyingi hugeuka kwenye orodha za mada za rasilimali za mtandao - seti zilizopangwa za viungo vya nyaraka kwenye mada husika.
Ili kuelezea kanuni za uendeshaji wa zana za kurejesha habari, ni muhimu, kwanza kabisa, kufafanua istilahi husika. Masharti ya kimsingi na ufafanuzi katika uwanja wa utaftaji na usambazaji wa habari kwa kutumia mifumo ya habari ya kiotomatiki, pamoja na lugha za kupata habari, inadhibitiwa na hati rasmi za Shirikisho la Urusi: viwango vya serikali GOST 7.73-96 "Tafuta na usambazaji wa habari" na GOST. 7.74-96 " Lugha za kurejesha habari".
Kwa hivyo, mfumo wa kurejesha habari (IRS) ni mchanganyiko wa kumbukumbu na mfuko wa habari na njia za kiufundi za kurejesha habari ndani yake. Kwa upande wake, mfuko wa kumbukumbu na habari (RIF) ni seti ya safu za habari (yaani, makusanyo yaliyoamriwa ya hati, ukweli au habari juu yao) na marejeleo yanayohusiana na vifaa vya kurejesha (yaani, data kuhusu anwani za uhifadhi wa hati zilizo na utaftaji maalum. picha za hati). Hatimaye, taswira ya utafutaji wa hati ni maandishi yenye vitengo vya lexical vya lugha ya kurejesha habari (yaani, lugha maalum ya bandia iliyo rasmi), inayoelezea maudhui kuu ya semantic ya waraka na iliyokusudiwa kwa utekelezaji wa kurejesha habari. Mchakato wa kuelezea yaliyomo katika hati katika lugha ya kupata habari inaitwa indexing.
Kumbuka kuwa yaliyomo katika hati katika muktadha huu kwa kawaida humaanisha sio tu muhtasari mfupi zaidi au mdogo wa kile hati inahusu, lakini pia "sifa zake za kibiblia": jina la hati, majina ya waandishi wake, chapa, n.k. Seti ya sifa za hati iliyotolewa wakati wa mchakato wa kuorodhesha, pamoja na maelezo rasmi ya muundo wa sifa hizi, kwa kawaida huitwa metadata. Rasmi zaidi, metadata ni data iliyopangwa ambayo inawakilisha sifa za huluki zinazofafanuliwa kwa madhumuni ya utambulisho, utafutaji, tathmini na usimamizi wao.
Muundo wa data unakusudiwa kuwezesha utaftaji wa hati, kwa sababu neno lile lile (kwa mfano, "Pushkin") linaweza kujumuishwa katika orodha ya waandishi wa hati, katika kichwa chake, katika muhtasari, au hata katika data ya pato ( mji wa Pushkin katika mkoa wa Leningrad kama mahali pa uchapishaji wa hati). Kesi hizi zinaweza kutofautishwa kwa usahihi kutokana na muundo wa metadata.
Si vigumu kuelewa kwamba hati inakuwa ya kutafutwa kwa kutumia mfumo mmoja au mwingine wa kurejesha taarifa ikiwa maelezo yake ya meta (yaani seti ya meta-data) yanaangukia kwenye marejeleo na mkusanyiko wa taarifa wa mfumo huu. Lakini ni jinsi gani hati za mtandao zinaingizwa kwenye CIF hutafutwa na kuorodheshwa? Mitambo ya kutafuta yenye madhumuni ya jumla hutumia roboti za utafutaji (jina lao la Kiingereza ni "crawler"), ambazo huchanganua hati za Mtandao kwa mfuatano, kutoka moja hadi nyingine kupitia viungo, na kutoa metadata zao. Bila shaka, roboti za utafutaji hukagua mara kwa mara hati ambazo tayari zimeingizwa kwenye mfumo wa taarifa wa CIF ili kubaini kama zipo kwa sasa na kama zimepitia mabadiliko yoyote muhimu. Wakati wa kuandaa orodha za mada za rasilimali za mtandao, roboti za utaftaji pia hutumiwa mara nyingi, ambazo, hata hivyo, hukusanya data kwenye hati tu kutoka kwa tovuti za mada husika. Majina ya mtandao ya tovuti kama hizo, kama sheria, yanaonyeshwa na wataalam katika eneo fulani la somo, wakati pia inawezekana kwa wataalam kuingiza moja kwa moja habari kuhusu hati za kibinafsi za mtandao. Hatimaye, baadhi ya mifumo maalum ya kurejesha taarifa imeundwa kwa mkono, na ukubwa wa safu zao za utafutaji zinaweza kuvutia sana. Kwa hivyo, hifadhidata ya jarida la Zentralblatt MATH, maarufu sana miongoni mwa wanahisabati, ina karibu maingizo milioni 3 - maelezo ya biblia (pamoja na maelezo ya kina kabisa) kuhusu machapisho ya hisabati yaliyochapishwa katika karne na nusu iliyopita. Habari hii huingizwa kwenye hifadhidata na wanahisabati kutoka nchi tofauti ambao hukagua machapisho katika utaalam wao, na kila ingizo linalingana na hati ya mtandao inayozalishwa kwa nguvu.
Lakini bado, makusanyo ya kumbukumbu na habari ya mifumo mingi ya kurejesha habari inayofanya kazi na hati za mtandao hujazwa tena sio kwa mikono, lakini kwa msaada wa programu fulani zinazoendesha utafutaji na indexing ya nyaraka. Na hapa, katika mchakato wa indexing ya hati, shida kuu ya kutumia programu hizo inaonekana: muundo wa moja kwa moja wa metadata hugeuka kuwa kazi ngumu sana. Ili kuthibitisha hili, inatosha kuangalia idadi ndogo ya nyaraka za mtandao, kwa mfano, juu ya mada ya kisayansi. Unaweza kuona kwa urahisi kwamba katika baadhi ya matukio majina ya waandishi yameandikwa kabla ya kichwa cha hati, na kwa baadhi, kinyume chake, baada ya kichwa. Je, programu inapaswa kuamua nini hasa inapaswa kuingizwa kwenye ndege na "waandishi" wa hati iliyotolewa, na ni nini kinachopaswa kujumuishwa katika uwanja wa kichwa? Kumbuka kwamba suluhu rahisi zaidi za tatizo hili (kama vile "kuongeza programu ya kuorodhesha kwa kutumia kamusi ya majina ya ukoo") zinageuka kuwa zisizofaa. Na jambo sio tu hitaji la kamusi kubwa (na haipo katika mazoezi) ya umoja ya majina ya mataifa tofauti na chaguzi za maandishi katika lugha zingine. Shida pia ni kwamba majina mengi (haswa katika lugha zilizo na mabadiliko dhaifu katika fomu za maneno kwa kutumia miisho) sanjari na maneno "ya kawaida" ya lugha. Kwa kuongeza, jina la ukoo linaweza kuwa jina la hati, kwa mfano kitabu au nakala ya wasifu.
Uwepo wa matatizo haya umesababisha ukweli kwamba mazoezi ya kawaida ya mifumo ya utafutaji ya ulimwengu wote ni kuwasilisha picha ya utafutaji wa hati kwa namna ya seti isiyo na muundo wa maneno muhimu - maneno ya taarifa yaliyopunguzwa kwa fomu ya kawaida ya leksikografia. Maneno ya habari, kulingana na GOST 7.74-96, ni maneno, misemo au sifa maalum katika maandishi ya hati (au ombi) ambayo inaelezea dhana muhimu kwa kuwasilisha yaliyomo kwenye hati. Vigezo mahususi vya kujumuisha neno au kifungu katika seti ya maneno yenye taarifa hutegemea aina ya IPS. Kwa hiyo, katika mifumo ya utafutaji ya ulimwengu wote, karibu maneno yote, ikiwa ni pamoja na maneno ya huduma, yanachukuliwa kuwa ya habari. Kinyume chake, katika mifumo maalum ya kurejesha habari, ambayo seti ya maneno ni moja ya vipengele vya muundo wa metadata ya hati, seti ya maneno ya habari kawaida hujengwa kwa misingi ya faharisi ya somo la eneo la somo linalolingana (iliyo na, pamoja na maneno moja, misemo ngumu sana), wakati Wakati huo huo, maneno yanayohusiana na msamiati "unaotumiwa kwa kawaida" hayajajumuishwa katika idadi ya taarifa.
Kwa kuwa faida za maelezo ya muundo wa hati juu ya isiyo na muundo ni dhahiri kabisa (kama ilivyojadiliwa hapo juu), mashirika yanayojaribu kufanya kama "trendsetter" kwenye mtandao, hasa muungano wa W3C, yamejaribu mara kwa mara kuwapa waundaji wa mtandao hati. , uwezo wa kuonyesha kwa uwazi maadili ya mambo makuu ya metadata ya hati, ambayo ingeongeza kwa kiasi kikubwa ufanisi wa roboti za utafutaji. Kwa hivyo, nyuma katikati ya miaka ya 1990, maelezo ya lugha ya alama ya hypertext kwa hati za HTML ilisema wazi kwamba kila hati lazima iwe na kipengele kimoja cha TITLE katika sehemu ya HEAD. Aidha, katika maelezo ya lugha ya HTML, kipengele cha META kilionekana, kilichoundwa kurekodi vipengele vilivyounganishwa NAME: CONTENT ("jina: thamani"), inayoelezea sifa za hati iliyotolewa: jina la mwisho la mwandishi, orodha ya maneno, nk. .
Kumbuka, hata hivyo, kwamba maelezo ya lugha ya HTML hayakutoa majina yoyote maalum ili kuteua vipengele vyenye taarifa kuhusu jina la mwisho la mwandishi, maneno muhimu, nk. Kwa kuzingatia hili, hata kama hati iliyoorodheshwa ina vipengele vya META, kazi ya kuamua kiotomatiki yake. muundo ulibaki kuwa mgumu kutatua. Mbinu maarufu zaidi ya kutatua tatizo hili ilipendekezwa mwaka wa 1995 katika warsha iliyofanywa na Kituo cha Kitaifa cha Maombi ya Supercomputing (NSCA) huko Dublin (Ohio, USA), seti ya msingi ya sehemu 15 za metadata iliyoundwa kuelezea rasilimali zilizochapishwa kwenye Mtandao. Seti hii inajumuisha sifa za jumla za hati kama vile kichwa, tarehe ya kuchapishwa, mwandishi, mchapishaji, mmiliki. Kwa hivyo, katika hati yoyote ilibidi kuwe na msingi wa metadata ambayo ilijulikana mapema jinsi inapaswa kufasiriwa. Mapendekezo haya yalichapishwa chini ya kichwa cha kazi cha metadata ya Dublin Core, ambayo baadaye ikawa msingi wa Initiative ya Dublin Core Metadata.
Mawazo haya yaliendelezwa zaidi katika mradi wa Mtandao wa Semantic, kiini chake ni kuunda mtandao wa nyaraka zilizo na metadata ya nyaraka za "chanzo" kwenye mtandao na zilizopo sambamba nazo. Mtandao huu "sambamba" umeundwa mahsusi kwa roboti za utafutaji (na mawakala wengine wenye akili) ili kujenga hitimisho la kimantiki lisilo na utata kuhusu sifa za hati za "chanzo". Kanuni za msingi za kuunda Mtandao wa Semantic (utekelezaji wa vitendo ambao, hata hivyo, bado uko mbali sana) unategemea matumizi yaliyoenea, kwanza, ya vitambulisho vya rasilimali za ulimwengu (URIs) kwa kupanua dhana hii kwa vitu ambavyo havipatikani. kupakua kutoka kwa Mtandao (watu, vyombo vya kijiografia, nk), na pili - ontologia (yaani mifano rasmi ya kuelezea maeneo fulani ya somo) na lugha za maelezo ya metadata.
Kwa bahati mbaya, hakuna hata moja ya njia hizi ambazo zimeenea sana. Unaweza kuthibitisha hili kwa urahisi kwa kutazama seti nasibu ya hati za Mtandao. Kwa hakika, wengi wao watakosa vipengele vya META vilivyo na majina ya waandishi, orodha ya maneno, nk. Sababu za hali hii zinajadiliwa sana katika jumuiya ya mtandao, lakini, bila shaka, "sababu ya kibinadamu" ni mojawapo ya sababu kuu.
Kwanza, kwa sababu ya matumizi makubwa ya teknolojia za mtandao, mafunzo ya kinadharia ya waundaji wengi wa rasilimali za mtandao huacha kuhitajika, na mara nyingi hawajui kuhusu madhumuni ya kipengele cha META katika HTML. Pili, dalili wazi za maadili ya metadata ni mchakato unaohitaji nguvu kazi nyingi, kwa hivyo hata wale waundaji wa rasilimali ambao wanajua juu ya teknolojia ya metadata huwa hawaoni kuwa ni muhimu kutumia wakati na bidii kufanya kazi nao, haswa kwani watengenezaji wa mifumo ya utaftaji wa ulimwengu wote. , kwa kuzingatia hali iliyoelezwa , usitegemee sana juu ya uwezo wa kupata moja kwa moja picha ya utafutaji iliyopangwa ya hati iliyoonyeshwa, kwa sababu asilimia ya nyaraka zilizoelezwa kwa undani na waumbaji ni ndogo sana. Matokeo yake, aina ya mduara mbaya inajitokeza, ambayo haiwezekani kuvunjika katika siku za usoni.
Waundaji wa katalogi za mada za rasilimali za mtandao wako katika nafasi nzuri zaidi, kwani idadi ya mashirika yanayofanya kazi katika eneo moja au lingine la shughuli za wanadamu, na vile vile tovuti zinazochapisha habari muhimu na / au mpya juu ya mada husika, kawaida huwa. sio sana. Ni muhimu kutambua kwamba teknolojia halisi za kuunda idadi kubwa ya tovuti ni kwamba hati za homogeneous kutoka kwa tovuti moja zina karibu alama sawa za HTML. Haijalishi ikiwa hati zinatolewa kwa nguvu (katika kesi hii, usawa wa alama ni matokeo ya asili ya kazi ya programu inayolingana) au ikiwa imeundwa kwa mikono kwa kuunda nakala ya hati iliyopo na kisha kuchukua nafasi. maandishi (ambayo pia huhifadhi alama). Hali hii hukuruhusu kuorodhesha mchakato wa kuorodhesha metadata ya hati ya Mtandao kwa kubainisha kiolezo cha hati ya tovuti fulani, i.e., kubainisha wazi amri (vitambulisho) za lugha ya HTML ambazo huweka sifa kuu za hati: waandishi, kichwa. , maneno muhimu, muhtasari, misimbo au kiaainisha kingine, n.k.

3 Kuchora maagizo ya utafutaji

Kutoka kwa aya iliyotangulia tulipata wazo fulani la jinsi marejeleo ya IPS na mfuko wa habari umeundwa. Ili kufanya ombi, lazima kwanza tuunde picha ya utafutaji ya ombi, yaani, uwakilishi wake rasmi kulingana na lugha ya kurejesha taarifa. Baada ya hayo, maagizo ya utafutaji yanatolewa, ikiwa ni pamoja na picha ya utafutaji ya swala na maagizo juu ya shughuli za mantiki zinazopaswa kufanywa katika mchakato wa kurejesha habari. Mfumo wa kurejesha taarifa unalinganisha mpangilio wa utafutaji na picha za utafutaji za nyaraka zilizohifadhiwa katika kumbukumbu yake na injini ya utafutaji (wakati katika injini nyingi za utafutaji, maneno muhimu hutolewa kwa default katika fomu ya kawaida ya leksikografia) na hutoa habari: anwani za kuhifadhi na, kama sheria. , maelezo mafupi - kuhusu nyaraka ambazo picha za utafutaji zinalingana (yaani, kwa kweli, hazipingana) na maagizo ya utafutaji.
Kwa mfano, ombi la utafutaji la mfumo wa kurejesha taarifa wa duka la mtandaoni linalouza suti za wanaume linaweza kuonekana hivi:
(urefu = 176) na (ukubwa = 104) na ((rangi = "nyeusi") au (rangi = "bluu iliyokolea")
na (nchi ya asili = si "China") na (bei< 7000 руб.)
Wakati huo huo, kwa kuwa maadili ya vipengele vya metadata kama nyenzo na aina ya suti (jozi au vipande vitatu) haijainishwa, inachukuliwa kuwa mtumiaji ameridhika na maadili yoyote ya vipengele hivi vya metadata.
Muundo rahisi zaidi wa kutumia metadata ya hati iliyopangwa ni kama ifuatavyo. Ruhusu IRS irejelee na injini ya utafutaji ihifadhi maelezo kuhusu hati di. Katika kesi hii, hati yoyote di inawakilishwa kama di =< mjjk >, ambapo mj"fc - ni ya seti ya maadili ya vipengele vya metadata Mj, k - idadi ya maadili (kwa kuzingatia marudio) ya kipengele cha metadata sambamba katika maelezo ya hati. Wacha tuzingatie sehemu ndogo ya metadata. Mc, ambayo inafafanua seti ya sifa za uainishaji wa nyaraka zinazotumiwa kukusanya dawa ya utafutaji (kwa kuzingatia shughuli za mantiki iliyotolewa) Kwa kipengele cha metadata kilichowekwa Mj, ambapo Mj C Mc, seti ya nyaraka imegawanywa katika madarasa ya usawa yanayolingana na tofauti. maadili ya kipengele hiki cha metadata.
Tutazingatia hati mbili zinazostahimili ikiwa zina thamani sawa ya angalau moja ya vipengele vya metadata vilivyojumuishwa katika Mc (kumbuka kuwa uvumilivu ni uhusiano ambao una sifa ya kubadilika na ulinganifu, lakini, kwa ujumla, huenda usiwe na tofauti. kutoka kwa uhusiano wa usawa, mali ya upitishaji). Kila thamani kama hiyo hutoa darasa la uvumilivu.
Wacha tuzingatie mchanganyiko wote unaowezekana wa maadili ya vitu vya metadata vilivyojumuishwa kwenye Mc. Seti za hati ambazo zina seti sawa ya maadili ni kernels za uvumilivu, ambazo hutumika kama madarasa ya usawa kwenye seti ya hati.
Kwa hivyo, agizo la utaftaji lililo na seti ndogo za metadata zinazofafanua seti ya sifa za uainishaji na mchanganyiko wa maadili ya metadata hizi kwa kutumia shughuli za kimantiki hufafanua msingi maalum wa uvumilivu kwenye seti ya hati, ambayo hupewa mtumiaji kama jibu lake. ombi la habari.
Kwa bahati mbaya, katika mfumo wa urejeshaji wa taarifa za madhumuni ya jumla, picha za utafutaji za nyaraka, kama ilivyoelezwa katika aya iliyotangulia, zimeundwa vibaya sana. Kawaida, mtumiaji wa mifumo kama hiyo ana nafasi ya kujumuisha katika picha ya utaftaji ya ombi (kwa usahihi zaidi, katika sehemu inayoelezea yaliyomo kwenye hati inayohitajika) maneno au misemo tu, inayoonyesha mahali ambapo inapaswa kuwa: jina la ukurasa wa wavuti au katika maandishi yake. Sehemu zilizobaki katika fomu ya ombi la utaftaji zinahusiana na lugha ya hati, eneo la eneo la seva ya mwenyeji wa hati, muundo wa faili, muundo wa URL yake, nk, i.e., hazihusiani moja kwa moja na yaliyomo. hati.
Hata hivyo, kuunda agizo changamano zaidi au kidogo la utafutaji kunaweza kusababisha matatizo kwa watumiaji wengi wa kawaida, hata kama wamepewa kiolesura kinachofaa ambacho hakihitaji matumizi ya moja kwa moja ya lugha ya hoja. Ugumu hutokea katika kiwango cha kuelewa mifumo ya data na kutumia waendeshaji mantiki. Hasa, uzoefu wa kufundisha wa mmoja wa waandishi unaonyesha kuwa hata wanafunzi waandamizi waliobobea katika sayansi ya kompyuta, wakati wa kufanya kazi kama "fanya swali ambalo hutoa data ya Oktoba 3 na 5," mara nyingi huunganisha tarehe na mwendeshaji wa kimantiki "NA. ”
Kama sheria, mifumo maalum ya urejeshaji habari imeunda uwezo wa kuunda maagizo ya utaftaji, kumbukumbu na mkusanyiko wa habari ambayo ina picha za utaftaji zilizoundwa vizuri za hati, na uwezo wa kiolesura cha utaftaji hutegemea moja kwa moja uwezo uliopimwa wa watumiaji wa kawaida. kuunda maswali magumu ya kimantiki. Kwa hivyo, katika hifadhidata iliyotajwa tayari ya jarida la "Zentralblatt MATH", iliyokusudiwa kwa wataalamu wa hesabu, kazi ya "Utafutaji wa hali ya juu" hukuruhusu kuchanganya hadi maadili 5 ya vitu vya medata katika agizo la utaftaji kwa kutumia viunganishi vya kimantiki (zaidi ya hayo, haya. vipengele vyenyewe, na marudio yao iwezekanavyo huchaguliwa na mtumiaji kwa kujitegemea kutoka kwa orodha ya jumla), kwa kuongeza kuonyesha aina ya hati inayotafutwa na muda wa kuchapishwa kwake.
Na bado, ni lazima ieleweke kwamba uwezo wa kuandika rasmi swala la utafutaji, ingawa ni ngumu sana, ni kusema madhubuti, sio ngumu sana, inayohitaji tu kiasi fulani cha uzoefu na ujuzi mdogo wa kiufundi. Kazi isiyo ya maana zaidi ni kuelezea hitaji lako la habari kwa usahihi, ambayo ni, kuweka "sifa za eneo la somo, maadili ambayo lazima yaanzishwe ili kukamilisha kazi hiyo kwa vitendo" (GOST 7.73-96). .
Hali rahisi hutokea wakati mtumiaji anataka kupata hati maalum, anwani ya kuhifadhi ambayo, hata hivyo, haijulikani. Katika kesi hii, kutaja jina la mwandishi wa hati na kichwa chake kama maneno muhimu katika agizo la utaftaji, kama sheria, hukuruhusu kufikia matokeo unayotaka haraka sana, hata ikiwa mfumo wa urejeshaji habari hautoi uwezo wa kuunda. kutokea kwa maneno muhimu yaliyoorodheshwa kuhusiana na sehemu zinazolingana za metadata. Katika kesi ya mwisho, matatizo makubwa zaidi yanaweza kutokea ikiwa hati inayohusika ni ya kikundi cha "vitabu vya kiada" (kama vile "Hamlet" cha W. Shakespeare, "Faust" cha J.-W. Goethe au "Eugene Onegin" na A. S. Pushkin) na kuna hati nyingi zinazotaja tu. Mojawapo ya njia bora za kutatua shida kama hiyo ni kuongeza agizo la utaftaji na nukuu ndefu kutoka kwa maandishi (ikiwezekana, sio ile inayotumika sana).
Walakini, katika mazoezi, mtumiaji kawaida anahitaji kupata sio hati maalum, inayojulikana hapo awali, lakini habari fulani (ukweli), maarifa ambayo ni muhimu kutatua kazi (au kukidhi udadisi). Hali inayotokea katika kesi hii ni ukumbusho wa njama ya hadithi maarufu ya Kirusi "Nenda huko - sijui wapi, kuleta - sijui nini" (hata hivyo, hadithi kama hizo zinajulikana katika ngano. ya watu wengi wa ulimwengu - kutoka Ireland hadi Uchina), na msisitizo ni juu ya misemo ya sehemu ya kwanza, kwani mtumiaji bado ana wazo fulani la kile anachohitaji. Fedot Mshale wa ajabu aliongozwa kwa bao na mpira wa kichawi. Lakini unapaswa kutungaje hoja ya utafutaji ili kufikia lengo lako haraka?
"Shambulio la mbele" katika mfumo wa ombi la moja kwa moja kama "Jina la kwanza la mke wa M.E. Saltykov-Shchedrin ni nini?" kwa kawaida haitaongoza kwa matokeo yaliyohitajika, kwa kuwa kiwango cha sasa cha maendeleo ya injini za utafutaji za madhumuni ya jumla haihusishi mazungumzo na mtumiaji katika lugha ya asili. Acheni tukumbuke kwamba swali lililo hapo juu si dogo kabisa, kwa kuwa majibu ya maswali “madogo kabisa” kama vile “M.E. Saltykov-Shchedrin alizaliwa wapi?” injini za utaftaji bado huipata, kwani idadi kubwa ya wasifu wa mwandishi huanza kitu kama hiki: "M.E. Saltykov-Shchedrin alizaliwa mnamo Januari 1826 katika kijiji cha Spas-Ugol, mkoa wa Tver" (neno "wapi" kama injini ya utafutaji ya huduma katika tahadhari kawaida haichukuliwi). Kwa kuongezea, waundaji-wenza wa baadhi ya kurasa za wavuti zilizo na habari ambayo mara nyingi hutafutwa kwenye Mtandao (kawaida sio ya kisayansi, lakini ya asili ya "kila siku"), wakati mwingine hujumuisha aina iliyokusudiwa ya ombi la mtumiaji (kwa usahihi zaidi, swali. ) katika taswira ya utafutaji ya hati.
Njia ya kuaminika zaidi ya kutunga maagizo ya utafutaji ni kujumuisha katika picha ya utafutaji ya maneno muhimu ya ombi (au misemo), ambayo, kwa maoni ya mtumiaji, lazima hakika iingizwe katika maandishi ya hati iliyo na taarifa muhimu. Walakini, shida ifuatayo inatokea hapa: ikiwa utajumuisha idadi ndogo ya maneno "uwezekano mkubwa" katika swali la utaftaji, basi matokeo yatakuwa mamia (au hata maelfu) ya hati, sio zote ambazo zitakuwa na jibu haswa kwa swali la utaftaji. swali lililotolewa. Ikiwa tutajumuisha manenomsingi mengi "yaliyopendekezwa" (au hata kifungu kizima) katika hoja, basi tunaweza kuhatarisha kupata seti tupu ya hati kama matokeo, kwa kuwa waandishi wa hati kwenye somo linalohitajika wanaweza kuelezea mada ya kupendeza kwa mtumiaji. katika vishazi ambavyo ni tofauti kidogo na vile vilivyoainishwa kwenye hoja.
Kwa hivyo, katika mchakato wa kutafuta hati zilizo na ukweli fulani wa kupendeza kwetu, kazi ni kuunda maagizo ya utaftaji kwa njia ya kupata, kama matokeo ya utekelezaji wake, seti isiyo tupu ya hati ambayo asilimia ya hati "muhimu" ni kubwa iwezekanavyo. Hii huongeza kwa kiasi kikubwa uwezekano wa kupunguza idadi ya hati zinazotazamwa "bure," yaani, kabla ya kupata hati "inayohitajika". Matatizo yanayohusiana na kupata makadirio ya kiasi cha ufanisi wa utafutaji yatajadiliwa hapa chini.

4 Kuhusu kutafuta "kwa mlinganisho"

Katika aya iliyotangulia, tulizingatia hali wakati picha ya utafutaji ya swali imebainishwa na mtumiaji kama aina ya "uwakilishi bora" wa picha ya utafutaji ya hati inayotafutwa. Walakini, kama ilivyoonyeshwa tayari mwanzoni mwa kifungu hicho, mahitaji ya habari ya wanasayansi, wanapokuwa katika mchakato wa utafiti katika hatua za kusoma matokeo ambayo tayari yanapatikana katika eneo hili na utaftaji wa kisayansi, ni sifa ya uwazi mdogo wa ufahamu na kujieleza. . Tena, hali ni "Nenda huko - sijui wapi, lete hiyo - sijui nini," lakini sasa msisitizo uko kwenye sehemu ya pili ya kifungu, kwani inajulikana kuwa maelezo ya hati zinazohusiana na. mada fulani ya kisayansi huingizwa kwenye hifadhidata za mukhtasari. Kwa upande mwingine, kwa miaka mingi ya kazi yake, kila mtafiti ameunda index ya kadi ya maelezo ya bibliografia ya makala, vitabu, nk, ya riba kwake. Kigezo kuu cha uteuzi wao ni maslahi ya kibinafsi ya mwanasayansi. Hivi sasa, faili kama hizo zimehifadhiwa, kama sheria, kwenye vyombo vya habari vya elektroniki.
Kwa hivyo, kazi inatokea kupata ndani ya seti fulani ya hati za darasa la hati zinazofanana katika yaliyomo (tafuta "kwa mlinganisho"). Kama ombi la habari, seti isiyo na tupu ya hati inadhaniwa kuwa maalum, na kama matokeo ya ombi, hati hutolewa, ambayo kila moja iko kwa maana fulani karibu na moja ya hati zilizojumuishwa kwenye seti iliyotolewa. Mchakato wa kugawanya seti ya hati katika hifadhidata ya elektroniki katika madarasa, ambayo vitu vilivyojumuishwa katika darasa moja vinafanana zaidi kuliko vitu vya madarasa tofauti, inaitwa nguzo.
Tabia ya upimaji wa kipimo cha kufanana imedhamiriwa kwenye seti ya hati D kama ifuatavyo.
m: D x D - ,
Zaidi ya hayo, kazi ya m katika kesi ya kufanana kamili inachukua thamani 1, katika kesi ya tofauti kamili - 0. Kipimo cha kufanana kinahesabiwa kwa kutumia fomula ya fomu.

M(di, d2) = aimi (di, d2), (1)
ambapo mimi ni nambari ya kipengee cha metadata ya hati (sifa), ai ni mgawo wa uzani, na ai = 1, mi(d1,d2) ni kipimo cha kufanana kwa kipengele cha i-th (kwa maneno mengine, kwenye i. kiwango cha -th). Kwa kuwa katika hali iliyoelezewa karibu mizani yote ni ya kawaida (inayojumuisha maadili ya maandishi tofauti), kipimo cha kufanana kwenye kiwango cha i-th imedhamiriwa kama ifuatavyo: ikiwa maadili ya sifa za hati ya i-th yanaambatana, basi kipimo cha kufanana. ni sawa na 1, vinginevyo 0 Inapaswa kuzingatiwa kuwa maadili ya sifa yanaweza kuwa ya mchanganyiko. Katika hali hii, mi = ni1 /ni0, ambapo nio = maxnio(d1),nio(d2), na nio(dj) ni jumla ya idadi ya vipengele vinavyounda thamani ya i-th hati sifa dj, ni1 ni idadi ya vipengele vinavyolingana. Kumbuka kwamba inashauriwa kutumia vipengele vya metadata vifuatavyo kama mizani: waandishi, maneno muhimu, maandishi ya kufikirika. Kwa kuongezea, wakati wa kutaja kipimo, unaweza kuzingatia ukweli kwamba maadili ya mgawo wa uzani katika formula (1) imedhamiriwa na kuegemea kwa data ya nyuma kwa kiwango kinacholingana na katika hali fulani moja ya coefficients inaweza kuongezeka kwa kupungua sawia kwa wengine. Kwa mfano, bahati mbaya kamili (au hata "karibu kamili") ya maadili ya sifa ya "waandishi" ya hati d1 na hati d2 ni muhimu zaidi katika kesi wakati idadi ya maadili ya sifa hii katika hati d1. ni kubwa kabisa (ikilinganishwa na kesi wakati hati d1 ina mwandishi mmoja tu).
Tatizo kuu la kuunganisha hati ni kuainisha nyaraka katika vikundi kwa namna ambayo vipengele vya kila kikundi vinafanana sana kwamba katika baadhi ya matukio sifa zao za kibinafsi zinaweza kupuuzwa. Wakati wa kuunganisha nyaraka, ni muhimu kufikia maelewano ya kuridhisha kuhusu ukubwa wa makundi, kuepuka kuundwa kwa idadi kubwa ya makundi madogo sana (ambayo hupunguza ufanisi wa kuunganisha katika kutambua seti za nyaraka zinazofanana) na idadi ndogo. ya madarasa makubwa sana (ambayo yanaweza kusababisha kupungua kwa usahihi wa utafutaji). Utafiti wa algoriti mbalimbali za kuunganisha hati ili kutambua algoriti bora zaidi ya kugawanya safu ya rekodi za hifadhidata za kielektroniki zilizo na taarifa kuhusu machapisho ya kisayansi katika makundi yenye makala kuhusu mada zinazofanana ulifanyika katika kazi hiyo.

5 Tathmini ya ufanisi wa utafutaji
Dhana kuu mbili ambazo ufanisi wa utafutaji unatathminiwa zimefafanuliwa katika GOST 7.73-96, na ufafanuzi huu umebakia bila kubadilika tangu miaka ya 1960 (tazama uk. 282-283): nyaraka zinazohusika ni zile ambazo maudhui yake yanalingana na ombi la habari , na muhimu. - yaliyomo ambayo yanalingana na hitaji la habari. Bila shaka, ingawa dhana hizi mbili ziko karibu, hazifanani hata kidogo. Chanzo cha hati zisizo na maana zinazoonekana katika matokeo ya utafutaji ni makosa katika maelezo na msimbo wa programu ya injini za utafutaji, pamoja na sababu nyingine za shirika na kiufundi. Kwa kuongezea, katika hali ambapo utaftaji unafanywa kwa kutaja swala maalum la utaftaji, inawezekana kuhukumu kwa usawa umuhimu wa hati fulani iliyojumuishwa katika matokeo ya utaftaji, kwa kuwa sababu ya kutoa hati zisizo na maana (jumla ya ambayo inaitwa utaftaji. kelele) ni makosa katika kuorodhesha hati (mwongozo au otomatiki), iliyoonyeshwa, kwa mfano, katika utangulizi wa maneno "ya ziada" kwenye picha ya utaftaji wa hati. Hali hii inaweza kutokea sio tu kama matokeo ya makosa dhahiri, lakini pia ya "migongano ya lugha". Kwa mfano, maneno "divai" na "divai" yana aina za maneno katika hali zingine, kama matokeo ambayo picha ya utaftaji wa hati iliyo na usemi "katika divai" itajumuishwa wakati wa kuorodhesha kiotomatiki (ambayo, kama sheria. , haiambatani na uchanganuzi wa kisemantiki wa maandishi) maneno yote mawili yenye majina. Kwa hiyo, wakati neno "divai" linajumuishwa katika swali la utafutaji, nyaraka zilizo na neno na fomu ya awali "divai" zitarejeshwa, ambazo, kwa ujumla, hazina maana. Tafadhali kumbuka kuwa wakati wa kuunda mfano, hatukuweza kujizuia kwa homonyms rahisi, kwani, kwa mfano, wakati wa kuomba "upinde", hati kuhusu silaha na mimea zitakuwa muhimu.
Katika hali hizo wakati utaftaji unafanywa "kwa mlinganisho," tathmini ya umuhimu wa hati ni ya asili zaidi, kwani utaftaji kama huo unaruhusu usuluhishi katika njia ya kutaja kipimo cha kufanana, katika kuanzisha thamani yake ya kizingiti. hutenganisha hati "sawa" na "tofauti" na nk. Lakini hata ikiwa tunazingatia vigezo hivi vyote kuwa sehemu muhimu ya maagizo ya utafutaji, yaani, tunatangaza asili yao ya "lengo" (kwa maagizo maalum), basi kutakuwa na bado unasalia kuwa utegemezi usioweza kuondolewa wa matokeo ya utafutaji "kwa mlinganisho" kwenye seti nzima ya nyaraka zilizojumuishwa katika safu ya habari. Kwa ufupi, hitimisho juu ya kufanana kwa kitu "paka" na kitu "ng'ombe" hutofautiana katika kesi wakati "safu ya habari" ni seti ya simba, ng'ombe, na katika kesi wakati "safu ya habari" ni ng'ombe, cobra (au hata simba, ng'ombe, cobra).
Kuhusu uvumilivu, wazo hili ni la kibinafsi, kwani mahitaji (sio lazima ya habari) ya watu tofauti, hata yakionyeshwa kwa maneno yale yale ya swala, yanaweza kuwa tofauti sana. Kwa hiyo, kutoka kwa mtazamo wa Kirusi wastani, haja ya supu inatidhika kupitia supu ya kabichi au borscht, na kutoka kwa mtazamo wa Mfaransa wa kawaida - kupitia supu ya puree.
Tayari kutoka kwa mfano huu ni wazi kwamba umuhimu wa matokeo ya utafutaji unaweza kuongezeka kwa kurekebisha maelekezo ya utafutaji, yaliyoundwa kwa mujibu wa uelewa unaofikiriwa wa hitaji linalolingana na mfumo wa habari (au, ikiwa unapenda, na watengenezaji wa mfumo). . Kielelezo cha kushangaza cha nadharia hii ni mzaha unaojulikana sana ambao, kwa kujibu swali la wapiga puto wanaoruka juu ya eneo lisilojulikana: "Tuko wapi?" mwanahisabati mpita njia alitoa jibu linalofaa kabisa, lakini lisilofaa: “Katika kikapu cha puto.” Kwa kweli, kitu cha utani hapa ni uhalisi wa mwanahisabati, lakini hii ndio tabia ambayo ni tabia ya algorithms ya kompyuta. Kwa hivyo, swali lililoundwa kwa usahihi kama vile: "Viwianishi vyetu vya kijiografia ni vipi?" au (ikiwa tutazingatia msomaji halisi na mpita njia wa kawaida): "Tunasafiri kwa ndege karibu na eneo gani lenye watu wengi?" inaweza kusababisha jibu linalofaa.
Kwa kumalizia, tunaorodhesha sifa kuu za upataji wa habari:
. mgawo wa ukamilifu: uwiano wa idadi ya hati zinazopatikana kwa jumla ya hati zinazopatikana katika safu ya habari;

Kumbuka = ​​\DretП Dretr\/\Dre(\,
ambapo Drei ni seti ya hati muhimu katika safu ya habari, na Dretr ni seti ya hati zilizopatikana,
. mgawo wa usahihi: uwiano wa idadi ya hati muhimu zilizopatikana kwa jumla ya hati katika matokeo ya utafutaji,

Precision = \DrelП Dretr \/\Dretr \,

Sababu ya kelele: uwiano wa idadi ya hati zisizo na maana katika matokeo ya utafutaji kwa jumla ya hati katika matokeo ya utafutaji,

Kelele = \Dnrel П Dretr \/\Dretr \,

Ambapo Dnrei ni seti ya hati zisizo na maana katika safu ya habari.
Kumbuka kuwa hakuna usahihi au ukamilifu, ukichukuliwa tofauti, hauhakikishi ubora wa juu wa utafutaji. Kwa hivyo, kutoa hati zote zinazopatikana katika safu ya habari itatoa thamani ya mgawo wa ukamilifu sawa na 1, lakini usahihi utakuwa chini. Kinyume chake, ikiwa hati moja tu inarejeshwa, na moja muhimu kwa hiyo, basi mgawo wa usahihi ni sawa na 1, lakini ikiwa kuna idadi kubwa ya nyaraka muhimu ambazo hazijapatikana, mgawo wa ukamilifu utakuwa mdogo sana. Ili kudumisha usawa kati ya ukamilifu na usahihi, kwa mazoezi hutumia kinachojulikana kama kipimo cha F (kipimo cha Van Risbergen), ambayo ni maana ya usawa ya ukamilifu na usahihi:

F = 2 x Kumbuka x Usahihi/(Kumbuka + Usahihi).

Hitimisho
Kwa hivyo, tulifanya safari fupi katika historia ya urejeshaji wa habari kiotomatiki, tukafahamu kanuni za msingi za uendeshaji wa mifumo ya kisasa ya kupata habari na njia za kuunda maagizo ya utaftaji, na, mwishowe, tulielezea njia kuu za kutathmini ufanisi wa utaftaji. Ni rahisi kutambua kwamba maendeleo ya kisasa ya algorithms ya kurejesha habari ina sifa ya matatizo na hata "intellectualization" ya algorithms ya utafutaji. Uchimbaji wa maandishi, ambao wakati mwingine huitwa uchanganuzi wa maandishi au uchimbaji wa maudhui, unaweza kuwa neno kuu katika siku zijazo. Hii ina maana kwamba katika siku zijazo tutashuhudia muunganiko wa sayansi ya habari na sayansi ya kompyuta.

Bibliografia
Arsky Yu.M., Gilyarevsky R.S., Turov I.S., Cherny A.I. Infosphere: Miundo ya habari, mifumo na michakato katika sayansi na jamii // M.: VINITI, 1996.
Barakhnin V.B., Nekhaeva V.A., Fedotov A.M. Juu ya kubainisha kipimo cha kufanana kwa kuunganisha hati za maandishi // Bulletin ya NSU. Seva Teknolojia ya Habari.
- 2008. - T. 6, Toleo. 1. - ukurasa wa 3-9.
Barakhnin V.B., Fedotov A.M. Rasilimali za mtandao kama kitu cha utafiti wa kisayansi // Habari za vyuo vikuu. Matatizo ya uchapishaji na uchapishaji. - 2008. - Hapana.
1. - ukurasa wa 70-77.
Lyapunov A.A. Juu ya uhusiano kati ya dhana ya jambo, nishati na habari // Katika kitabu: Lyapunov A.A. Matatizo ya cybernetics ya kinadharia na kutumika. - Novosibirsk:
Sayansi, 1980. - ukurasa wa 320-323.
Mikhailov A.I., Cherny A.I., Gilyarevsky R.S. Misingi ya sayansi ya kompyuta. M: Sayansi,
1968.
Hadithi za watu wa Kirusi zilizohaririwa na A.N. Afanasyev katika juzuu tatu. Juzuu ya II. M: Nauka, 1985.
Maktaba ya Otle P., biblia, hati: Kazi zilizochaguliwa za waanzilishi wa sayansi ya kompyuta / Transl. kutoka kwa Kiingereza na fr. M.: FAIR PRESS, Pashkov House, 2004.
Fedotov A.M. Vitendawili vya teknolojia ya habari // Bulletin ya NSU. Seva Teknolojia ya Habari. -- 2008. -- T. 6, toleo. 2. -- Uk. 3-14.
Chernyak L. Mashine ya takwimu ya Emanuel Goldberg // Open Systems, 2004, No. 03 (http://www.osp.ru/os/2004/03/184081/).
Shrader Yu.A. Usawa, kufanana, utaratibu. M.: Nauka, 1971.
Shokin Yu.I., Fedotov A.M., Guskov A.E., Zhizhimov O.L., Stolyarov S.V. Maktaba za elektroniki - njia ya kuunganisha rasilimali za habari za Tawi la Siberia la Chuo cha Sayansi cha Urusi // Bulletin ya KazNU, toleo maalum. - Almaty, R. Kazakhstan, Chuo Kikuu cha Taifa cha Kazakh. al-Farabi. - 2005, No 2. - P. 115-127.
Bush V. Tunavyoweza Kufikiri // The Atlantic Monthly, July, 1945 (http://www.theatlantic.com/doc/194507/bush).
Mpango wa Dublin Core Metadata (http://dublincore.org/).
Mayer T. Blogu Yetu Inakua - Na Hivyo Ina Fahirisi Zetu (http://www.ysearchblog.com/archives/000172.html).
Otlet P. Tabia ya nyaraka. Bruxelles: Mh. Mundaneum, 1934.
Bei D.J. kutoka kwa Solla. Sayansi Ndogo, Sayansi Kubwa. N.Y., L.: Chuo Kikuu cha Columbia. Vyombo vya habari, 1963. / Rus. njia Price D. Sayansi ndogo, Sayansi kubwa // Sayansi kuhusu sayansi. M.: Maendeleo, 1966. P. 281-385.
Salton G. Taarifa Inayobadilika na Uchakataji wa Maktaba. N.J.: Ukumbi wa Prentice, 1975. / Rus. njia Salton J. Dynamic maktaba na mifumo ya habari. M.: Bwana,
1979.
Kikosi Kazi kwenye Metadata. Ripoti ya Muhtasari. // Jumuiya ya Maktaba ya Amerika. 1999. T. Juni.

Jorge Francisco Isidoro Luis Borges Acevedo - Jorge Francisco Isidoro Luis Borges Acevedo.
Rasilimali za habari na habari zimekuwepo kila wakati, lakini rasilimali hizi, kwa sababu ya umaalumu wao, hazikuzingatiwa hapo awali kama kitengo tofauti cha kiuchumi, licha ya ukweli kwamba habari imekuwa ikitumiwa na watu kila wakati kusimamia na kutatua shida kubwa.
Hapa hatutazungumza juu ya maktaba kubwa zaidi za zamani, kwani shida za utaftaji hazikuwa ngumu sana ndani yao.
Bei ya Derek De Solla - Derek J. de Solla Bei.
Paul Otlet - Paul Otlet.
Neno "sayansi ya kompyuta" hapo awali lilikuwa la sayansi ya kawaida ambayo ilikuwa ikisimamia habari, haswa kisayansi na kiufundi. Neno "informatics" (informatique ya Kifaransa) lilizaliwa mwaka wa 1960, kwa kawaida linatokana na maneno ya Kifaransa habari (habari) na automatique (otomatiki) na maana yake halisi ni "otomatiki ya habari".
Borges alikuwa mtaalamu wa maktaba (mwandishi wa biblia) na hata wakati mmoja aliwahi kuwa mkurugenzi wa Maktaba ya Kitaifa ya Ajentina.
Emmanuel Goldberg - Emanuel Goldberg - mhandisi wa Ujerumani, asili ya Urusi.
Vanniver Bush - (Vannevar Bush.
Calvin Mooers - Calvin Northrup Mooers.
pGerard Salton - Gerard Salton.

Shirika la Shirikisho la Elimu

Chuo Kikuu cha Jimbo la Smolensk

Teknolojia za kutafuta habari kwenye mtandao.

Smolensk


Utangulizi ……………………………………………………………………………………….. 1. Uainishaji wa injini za utafutaji ………………………… …………… …………………………………………………………………………………………………………………………………………………………………………………………………………………………… ………………………………………………………………………….. 2.2. Utafutaji wa kina………………………………………………… …………. 3.Orodha ya Mada ya Yahoo……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………… taarifa katika makongamano (Usenet)………………………………….. 6.Huduma za utafutaji wa nyumbani…………………………………………………….. 6.1. Rambler………………………………………………………………………. 6.2.Yandex…………………………………………………………………………. 7.Tafuta faili………………………………………………………………….. 8.Vyanzo vya habari maalum……………………………………… ………………………9. Inatafuta watu binafsi kwenye Mtandao…………………………………………………………………………………… …………………………………………………………………………….. 11.Utafutaji wa taarifa unaofaa……………………………………………… ………………………

Hitimisho ……………………………………………………………………….

Fasihi………………………………………………………………………..
3 3 6 6 8 10 12 13 14 15 15 16 17 18 19 19 21 22

Utangulizi

Yeyote ambaye amewahi kujaribu kupata habari anazohitaji kwenye Mtandao labda atakubali kwamba mchakato huo ni kama kupata sindano kwenye mrundikano wa nyasi. Mtandao wa kimataifa una kiasi kikubwa cha habari, ambacho kinaongezeka kwa kasi kila siku. Kwa sababu ya hili, mara nyingi zinageuka kuwa kazi ya kupata taarifa muhimu katika bahari ya habari hii ni ngumu sana na unahitaji kuwa na uwezo wa kutumia kwa ufanisi injini mbalimbali za utafutaji (mipango ya kutafuta habari kwenye mtandao). Inapaswa kuzingatiwa kuwa "utafutaji ni sanaa."

1. Uainishaji wa injini za utafutaji

Kuna injini nyingi tofauti za utaftaji zinazomilikiwa na kampuni tofauti. Kwanza kabisa, kuna kinachojulikana kama saraka za mada (kwa mfano, Yahoo) na faharisi za kiotomatiki (kwa mfano, AltaVista), ingawa lazima ikumbukwe kwamba injini kadhaa za utaftaji zinachukua nafasi ya kati kati ya "fito" hizi mbili. , yaani, yana vipengele vyote viwili vya madarasa haya. Kila moja ya injini za utaftaji ina hifadhidata yake ya kina ya anwani (maeneo) ya hati anuwai za Wavuti, na utaftaji wa viungo vya habari tunayohitaji haufanyiki kwenye hati za Wavuti zenyewe, lakini kwenye hifadhidata hii.

Katalogi za mada na faharisi za kiotomatiki hutofautiana, kwanza kabisa, katika jinsi hifadhidata zao zinaundwa na kujazwa tena: ikiwa watu wanashiriki katika mchakato huu, au kila kitu hufanyika kiatomati.

Hifadhidata za katalogi za mada hukusanywa na kusasishwa kwa utaratibu na wataalam katika nyanja husika kulingana na hati mpya za Wavuti zilizogunduliwa kwenye Mtandao na programu maalum za utaftaji. Saraka ya mada inampa mtumiaji wa mtandao muundo fulani kama mti wa kategoria (sehemu na vifungu), katika kiwango cha juu ambacho dhana za jumla hukusanywa, kama vile Sayansi, Sanaa, Biashara, n.k., na vipengele vya kiwango cha chini kabisa ni viungo vya kurasa za Wavuti na seva za kibinafsi pamoja na maelezo mafupi ya yaliyomo. Unaweza kupitia katalogi hii ya daraja, kuanzia kategoria za jumla zaidi (dhana) hadi nyembamba, maalum.

Kwa mfano, ili kupata habari kuhusu hali ya utafiti juu ya nadharia ya msuli mkuu, unaweza kwenda chini ya "ngazi" zifuatazo za dhana:

Sayansi

Fizikia (Fizikia)

Fizikia ya Nadharia

Nadharia

Nadharia za Kamba


Matokeo yake yatakuwa orodha ya tovuti, kati ya ambayo tovuti ya Superstrings inavutia zaidi. Kwa kubofya kiungo cha Superstrings, tunachukuliwa kwenye ukurasa wa nyumbani wa tovuti, pamoja na kichwa kinachofanana, ambapo tunaweza kupata kitabu cha maandishi cha mtandaoni juu ya nadharia ya superstring, viungo mbalimbali vya kusoma zaidi, glossary juu ya superstrings, nk.

Faida kuu ya katalogi za mada ni dhamana kubwa ya habari iliyopokelewa na mtumiaji, ambayo inahakikishwa na uwepo wa "sababu ya kibinadamu" katika mchakato wa kuchambua na kuchagua kurasa mpya za Wavuti. Kwa upande mwingine, katalogi za mada zina shida kubwa, tena inayohusishwa na sababu ya kibinadamu, kwa sababu kwa sababu ya uwezo mdogo wa kibinadamu, hifadhidata zao hufunika sehemu ndogo tu ya nafasi nzima ya habari ya Wavuti (chini ya 1%). Kwa hivyo, licha ya manufaa yote ya orodha za mada, matumizi ya injini za utafutaji tu za aina hii mara nyingi haitoshi.

Jedwali la muhtasari wa katalogi za masomo yaliyochaguliwa

Orodha.Ru Bandari Yandex Rambler Yahoo! Kuhusu
sifa za jumla Sehemu 19 za kiwango cha juu Sehemu 14 za kiwango cha juu Sehemu kuu 10, 7 pamoja, uainishaji wa ziada 56 sehemu 14 sehemu kuu 36 sehemu
Kupanga rasilimali ndani ya sehemu Alfabeti, makadirio ya mwongozo, umaarufu (mahudhurio), tarehe Alfabeti, mahudhurio, ligi, makadirio ya idadi ya viungo kwa nyenzo fulani, maoni ya mtumiaji Alfabeti, tarehe iliyoongezwa, faharasa ya nukuu kwa kuhudhuria kwa alfabeti kwa viungo vya kulipia
Waendeshaji Boolean Lugha ya injini ya utafutaji inayotumika ni Aport. Lugha ya injini ya utafutaji ya Yandex inatumiwa Lugha ya injini ya utafutaji ya Rambler inatumika Hapana Hapana
Tafuta kwa kifungu " " " "
Viambishi awali +, - +, -
Utafutaji wa mara kwa mara (katika matokeo) Kuna utafutaji ndani ya kategoria Baada ya kuingia, bofya Zaidi...
kuchukua nafasi ya sehemu ya neno * * (sio sahihi kila wakati)

Tofauti na saraka za mada, hifadhidata za faharisi za kiotomatiki huundwa na kujazwa tena kiotomatiki na programu maalum za utaftaji wa ndani ambazo huchanganua nodi za Mtandao (tovuti) kila saa kutafuta hati mpya zinazoonekana. Kutoka kwa kila hati kama hiyo, roboti hutoa viungo vyote vipya vilivyomo na kuviongeza kwenye hifadhidata yake ya anwani, kwa sababu hiyo programu ya roboti ina fursa ya kutazama hati kadhaa mpya za Wavuti. Katika kila hati mpya ya Wavuti, roboti huchambua maneno yote yaliyojumuishwa ndani yake na katika sehemu ya hifadhidata inayolingana na kila neno lililopewa, anwani (URL) ya hati ambayo neno hili lilipatikana huhifadhiwa. Kwa hivyo, hifadhidata iliyoundwa na faharisi ya kiotomatiki huhifadhi habari ambayo hati za Wavuti zina maneno fulani. Tofauti na saraka za mada, faharasa otomatiki hufunika hadi 25% ya jumla ya nafasi ya Wavuti.

Faharasa ya kiotomatiki ina injini ya utafutaji tofauti ili kutoa kiolesura cha mtumiaji. Mfumo huu unaweza, kwa kuangalia kupitia hifadhidata, kwa kutumia seti fulani ya maneno muhimu, kupata na kuonyesha kwenye skrini ya kompyuta ya mtumiaji anwani na taarifa fupi kuhusu kurasa zote za Wavuti zilizo na seti hii ya maneno muhimu. Kwa hivyo, faharisi ya kiotomatiki ina sehemu tatu: programu ya roboti, hifadhidata ambayo roboti hukusanya, na kiolesura cha kutafuta hifadhidata hiyo. Ni sehemu ya mwisho ambayo mtumiaji hufanya kazi nayo. Kwa sababu ya shirika hili, faharasa otomatiki haifanyi uainishaji wowote au tathmini ya habari.

Kiolesura cha kielelezo kiotomatiki kinamruhusu mtumiaji kutaja seti fulani ya maneno muhimu ambayo, kwa mtazamo wake, ni tabia ya hati anazotafuta, na hivyo kumruhusu kupata idadi ndogo ya kurasa za Wavuti zinazoweza kuwa muhimu. Baadhi ya maneno maalum na mchanganyiko wao, badala ya majina adimu, nk yanaweza kutumika kama maneno kama hayo.

Mafanikio ya kupata taarifa muhimu kwa kiasi kikubwa imedhamiriwa na uchaguzi wa mafanikio wa maneno muhimu, kwa sababu vinginevyo injini ya utafutaji inaweza kurudi maelfu mengi na mamilioni ya viungo kwa nyaraka za Mtandao zisizo na maana.

Inapaswa kukumbushwa katika akili kwamba mshangao mwingi tofauti unangojea mtumiaji wa novice, wakati mwingine husababisha hali ya anecdotal.

Ikiwa kwa indexes za moja kwa moja kutafuta kwa maneno ni njia pekee ya kupata taarifa muhimu, basi katika saraka za mada (kwa mfano, katika Yahoo!) Chombo hiki ni njia mbadala ya kutafuta pamoja na kusafiri kupitia mfumo (mti) wa makundi yaliyowekwa.

Baadhi ya aina ya huduma za utafutaji ni huduma za ukadiriaji. Humpa mteja orodha iliyotengenezwa tayari ya baadhi ya viungo ambavyo vilifikiwa mara kwa mara na watumiaji wengine wa Intaneti. Linapokuja suala la mada zinazovutia umma kama vile habari, muziki, n.k., mapendekezo kama haya yanayopatikana kwa njia ya takwimu ni rahisi sana na muhimu. Huduma hizo, hasa, hutolewa na huduma ya ndani ya Rambler.

2. Mbinu za utafutaji

2.1. Utafutaji rahisi

Kila injini ya utafutaji (SE) hutoa mbinu zake za utafutaji na ina sheria zake maalum za kurekodi mchanganyiko wa maneno muhimu. Hata hivyo, kuna mambo ya kawaida ambayo ni sawa kwa injini nyingi za utafutaji. Kwa kawaida, injini zote za utafutaji huruhusu kutafuta nyaraka za Mtandao kwa kutumia maneno muhimu ambayo ni tabia ya hati inayotafutwa. Kuchagua maneno kama haya mara nyingi ni kazi isiyo ya kawaida.