Teknolojia zenye akili Uchimbaji wa maandishi. Teknolojia ya Uchambuzi Bora wa Data ya Maandishi: Uchimbaji Maarifa

Nakala ya Dmitry Lande"Uchimbaji Maarifa" ilikuwa mojawapo ya makala za kwanza nilizosoma kuhusu Uchimbaji wa Maandishi - ambayo ilichapishwa katika gazeti la CHIP mnamo Oktoba 2003.

Data ghafi isiyo na muundo hufanya angalau 90% ya taarifa ambazo watumiaji hushughulikia. Kupata kitu cha thamani katika data kama hiyo inawezekana tu kupitia teknolojia maalum.

Habari za kielektroniki zina jukumu muhimu zaidi katika nyanja zote za maisha katika jamii ya kisasa. Terabytes ya data ya maandishi hukusanywa katika hazina za habari zinazosambazwa duniani kote. Ukuzaji wa rasilimali za habari za mtandao umezidisha mara kwa mara shida ya upakiaji wa habari.

Huduma ya utafiti ya Cyveillance iliripoti kwamba nyuma mnamo 2001, jumla ya kurasa kwenye mtandao zilizidi bilioni 4. Saizi ya wastani ya ukurasa wa Wavuti ni 10 KB, ukurasa wa wastani una 23 viungo vya ndani, 5.6 - picha za nje na 14-15. Ikiwa tutaongeza kwa hili safu za hati ambazo hazijaundwa katika mifumo ya uhifadhi wa faili na hifadhidata, basi ni rahisi kuona kwa nini mashirika mengi yanavutiwa na teknolojia ya uchambuzi wa kiotomatiki na uainishaji wa habari iliyotolewa kwenye lugha ya asili. Kwa kweli, kulingana na makadirio ya sasa, data isiyo na muundo - haswa maandishi - hufanya angalau 90% ya habari ambayo makampuni na mashirika hushughulikia. Na 10% pekee hutoka kwa data iliyopangwa iliyopakiwa kwenye DBMS za uhusiano.

"Watu watatafuta kile wanachokijua kwa kupata hifadhi za hati. Hata hivyo, hawatauliza au hawawezi tu kuuliza wasichokijua, hata kama wanaweza kupata mkusanyo wa nyaraka," alisema Jim Nisbet, makamu wa rais wa Semio. ambayo ni moja ya wazalishaji wakuu wa mifumo ya uchimbaji wa data. "Aina ya uchanganuzi mzuri wa maandishi - Uchimbaji wa maandishi- kutumia nguvu ya kompyuta lazima kutambua uhusiano ambao unaweza kusababisha upataji wa maarifa mapya na mtumiaji."

Teknolojia ya uchambuzi wa maandishi madhubuti Uchimbaji wa maandishi ana uwezo wa kufanya kama mwalimu ambaye, baada ya kusoma kozi nzima, anafundisha tu habari muhimu na muhimu. Kwa hivyo, mtumiaji haitaji "kupepeta" kiasi kikubwa cha zisizo. habari iliyopangwa. Imeandaliwa kwa msingi wa uchambuzi wa takwimu na lugha, na akili ya bandia, teknolojia. Uchimbaji wa maandishi Zimeundwa kwa usahihi kufanya uchanganuzi wa kisemantiki, kutoa urambazaji na utaftaji katika maandishi ambayo hayajaundwa. Kwa kutumia mifumo iliyojengwa kwa misingi yao, watumiaji wataweza kupata mpya habari muhimu- maarifa.

Kutenganisha ngano na makapi...

CIA hivi majuzi ilichapisha Mpango Mkakati wa Uwekezaji wa Uchambuzi wa Jamii ya Kijasusi. Katika mpango huo, maafisa wa ujasusi wanakubali kwamba hawajatumia kikamilifu uwezo wa vyanzo wazi, na sasa kufanya kazi nao inapaswa kuwa " kipaumbele cha juu kwa ajili ya uwekezaji." Sasa CIA inaamini kuwa kuchukua habari kutoka kwa vyanzo wazi ni salama na kwa bei nafuu kuliko kutumia data ya kijasusi. Teknolojia ya uchimbaji madini - Uchimbaji wa maandishi- hiki ndicho kisanduku cha zana ambacho hukuruhusu kuchambua habari nyingi katika kutafuta mienendo, mifumo na uhusiano ambao unaweza kusaidia katika kufanya maamuzi ya kimkakati. Mbali na hilo, Uchimbaji wa maandishi-Hii aina mpya tafuta, ambayo, tofauti na mbinu za jadi, sio tu hupata orodha za nyaraka, rasmi husika na maswali, lakini pia husaidia kujibu swali: “Nisaidie kuelewa maana, shughulikia suala hili.” Claude Vogel, mwanzilishi mwenza na afisa mkuu wa teknolojia wa Semio, anaelezea: "Kutumia mlinganisho wa maktaba, teknolojia. Uchimbaji wa maandishi ni kama kumfungulia msomaji kitabu chenye taarifa muhimu. Linganisha hili na kuwasilisha msomaji rundo la hati na vitabu ambavyo mahali fulani vina habari ambayo msomaji anahitaji, lakini hataweza kuipata kwa urahisi." Mchakato wa kutafuta maana sio mdogo; mara nyingi katika mkusanyiko wa hati kuna dokezo tu la habari inayohitajika.Akili yenye nguvu inahitajika fursa za kupata kile kinachohitajika.Katika jina la teknolojia, neno "madini" hufanya kama sitiari ya kupata habari "zilizozikwa".

Ikumbukwe kuwa teknolojia ya uchambuzi wa kina wa maandishi ilitanguliwa kihistoria na teknolojia ya uchimbaji wa data (Data Mining), mbinu na njia ambazo hutumiwa sana katika mbinu. Uchimbaji wa maandishi. Kwa uchimbaji wa maandishi, ufafanuzi uliotolewa kwa ajili ya uchimbaji data na mmoja wa wataalam wakuu duniani, Grigory Pyatetsky-Shapiro kutoka GTE Labs, ni wa haki kabisa: “Mchakato wa kugundua katika data mbichi ambayo hapo awali haikujulikana, isiyo ya kawaida, maarifa muhimu na yanayoweza kufasirika. muhimu kwa ajili ya kufanya maamuzi katika maeneo mbalimbali ya shughuli za binadamu." Kama teknolojia nyingi za utambuzi - Uchimbaji wa maandishi ni kitambulisho cha algoriti cha miunganisho na uunganisho usiojulikana hapo awali katika data iliyopo ya maandishi.

Baada ya kuchukua sura katikati ya miaka ya 90 ya karne ya ishirini kama mwelekeo wa kuchambua maandishi ambayo hayajaundwa, teknolojia. Uchimbaji wa maandishi ilipitisha mara moja mbinu za kawaida za uchimbaji wa data, kama vile uainishaji au kuunganisha. KATIKA Uchimbaji wa maandishi Vipengele vya ziada pia vimeonekana, kama vile muhtasari otomatiki wa matini na uteuzi wa dhana, matukio, na ukweli. Uwezo wa mifumo ya kisasa Uchimbaji wa maandishi inaweza kutumika katika usimamizi wa maarifa ili kutambua ruwaza katika maandishi, "kuvuta nje" kiotomatiki au kuweka taarifa juu ya wasifu zinazowavutia watumiaji, na kuunda ukaguzi wa hati. Teknolojia Uchimbaji wa maandishi Kwa kuongeza, usawa ni asili - hakuna tabia ya kujitegemea ya mchambuzi wa kibinadamu.

Sehemu muhimu ya teknolojia Uchimbaji wa maandishi inahusishwa na kutoa kutoka kwa maandishi vipengele au sifa zake bainifu, ambazo zinaweza kutumika kama metadata ya hati, maneno muhimu na ufafanuzi. Nyingine kazi muhimu inajumuisha kugawa hati kwa aina fulani kutoka kwa mpango fulani wa utaratibu wao. Uchimbaji wa maandishi pia hutoa ngazi mpya utafutaji wa kimantiki wa nyaraka.

Misingi ya Teknolojia ya Uchimbaji Nakala

Kwa mujibu wa mbinu iliyoanzishwa tayari, vipengele kuu Uchimbaji wa maandishi ni pamoja na muhtasari, uchimbaji kipengele, nguzo, uainishaji, kujibu maswali, indexing mada na kutafuta maneno. Pia, katika baadhi ya matukio, seti hiyo inakamilishwa na zana za kusaidia na kuunda taxonomies (oftaxonomies) na thesauri.

Alexander Linden, mkurugenzi wa Utafiti wa Gartner, alibainisha aina nne kuu za matumizi ya teknolojia Uchimbaji wa maandishi:

Uainishaji wa maandishi, ambao hutumia uunganisho wa takwimu kuunda sheria za kuweka hati katika kategoria zilizoainishwa. Kukusanya kulingana na vipengele vya hati, kwa kutumia mbinu za lugha na hisabati bila kutumia kategoria zilizoainishwa. Matokeo yake ni taksonomia au ramani inayoonekana ambayo hutoa ufikiaji mzuri wa idadi kubwa ya data. Mitandao ya kisemantiki au uchanganuzi wa viungo ambao huamua kutokea kwa vifafanuzi ( misemo muhimu) katika hati ya utoaji na urambazaji. Utoaji wa ukweli umeundwa ili kupata ukweli fulani kutoka kwa maandishi ili kuboresha uainishaji, urejeshaji na uunganishaji.

Inatokea kwamba mara nyingi hupatikana ndani Uchimbaji wa maandishi kazi ni uainishaji - kugawa vitu vya hifadhidata kwa kategoria zilizoainishwa. Kwa kweli, kazi ya uainishaji ni kazi ya utambuzi wa kitamaduni, ambapo, kulingana na sampuli ya mafunzo, mfumo unapeana. kitu kipya kwa kategoria moja au nyingine. Kipengele cha mfumo Uchimbaji wa maandishi ni kwamba idadi ya vitu na sifa zao zinaweza kuwa kubwa sana; kwa hivyo, mifumo ya akili lazima itolewe ili kuboresha mchakato wa uainishaji. Katika mifumo iliyopo leo, uainishaji hutumiwa, kwa mfano, katika kazi zifuatazo: kuweka nyaraka katika mitandao ya intranet na kwenye Wavuti, kutuma hati ndani. folda maalum, kupanga ujumbe Barua pepe, usambazaji maalum wa habari kwa waliojisajili.

Kazi ya pili ni kuunganisha - kutambua vikundi vidogo vya vitu vilivyo na mali sawa. Mfumo lazima upate ishara kwa uhuru na ugawanye vitu katika vikundi vidogo. Kawaida hutangulia kazi ya uainishaji, kwa vile inakuwezesha kufafanua makundi ya vitu. Kuna aina mbili kuu za nguzo - hierarchical na binary. Nguzo ya hierarchical inajumuisha kujenga mti wa makundi, ambayo kila moja ina kikundi kidogo cha nyaraka. Mfano wa matumizi ya nguzo ya jozi inapatikana kwenye seva ya IBM katika http://www.software.ibm.com/data/iminer/fortext. Kuunganisha kwa njia mbili hutoa kupanga na kuvinjari kwa makundi ya hati kulingana na viungo vya kufanana. Nyaraka ambazo ziko karibu zaidi katika mali zao zimewekwa kwenye nguzo moja. Wakati wa mchakato wa kuunganisha, msingi wa viungo hujengwa kutoka kwa hati hadi hati, kulingana na uzito na matumizi ya pamoja ya maneno muhimu yaliyofafanuliwa. Kuunganisha leo hutumiwa katika kuondoa safu kubwa za hati, kutambua vikundi vinavyohusiana vya hati, kurahisisha mchakato wa kuvinjari wakati wa kutafuta habari muhimu, kutafuta hati za kipekee kutoka kwa mkusanyiko, kutambua nakala au hati ambazo zinafanana sana katika yaliyomo.

Tunaweza kutaja changamoto kadhaa zaidi za teknolojia Uchimbaji wa maandishi, kwa mfano, utabiri, ambayo inajumuisha kutabiri maadili ya wengine kulingana na maadili ya baadhi ya vipengele vya kitu.

Kazi nyingine ni kutafuta tofauti, ambayo ni, kutafuta vitu ambavyo vinajitokeza kutoka kwa umati na sifa zao. Ili kufanya hivyo, kwanza vigezo vya wastani vya vitu vimedhamiriwa, na kisha vitu hivyo ambavyo vigezo vyake vinatofautiana sana kutoka kwa maadili ya wastani huchunguzwa. Kama inavyojulikana, kutafuta isipokuwa hutumiwa sana, kwa mfano, katika kazi ya mashirika ya ujasusi. Uchambuzi wa aina hii mara nyingi hufanywa baada ya uainishaji ili kujua jinsi mwisho ulivyokuwa sahihi.

Kwa kiasi fulani tofauti na kazi ya kuunganisha ni kazi ya kutafuta vipengele vinavyohusiana (shamba, dhana) za nyaraka za kibinafsi. Kazi hii inatofautiana na utabiri kwa kuwa haijulikani mapema na sifa gani uhusiano unafanywa; Lengo ni kupata miunganisho kati ya vipengele. Kazi hii ni sawa na kuunganisha, lakini sio kulingana na seti ya nyaraka, lakini kulingana na seti ya sifa zilizomo ndani yao.

Hatimaye, kuchakata na kutafsiri matokeo Uchimbaji wa maandishi Taswira ni ya umuhimu mkubwa. Taswira ya data inahusisha kuchakata data ya nambari iliyopangwa, lakini pia ni kipengele muhimu katika kuwakilisha ruwaza zisizo na muundo. hati za maandishi. Hasa, mifumo ya kisasa ya darasa Uchimbaji wa maandishi inaweza kuchanganua safu kubwa za hati na kuunda faharasa za mada za dhana na mada zilizojumuishwa katika hati hizi. Taswira kawaida hutumiwa kama njia ya kuwasilisha yaliyomo kwenye safu nzima ya hati, na pia kutekeleza utaratibu wa urambazaji ambao unaweza kutumika katika kusoma hati na madarasa yao.

Utekelezaji wa mfumo

Hivi sasa, wazalishaji wengi wanaoongoza wa programu hutoa bidhaa zao na ufumbuzi katika uwanja wa madini ya Nakala. Kama sheria, hizi ni mifumo inayoweza kupanuka ambayo hutekelezea algoriti mbalimbali za hisabati na lugha kwa ajili ya kuchambua data ya maandishi. Wameendelezwa sana violesura vya picha, taswira tajiri na uwezo wa kuchezea data hutoa ufikiaji vyanzo mbalimbali data hufanya kazi katika usanifu wa seva ya mteja. Hapa kuna mifano ya mifumo kama hii:

  • Mchimbaji Akili wa Maandishi (IBM)
  • TextAnalyst, WebAnalyst (Megacomputer Intelligence)
  • Mchimbaji wa maandishi (SAS)
  • SemioMap (Semio Corp.)
  • Maandishi ya Oracle (Oracle)
  • Seva ya Maarifa (Kujitegemea)
  • Galaktika-ZOOM (Shirika la Galaktika)
  • InfoStream (kituo cha habari "ELVISTI")

Hapo chini tutaangalia baadhi ya mifumo hii kwa undani zaidi.

Mchimbaji Akili kwa Maandishi

Bidhaa ya IBM Intelligent Miner for Text ni seti ya huduma tofauti zilizozinduliwa kutoka kwa safu ya amri au hati bila ya kila mmoja. Mfumo huu ni mojawapo ya zana bora za uchambuzi wa kina wa maandishi. Mfumo una huduma zifuatazo za kimsingi (Zana) za kuunda programu za usimamizi wa maarifa:

Zana ya Utambulisho wa Lugha - matumizi ya utambulisho wa lugha - kwa kuamua kiotomatiki lugha ambayo hati imetungwa.

Zana ya Uainishaji - matumizi ya uainishaji - ugawaji wa maandishi kiotomatiki kwa kategoria fulani (taarifa ya pembejeo ya awamu ya mafunzo ya zana hii inaweza kuwa matokeo ya matumizi yanayofuata - Chombo cha Kuunganisha).

Chombo cha Kuunganisha - matumizi ya nguzo - kugawanya idadi kubwa ya hati katika vikundi kulingana na kufanana kwa mtindo, fomu, tofauti. sifa za mzunguko maneno muhimu yaliyotambuliwa.

Zana ya Uchimbaji wa Kipengele - shirika la kutambua vitu vipya - kutambua maneno muhimu mapya katika hati (majina yanayofaa, mada, vifupisho) kulingana na uchanganuzi wa kamusi iliyobainishwa mapema.

Zana ya Ufafanuzi - matumizi ya "kutambua maana" ya maandishi na kuunda muhtasari - maelezo kwa matini chanzo.

IBM Intelligent Miner for Text inachanganya seti yenye nguvu ya zana kulingana na mbinu za kurejesha taarifa, ambayo ni umaalum wa bidhaa nzima. Mfumo huu unajumuisha idadi ya vipengele vya msingi ambavyo vina umuhimu wa kujitegemea zaidi ya mipaka ya teknolojia ya "uchimbaji wa maandishi" - huu ni mfumo wa kurejesha habari wa Injini ya Utafutaji wa Maandishi, kifaa cha kutambaa cha nafasi ya Wavuti, Suluhisho la Swali la Net - suluhisho la kutafuta Tovuti ya ndani au seva kadhaa za intraneti/Mtandao, Sampuli ya Java GUI - seti ya violesura vya Maharage ya Java kwa ajili ya kusimamia na kupanga utafutaji kulingana na Injini ya Kutafuta Maandishi.

Mchimbaji Akili wa Maandishi kama bidhaa ya IBM imejumuishwa katika "Kiunganisha Taarifa kwa Maudhui" cha DB2 DBMS kama zana ya Uchimbaji Habari.

Gharama ya bidhaa za viwango tofauti vya familia ya Akili Miner ni kati ya dola 18 hadi 75,000.

Mchambuzi wa maandishi

Kampuni ya Kirusi ya Megaputer Intelligence, inayojulikana kwa mfumo wake wa darasa la PolyAnalyst Data Mining, pia imeunda mfumo wa TextAnalyst (http://www.megaputer.com/products/ta/index.php3, ambayo hutatua matatizo hayo. Uchimbaji wa maandishi: kuundwa kwa mtandao wa semantic wa maandishi makubwa, maandalizi ya muhtasari wa maandishi, utafutaji wa maandishi na uainishaji wa moja kwa moja na kuunganisha maandiko. Kujenga mtandao wa kisemantiki ni utafutaji wa dhana muhimu katika maandishi na kuanzisha uhusiano kati yao. Kutumia mtandao kama huo, huwezi kuelewa tu kile kinachosemwa katika maandishi, lakini pia kutekeleza urambazaji wa muktadha. Kutayarisha muhtasari ni kuangazia sentensi katika maandishi ambamo maneno ambayo ni muhimu kwa maandishi haya hupatikana mara nyingi zaidi kuliko mengine. Katika 80% ya kesi hii inatosha kupata wazo la maandishi. Kutafuta habari katika mfumo, matumizi ya maswali katika lugha ya asili hutolewa. Kwa ombi, mtandao wa kipekee wa semantic umejengwa, ambayo, wakati wa kuingiliana na mtandao wa hati, inakuwezesha kuchagua vipande vya maandishi muhimu. Kuunganisha na kuainisha hufanywa kwa kutumia mbinu za kawaida za uchimbaji data.

Mfumo wa Mchambuzi wa maandishi, huzingatia Uchimbaji wa maandishi kama kifaa tofauti cha hisabati ambacho wasanidi programu wanaweza kuunda katika bidhaa zao bila kutegemea majukwaa ya mfumo wa kurejesha taarifa au DBMS. Jukwaa kuu la kutumia mfumo ni MS Windows 9x/2000/NT. Kuna programu jalizi ya TextAnalyst ya Kivinjari cha Microsoft Internet Explorer.

Mchambuzi wa Mtandao

Mfumo wa WebAnalyst (http://www.megaputer.com/products/wa/index.php3) - pia ni bidhaa ya Megaputer Intelligence - ni suluhu ya mteja/seva yenye akili, inayoweza kubadilika kwa kampuni zinazotaka kuongeza athari za uchanganuzi wa data katika mazingira ya Mtandao. Seva ya WebAnalyst hufanya kazi kama mfumo wa kitaalamu wa kukusanya taarifa na kudhibiti maudhui ya Tovuti. Moduli za WebAnalyst kutatua matatizo matatu: kukusanya kiasi cha juu cha habari kuhusu wageni wa tovuti na rasilimali wanazoomba; utafiti wa data iliyokusanywa na uzalishaji wa maudhui yaliyobinafsishwa kulingana na matokeo ya utafiti. Kutatua matatizo haya kwa pamoja kunapaswa, kwa maoni ya watengenezaji wa mfumo, kusababisha kuongeza idadi ya wageni wapya kwenye Tovuti na kubakiza zilizopo, na hivyo kuongeza umaarufu wa rasilimali.WebAnalyst ina uwezo wa kuunganisha uwezo. Uchimbaji wa maandishi moja kwa moja kwenye tovuti ya shirika. Hii huturuhusu kutoa uuzaji wa kibinafsi, wa kiotomatiki na unaolengwa, utafutaji wa kiotomatiki na utimilifu kuuza msalaba na kupanua seti ya data inayoweza kubinafsishwa na mtumiaji. Kimsingi WebAnalyst ni seva ya akili maombi ya e-commerce.

Jukwaa la kiufundi ni sawa na TextAnalyst.

Mchimbaji wa maandishi

Taasisi ya Marekani ya SAS imetoa mfumo wa SAS Text Miner kwa kulinganisha mfuatano fulani wa kisarufi na wa kimatamshi katika hotuba iliyoandikwa. Nakala Miner ni hodari sana kwa sababu inaweza kufanya kazi na hati za maandishi katika miundo mbalimbali - katika hifadhidata, mifumo ya faili na hata kwenye Wavuti.

Text Miner hutoa usindikaji wa maandishi wenye mantiki ndani ya kifurushi chenye nguvu cha SAS Enterprise Miner. Hii inaruhusu watumiaji kuimarisha mchakato wa uchanganuzi wa data kwa kuunganisha isiyo na muundo habari ya maandishi na data iliyopangwa iliyopo kama vile umri, mapato na mifumo ya mahitaji ya watumiaji. Mchimbaji wa maandishi.

Mfano wa matumizi ya mafanikio ya uwezo wa kimantiki wa Nakala Miner unaonyeshwa na Compaq Computer Corp., ambayo kwa sasa inajaribu Text Miner kwa kuchambua zaidi ya gigabytes 2.5 za hati za maandishi zilizopokelewa kwa barua pepe na kukusanywa na wawakilishi wa kampuni. Hapo awali, ilikuwa karibu haiwezekani kusindika data kama hiyo

Programu ya Miner ya Maandishi hukuruhusu kuamua jinsi hati fulani ya maandishi ni ya kweli. Kugundua uwongo katika hati hufanywa kwa kuchambua maandishi na kutambua mabadiliko katika mtindo wa uandishi ambayo yanaweza kutokea wakati wa kujaribu kupotosha au kuficha habari. Ili kutafuta mabadiliko hayo, kanuni inayotumika ni kutafuta hitilafu na mienendo kati ya rekodi za hifadhidata bila kujua maana yake. Wakati huo huo, Mchimbaji wa Maandishi hujumuisha seti kubwa ya hati za viwango tofauti vya ukweli, ambazo muundo wake unachukuliwa kama violezo. Kila hati "kukimbia" kwenye kigunduzi cha uwongo inachambuliwa na kulinganishwa na viwango hivi, baada ya hapo programu inapeana faharisi moja au nyingine ya ukweli kwa hati. Mpango huo unaweza kuwa muhimu hasa katika mashirika ambayo hupokea kiasi kikubwa cha mawasiliano ya kielektroniki, na vile vile katika vyombo vya kutekeleza sheria kuchambua ushahidi kwa usawa na wagunduzi wa uwongo, ambao hatua yao inategemea ufuatiliaji wa hali ya kihemko ya mtu.

Mfano wa kuvutia wa matumizi ya Text Miner katika dawa: moja ya mashirika ya afya ya kitaifa ya Marekani ilikusanya zaidi ya rekodi elfu 10 za matibabu kuhusu magonjwa ya moyo zilizokusanywa kutoka kliniki kote nchini. Kwa kuchambua data hii kwa kutumia Mchimbaji wa Maandishi, wataalam waligundua makosa fulani ya kiutawala katika kuripoti, na pia waliweza kuamua uhusiano kati ya ugonjwa wa moyo na mishipa na magonjwa mengine ambayo hayakuamuliwa na njia za jadi.

Wakati huo huo, SAS inabainisha kuwa itatoa bidhaa yake ya Nakala ya Miner haswa ili kuvutia umakini wa wasomi wa biashara.

Ramani ya Semio

SemioMap ni bidhaa ya Entrieva iliyoundwa mnamo 1996 na mwanasayansi wa semiotiki Claude Vogel. Mnamo Mei 1998, bidhaa hiyo ilitolewa kama tata ya viwanda SemioMap 2.0 - mfumo wa kwanza. Uchimbaji wa maandishi, inafanya kazi katika usanifu wa seva ya mteja. Mfumo wa SemioMap unajumuisha vipengele viwili kuu - seva ya SemioMap na mteja wa SemioMap. Mfumo hufanya kazi kwa awamu tatu:

  • Kuorodhesha; seva ya SemioMap inasoma kiotomati safu za maandishi ambayo hayajaundwa, huchota misemo muhimu (dhana) na kuunda fahirisi kutoka kwao;
  • Mkusanyiko wa dhana; seva ya SemioMap hutambua miunganisho kati ya vifungu vilivyotolewa na kuunda kutoka kwayo, kulingana na utukio pamoja, mtandao wa kileksia ("ramani ya dhana");
  • Onyesho la picha na urambazaji; taswira ramani za uunganisho, ambayo hutoa urambazaji wa haraka kupitia misemo muhimu na viunganisho kati yao, pamoja na uwezo wa kufikia hati maalum haraka.

SemioMap inasaidia kugawanya nyenzo katika "folda", kuunda hifadhidata tofauti kwa kila folda. Miunganisho kati ya dhana ambayo SemioMap inabainisha inategemea utokeaji mwenza wa vishazi katika aya za safu ya matini chanzi.

Sehemu kuu ya SemioMap ni kidondoo cha kileksia - programu ambayo huchota vifungu vya maneno kutoka kwa mkusanyiko wa maandishi na kubainisha utokeaji pamoja wa vishazi hivi (miunganisho yao ya pande zote). Kichuna kileksika kinatokana na teknolojia iliyo na hati miliki ya SEMIOLEX. Inatekeleza mawazo ya semiotiki ya kimahesabu, sayansi ya ishara katika mawasiliano ya lugha, iliyotengenezwa na Claude Vogel.

Maandishi ya InterMedia, Nakala ya Oracle

Vifaa Uchimbaji wa maandishi, kuanzia na Seva ya Maandishi katika Oracle DBMS 7.3.3 na katriji ya maandishi ya interMedia katika Oracle8i, ni sehemu muhimu ya bidhaa za Oracle. Katika Oracle9i, zana hizi zimebadilika na kupokea jina jipya - Oracle Text - kifurushi cha programu kilichounganishwa kwenye DBMS, kinachokuruhusu kufanya kazi kwa ufanisi na maswali yanayohusiana na maandishi ambayo hayajaundwa. Katika kesi hii, usindikaji wa maandishi unajumuishwa na uwezo uliotolewa kwa mtumiaji kufanya kazi na hifadhidata za uhusiano. Hasa, imewezekana kutumia SQL wakati wa kuandika maombi ya usindikaji wa maandishi.

Kazi kuu ambayo zana za maandishi ya Oracle zinalenga ni kazi ya kutafuta hati na yaliyomo - maneno au misemo, ambayo, ikiwa ni lazima, imejumuishwa kwa kutumia. Operesheni za Boolean. Matokeo ya utafutaji yanawekwa kulingana na umuhimu, kwa kuzingatia mzunguko wa tukio la maneno ya swala katika nyaraka zilizopatikana. Ili kuboresha ukamilifu wa utafutaji, Oracle Text hutoa zana kadhaa za kiendelezi swali la utafutaji, kati ya ambayo vikundi vitatu vinaweza kutofautishwa. Kwanza, huu ni upanuzi wa maneno ya swala na maumbo yote ya kimofolojia, ambayo hupatikana kwa kuhusisha ujuzi kuhusu mofolojia ya lugha. Pili, Maandishi ya Oracle huruhusu upanuzi wa maneno ya swala kwa maneno yanayokaribiana kwa maana kwa kuunganisha thesaurus - kamusi ya kisemantiki, na pia upanuzi wa swali kwa maneno yanayofanana katika tahajia na sauti - utaftaji wa fuzzy na utafute maneno ya konsonanti. Inashauriwa kutumia utaftaji wa fuzzy wakati wa kutafuta maneno yaliyoandikwa vibaya, na vile vile katika hali ambapo mashaka yanaibuka kuhusu. tahajia sahihi- majina ya mwisho, majina ya mashirika, nk.

Mfumo wa Nakala ya Oracle hutoa uchanganuzi wa mada ya maandishi kwenye Lugha ya Kiingereza. Wakati wa usindikaji, maandishi ya kila hati yanakabiliwa na taratibu za uchambuzi wa lugha na takwimu, kama matokeo ambayo mada zake kuu zimedhamiriwa na muhtasari wa mada hujengwa, pamoja na muhtasari wa jumla - muhtasari.

Zana zote zilizofafanuliwa zinaweza kutumika pamoja, ambayo inaungwa mkono na lugha ya maswali pamoja na SQL ya jadi na sintaksia ya PL/SQL ya kutafuta hati. Nakala ya Oracle hutoa uwezo wa kufanya kazi na DBMS za kisasa za uhusiano katika muktadha wa utaftaji tata wa madhumuni anuwai na uchanganuzi wa data ya maandishi.

Uwezo wa usindikaji habari za maandishi katika Kirusi katika Nakala ya Oracle ni mdogo kabisa. Ili kutatua tatizo hili, kampuni ya Garant-Park-Internet ilitengeneza moduli ya Kirusi Context Optimizer (RCO), iliyokusudiwa kutumiwa pamoja na InterMedia Text (au Oracle Text). Kando na kuunga mkono mofolojia ya lugha ya Kirusi, RCO inajumuisha zana za utafutaji usioeleweka, uchanganuzi wa mada na uondoaji wa hati.

Seva ya Maarifa ya Kujiendesha

Inajulikana kwa maendeleo yake katika uchanganuzi wa maudhui ya takwimu, usanifu wa mfumo wa Autonomy unachanganya uchanganuzi wa ruwaza akili na uchanganuzi wa hali ya juu wa muktadha na mbinu za kutoa maana ili kutatua matatizo ya uainishaji kiotomatiki na marejeleo mtambuka. Faida kuu ya mfumo wa Autonomy ni algorithms yenye akili yenye nguvu kulingana na usindikaji wa takwimu. Algoriti hizi zinatokana na nadharia ya maelezo ya Claude Shannon, uwezekano wa Bayesian na mitandao ya neva.

Dhana ya uundaji wa uwezekano unaobadilika (APCM) huruhusu Kujitegemea kutambua ruwaza katika maandishi ya hati na kugundua kiotomatiki ruwaza zinazofanana katika hati zingine mbalimbali.

Jambo muhimu katika mfumo wa Seva ya Maarifa ya Kujiendesha ni uwezo wa kuchambua matini na kutambua dhana muhimu ndani ya hati kwa kuchanganua uwiano wa masafa na uhusiano wa istilahi na maana ya maandishi. Kipengele cha Autonomy - Agentware hutumia teknolojia ya kipekee ya uchanganuzi wa muundo (uchakataji wa mawimbi ya dijiti isiyo ya mstari) ili kupata maana kutoka kwa hati na kubainisha sifa zilizo katika maandishi. APCM hukuruhusu kutambua "saini" za kipekee za maana ya maandishi, na pia kuunda mawakala wa dhana ambao hutafuta maingizo ya maana sawa kwenye Wavuti, katika habari, kumbukumbu za barua pepe na hati zingine. Kwa kuwa mfumo hautokani na maneno muhimu yaliyofafanuliwa awali, unaweza kufanya kazi na lugha yoyote.

Msingi wa mfumo wa wakala wa Autonomy ni injini ya mawazo yenye nguvu (DRE) kulingana na teknolojia ya usindikaji wa kiolezo inayotumia. mitandao ya neva, ambayo ilipata maendeleo ya awali katika kampuni ya wazazi ya Autonomy, Neurodynamics. DRE hutumia dhana ya uundaji wa uwezekano unaobadilika kutekeleza kazi kuu nne: ugunduzi wa dhana, uundaji wa wakala, mafunzo ya wakala, na utafutaji wa maandishi wa kawaida. DRE inakubali maswali ya lugha asilia, au masharti yaliyounganishwa na waendeshaji wa Boolean, na kurejesha orodha ya hati zilizopangwa kulingana na umuhimu wa hoja. Utaratibu huu ni msingi wa bidhaa zote za mfumo wa wakala wa Autonomy. Maelezo ya Seva ya Maarifa ya Autonomy yanaweza kupatikana katika http://www.autonomy.com/tech/whitepaper.pdf.

Galaktika-ZOOM

Mfumo wa Galaktika-ZOOM ni bidhaa ya shirika la Kirusi Galaktika. Kusudi kuu la mfumo ni utafutaji wa akili kwa kutumia maneno muhimu, kwa kuzingatia morphology ya lugha za Kirusi na Kiingereza, pamoja na uundaji wa safu za habari juu ya vipengele maalum. Wakati huo huo, kiasi cha habari kinaweza kufikia mamia ya gigabytes. Ni lengo la vitu vikubwa vya habari - ujumbe wa vyombo vya habari na makala, vyombo vya habari vya sekta, nyaraka za udhibiti, mawasiliano ya biashara na nyenzo za mtiririko wa hati ya ndani ya biashara, habari kutoka kwa mtandao. Wakati huo huo, mfumo hutoa zana fulani za kuchambua miunganisho ya semantic ya data iliyochaguliwa na kuunda "picha" ya shida - mtindo wa multidimensional katika mtiririko wa habari katika mfumo wa orodha iliyoorodheshwa maneno yenye maana, kutumika pamoja na mada ya tatizo. Kipaumbele kikubwa katika mfumo hulipwa kwa kutambua mwelekeo katika mienendo ya maendeleo ya tatizo linalojifunza. Mfumo una vibadilishaji vya muundo wa kawaida: maandishi wazi, RTF, DOC, HTML. Galaktika-ZOOM inafanya kazi katika mazingira ya Windows 2000 OS.

InfoStream

Ufunikaji na ujanibishaji wa safu kubwa za taarifa zinazobadilika zinazotolewa mara kwa mara kwenye Wavuti zilihitaji mbinu mpya za kimaelezo. Kuna haja ya kuunda mbinu za ufuatiliaji wa rasilimali za habari ambazo zinahusiana kwa karibu na mbinu ya uchambuzi wa maudhui - ufuatiliaji wa maudhui. Ili kupata data ya ubora na kiasi, ufuatiliaji huo lazima ufanyike mfululizo kwa muda usiojulikana mapema. Ili kutatua tatizo hili katika Ukraine katika Kituo cha Habari"ELVISTI" imetengeneza teknolojia ya InfoStream™. Programu ya InfoStream na zana za teknolojia ni pamoja na sehemu kuu tatu:

  • kituo cha ukusanyaji na usindikaji wa habari;
  • kituo cha kuandaa ufikiaji wa mwingiliano wa hifadhidata;
  • kituo cha ufuatiliaji wa maudhui.

Msingi wa utaratibu wa kuchakata maudhui ya InfoStream ni mfumo wa urejeshaji wa taarifa za maandishi kamili InfoReS. Teknolojia inakuwezesha kuunda hifadhidata za maandishi kamili data na utaftaji wa habari, tengeneza njia za habari za mada, gawa habari kiotomatiki, toa digesti, jedwali la uhusiano kati ya dhana (kuhusiana na kutokea kwao kwenye machapisho ya mkondoni), historia ya usambazaji wa maadili ya uzani wa dhana ya mtu binafsi, na vile vile mienendo ya kutokea kwao kwa wakati. Teknolojia ya InfoStream hukuruhusu kuchakata data katika MS WORD (DOC, RTF), PDF, na miundo yote ya maandishi (maandishi wazi, HTML, XML). Mifumo kulingana na InfoStream kwa sasa inafanya kazi kwenye mifumo ifuatayo ya Mfumo wa Uendeshaji: FreeBDS, Linux, Solaris.

Hebu tuangalie katika siku zijazo

Si muda mrefu uliopita, Shirika la Ujasusi la Marekani liliwasilisha kwa umma kwa ujumla teknolojia yake ya "uchimbaji data" inayotumika kutafuta habari katika maandishi, matangazo ya redio na televisheni.Kitengo cha Teknolojia ya Habari ya Juu, sehemu ya Kurugenzi ya Sayansi na Teknolojia ya Jimbo Kuu la Marekani. Shirika la Ujasusi, lilionyesha teknolojia hiyo kwa umma " Uchimbaji wa Takwimu za Maandishi, unaotumika kutafuta habari za maana katika hati nyingi na katika matangazo ya redio na televisheni katika lugha mbalimbali. Utafutaji unafanywa kwa kutumia vyanzo vya utaratibu na nasibu, na vitu vya utafutaji ni maandishi katika machapisho yaliyochapishwa na katika fomu ya digital, picha za picha, habari za sauti katika lugha 35. Ili kuchuja habari za sauti, mbinu ya "Oasis" hutumiwa, ambayo inatambua hotuba na kuibadilisha kuwa maandishi. Wakati huo huo, teknolojia inafanya uwezekano wa kutenganisha sauti za kiume kutoka kwa wanawake, pamoja na sauti za watu tofauti, na uyaandike kama mazungumzo. Mbinu ya "Oasis" hukuruhusu kuchagua kutoka kwa mtiririko wa sauti sauti hizo pekee au habari hiyo maalum ambayo imejumuishwa katika mipangilio ya utaftaji.

Nyingine teknolojia ya kompyuta inayoitwa Fluent inaruhusu vitengo vya CIA kutafuta habari katika hati za maandishi. Teknolojia hii inajumuisha utaftaji wa maneno, ambapo neno au mchanganyiko huingizwa kwa Kiingereza, ambayo hutafsiriwa mara moja kwa lugha zingine kadhaa, na habari inayopatikana kutoka kwa hifadhidata katika lugha tofauti hutumwa kwa mtafiti baada ya kutafsiri kiotomatiki. Mpango mwingine, Uchimbaji wa Takwimu za Maandishi, hukuruhusu kuunda kiotomati indexes za somo kwa hati za maandishi, na pia kupata data juu ya mzunguko wa matumizi ya maneno fulani kwenye hati. CIA hutumia teknolojia hizi leo kufuatilia miamala haramu ya kifedha na usafirishaji wa dawa za kulevya.

Teknolojia zilizotajwa hapo juu zinashughulikiwa na Idara ya Teknolojia ya Habari ya Juu (AIT) ya Kurugenzi ya Sayansi na Teknolojia ya CIA. Mkurugenzi wa AIT Larry Fairchild alisema: "Hatukui haraka vya kutosha ili kuendelea na mlipuko wa habari zinazotiririka hapa kila siku." Tunahitaji kuwapa wafanyikazi teknolojia ili kuwasaidia kukabiliana na idadi kubwa ya data inayochakatwa. inzi."

Kwa upande wa matumizi ya kitaalamu ya zana Uchimbaji wa maandishi CIA iko mbali na ukiritimba. Kulingana na utabiri wa kampuni ya uchambuzi IDC, mahitaji ya programu zinazofanana itaongezeka kwa kiasi kikubwa katika miaka 4-5 ijayo. Hivyo, kufikia 2005, faida kutokana na programu hizo zinatarajiwa kuongezeka kutoka dola milioni 540 (mwaka wa 2002) hadi dola bilioni moja na nusu. Fursa kama vile uchambuzi wa wazi wa habari iliyopatikana, upelelezi wa habari (uchimbaji wa habari iliyotawanyika ya moja kwa moja na isiyo ya moja kwa moja juu ya shida fulani), uundaji na matengenezo ya dossiers za mada na uwezo wa kutambua mwelekeo na uhusiano wa watu, matukio, michakato tayari imetumika. na idadi ya makampuni makubwa na hakika yatahitajika zaidi.

Ifikapo mwaka wa 2006, aina hizi za programu zitakuwa kubwa katika uchanganuzi wa taarifa kutoka kwa wateja katika makampuni ya ngazi yoyote, iwe vituo vya kupiga simu, mashirika ya mtandao au mashirika ya uchambuzi, anasema mtaalam Alessandro Zanasi, aliyekuwa wa Kundi la META. Idara za Utumishi zitatumia programu za uchimbaji wa maandishi kutafuta wasifu unaolingana na gridi changamano ya viashirio. Na idara za uuzaji zitapata matumizi kwa programu kama vile wachambuzi wa hali ya soko, mwelekeo wa ufuatiliaji, msimamo wa washindani na viashiria vingine kulingana na habari na vyanzo anuwai - milisho ya habari, ripoti za utafiti, hakiki, hataza.

Uchimbaji madini inaweza kutafsiriwa kama "madini ya data ya mtandao". Ujasusi wa Wavuti au Upelelezi wa Wavuti uko tayari "kufungua sura mpya" katika ukuzaji wa haraka e-biashara. Uwezo wa kuamua maslahi na mapendekezo ya kila mgeni kwa kuchunguza tabia yake ni faida kubwa na muhimu ya ushindani katika soko la e-commerce.

Mifumo ya Madini ya Wavuti inaweza kujibu maswali mengi, kwa mfano, ni yupi kati ya wageni anayeweza kuwa mteja wa duka la Wavuti, ni kikundi gani cha wateja wa duka la Wavuti huleta mapato zaidi, ni nini masilahi ya mgeni fulani au kikundi cha wageni.

Teknolojia ya Uchimbaji wa Wavuti inashughulikia mbinu ambazo zina uwezo wa kugundua maarifa mapya, ambayo hayakujulikana hapo awali kulingana na data ya tovuti na ambayo inaweza kutumika baadaye. Kwa maneno mengine, teknolojia ya Uchimbaji wa Wavuti hutumia teknolojia ya Uchimbaji Data kuchanganua habari zisizo na muundo, tofauti, zilizosambazwa na za ujazo mkubwa zilizomo kwenye Tovuti.

Kulingana na Takolojia ya Madini ya Wavuti, maeneo makuu mawili yanaweza kutofautishwa hapa: Uchimbaji wa Maudhui ya Wavuti na Uchimbaji wa Matumizi ya Wavuti.

Uchimbaji wa Maudhui ya Wavuti ina maana ya utafutaji otomatiki na uchimbaji wa taarifa za ubora wa juu kutoka kwa vyanzo mbalimbali vya mtandao vilivyojaa " kelele ya habari". Pia tunazungumzia njia mbalimbali za kuunganisha na kubainisha nyaraka.

Katika mwelekeo huu, kwa upande wake, kuna mbinu mbili: mbinu ya wakala na mbinu ya msingi wa hifadhidata.

Mbinu Kulingana na Wakala inajumuisha mifumo ifuatayo:

  • Mawakala wa Utafutaji wenye akili;
  • kuchuja habari / uainishaji;
  • mawakala wa mtandao wa kibinafsi.

Mifano ya mifumo mahiri ya wakala wa utafutaji:

  • Mavuno (Brown et al., 1994),
  • FAQ-Finder (Hammond et al., 1995),
  • Taarifa nyingi (Kirk et al., 1995)
  • OCCAM (Kwok na Weld, 1996), na ParaSite (Spertus, 1997),
  • ILA (Wakala wa Kujifunza Habari) (Perkowitz na Etzioni, 1995),
  • ShopBot (Doorenbos et al., 1996).

Mbinu ya Hifadhidata inajumuisha mifumo:

  • hifadhidata za ngazi nyingi;
  • Mifumo ya Maswali ya Wavuti;

Mifano ya mifumo ya maombi ya wavuti:

  • W3QL (Konopnicki na Shmueli, 1995),
  • WebLog (Lakshmanan et al., 1996),
  • Lorel (Quass et al., 1995),
  • UnQL (Buneman et al., 1995 na 1996),
  • TSIMMIS (Chawathe et al., 1994).

Mwelekeo wa pili Uchimbaji wa Matumizi ya Wavuti inahusisha kugundua ruwaza katika matendo ya mtumiaji wa Tovuti au kikundi cha watumiaji.

Habari ifuatayo inachambuliwa:

  • ni kurasa gani mtumiaji alitazama;
  • ni mlolongo gani wa kurasa za kutazama.

Pia huchanganua ni vikundi vipi vya watumiaji vinavyoweza kutambuliwa kati ya jumla ya nambari kulingana na historia ya kuvinjari ya Tovuti.

Uchimbaji wa Matumizi ya Mtandao unajumuisha vipengele vifuatavyo:

  • usindikaji wa awali;
  • kitambulisho cha uendeshaji;
  • zana za kugundua muundo;
  • zana za uchambuzi wa muundo.

Katika kwa kutumia Mtandao Watengenezaji wa madini wanakabiliwa na aina mbili za kazi. Ya kwanza inahusu ukusanyaji wa data, ya pili inahusu matumizi ya mbinu za ubinafsishaji. Kama matokeo ya kukusanya kiasi fulani cha data ya kibinafsi ya retrospective kuhusu mteja maalum, mfumo hukusanya ujuzi fulani juu yake na unaweza kupendekeza kwake, kwa mfano, seti fulani za bidhaa au huduma. Kulingana na taarifa kuhusu wageni wote wa tovuti, mfumo wa Wavuti unaweza kutambua makundi fulani ya wageni na pia kupendekeza bidhaa kwao au kutoa bidhaa katika utumaji barua.

Kazi za uchimbaji wa Wavuti zinaweza kugawanywa katika vikundi vifuatavyo:

  • Usindikaji wa Data kwa Uchimbaji Wavuti.
  • Ugunduzi wa muundo na ugunduzi wa maarifa kwa kutumia sheria za ushirika, mfuatano wa muda, uainishaji na nguzo;
  • Uchambuzi wa maarifa yaliyopatikana.

Uchimbaji wa maandishi

Uchimbaji wa maandishi inashughulikia mbinu mpya za kufanya uchanganuzi wa maandishi ya kisemantiki, urejeshaji wa habari, na usimamizi. Kisawe cha dhana ya Uchimbaji Matini ni KDT (Kugundua Maarifa katika Maandishi - utafutaji au ugunduzi wa maarifa katika maandishi).

Tofauti na teknolojia ya Uchimbaji Data, ambayo inahusisha uchanganuzi wa habari iliyopangwa katika miundo fulani, teknolojia ya Uchimbaji wa Maandishi huchanganua safu kubwa na kubwa zaidi za habari zisizo na muundo.

Programu zinazotekeleza kazi hii lazima kwa namna fulani zifanye kazi kwa lugha asilia ya binadamu na wakati huo huo zielewe semantiki za matini iliyochanganuliwa. Mojawapo ya njia ambazo baadhi ya mifumo ya Uchimbaji Nakala inategemea ni kutafuta kinachojulikana kama kamba ndogo kwenye mfuatano.

Wito Madini

Kulingana na Ann Bednarz, uchimbaji madini unaweza kuwa zana maarufu katika mifumo ya habari ya biashara.

Teknolojia Wito Madini huchanganya utambuzi wa usemi, uchanganuzi wa usemi na Uchimbaji Data. Lengo lake ni kurahisisha utafutaji katika kumbukumbu za sauti zilizo na rekodi za mazungumzo kati ya waendeshaji na wateja. Kwa kutumia teknolojia hii, waendeshaji wanaweza kutambua mapungufu katika huduma kwa wateja, kutambua fursa za kuongeza mauzo, na kutambua mwelekeo katika mawasiliano ya wateja.

Miongoni mwa watengenezaji teknolojia mpya Piga Madini ("madini" na uchambuzi wa simu) - makampuni CallMiner, Nexidia, ScanSoft, Shahidi Systems. Teknolojia ya Wito Mining imeunda mbinu mbili - kulingana na ubadilishaji wa usemi-hadi-maandishi na kulingana na uchanganuzi wa kifonetiki.

Mfano wa utekelezaji wa mbinu ya kwanza, kulingana na ubadilishaji wa hotuba, ni mfumo wa CallMiner. Katika mchakato wa Uchimbaji wa Simu, mfumo wa ubadilishaji wa hotuba hutumiwa kwanza, ikifuatiwa na uchambuzi wake, wakati ambao, kulingana na maudhui ya mazungumzo, takwimu za simu zinazalishwa. Taarifa iliyopokelewa huhifadhiwa kwenye hifadhidata, ambayo inaweza kutafutwa, kurejeshwa na kuchakatwa.

Mfano wa utekelezaji wa mkabala wa pili - uchanganuzi wa kifonetiki - ni zao la Nexidia. Kwa mbinu hii, usemi hugawanywa katika fonimu, ambazo ni sauti au mchanganyiko wa sauti. Vipengele hivyo huunda vipande vinavyotambulika. Wakati wa kutafuta maneno fulani na michanganyiko yake, mfumo huyatambulisha kwa fonimu.

Wachambuzi wanaona kuwa katika miaka ya hivi karibuni, maslahi katika mifumo kulingana na Uchimbaji wa Simu imeongezeka kwa kiasi kikubwa. Hii inaelezewa na ukweli kwamba mameneja wakuu wa makampuni yanayofanya kazi katika nyanja mbalimbali, ikiwa ni pamoja na. katika uwanja wa fedha, mawasiliano ya simu, na biashara ya ndege, hawataki kutumia muda mwingi kusikiliza simu ili kufupisha habari au kutambua ukweli wowote wa ukiukaji.

Kulingana na Daniel Hong, mchambuzi katika Datamonitor: "Matumizi ya teknolojia hizi huongeza ufanisi na kupunguza gharama ya usindikaji wa habari."

Ufungaji wa kawaida wa bidhaa kutoka kwa msanidi wa Nexidia hugharimu kutoka dola elfu 100 hadi 300. Gharama ya kutekeleza mfumo wa ubadilishaji wa hotuba ya CallMiner na seti ya maombi ya uchambuzi ni karibu dola elfu 450.

Kulingana na Schoeller, Uchimbaji wa Sauti na Uchimbaji wa Video hatimaye utapata matumizi makubwa zaidi, kwa mfano, katika kuorodhesha video za elimu na mawasilisho katika maktaba ya vyombo vya habari vya kampuni. Hata hivyo, teknolojia za Uchimbaji wa Sauti na Uchimbaji wa Video sasa ziko katika kiwango cha juu, na matumizi yao ya vitendo yako katika hatua ya mapema sana.

Leo, masuala ya kuchambua taarifa zilizopangwa katika maeneo mbalimbali ya maombi, kulingana na maalum ya kazi, yametatuliwa na 90-100%. Kutoka kwa mtazamo wa teknolojia, hii inaweza kuelezewa kwa urahisi sana: zana za kisasa za uchambuzi hukuruhusu "kuona" data iliyohifadhiwa kwenye hifadhidata. Teknolojia zinazojulikana kwa watumiaji kama vile OLAP, BI na Uchimbaji Data, kulingana na mbinu maarufu, zinawakilishwa sana kwenye soko. usindikaji wa takwimu, utabiri na taswira.

Hali ya kinyume kabisa imeendelezwa na uchambuzi wa data isiyo na muundo, kwa maneno mengine, maandishi yaliyoandikwa kwa lugha ya asili ya kibinadamu. Matatizo yanayohusiana na otomatiki katika eneo hili bado hayajatatuliwa kwa watumiaji wengi. Wacha tuangalie mara moja kwamba tunapozungumza juu ya uchambuzi, tunamaanisha kila wakati kutafuta jibu la swali fulani la mtu fulani.

Kwa mfano, mchambuzi kutoka huduma ya usimamizi anauliza: "Ni benki gani za Kirusi ambazo ni hatari zaidi?" Katika fomu iliyorahisishwa, matokeo yanapaswa kuwa orodha ya benki iliyopangwa kwa kuegemea, iliyo na tathmini za hatari. Katika kesi ambapo habari iko kwenye hifadhidata, kila kitu ni wazi: unaweka zana ya uchambuzi ili kuuliza hifadhidata, ingiza fomula na "uulize" ili kuonyesha meza iliyopangwa kwa kiwango cha hatari. Lakini ugumu ni kwamba, kama sheria, habari hii haiko kwenye hifadhidata. Kwa namna moja au nyingine, iko kwenye mtandao na vyanzo vingine. Lakini jinsi ya kuiondoa kutoka kwa data isiyo na muundo, kwa mfano kutoka kwa ripoti za benki na nyaraka zingine zilizochapishwa kwenye mtandao?

Karibu watumiaji wote hufanya yafuatayo: wanaenda kwenye injini ya utafutaji, kwa mfano Yandex, ingiza swala - na ... Wanapokea maelfu na maelfu ya viungo ... Na sasa jambo la kuvutia zaidi: tunapiga sleeves zetu na bonyeza. kwenye viungo, angalia maandishi, chagua vipande muhimu kwa jina la benki, habari kuhusu huduma zake, mtaji ulioidhinishwa, faida, gharama na viashiria vingine muhimu, kulingana na mbinu au uelewa wetu, kutathmini hatari. Tunapakia data iliyopokelewa kwenye MS Excel, tumia fomula, kuchora grafu na hatimaye kupendeza matokeo yaliyopatikana kwa bidii na uaminifu.

Kuna mifano mingi inayofanana katika maisha ya kila siku na katika biashara. Wana jambo moja sawa - utaratibu unaohusishwa na utafutaji wa mikono na uchimbaji wa data. Hii yote inakumbusha sana picha ya migodi ya enzi za kati: maelfu ya watu walio na tar na koleo wanachimba kwenye mwamba mkaidi, wakichimba nafaka za madini muhimu. Inatokea kwamba kwa njia ya jinsi tunavyofanya kazi na habari zisizo na muundo, tuko katika Zama za Kati. Je, inawezekana leo kufanya kazi ngumu ya "wachimbaji" hawa?

Kama uchambuzi wa mazoezi ya Kirusi na nje unaonyesha, teknolojia kama hizo zipo. Hebu jaribu kuelewa jinsi wanaweza kuwa na manufaa kwa watumiaji na kutenganisha hadithi kutoka kwa ukweli.

Njia yetu: utafutaji, uchimbaji, uchambuzi

Kutoka kwa mfano uliorahisishwa hapo juu, inaweza kuonekana kuwa mchakato wa kupata matokeo ya mwisho (kujibu swali) unaweza kugawanywa katika awamu tatu. Kwanza tunatafuta nyaraka zinazofaa, kisha tunatoa data kutoka kwa kile kinachopatikana na hatimaye kuchambua. Ipasavyo, mbinu za kisasa zinaweza kugawanywa katika vikundi vitatu kulingana na kiwango cha otomatiki ya hatua mbali mbali za mchakato huu: utaftaji wa hati, uchimbaji wa habari, uchambuzi.

Wakati huo huo, mbinu inayotegemea tu otomatiki ya utaftaji inafanywa katika 90% ya visa, urejeshaji habari ni otomatiki katika takriban 10% ya suluhisho, na katika hali nadra tu. mifumo inayofanana kuchukua kazi ya uchambuzi. Ingawa ni zana za uchambuzi ambazo zinaeleweka zaidi kwa mtumiaji wa mwisho. Sababu za hali hii zitajadiliwa zaidi.

Utumiaji wa injini za utaftaji

Njia hii inamaanisha uwepo wa mfumo wa utaftaji katika biashara, ambayo hutumiwa kama zana kuu ya kufanya kazi na maandishi ambayo hayajaundwa.

Msimamizi au mchambuzi huingiza maneno muhimu, huchakata marejeleo, hupata hati, hukagua yaliyomo, huchagua taarifa inayohitajika, huipakia kwenye programu ya uchanganuzi au hifadhidata, na kutoa ripoti. Inajulikana kuwa tija ya kazi kama hiyo ni kati ya vifungu 400 hadi 1000 kwa siku, kulingana na uzoefu wa mchambuzi. Hii ni kazi ngumu, ikilinganishwa na kazi katika migodi iliyotajwa hapo juu. Mwanaume hapa ana shughuli nyingi zaidi shughuli za kawaida, na kwa hivyo hawezi kulipa kipaumbele sana kwa kazi ya kiakili ya kweli.

Faida kuu za njia hii ni dhahiri kabisa: zimeenea na zinapatikana kwa ujumla tafuta teknolojia. Hii ndiyo inayoitwa suluhisho la kubofya moja, ulipoandika neno kuu, ulisisitiza kifungo kimoja na ... Ongeza kwa hili tabia ya kufikiri kwamba hakuna mtu isipokuwa mtu anayeweza kukabiliana na usindikaji zaidi wa habari.

Kwa kuwa zana za utafutaji zimekuwa zikiendelea kwa muda mrefu na zimefikia hatua ya juu ya ukomavu, zinafanikiwa kabisa kujibu swali la wapi habari iko. Wanaweza kulinganishwa na dira ambayo inakuwezesha kuzunguka ulimwengu wa data isiyo na muundo. Watumiaji tayari wamezoea injini za utafutaji kwamba hakuna haja ya mafunzo yoyote maalum.

Hata hivyo, kama tunazungumzia kuhusu usindikaji wa kiasi kikubwa cha data, matumizi ya injini za utafutaji peke yake inakuwa haifai, kwani inahitaji rasilimali kubwa ya watu katika hatua za ukweli wa "madini" na uchambuzi wao.

Uchimbaji wa habari otomatiki

Mbinu hii inadhani uwepo wa zana ya kiteknolojia "ya hali ya juu" yenye uwezo wa kutoa vipengele muhimu kutoka kwa maandishi (Madini ya Maandishi). Kazi yake ni kwamba pembejeo ni maandishi yaliyoandikwa kwa lugha ya asili, na kwa pato mtumiaji hupokea taarifa iliyoombwa kwa fomu iliyopangwa. Miundo inaweza kuwakilisha vyombo rahisi (watu, mashirika, majina ya kijiografia) na yale changamano (ukweli ulio na tukio, washiriki wake, tarehe, vigezo vya kifedha, nk). Matukio yanaweza kuwa tofauti sana: matukio, shughuli, mahakama, nk Chombo hiki kinakuwezesha kukusanya moja kwa moja matokeo ya kazi yako katika mkusanyiko wa data ambayo tayari inafaa kwa uchambuzi.

Kuchambua seti kama hizo za data hakika ni rahisi na haraka kuliko matokeo ya injini ya utaftaji. Hata hivyo, hapa pia juhudi zinahitajika ili kuunganisha zana za Uchimbaji Nakala na vyanzo vya hati, injini za utafutaji na zana za uchanganuzi. Leo, wachuuzi wa zana za Uchimbaji Nakala hutoa bidhaa zao na uwezo wa kuunganishwa na vyanzo vya hati (zaidi ya rasilimali za Wavuti) na hifadhidata kupitia faili za XML. SDK pia imetolewa, matumizi ambayo yanahitaji maendeleo ya gharama kubwa zaidi. Lakini tatizo kuu la kutumia teknolojia hizi ni ugumu wa kuanzisha na kudumisha zana hizo. Hii ni kutokana na maalum ya isimu ya kompyuta, ambayo hufanya kazi kwa suala la sintaksia na semantiki. Kama sheria, watumiaji wa mwisho na watengenezaji wako mbali na mambo haya, na kwa sababu hiyo, uwezo wa zana kama hizo hutumiwa tu na 5-10%.

Hata hivyo, mtumiaji tayari ameondolewa haja ya kukagua mwenyewe maelfu ya hati na kuchagua maneno muhimu. Mfumo hufanya hivi kwa ajili yake. Uwezekano wa ziada wa uainishaji wa moja kwa moja na kulinganisha hati zinazofanana huonekana. Kwa kuongeza, programu yenyewe ina uwezo wa kutambua vipengele vya semantic vya maandishi, kwa mfano, ukweli, matukio, na kuwapeleka kwa usindikaji unaofuata.

Automation ya taratibu za uchambuzi

Katika hali rahisi, mtumiaji wa mwisho ana zana za uchambuzi kama vile MS Excel na MS Access, katika hali ya juu - BI na Uchimbaji wa Data. Katika maendeleo ya kibinafsi ya kibinafsi, ujuzi fulani unatekelezwa. Iwe hivyo, suluhisho dhahiri linajipendekeza: kuunda mlolongo wa kiteknolojia wa injini ya utaftaji - Uchimbaji wa maandishi - zana ya uchambuzi. Unaweza kuunganisha vipengele vya mlolongo maalum kupitia hifadhidata. Ili kuharakisha mchakato, kwa kweli, unahitaji aina fulani ya utaratibu ambao utaomba habari kutoka kwa injini ya utaftaji, skana hati yenyewe, gundua ukweli unaohitajika, uunde, uhifadhi kwenye hifadhidata na uripoti juu ya kazi iliyokamilishwa. Kisha mchambuzi atalazimika tu kufungua ripoti na kuchambua matokeo.

Uchimbaji wa maandishi - inafanyaje kazi?

Uchimbaji Nakala ni seti ya teknolojia na mbinu iliyoundwa ili kutoa habari kutoka kwa maandishi. Kusudi kuu ni kuwezesha mchambuzi kufanya kazi na idadi kubwa ya data ya chanzo kwa kuorodhesha mchakato wa uchimbaji taarifa muhimu. Hebu tutaje teknolojia kuu za Uchimbaji Nakala.

1. Uchimbaji wa Taarifa:

a) Kipengele (Entity) Uchimbaji - uchimbaji wa maneno au vikundi vya maneno ambayo, kutoka kwa mtazamo wa mtumiaji, ni muhimu kwa kuelezea yaliyomo kwenye hati. Hizi zinaweza kuwa marejeleo ya watu, mashirika, maeneo ya kijiografia, masharti ya eneo la mada, na maneno au vifungu vingine. Vyombo vilivyotolewa vinaweza pia kuwa vishazi muhimu zaidi vinavyobainisha hati kulingana na mada yake kuu;

b) Kipengele (Entity) Uchimbaji wa Chama - ngumu zaidi kutoka kwa mtazamo wa kiteknolojia. Aina mbalimbali za miunganisho hufuatiliwa kati ya huluki zilizotolewa. Kwa mfano, hata kama masomo yaliyochaguliwa yametajwa ndani hati tofauti, lakini kuwa na baadhi sifa za jumla(wakati, mahali, n.k.), mtu anaweza kusema kwa uhakika wa hali ya juu iwapo kuna uhusiano wowote kati yao au la;

c) Uhusiano, Tukio na Uchimbaji wa Ukweli - toleo ngumu zaidi la uchimbaji wa habari (Uchimbaji wa Habari), ambao unajumuisha uchimbaji wa vyombo, utambuzi wa ukweli na matukio, na uchimbaji wa habari kutoka kwa ukweli huu. Kwa mfano, mfumo unaweza kuhitimisha kuwa Ivan Petrov alinunua kampuni ya Pupkin and Co., hata ikiwa maandishi yana marejeleo ya moja kwa moja ya tukio hili. Injini ya utaftaji haina msaada hapa, kwani hotuba ya kawaida ya mwanadamu inajumuisha chaguzi nyingi za uwasilishaji. Kwa kutumia injini ya utafutaji pekee, itabidi tutambue ukweli huu kwa maneno yote muhimu yanayoutambulisha. Na teknolojia ya Uchimbaji wa Maandishi hufanya hivyo yenyewe, na kwa mujibu wa vikwazo vilivyoainishwa, inatofautisha ukweli ambao ni muhimu kwa kesi hiyo kutoka kwa wale ambao hawajaunganishwa nao kwa njia yoyote. Kwa mfano, ikiwa tunachambua shughuli za ununuzi na uuzaji wa kampuni, mfumo unaweza kuainisha ukweli "Mtu alinunua chupa ya vodka" na "Ivan Petrov alinunua kampuni ya Pupkin and Co." katika vikundi tofauti.

2. Muhtasari (abstracting otomatiki, annotation) - kujenga muhtasari wa hati kulingana na maandishi yake kamili.

3. Uainishaji (uainishaji, uainishaji) - kugawa hati au sehemu yake kwa aina moja au zaidi. Kategoria zinaweza kuamua "mwelekeo" wa maandishi - mada, aina, kihemko, tathmini.

4. Kuunganisha - kuchanganya hati katika vikundi kulingana na kufanana kwao.

Matatizo ya mbinu hii ni dhahiri na yanahusishwa na asili ya multicomponent ya suluhisho. Unahitaji kusakinisha injini ya utafutaji, chombo cha kutoa data kutoka kwa maandishi, zana za uchambuzi, na kwa kuongeza, fanya ushirikiano wote unaohusiana. Walakini, inaonekana kuwa hii ndio njia ambayo watoa suluhisho watachukua. watumiaji wa mwisho. Kuna sababu kadhaa za hii.

1. Zana za uchanganuzi, haswa BI na Uchimbaji Data, zinakuwa kiwango cha kawaida kote ulimwenguni, na wataalamu zaidi na zaidi wanazitegemea kama njia kuu za kuunda mazingira ya uchanganuzi. Pamoja na bidhaa za kibiashara za aina hii, ulimwengu wa rasilimali wazi unakua (miradi ya Pentaho na Eclipse), inayopatikana kwa hadhira kubwa ya watumiaji.

2. Teknolojia za Uchimbaji wa Maandishi, ikijumuisha zana za ujumuishaji na vyanzo vya habari na zana za uchanganuzi, pia zinauzwa (zinatolewa na makampuni kama vile Clarabridge, Nstein Technologies, Attensity).

3. Nyanja za kisayansi zenyewe pia zinaendelea - isimu ya kimahesabu, mbinu za uchanganuzi wa maandishi. Washauri wameonekana ambao eneo kuu la shughuli ni pamoja na kutatua shida kama hizo. Ushiriki wa wataalam hawa hufanya miradi ya aina hii kuwa ya ufanisi sana.

Bila kuangalia mbali sana kwa mifano...

Hebu tupe mifano kadhaa ya kazi ya mchanganyiko wa kiteknolojia wa utafutaji - uchimbaji - uchambuzi wa habari zisizo na muundo, kutekelezwa na kampuni yetu kulingana na jukwaa la Clarabridge. Kumbuka kwamba zinaonyesha sehemu tu ya uwezo wa aina hii ya zana. Utendaji wa suluhisho inaweza kuwa pana zaidi.

Mfumo, uliojengwa juu ya kanuni ya kiungo cha teknolojia, inakuwezesha kukusanya aina mbalimbali za ratings na utabiri kulingana na taarifa zilizomo katika vyanzo vya wazi na vya ushirika. Kwa hivyo, wakati wa kuhesabu rating ya kutajwa kwa bidhaa za magari katika habari iliyochapishwa kwenye tovuti ya Yandex, mfumo ulipata viungo, ukweli uliotolewa, ulibainisha uhusiano kati yao, ulitengeneza taarifa zilizopokelewa na kuchambua (tazama Mchoro 1). Kwa kuwa mchakato huo ni wa kiotomatiki, mtumiaji hupokea mara moja bidhaa ya habari iliyotengenezwa tayari ambayo inamruhusu kuhukumu ni sifa gani chanya (hasi) zinazohusishwa na kila chapa iliyowasilishwa na jinsi maoni ya wateja yanabadilika kwa wakati. Ikiwa unabonyeza sehemu moja au nyingine ya grafu - kwa mfano, kuonyesha kushuka kwa rating ya BMW - mfumo utakuambia sababu za kushuka huku (katika kesi hii, sababu ilikuwa kukumbuka kwa magari kutoka soko).

chapa katika vyanzo vya habari mtandaoni

Kwa kuongezea, mifumo ya teknolojia kama Clarabridge inaweza kutumika kutambua "sauti ya mteja" au "pumzi ya soko" - uchambuzi wa mawasiliano, maelezo ya kituo cha simu, makala za habari kwenye vyombo vya habari na mtandao, maoni ya wateja kwenye vikao vya mtandao na blogu. Wakati huo huo, taarifa kutoka kwa nyaraka zisizo na muundo zimeunganishwa na data kutoka kwa mifumo ya CRM na vyanzo vingine.

Rejea ya kihistoria

Mwanzo wa maendeleo ya teknolojia ya Uchimbaji wa maandishi inaweza kuzingatiwa enzi ya utawala wa Rais wa Merika Richard Nixon (1969-1974). Kisha makumi ya mamilioni ya dola yalitengwa kwa ajili ya maendeleo ya maeneo ya kisayansi kuhusiana na automatisering ya tafsiri. Hii ilitokea wakati wa enzi ya Vita Baridi, wakati, haswa, kazi ya tafsiri ya kompyuta kutoka Kirusi hadi Kiingereza ya hati anuwai, kutoka kwa ripoti za kisayansi hadi. nyaraka za kiufundi. Haishangazi kwamba mradi huu ulifungwa.

Wakati huo huo, uwanja mpya wa maarifa ulionekana - Usindikaji wa Lugha ya Asili (NLP), inayoitwa isimu ya kompyuta nchini Urusi. Katika miaka ya 90, sio ripoti tu na mikutano ya kisayansi, lakini pia misimbo ya programu, ambayo ilifanya iwezekane kuhusisha jumuiya pana ya kimataifa ya kisayansi katika maendeleo. Wanasayansi wanaofanya kazi zaidi katika eneo hili ni USA, Great Britain, Ufaransa na Ujerumani.

Katika nchi yetu, maendeleo ya isimu ya kompyuta yalikuwa na maelezo yake mwenyewe. Ilikua hasa kwa maslahi ya makampuni ya ulinzi na huduma za usalama na haikulenga kutatua matatizo mahususi ya biashara. Ukosefu wa ufadhili uliolengwa kwa eneo hili katika miaka ya hivi karibuni pia umekuwa na athari. Walakini, maendeleo ya haraka ya vyombo vya habari na Mtandao huzalisha mahitaji kutoka kwa huduma za shirikisho na kutoka kwa mashirika ya kibiashara (kwa mfano, akili ya ushindani).

Kwa hivyo, kwa uchanganuzi wa kulinganisha wa umaarufu wa ushuru wa waendeshaji wa rununu zilizojadiliwa kwenye vikao vya mtandao, mfumo ulichambua mabaraza na blogi zaidi ya 20, ukatoa ukweli kwa mujibu wa waainishaji na vikomo vilivyoanzishwa. uchambuzi wa kulinganisha na kuwasilisha data katika fomu inayofaa kwa kufanya maamuzi (tazama Mchoro 2).

Mchele. 2. Mwelekeo wa kutaja ushuru

Uchambuzi wa mwenendo katika majadiliano ya ushuru mbalimbali inakuwezesha kuona maendeleo ya umaarufu wao na sababu za nyuma ya hili, pamoja na mfano na kutabiri uendelezaji wa ushuru mpya. Wakati huo huo, viashiria fulani vinaweza kuelezewa kwa kina hadi kiwango cha maandishi ya chanzo, ambayo inafanya uwezekano wa kukagua habari ili kuthibitisha uaminifu wa data na usahihi wa mipangilio ya mfumo.

hitimisho

Kutokana na hali ya kufikiri, hadhira ya watu wengi haina imani na ukweli kwamba mashine inaweza kufanya kazi na dhana ya ukweli, matukio, watu, mashirika, nk. Kimsingi, hii ndiyo inatulazimisha kuachana na teknolojia ya Uchimbaji wa Maandishi na kujipakia. usindikaji wa mwongozo wa matokeo ya utafutaji. Kuna, bila shaka, matatizo ya lengo. Nakala Mbinu za uchimbaji wa madini lazima zibadilishwe kulingana na eneo la somo, ambalo mara nyingi linahitaji muda na rasilimali nyinginezo. Baadhi ya aina za maandishi (kwa mfano, uongo, kitaalamu na misimu mingine) ni vigumu kuchakata kwa mashine.

Wakati huo huo, teknolojia za kupata habari kutoka kwa maandishi ambayo hayajaandaliwa (Uchimbaji wa Maandishi) tayari zinatumika katika mazoezi leo. Baada ya muda, matumizi yao yatapanuka tu, kwa kuwa wingi wa habari zinazopatikana na muhimu zinakua kila siku, na haja ya uchambuzi wao bado haijaridhika.

Iliyoundwa kwa kuzingatia uchanganuzi wa takwimu na lugha, pamoja na mbinu za akili za bandia, teknolojia za Uchimbaji wa Maandishi zimeundwa kufanya uchanganuzi, kutoa urambazaji na kutafuta katika maandishi ambayo hayajaundwa. Kwa kutumia mifumo ya darasa la Uchimbaji Nakala, watumiaji hupata maarifa mapya.

Teknolojia ya Uchimbaji Nakala - seti ya mbinu iliyoundwa kupata habari kutoka kwa maandishi kulingana na ICT ya kisasa, ambayo inafanya uwezekano wa kutambua mifumo ambayo inaweza kusababisha habari muhimu na ujuzi mpya kwa watumiaji.

Ni chombo kinachotoa uwezo wa kuchanganua wingi wa taarifa katika kutafuta mienendo, mifumo na mahusiano ambayo yanaweza kusaidia kufanya maamuzi ya kimkakati.

Ikumbukwe kwamba teknolojia ya uchanganuzi wa maandishi ilitanguliwa kihistoria na uundaji wa teknolojia ya uchambuzi wa data, mbinu na mbinu ambazo pia hutumiwa sana katika mbinu za Uchimbaji wa Maandishi, kwa mfano, uainishaji au mbinu za kuunganisha. Vipengele vipya vimeonekana katika Uchimbaji wa Maandishi: uondoaji kiotomatiki wa maandishi na utambuzi wa matukio, ambayo ni, dhana na ukweli. Uwezo wa mifumo ya kisasa ya Uchimbaji Nakala inaweza kutumika katika mifumo ya usimamizi wa maarifa ili kutambua ruwaza katika maandishi, kusambaza taarifa kati ya wasifu, na kuunda hakiki za hati. Uchimbaji wa Maandishi hutoa kiwango kipya cha utafutaji wa hati za kisemantiki.

Sehemu muhimu ya teknolojia ya Uchimbaji Nakala inahusishwa na kutoa sifa zake bainifu kutoka kwa maandishi, ambayo hutumika kama maneno muhimu na maelezo. Kazi nyingine muhimu ni kupeana hati kwa kategoria fulani kutoka kwa mpango fulani wa utaratibu. Lengo kuu la Uchimbaji Nakala ni

kumpa mchambuzi fursa ya kufanya kazi na kiasi kikubwa cha data ya chanzo kwa automatiska mchakato wa kupata taarifa muhimu.

Vipengele vya msingi vya Uchimbaji wa maandishi:

1) kupata matukio - Kipengele (Chombo) - kutoa maneno au vikundi vya maneno ambayo, kutoka kwa mtazamo wa mtumiaji, ni muhimu kwa kuelezea maudhui ya hati. Hii inaweza kuwa habari kuhusu mtu, shirika, maeneo ya kijiografia, istilahi au vifungu vingine - Uchimbaji wa Chama (Huluki) - seti changamano zaidi za maneno kutoka kwa mtazamo wa kiteknolojia;

2) muhtasari wa kiotomatiki, maelezo (Muhtasari)

Kuunda muhtasari wa hati na maandishi yake kamili;

3) uainishaji (Uainishaji), ambao hutumia uwiano wa takwimu ili kujenga sheria za kuweka nyaraka katika makundi yaliyotolewa;

4) kuunganisha, ambayo inategemea sifa za nyaraka, hutumia mbinu za lugha na hisabati bila kutumia makundi yaliyotolewa;

5) kujibu maswali (majibu ya maswali);

6) indexing mada;

7) tafuta kwa maneno;

8) ujenzi wa mipaka ya semantic au uchambuzi wa uhusiano (Uhusiano, Tukio na Uchimbaji wa Ukweli), ambayo huamua kuonekana kwa maelezo (misemo muhimu) katika hati ili kuhakikisha utafutaji na urambazaji. Hii ndio chaguo ngumu zaidi ya kupata habari, ambayo ni pamoja na kutoa kiini, kutambua ukweli na matukio, na pia kutoa habari kutoka kwa ukweli huu. Kupata ukweli

Huu ni uchimbaji wa ukweli fulani kutoka kwa maandishi ili kuboresha uainishaji, utafutaji na uunganishaji.

Kwa mbinu za uainishaji, mbinu za akili kwa sasa hutumiwa kuboresha mchakato wa uainishaji. Uainishaji hutumiwa, kwa mfano, kutatua matatizo kama vile kuweka nyaraka katika makundi katika mitandao ya biashara, kwenye tovuti, na kupanga ujumbe wa barua pepe.

Kuunganisha hutumiwa sana wakati wa kuchukua safu kubwa za habari au kutambua vikundi vinavyohusiana vya hati, na pia kurahisisha mchakato wa kuvinjari wakati wa kutafuta habari muhimu, kupata hati za kipekee kutoka kwa mkusanyiko, kutambua nakala au hati ambazo zinafanana sana katika yaliyomo. .

Kuna aina mbili kuu za nguzo: hierarchical na binary. Nguzo ya hierarchical inajumuisha kujenga mti wa makundi, ambayo kila moja ina kikundi kidogo cha nyaraka. Nguzo binary hutoa kambi na kuangalia ya makundi ya hati kulingana na kufanana. Nyaraka zilizo na mali zinazofanana zimewekwa kwenye nguzo moja. Mchakato wa kuunganisha hujenga msingi wa viungo kutoka hati hadi hati, ambayo inategemea uzito na ushiriki wa maneno muhimu.

Moja ya matumizi muhimu ya Uchimbaji wa maandishi hukuruhusu kutabiri maadili ya wengine kulingana na maadili ya sifa fulani za kitu. Kutafuta vighairi (kutafuta vitu ambavyo vinatofautiana kutoka kwa picha ya jumla na sifa zao) pia ni eneo muhimu la utafiti wa Uchimbaji wa Maandishi.

Kazi ya kutafuta vipengele vinavyohusiana (dhana) za nyaraka za kibinafsi ni sawa na kuunganisha, lakini inafanywa kwa kutumia seti fulani ya vipengele vya sifa.

Mifumo ya kisasa ya darasa la Uchimbaji Nakala inaweza kuchambua safu kubwa za hati na kutoa faharasa za mada za dhana na mada zilizojumuishwa katika hati hizi.

Tangu miaka ya 60, pamoja na ujio wa zana otomatiki na maandishi katika katika muundo wa kielektroniki, uchambuzi wa maudhui ya wingi wa habari umeandaliwa. Uchimbaji Data, kwa mtazamo wa uchanganuzi wa maudhui, unaeleweka kama njia ya kutambua maarifa mapya katika mkondo wa data, kama vile modeli, miundo, miungano, mabadiliko, hitilafu na miundo mipya ya kimuundo.

Uchambuzi wa maudhui - hii ni ubora-idadi, usindikaji wa utaratibu, tathmini na tafsiri ya fomu na maudhui ya maandishi.

Hivi sasa, mbinu kadhaa hutumiwa kuwasilisha Taarifa katika hifadhidata ili kuwezesha urejeshaji zaidi wa taarifa hii. Mbinu za kawaida ni mifano ya utafutaji ya Boolean na vector-space.

Muundo wa Boolean unatokana na nadharia iliyowekwa, na kwa hivyo ni muundo wa urejeshaji habari kulingana na mantiki ya hisabati. Siku hizi ni maarufu kuchanganya Boolean na mfano wa vekta-spatial wa aljebra ya uwakilishi wa data, ambayo hutoa, kwa upande mmoja, utafutaji wa haraka kwa kutumia waendeshaji wa mantiki ya hisabati, na kwa upande mwingine, cheo cha hati kulingana na uzito wa maneno muhimu.

Wakati wa kutumia mfano wa Boolean, hifadhidata inajumuisha faharasa, iliyopangwa kama safu ya data iliyogeuzwa, ambayo, kwa kila neno kutoka kwa kamusi ya hifadhidata, ina orodha ya hati ambayo neno hili linatokea.

Faharasa inaweza pia kuhifadhi marudio ya utokeaji wa neno hili katika kila hati, ambayo husaidia kupanga orodha katika mpangilio wa utokeaji.

Mifumo inayojulikana zaidi ya kupata taarifa na mifumo ya uainishaji wa taarifa inategemea matumizi ya kielelezo cha maelezo ya data ya vekta (Vector Space Model). Mfano wa vector ni mtindo wa classic algebra. Ndani ya mfumo wa mfano huu, hati inaelezewa na vector katika nafasi ya Euclidean, ambayo katika kila hati neno linahusishwa na mgawo wake wa uzito, ambayo imedhamiriwa kwa misingi ya taarifa za takwimu kuhusu tukio lake katika hati tofauti au katika safu ya hali halisi. Maelezo ya swali linalolingana na mada fulani pia ni vekta katika nafasi sawa ya neno la Euclidean. Ili kutathmini ukaribu wa swala na hati, bidhaa ya scalar ya mada inayolingana na vekta za maelezo ya hati hutumiwa.

Mfano wa uwakilishi wa data wa vector-spatial hutoa mifumo moja kwa moja na uwezo wafuatayo: usindikaji wa maswali makubwa; utekelezaji rahisi wa hali ya utafutaji kwa nyaraka zinazofanana na zile zilizopatikana; kuhifadhi matokeo ya utafutaji katika safu ya taarifa na utafutaji unaofuata wa kufafanua.

Katika mazoezi, hata hivyo, mbinu za pamoja hutumiwa mara nyingi, ambazo huchanganya uwezo wa mifano ya Boolean na vector-spatial na kuongeza mbinu za awali za usindikaji wa habari za semantic. Mara nyingi, katika mifumo ya kurejesha habari, utaratibu wa utafutaji unafanywa kwa mujibu wa mfano wa Boolean, na matokeo yanapangwa kwa uzito kulingana na mfano wa nafasi ya vector.

Hivi sasa, kuna watengenezaji wengi wa programu ambao hutoa bidhaa na suluhisho zao katika uwanja wa Uchimbaji wa maandishi.

Hii ni mifumo inayoweza kupanuka ambayo hutekeleza algoriti mbalimbali za hisabati na lugha kwa ajili ya kuchanganua data ya maandishi na kuwa na miingiliano rafiki ya kielelezo, taswira na uwezo wa kudanganya data, kutoa ufikiaji wa vyanzo mbalimbali vya data na kufanya kazi katika usanifu wa seva ya mteja. Kwa mfano, Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp.), Oracle Text (Oracle), Seva ya Maarifa (Autonomy), GALAKTIKA-ZOOM, InfoStream (ElVisti).

Mifumo ya kisasa ya kurejesha habari inafafanuliwa kwa kuzingatia mielekeo miwili kuu: usindikaji wa maarifa na matumizi ya mifumo iliyo wazi. Ilikuwa katika makutano ya maeneo haya ambapo teknolojia za wakala ziliibuka. Maendeleo ya kazi ya mbinu na teknolojia ya akili ya bandia iliyosambazwa, maendeleo katika uwanja wa vifaa na programu inayounga mkono dhana ya kujitenga na uwazi imesababisha maendeleo ya mifumo ya wakala mbalimbali ambayo mawakala wa programu hutatua matatizo magumu katika nafasi ya habari.

Uwezo mawakala wa programu kupanga na kuratibu vitendo vyao kwa uhuru, kujadiliana na wengine maombi yaliyosambazwa katika mazingira changamano ya habari tofauti tofauti, kufanya maamuzi kwa urahisi na kwa akili katika hali zinazobadilika na zisizotabirika husababisha ukweli kwamba teknolojia zinazotegemea wakala huwa moja ya teknolojia muhimu za usindikaji wa habari.

Sidhani nitakuwa nikigundua Amerika ikiwa nikisema kuwa sio habari zote zinazofaa kwa usawa. Wakati mwingine unahitaji kuandika maandishi mengi ili kuelezea dhana, na wakati mwingine unahitaji tu kuangalia mchoro rahisi kuelezea masuala magumu. Ili kupunguza upungufu wa habari, zilivumbuliwa fomula za hisabati, michoro, alama, msimbo wa programu na kadhalika. Kwa kuongeza, sio tu habari yenyewe ambayo ni muhimu, lakini pia uwasilishaji wake. Ni wazi kwamba nukuu za hisa zinaweza kuonyeshwa kwa uwazi zaidi kwa kutumia grafu, na fomula za hisabati zitaelezea sheria za Newton kwa njia fupi zaidi.

Katika mchakato wa maendeleo ya teknolojia ya habari, pamoja na mifumo ya kukusanya na kuhifadhi data - hifadhidata, ghala la data, na hivi karibuni zaidi, hazina za wingu, shida ya kuchambua idadi kubwa ya data imetokea wakati mchambuzi au meneja hawezi kufanya kazi kwa mikono. kuchakata kiasi kikubwa cha data na kufanya maamuzi. Ni wazi kwamba mchambuzi anahitaji kwa namna fulani kuwasilisha taarifa ya awali katika fomu ya kuunganishwa zaidi ambayo ubongo wa binadamu unaweza kushughulikia kwa wakati unaokubalika.

Wacha tuangazie viwango kadhaa vya habari:

  • data chanzo (data mbichi, data ya kihistoria, au data tu) - seti mbichi za data zilizopatikana kama matokeo ya uchunguzi fulani. mfumo wa nguvu au kitu na kuonyesha hali yake katika pointi maalum kwa wakati (kwa mfano, data juu ya quotes ya hisa katika mwaka uliopita);
  • habari - data iliyochakatwa ambayo hubeba baadhi thamani ya habari kwa mtumiaji; data mbichi iliyowasilishwa kwa fomu ngumu zaidi (kwa mfano, matokeo ya utaftaji);
  • ujuzi - hubeba ujuzi fulani, huonyesha uhusiano uliofichwa kati ya vitu ambavyo hazipatikani kwa umma (vinginevyo, itakuwa habari tu); data kutoka entropy ya juu(au kipimo cha kutokuwa na uhakika).
Hebu tuangalie mfano. Wacha tuseme tuna data fulani juu ya shughuli za sarafu kwenye soko la Forex kwa muda fulani. Data hii inaweza kuhifadhiwa katika fomu ya maandishi, katika Umbizo la XML, katika hifadhidata au kwa njia ya binary na peke yao haibebi mzigo wowote muhimu wa semantic. Halafu, mchambuzi hupakia data hii, kwa mfano, kwenye Excel na hujenga grafu ya mabadiliko, na hivyo kupata taarifa. Kisha hupakia data (kikamilifu au sehemu ya kusindika katika Excel), kwa mfano, kwenye Seva ya Microsoft SQL na, kwa kutumia Huduma za Uchambuzi, hupata ujuzi kwamba ni bora kuuza hisa kesho. Mchambuzi basi anaweza kutumia maarifa ambayo tayari yamepatikana kufanya makadirio mapya, na hivyo kupata maoni katika mchakato wa habari.

Hakuna mipaka iliyo wazi kati ya viwango, lakini uainishaji kama huo utaturuhusu kuzuia kuchanganyikiwa na istilahi katika siku zijazo.

Uchimbaji Data

Kihistoria, neno Uchimbaji Data lina chaguo kadhaa za tafsiri (na maana):
  • uchimbaji wa data, ukusanyaji wa data, uchimbaji wa data (pia hutumia Urejeshaji Taarifa au IR);
  • uchimbaji wa maarifa, uchimbaji data (Ugunduzi wa Data ya Maarifa au KDD, Ujasusi wa Biashara).
IR hufanya kazi na viwango viwili vya kwanza vya habari, kwa mtiririko huo, KDD inafanya kazi na kiwango cha tatu. Ikiwa tunazungumzia kuhusu mbinu za utekelezaji, chaguo la kwanza linahusu eneo la maombi, ambapo lengo kuu ni data yenyewe, pili ni hisabati na uchambuzi, ambapo ni muhimu kupata ujuzi mpya kutoka kwa kiasi kikubwa cha data zilizopo. Mara nyingi, uchimbaji wa data (mkusanyiko) ni hatua ya maandalizi kutoa maarifa (uchambuzi).

Ninathubutu kutambulisha muhula mwingine kwa hoja ya kwanza - Kuchimba Data, ambayo nitatumia katika siku zijazo.

Matatizo yametatuliwa na Uchimbaji Data:

  1. Uainishaji ni mgawo wa vekta ya pembejeo (kitu, tukio, uchunguzi) kwa mojawapo ya madarasa yaliyojulikana hapo awali.
  2. Kuunganisha ni mgawanyiko wa seti ya vekta za pembejeo katika vikundi (vikundi) kulingana na kiwango cha "kufanana" kwa kila mmoja.
  3. Kupunguza maelezo - kuibua data, kurahisisha hesabu na tafsiri, kubana kiasi cha habari iliyokusanywa na kuhifadhiwa.
  4. Chama - kutafuta mifumo ya kurudia. Kwa mfano, kutafuta "miunganisho endelevu kwenye rukwama ya ununuzi."
  5. Utabiri - kutafuta hali za siku zijazo za kitu kulingana na majimbo ya zamani (data ya kihistoria)
  6. Uchambuzi wa kupotoka - kwa mfano, kutambua atypical shughuli za mtandao hukuruhusu kugundua programu hasidi.
  7. Taswira ya data.

Urejeshaji wa habari

Urejeshaji wa taarifa hutumiwa kupata data iliyopangwa au sampuli wakilishi ya ukubwa mdogo. Kulingana na uainishaji wetu, urejeshaji wa habari hufanya kazi kwenye data ya kiwango cha kwanza na, kwa sababu hiyo, hutoa habari ya kiwango cha pili.

wengi zaidi mfano rahisi urejeshaji wa habari ni injini ya utaftaji ambayo, kulingana na algorithms fulani, inachukua sehemu ya habari kutoka kwa seti kamili ya hati. Kwa kuongeza, mfumo wowote unaofanya kazi na data ya majaribio, maelezo ya kina au hifadhidata kwa njia moja au nyingine hutumia zana za kurejesha taarifa. Zana zinaweza kuwa njia za kuorodhesha, kuchuja, kupanga data, vichanganuzi, nk.

Uchimbaji wa maandishi

Majina mengine: maandishi uchimbaji wa data, uchambuzi wa maandishi, dhana ya karibu sana ni ya madini.

Uchimbaji wa maandishi unaweza kufanya kazi na data mbichi na data iliyochakatwa kwa sehemu, lakini tofauti na urejeshaji wa habari, uchimbaji wa maandishi huchambua habari ya maandishi kwa kutumia mbinu za hisabati, ambayo hukuruhusu kupata matokeo na mambo ya maarifa.

Majukumu ambayo uchimbaji wa maandishi hutatua ni: kutafuta ruwaza za data, kupata taarifa zilizopangwa, madaraja ya vitu vya ujenzi, kuainisha na kuunganisha data, kubainisha mada au maeneo ya maarifa, uondoaji wa hati kiotomatiki, kazi za kuchuja maudhui kiotomatiki, kutambua uhusiano wa kimaana na mengine.

Ili kutatua shida za uchimbaji wa maandishi hutumia mbinu za takwimu, ukalimani, ukadiriaji na mbinu za ziada, mbinu zisizoeleweka, mbinu za uchanganuzi wa maudhui.

Uchimbaji madini

Na hatimaye, tulifika kwenye uchimbaji madini - seti ya mbinu na mbinu za kupata data kutoka kwa rasilimali za wavuti.
Kwa kuwa vyanzo vya wavuti kawaida sio data ya maandishi, njia za mchakato wa uchimbaji wa data ni tofauti katika kesi hii. Kwanza kabisa, unahitaji kukumbuka kuwa habari kwenye wavuti huhifadhiwa katika mfumo wa lugha maalum ya alama ya HTML (ingawa kuna muundo mwingine - RSS, Atom, SOAP, lakini tutazungumza juu yake baadaye), kurasa za wavuti zinaweza kuwa na maelezo ya ziada ya meta, pamoja na taarifa kuhusu muundo (semantics) ya hati, kila hati ya wavuti iko ndani ya kikoa fulani na sheria za utaftaji wa injini ya utaftaji (SEO) zinaweza kutumika kwake.

Hili ni nakala ya kwanza katika safu inayojitolea kwa uchimbaji wa data / uchimbaji / uchimbaji wa wavuti. Mapendekezo na ukosoaji unaofikiriwa unakubaliwa.