Teabe süntaktiline mõõt. Info mõõtmise semantiline viis: olemus, põhimõisted ja omadused. Numbrilise teabe kodeerimine

Rakendamisel teabeprotsessid Alati toimub teabe ülekanne ruumis ja ajas teabeallikast vastuvõtjale (vastuvõtjale). Sel juhul kasutatakse teabe edastamiseks erinevaid märke või sümboleid, näiteks loomulikku või tehislikku (formaalset) keelt, mis võimaldab seda väljendada mingil kujul, mida nimetatakse sõnumiks.

Sõnum– edastamiseks kasutatav teabe esitusviis märkide (sümbolite) kogumi kujul.

Sõnum kui märkide kogum semiootika seisukohalt ( kreeka keelest setneion - märk, märk) – teadus, mis uurib märkide ja märgisüsteemide omadusi – saab õppida kolmel tasandil:

1) süntaktiline , kus vaadeldakse sõnumite sisemisi omadusi ehk märkide vahelisi seoseid, mis peegeldavad antud märgisüsteemi struktuuri. Välised omadused uuritud semantilisel ja pragmaatilisel tasandil. Sellel tasemel käsitavad nad sõnumite adressaadini toimetamise probleeme tähemärkide kogumina, võttes arvesse teabekandja tüüpi ja teabe esitamise meetodit, edastamise ja töötlemise kiirust, teabe esituskoodide suurust, usaldusväärsust ja teabe esitamise viisi. nende koodide teisendamise täpsus jne, mis on täielikult abstraheeritud sõnumite semantilisest sisust ja nende sihtotstarbest. Sellel tasemel nimetatakse teavet, mida vaadeldakse ainult süntaktilisest vaatenurgast, tavaliselt andmeteks, kuna semantiline pool ei oma tähtsust.

Kaasaegne infoteooria uurib peamiselt sellel tasemel probleeme. See tugineb mõistele "teabe hulk", mis on märkide kasutamise sageduse mõõt, mis ei kajasta mingil viisil edastatavate sõnumite tähendust ega tähtsust. Sellega seoses öeldakse vahel, et kaasaegne infoteooria on süntaktilisel tasemel.

2) semantiline , kus analüüsitakse seoseid märkide ja nendega tähistatavate objektide, tegevuste ja omaduste vahel, st sõnumi semantilist sisu, selle seost teabeallikaga. Semantilise tasandi probleemid on seotud formaliseerimise ja tähenduse arvestamisega edastatud teave, millega määratakse objekti kujutise ja objekti enda vaheline vastavusaste. Peal see tase analüüsitakse informatsiooni, mida informatsioon peegeldab, uuritakse semantilisi seoseid, kujundatakse mõisteid ja ideid, selgitatakse välja teabe tähendus ja sisu ning teostatakse selle üldistamine.

3) pragmaatiline , kus vaadeldakse sõnumi ja saaja vahelist suhet ehk sõnumi tarbijasisu, selle suhet adressaadiga.

Sellel tasandil pakuvad huvi tarbijapoolse teabe saamise ja kasutamise tagajärjed. Selle tasandi probleemid on seotud teabe kasutamise väärtuse ja kasulikkuse kindlaksmääramisega, kui tarbija töötab välja lahenduse oma eesmärgi saavutamiseks. Peamine raskus seisneb siin selles, et teabe väärtus ja kasulikkus võivad erinevatele adressaatidele olla täiesti erinevad ning lisaks sõltub see mitmetest teguritest, nagu näiteks selle edastamise ja kasutamise õigeaegsus.


Iga eespool käsitletud teabeedastusprobleemi tasandi jaoks on teabehulga mõõtmiseks ja teabe mõõtmiseks erinevad lähenemisviisid. Informatsiooni mõõdikud on vastavalt süntaktilisel, semantilisel ja pragmaatilisel tasemel.

Süntaktilise tasandi informatsiooni mõõdud. Kvantifikatsioon informatsioon sellel tasemel ei ole seotud info sisupoolega, vaid opereerib umbisikulise informatsiooniga, mis ei väljenda semantilist seost objektiga. Selle tõttu see meede võimaldab hinnata infovooge objektides, mis on oma olemuselt nii erinevad kui sidesüsteemid, arvutusmasinad, juhtimissüsteemid, elusorganismi närvisüsteem jne.

Teabe mõõtmiseks süntaktilisel tasemel võetakse kasutusele kaks parameetrit: teabe (andmete) hulk - V d(mahupõhine lähenemine) ja teabe hulk – I(entroopia lähenemine).

Teabe maht V d (mahuline lähenemine). Infoprotsesside rakendamisel edastatakse teave sõnumi kujul, mis on tähestiku sümbolite kogum. Veelgi enam, iga uus märk sõnumis suurendab märgijadaga esindatava teabe hulka sellest tähestikust. Kui nüüd võtta ühest tähemärgist koosnevas sõnumis sisalduva teabe hulk üheks, siis mis tahes muu sõnumi teabe (andmete) maht V d võrdub selle sõnumi märkide (bittide) arvuga. Kuna sama teavet võivad esindada paljud erinevatel viisidel(kasutades erinevaid tähestikke), siis muutub vastavalt ka info (andmete) mõõtühik.

Niisiis, sisse kümnendsüsteem tähistuses on ühe numbri kaal 10 ja vastavalt sellele on teabe mõõtühik dit (kümnendkoht P P dit. Näiteks neljakohalise numbri 2009 andmemaht on V d = 4 dit.

IN kahendsüsteem tähistuses on ühe numbri kaal 2 ja vastavalt sellele on teabe mõõtühik natuke (bitt (kahendnumber) – kahendnumber). Sel juhul sõnum vormis n-kohalisel arvul on andmemaht V d = P natuke. Näiteks kaheksabitise kahendkoodi 11001011 andmemaht on V d = 8 bitti.

Kaasaegses arvutustehnikas koos minimaalne ühik andmete mõõtmised natuke laialdaselt kasutatakse suurendatud mõõtühikut bait, võrdne 8 bitiga. Arvuti klaviatuuri tähestiku 256 tähemärgi kodeerimiseks (256 = 2 8) on vaja täpselt kaheksat bitti.

Töötades koos suured mahud selle koguse arvutamiseks kasutatakse rohkem teavet suured üksused mõõdud:

1 kilobait (KB) = 1024 baiti = 210 baiti,

1 megabait (MB) = 1024 KB = 2 20 baiti = 1 048 576 baiti;

1 gigabait (GB) = 1024 MB = 2 30 baiti = 1 073 741 824 baiti;

IN Hiljuti Seoses töödeldava teabe mahu suurenemisega on kasutusele võetud sellised tuletatud ühikud nagu:

1 terabait (TB) = 1024 GB = 2 40 baiti = 1 099 511 627 776 baiti;

1 petabait (PB) = 1024 TB = 2 50 baiti = 1 125 899 906 842 624 baiti.

Tuleb märkida, et binaarses (arvuti) teabe mõõtmise süsteemis saadakse erinevalt meetermõõdustikust ühikud eesliidetega "kilo", "mega" jne, korrutades põhiühiku mitte arvuga 10 3 = 1000, 10 6 = 1 000 000 jne ja 2 10 puhul = 1024, 2 20 = 1 048 576 jne.

Infohulk I (entroopia lähenemine). Info- ja kodeerimise teoorias kasutatakse teabe mõõtmisel entroopiapõhist lähenemist. Selline lähenemine põhineb asjaolul, et teabe hankimise fakt on alati seotud süsteemi mitmekesisuse või määramatuse (entroopia) vähenemisega. Selle põhjal sõnumis sisalduva teabe hulk on defineeritud kui meede, mis vähendab teatud süsteemi oleku määramatust pärast sõnumi saamist. Ebakindlust saab tõlgendada selle järgi, kui vähe vaatleja antud süsteemist teab. Kui vaatleja on füüsilises süsteemis midagi tuvastanud, väheneb süsteemi entroopia, kuna vaatleja jaoks on süsteem muutunud korrapärasemaks.

Seega entroopia lähenemisviisiga informatsiooni all mõistetakse määramatuse kvantitatiivset väärtust, mis on kadunud mis tahes protsessi käigus (testimine, mõõtmine jne). Sel juhul võetakse entroopia kasutusele kui määramatuse mõõt N, ja teabe hulk on võrdne:

I = H apr – H aps

kus, H apr – a priori entroopia uuritava süsteemi või protsessi oleku kohta;

H aps – tagumine entroopia.

A posteriori (alates lat. a posteriori – järgnevast) – saadud kogemusest (testid, mõõtmised).

A priori (alates lat. a priori - eelmisest) on kogemusele (testimisele) eelnevaid ja sellest sõltumatuid teadmisi iseloomustav mõiste.

Juhul, kui testi käigus eemaldatakse olemasolev määramatus (saadakse konkreetne tulemus, st H = 0), langeb saadud teabe hulk kokku esialgse entroopiaga

Vaatleme uuritava süsteemina diskreetset teabeallikat (diskreetsete sõnumite allikat), mille all peame silmas füüsiline süsteem, millel on piiratud hulk võimalikud olekud {ja mina}, i = .

Kõik seatud A = (a 1, a 2, ..., a n) süsteemi olekuid nimetatakse infoteoorias abstraktseks tähestikuks või sõnumiallika tähestikuks.

Üksikud osariigid a 1, a 2,..., a n nimetatakse tähestiku tähtedeks või sümboliteks.

Selline süsteem võib igal ajahetkel juhuslikult omandada ühe võimalike olekute lõplikust hulgast. a i. Sel juhul väidavad nad, et erinevad olekud realiseeritakse nende allika valiku tõttu.

Teabe (teate) saajal on teatud ettekujutus teatud sündmuste võimalikust toimumisest. Need ideed on üldiselt ebausaldusväärsed ja neid väljendavad tõenäosus, millega ta seda või teist sündmust ootab. Ebakindluse üldmõõtu (entroopiat) iseloomustab teatav matemaatiline sõltuvus nendest tõenäosustest, mille määrab ära see, kui palju pärast teate saamist määramatuse mõõt väheneb.

Selgitame seda ideed näitega.

Olgu meil 32 erinevaid kaarte. Võimalus valida pakist üks kaart on 32. Enne valiku tegemist on loomulik eeldada, et teatud kaardi valimise võimalused on kõigil kaartidel ühesugused. Valiku tegemisega kõrvaldame selle ebakindluse. Sel juhul saab ebakindlust iseloomustada võimalike võrdselt tõenäoliste valikute arvuga. Kui nüüd defineerida ebakindluse kõrvaldamise mõõdikuna infohulk, siis valiku tulemusena saadud infot saab iseloomustada arvuga 32. Mugavam on aga kasutada mitte seda arvu ennast, vaid selle arvu logaritmi. ülaltoodud 2. baashinnang:

kus m on võimalike võrdselt tõenäoliste valikute arv (Kui m=2, saame informatsiooni ühe bitiga). See tähendab, et meie puhul

H = log 2 32 = 5.

Väljatoodud lähenemisviis kuulub inglise matemaatikule R. Hartleyle (1928). Sellel on huvitav tõlgendus. Seda iseloomustavad mitmed küsimused, mille vastused on jah või ei, et määrata, millise kaardi inimene valis. 5 sellisest küsimusest piisab.

Kui kaardi valikul ei ole iga kaardi ilmumise võimalus ühesugune (erinevalt tõenäoline), siis saame K. Shannoni (1948) pakutud statistilise lähenemise informatsiooni mõõtmiseks. Sel juhul mõõdetakse teabe suurust valemiga:

Kus p i- valiku tõenäosus i tähestiku märk.

Seda on lihtne näha, kui tõenäosus lk 1, ..., p n on võrdsed, siis on igaüks neist võrdsed 1/N, ja Shannoni valem muutub Hartley valemiks.

Informatsiooni mõõtmised semantilisel tasandil. Mõõta teabe semantilist sisu, st selle kogust per semantiline tasand, tesauruse mõõt, mis ühendab semantilised omadused teave kasutaja võimalusega sissetulevaid sõnumeid vastu võtta. Tõepoolest, selleks, et saadud teavet mõista ja kasutada, peab saajal olema teatud hulk teadmisi. Teema täielik teadmatus ei võimalda meil saadud sõnumist selle teema kohta kasulikku teavet ammutada. Kui teadmised teema kohta kasvavad, kasvab ka nende arv kasulik informatsioon, välja võetud sõnumist.

Kui nimetada adressaadi teadmisi antud teema kohta tesauruseks (s.o teatud semantiliste seostega ühendatud sõnade, mõistete, objektide nimetuste kogum), siis saab teatud sõnumis sisalduva teabe hulka hinnata muutuse astme järgi. individuaalses tesauruses selle sõnumi mõjul.

Tesaurus- kasutajale või süsteemile kättesaadava teabe kogum.

Teisisõnu kogus semantiline teave, mille saaja eraldab sissetulevatest sõnumitest, sõltub tema tesauruse valmisolekust sellise teabe tajumiseks.

Olenevalt info semantilise sisu vahekorrast S ja kasutaja tesaurus S p semantilise teabe hulk muutub On, mida kasutaja tajub ja seejärel lisab ta oma tesaurusesse. Selle sõltuvuse olemus on näidatud joonisel fig. 2.1. Vaatleme kahte piiravat juhtumit, kui semantilise teabe hulk I c on võrdne 0-ga:

a) kui S p = 0, ei taju (ei mõista) kasutaja sissetulevat teavet;

b) kui S -> ∞ kasutaja “teab kõike” ja ei vaja sissetulevat infot.

Riis. 1.2. Sõltuvus semantilise teabe hulgast,

tarbija tajutud tema tesaurusest I c =f(S p)

Maksimaalne summa Tarbija omandab semantilise teabe, kooskõlastades selle semantilise sisu S oma tesaurusega S p (S = S p opt), kui sissetulev teave on kasutajale arusaadav ja annab talle varem tundmatut (ei ole tema tesauruses) teavet.

Järelikult on sõnumis sisalduva semantilise teabe hulk, kasutaja poolt vastuvõetud uute teadmiste hulk suhteline väärtus. Samal sõnumil võib olla asjatundliku kasutaja jaoks tähendusrikas sisu ja ebapädeva kasutaja jaoks see olla mõttetu.

Teabe semantilise (sisu) aspekti hindamisel on vaja püüda ühtlustada S ja Sp väärtusi.

Semantilise teabe hulga suhteline mõõt võib olla sisukordaja C, mis on määratletud semantilise teabe hulga ja selle mahu suhtena:

C = I s / V d

Informatsiooni meetmed pragmaatilisel tasandil. See mõõdik määrab teabe kasulikkuse kasutaja eesmärgi saavutamiseks. See mõõt on ka suhteline väärtus, mille määravad selle teabe kasutamise iseärasused konkreetses süsteemis.

Üks esimesi Venemaa teadlasi, kes tegeles teabe pragmaatilisel tasemel hindamise probleemiga, oli A.A. Kharkevitš, kes tegi ettepaneku võtta teabe väärtuse mõõdupuuks eesmärgi saavutamiseks vajaliku teabe hulk, st arvutada eesmärgi saavutamise tõenäosuse juurdekasv. Niisiis, kui enne teabe saamist oli eesmärgi saavutamise tõenäosus p 0 ja pärast selle saamist - p 1, siis määratakse teabe väärtus suhte p 1 / p 0 logaritmina:

I = log 2 p 1 – log 2 p 0 = log 2 (p 1 /p 0)

Seega mõõdetakse teabe väärtust teabeühikutes, in sel juhul bittides.

Info mõõtmiseks võetakse kasutusele kaks parameetrit: info hulk I ja andmete hulk V d.

Nendel parameetritel on olenevalt vaadeldavast adekvaatsuse vormist erinevad väljendused ja tõlgendused.

Süntaktiline adekvaatsus. See kuvab teabe formaalseid ja struktuurilisi omadusi ega mõjuta selle semantilist sisu. Süntaktilisel tasandil võetakse arvesse teabekandja tüüpi ja teabe esitamise meetodit, edastamise ja töötlemise kiirust, teabe esitamise koodide suurust, nende koodide teisendamise usaldusväärsust ja täpsust jne.

Ainult süntaktilisest positsioonist lähtuvat teavet nimetatakse tavaliselt andmeteks, kuna semantiline pool ei oma tähtsust.

Semantiline (mõtteline) adekvaatsus. See vorm määrab objekti kujutise ja objekti enda vahelise vastavuse taseme. Semantiline aspekt hõlmab teabe semantilise sisu arvestamist. Sellel tasemel analüüsitakse informatsiooni, mida informatsioon peegeldab, ja vaadeldakse semantilisi seoseid. Arvutiteaduses luuakse semantilised seosed info esitamise koodide vahel. See vorm aitab kujundada mõisteid ja ideid, tuvastada teabe tähendust, sisu ja üldistust.

Pragmaatiline (tarbija) adekvaatsus. See peegeldab teabe ja selle tarbija vahelist suhet, teabe vastavust juhtimiseesmärgile, mida selle alusel rakendatakse. Informatsiooni pragmaatilised omadused ilmnevad ainult siis, kui on olemas teabe (objekti), kasutaja ja juhtimiseesmärgi ühtsus.

Pragmaatiline aspekt arvestamine on seotud teabe kasutamise väärtuse ja kasulikkusega, kui tarbija töötab välja lahenduse oma eesmärgi saavutamiseks. Sellest vaatenurgast lähtudes analüüsitakse teabe tarbijaomadusi. See piisavuse vorm on otseselt seotud praktiline kasutamine teavet, selle vastavust objektiivne funktsioon süsteemi aktiivsus.

Iga adekvaatsuse vorm vastab oma teabehulga ja andmemahu mõõtmisele (joonis 2.1).

Riis. 2.1. Teabemeetmed

2.2.1. Teabe süntaktiline mõõt

Süntaktiline mõõt infohulk opereerib umbisikulise informatsiooniga, mis ei väljenda semantilist seost objektiga.

Sõnumi andmete mahtu V d mõõdetakse selles sõnumis olevate märkide (bittide) arvuga. IN erinevaid süsteeme Märgistuses on ühel numbril erinev kaal ja andmete mõõtühik muutub vastavalt:

  • kahendarvusüsteemis on mõõtühikuks bit ( natuke - kahendnumber - kahendnumber);
  • Kümnendarvusüsteemis on mõõtühikuks dit (kümnendkoht).

Näide. Teade kahendsüsteemis kaheksabitisena binaarne kood

10111011 andmemaht on V d = 8 bitti.

Kümnendsüsteemis kuuekohalise numbri 275903 kujul oleva teate andmemaht on V d = 6 dit.

Teabe hulk määratakse järgmise valemiga:

kus H (α) on entroopia, st. info hulka mõõdetakse süsteemi oleku määramatuse muutumise (vähenemise) kaudu.

N võimalikku olekut sisaldava süsteemi H (α) entroopia on Shannoni valemi järgi võrdne:

kus p i on tõenäosus, et süsteem on i-ndas olekus.

Juhul, kui süsteemi kõik olekud on võrdselt tõenäolised, määrab selle entroopia seos

kus N on kõigi võimalike kuvatud olekute arv;

m - numbrisüsteemi alus (tähestikus kasutatavate sümbolite mitmekesisus);

n on sõnumis olevate bittide (märkide) arv.

2.2.2. Informatsiooni semantiline mõõt Informatsiooni semantilise sisu mõõtmiseks, s.o. selle kvantiteedi semantilisel tasandil on kõige tunnustatum tesauruse mõõt, mis seob teabe semantilised omadused kasutaja võimega sissetulevat sõnumit vastu võtta. Sel eesmärgil kasutatakse mõistet.

kasutaja tesaurus

Tesaurus on kasutajale või süsteemile kättesaadav teabe kogum.

  • Sõltuvalt teabe S semantilise sisu ja kasutaja tesauruse S p vahelisest seosest muutub semantilise teabe I c hulk, mida kasutaja tajub ja seejärel tema tesaurusesse kaasab. Selle sõltuvuse olemus on näidatud joonisel 2.2:
  • kui S p =0 kasutaja ei taju ega mõista sissetulevat teavet;

kui S p → ∞ kasutaja teab kõike, ei vaja ta sissetulevat infot.

Riis. 2.2. Tarbija poolt tajutava semantilise teabe hulga sõltuvus tema tesaurusest I c = f (S p)

Teabe semantilise (sisu) aspekti hindamisel on vaja püüda ühtlustada S ja S p väärtusi.

Semantilise teabe hulga suhteline mõõt võib olla sisukordaja C, mis on määratletud semantilise teabe hulga ja selle mahu suhtena:

See mõõdik määrab teabe (väärtuse) kasulikkuse kasutajale oma eesmärgi saavutamiseks. See mõõt on ka suhteline väärtus, mille määravad konkreetses süsteemis teabe kasutamise iseärasused. Informatsiooni väärtust on soovitav mõõta samades ühikutes (või nende lähedal), milles mõõdetakse sihtfunktsiooni.

Võrdluseks esitame tabelis sisestatud teabemõõdud. 2.1.

Tabel 2.1. Teabeühikud ja näited

Teabe mõõtmine Ühikud Näited (arvutivaldkonna jaoks)
Süntaktiline:

Shannoni lähenemine

arvuti lähenemine

Ebakindluse vähenemise aste Sündmuse tõenäosus
Teabe esitamise ühikud Bitt, bait, KB jne.
Semantiline Tesaurus Kilekott rakendusprogrammid, Personaalarvuti, arvutivõrgud jne.
Majandusnäitajad Kasumlikkus, tootlikkus, amortisatsioonimäär jne.
Pragmaatiline Väärtus kasutusel Rahaline väärtus
Mälu maht, arvuti jõudlus, andmeedastuskiirus jne. Aeg info töötlemiseks ja otsuste tegemiseks

Teema 2. Info esitamise ja töötlemise alused arvutis

Kirjandus

1. Informaatika majanduses: Õpik/Toim. B.E. Odintsova, A.N. Romanova. – M.: Ülikooli õpik, 2008.

2. Arvutiteadus: Põhikursus: Õpik/Toim. S.V. Simonovitš. – Peterburi: Peeter, 2009.

3. Arvutiteadus. Üldine kursus: Õpik/kaasautor: A.N. Guda, M.A. Butakova, N.M. Nechitailo, A.V. Tšernov; Kindrali all toim. IN JA. Kolesnikova. – M.: Dashkov ja K, 2009.

4. Informaatika majandusteadlastele: õpik/Toim. Matyushka V.M. - M.: Infra-M, 2006.

5. Majandusinformaatika: Sissejuhatus infosüsteemide majandusanalüüsi - M.: INFRA-M, 2005.

Teabe mõõtmed (süntaktiline, semantiline, pragmaatiline)

Teabe mõõtmiseks võib kasutada erinevaid lähenemisviise, kuid kõige laialdasemalt kasutatakse neid statistiline(tõenäoline), semantiline ja lk pragmaatiline meetodid.

Statistiline(tõenäosusliku) informatsiooni mõõtmise meetodi töötas välja 1948. aastal K. Shannon, kes tegi ettepaneku käsitleda süsteemi oleku määramatuse mõõduna info hulka, mis info vastuvõtmise tulemusena eemaldatakse. Määramatuse kvantitatiivset väljendust nimetatakse entroopiaks. Kui vaatleja pärast mõne teate saamist omandas Lisainformatsioon süsteemi kohta X, siis on ebakindlus vähenenud. Saadud lisateabe hulk määratletakse järgmiselt:

kus on lisateabe hulk süsteemi kohta X, saadud sõnumi kujul;

Süsteemi esialgne määramatus (entroopia). X;

Süsteemi lõplik määramatus (entroopia). X, toimub pärast teate kättesaamist.

Kui süsteem X võib olla ühes diskreetses olekus, mille arv n, ja süsteemi leidmise tõenäosus neist kõigist on võrdne ja kõigi olekute tõenäosuste summa on võrdne ühega, siis arvutatakse entroopia Shannoni valemi abil:

kus on süsteemi X entroopia;

A- logaritmi alus, mis määrab teabe mõõtühiku;

n– olekute (väärtuste) arv, milles süsteem võib olla.

Entroopia on positiivne suurus ja kuna tõenäosused on alati väiksemad kui üks ja nende logaritm on negatiivne, muudab miinusmärk K. Shannoni valemis entroopia positiivseks. Seega võetakse infohulga mõõdupuuks sama entroopia, kuid vastupidise märgiga.

Informatsiooni ja entroopia vahelist seost võib mõista järgmiselt: informatsiooni hankimine (selle suurendamine) tähendab samaaegselt teadmatuse või informatsiooni ebakindluse (entroopia) vähendamist.

Seega arvestab statistiline lähenemine teadete ilmumise tõenäosusega: informatiivsemaks peetakse seda sõnumit, mis on vähemtõenäoline, s.t. kõige vähem oodatud. Info hulk jõuab maksimaalne väärtus, kui sündmused on võrdselt tõenäolised.

R. Hartley pakkus teabe mõõtmiseks välja järgmise valemi:

I=log2n ,

Kus n- võrdselt tõenäoliste sündmuste arv;

I– teabe mõõt sõnumis ühe esinemise kohta n sündmused

Teabe mõõtmist väljendatakse selle mahus. Enamasti puudutab see mahtu arvuti mälu ja sidekanalite kaudu edastatavate andmete hulk. Ühikuks loetakse infohulk, mille puhul määramatust vähendatakse poole võrra natuke .

Kui kasutatakse Hartley valemi logaritmi alust naturaallogaritm(), siis on teabe mõõtühik nat ( 1 bit = ln2 ≈ 0,693 nat). Kui logaritmi alusena kasutatakse arvu 3, siis - ravida, kui 10, siis - dit (Hartley).

Praktikas kasutatakse sagedamini suuremat üksust - bait(bait) võrdne kaheksa bitiga. See üksus valiti sellepärast, et seda saab kasutada arvuti klaviatuuri tähestiku 256 tähemärgi kodeerimiseks (256=28).

Lisaks baitidele mõõdetakse teavet poolsõnades (2 baiti), sõnades (4 baiti) ja topeltsõnades (8 baiti). Laialdaselt kasutatakse ka suuremaid teabe mõõtühikuid:

1 kilobait (KB - kilobait) = 1024 baiti = 210 baiti,

1 megabait (MB - megabait) = 1024 KB = 220 baiti,

1 gigabait (GB - gigabait) = 1024 MB = 230 baiti.

1 terabait (TB - terabait) = 1024 GB = 240 baiti,

1 petabait (PByte - petabait) = 1024 TB = 250 baiti.

1980. aastal pakkus vene matemaatik Yu Manin välja idee ehitada kvantarvuti, millega seoses tekkis selline infoühik nagu kubit ( kvantbitt, kubit ) – "kvantbitt" on mälumahu mõõtmise mõõt teoreetiliselt võimalikus arvutivormis, mis kasutab kvantmeediat, näiteks elektronide spinni. Kubit võib võtta mitte kahte erinevat väärtust ("0" ja "1"), vaid mitu, mis vastavad kahe maapinna pöörlemise oleku normaliseeritud kombinatsioonidele, mis annab suurem arv võimalikud kombinatsioonid. Seega saab 32 kubitit kodeerida umbes 4 miljardit olekut.

Semantiline lähenemine. Süntaktiline mõõt ei piisa, kui peate määrama mitte andmemahu, vaid sõnumis vajaliku teabe hulga. Sel juhul peetakse silmas semantilist aspekti, mis võimaldab meil määrata teabe sisu.

Teabe semantilise sisu mõõtmiseks saate kasutada selle saaja (tarbija) tesaurust. Tesauruse meetodi idee pakkus välja N. Wiener ja selle töötas välja meie kodumaine teadlane A.Yu. Schrader.

Tesaurus helistas teabe kogum mis teabe saajal on. Tesauruse korreleerimine saadud sõnumi sisuga võimaldab teada saada, kui palju see ebakindlust vähendab.

Sõnumi semantilise teabe mahu sõltuvus saaja tesaurusest

Vastavalt graafikul esitatud sõltuvusele, kui kasutajal puudub tesaurus (teadmised vastuvõetud sõnumi olemuse kohta, see on =0) või sellise tesauruse olemasolu, mis ei ole saabumise tulemusel muutunud. sõnumist (), siis selles sisalduva semantilise teabe hulk võrdne nulliga. Optimaalne tesaurus () on selline, milles semantilise teabe maht on maksimaalne (). Näiteks sissetuleva sõnumi semantiline teave on sisse lülitatud võõras võõrkeel saab olema null, kuid sama olukord on ka juhtumi puhul kui sõnum pole enam uudis, kuna kasutaja teab juba kõike.

Pragmaatiline meede teavet määrab selle kasulikkuse tarbija eesmärkide saavutamisel. Selleks piisab eesmärgi saavutamise tõenäosuse määramisest enne ja pärast sõnumi saamist ning nende võrdlemist. Teabe väärtus (A. A. Kharkevitši järgi) arvutatakse järgmise valemi abil:

kus on tõenäosus saavutada eesmärk enne sõnumi saamist;

Eesmärgi saavutamise tõenäosus on sõnumi vastuvõtmise väli;

Teave - mis see on? Millel see põhineb? Milliseid eesmärke see taotleb ja milliseid ülesandeid täidab? Sellest kõigest räägime selles artiklis.

Üldine informatsioon

Millistel juhtudel kasutatakse semantilist teabe mõõtmise meetodit? Kasutatakse teabe olemust, huvi pakub vastuvõetud sõnumi sisupool - need on juhised selle kasutamiseks. Kuid kõigepealt selgitame, mis see on. Tuleb märkida, et semantiline teabe mõõtmise meetod on keeruline formaliseeritud lähenemine, mis pole veel täielikult välja kujunenud. Seda kasutatakse saadud andmete tähenduse hulga mõõtmiseks. Teisisõnu, kui suur osa saadud teabest on antud juhul vajalik. Seda lähenemisviisi kasutatakse saadud teabe sisu määramiseks. Ja kui me räägime semantilisest teabe mõõtmise viisist, siis kasutame tesauruse mõistet, mis on käsitletava teemaga lahutamatult seotud. Mida see esindab?

Tesaurus

Tahaksin teha lühikese sissejuhatuse ja vastata ühele küsimusele info mõõtmise semantilise meetodi kohta. Kes seda tutvustas? Küberneetika rajaja Norbert Wiener tegi ettepaneku seda meetodit kasutada, kuid see sai meie kaasmaalase A. Yu mõjul märkimisväärse arengu. Kuidas nimetatakse kogu teavet, mis teabe saajal on. Kui võrrelda tesaurust saadud sõnumi sisuga, saate teada, kui palju see ebakindlust vähendas. Tahaksin parandada ühe vea, mis sageli mõjub suur hulk inimestest. Seega usuvad nad, et semantilise teabe mõõtmise meetodi võttis kasutusele Claude Shannon. Kuidas see eksiarvamus tekkis, pole täpselt teada, kuid see arvamus on vale. Claude Shannon tutvustas statistiline meetod teabe mõõtmine, mille "järglane" on semantiline.

Graafiline lähenemine semantilise teabe hulga määramiseks vastuvõetud sõnumis

Miks on vaja midagi joonistada? Semantiline viis Mõõtmine kasutab seda võimalust andmete kasulikkuse visuaalseks edastamiseks hõlpsasti mõistetavas graafikas. Mida see praktikas tähendab? Asjade olukorra selgitamiseks joonistatakse suhe graafiku kujul. Kui kasutajal pole vastuvõetud sõnumi olemuse kohta teadmisi (võrdub nulliga), võrdub semantilise teabe hulk sama väärtusega. Kas on võimalik leida optimaalne väärtus? Jah! See on tesauruse nimi, kus semantilise teabe maht on maksimaalne. Vaatame väikest näidet. Oletame, et kasutaja saab võõras võõrkeeles kirjutatud sõnumi või inimene saab lugeda, mis seal on kirjutatud, kuid see pole talle enam uudis, kuna see kõik on teada. Sellistel juhtudel ütlevad nad, et sõnum ei sisalda semantilist teavet.

Ajalooline areng

Tõenäoliselt oleks pidanud seda veidi kõrgemalt arutama, kuid pole veel hilja järele jõuda. Informatsiooni mõõtmise semantilise meetodi võttis algselt kasutusele Ralph Hartley 1928. aastal. Varem mainiti, et Claude Shannonit nimetatakse sageli asutajaks. Miks selline segadus tekkis? Fakt on see, et kuigi teabe mõõtmise semantilise meetodi võttis kasutusele Ralph Hartley 1928. aastal, üldistasid selle 1948. aastal Claude Shannon ja Warren Weaver. Pärast seda kujundas küberneetika rajaja Norbert Wiener tesauruse meetodi idee, mis pälvis Yu I. Schneideri väljatöötatud meetme näol suurima tunnustuse. Tuleb märkida, et selle mõistmiseks on vaja piisavalt kõrge tase teadmisi.

Tõhusus

Mida tesauruse meetod meile praktikas annab? See on teesi tõeline kinnitus, et informatsioonil on selline omadus nagu relatiivsus. Tuleb märkida, et sellel on suhteline (või subjektiivne) väärtus. Et saaks objektiivselt hinnata teaduslikku teavet, tutvustas universaalse tesauruse kontseptsiooni. Selle muutumise määr näitab inimkonnale saadavate teadmiste tähtsust. Samas on võimatu täpselt öelda, millise lõpptulemuse (või vahetulemuse) infost saab. Võtame näiteks arvutid. Arvutitehnika loodi torutehnoloogia ja iga biti oleku põhjal struktuurielement ja seda kasutati algselt arvutuste tegemiseks. Nüüd on peaaegu igal inimesel midagi, mis sellel tehnoloogial töötab: raadio, telefon, arvuti, televiisor, sülearvuti. Ka tänapäevastes külmikutes, pliitides ja kraanikaussides on omajagu elektroonikat, mille aluseks on info nende kodumasinate kasutamise hõlbustamise kohta.

Teaduslik lähenemine

Kus uuritakse info mõõtmise semantilist meetodit? Arvutiteadus on teadus, mis tegeleb erinevaid aspekte see küsimus. Milles seisneb eripära? Meetod põhineb "tõene/vale" süsteemi või "üks/null" bitisüsteemi kasutamisel. Teatud teabe saabumisel jagatakse see eraldi plokkideks, mida nimetatakse nagu kõneühikud: sõnad, silbid jms. Iga plokk saab kindla väärtuse. Vaatame väikest näidet. Kaks sõpra seisavad läheduses. Üks pöördub teise poole sõnadega: "Meil on homme vaba päev." Kõik teavad, millal on päevad puhkamiseks. Seetõttu on selle teabe väärtus null. Aga kui teine ​​ütleb, et homme töötab, siis esimesele on see üllatus. Tõepoolest, sel juhul võib selguda, et katki lähevad ühe inimese tehtud plaanid näiteks bowlingut mängima või töötoas ringi tuhnida. Kirjeldatud näite iga osa saab kirjeldada kasutades ühtesid ja nulle.

Kontseptsioonidega opereerimine

Aga mida peale tesauruse veel kasutatakse? Mida on veel vaja teada, et mõista teabe semantilist mõõtmisviisi? Põhimõisted, mida saab edasi uurida, on märgisüsteemid. Neid mõistetakse kui tähenduse väljendamise vahendeid, näiteks märkide või nende kombinatsioonide tõlgendamise reegleid. Vaatame veel ühte näidet arvutiteadusest. Arvutid töötavad tavaliste nullide ja ühtedega. Põhimõtteliselt on see madal- ja kõrgepinge, mis tarnitakse seadme komponentidele. Veelgi enam, nad edastavad neid ühendeid ja nulle lõputult. Kuidas saab tehnoloogia neid eristada? Sellele leiti vastus – katkestused. Kui see sama teave edastatakse, on ka tulemused erinevad plokid nagu sõnad, fraasid ja individuaalsed tähendused. Inimkõnes kasutatakse pause ka andmete jagamiseks eraldi plokkideks. Need on nii nähtamatud, et märkame enamikku neist automaatselt. Kirjalikult kasutatakse selleks punkte ja komasid.

Iseärasused

Puudutagem ka omaduste teemat, mis info mõõtmise semantilisel meetodil on. Teame juba, et see on erilise lähenemise nimi, mis hindab teabe tähtsust. Kas saame öelda, et andmed, mida sel viisil hinnatakse, on objektiivsed? Ei, see pole tõsi. Teave on subjektiivne. Vaatame seda kooli näitel. On suurepärane õpilane, kes on kinnitatud programmist ees, ja keskmine õpilane, kes õpib tunnis õpetatavat. Esiteks pakub enamik talle koolis saadavast teabest üsna vähe huvi, kuna ta juba teab seda ja ei kuule/loe seda esimest korda. Seetõttu pole see subjektiivsel tasandil tema jaoks kuigi väärtuslik (võib-olla mõne õpetaja kommentaari tõttu, mida ta oma aine esitlemisel märkas). Kusjuures keskmine uut teavet Ta kuulis midagi ainult eemalt, nii et tema jaoks on tundides esitatavate andmete väärtus suurusjärgu võrra suurem.

Järeldus

Tuleb märkida, et arvutiteaduses ei ole semantiline teabe mõõtmise meetod ainus võimalus olemasolevate probleemide lahendamiseks. Valik peaks sõltuma seatud eesmärkidest ja olemasolevatest võimalustest. Seega, kui teema huvitab või selle järele on vajadus, siis jääb vaid soojalt soovitada seda lähemalt uurida ja uurida, missuguseid info mõõtmise meetodeid peale semantika veel eksisteerib.