Informatsiooni mõõtmised semantilisel ja pragmaatilisel tasandil. Süntaktilise tasandi informatsiooni mõõdud. Pragmaatiline teabe mõõt

Informatsiooni semantilise sisu mõõtmiseks, s.o. selle kogus per semantiline tasand, tesauruse mõõt, mis ühendab semantilised omadused teave kasutaja võimalusega sissetulevaid sõnumeid vastu võtta. Sel eesmärgil kasutatakse mõistet kasutaja tesaurus.

Tesaurus on kasutajale või süsteemile kättesaadav teabe kogum.

Olenevalt info semantilise sisu vahekorrast S ja kasutaja tesaurus S p kogused muutuvad semantiline teave Ic, kasutaja tajub ja lisab seejärel oma tesaurusesse. Selle sõltuvuse olemus on näidatud joonisel 2.2. Vaatleme semantilise teabe hulga puhul kahte piiravat juhtumit Ic võrdub 0:

juures S p 0 kasutaja ei taju ega mõista saabuvat teavet;

juures Sp; kasutaja teab kõike, kuid ta ei vaja sissetulevat teavet.

Riis. 2.2. Sõltuvus semantilise teabe hulgast. tarbija tajutud tema tesaurusest Ic=f(Sp)

Maksimaalne kogus semantiline teave Ic tarbija omandab selle semantilises sisus kokku leppides S oma tesaurusega S p (S p = S p opt), kui sissetulev teave on kasutajale arusaadav ja annab talle varem tundmatut (mitte tema tesauruses) teavet.

Järelikult on sõnumis sisalduva semantilise teabe hulk, kasutaja poolt vastuvõetud uute teadmiste hulk suhteline väärtus. Samal sõnumil võib olla asjatundliku kasutaja jaoks tähendusrikas sisu ja ebapädeva kasutaja jaoks see olla mõttetu (semantiline müra).

Info semantilise (sisu) aspekti hindamisel tuleb püüda väärtuste ühtlustamise poole. S Ja Sp.

Semantilise teabe hulga suhteline mõõt võib olla sisukordaja KOOS, mis on määratletud kui semantilise teabe hulga ja selle mahu suhe:

Pragmaatiline meede teavet

See mõõdik määrab teabe (väärtuse) kasulikkuse kasutajale oma eesmärgi saavutamiseks. See mõõt on ka suhteline väärtus, mille määravad selle teabe kasutamise iseärasused konkreetses süsteemis. Teabe väärtust on soovitatav mõõta samades ühikutes (või nende lähedal), milles seda mõõdetakse objektiivne funktsioon.



Näide 2.5. IN majandussüsteem Teabe pragmaatilisi omadusi (väärtust) saab määrata selle teabe kasutamisega süsteemi haldamisel saavutatava toimimise majandusliku efekti suurenemisega:

Inb(g)=P(g/b)-P(g),

Kus Inb(g)- väärtus infosõnum b juhtimissüsteemi g jaoks,

P(g)- juhtimissüsteemi toimimise a priori oodatav majanduslik mõju g ,

P(g/b)- süsteemi g toimimise eeldatav mõju tingimusel, et teates b sisalduvat teavet kasutatakse juhtimiseks.

Võrdluseks toome kasutusele võetud teavitamismeetmed tabelis 2.1.

Tabel 2.1. Teabeühikud ja näited

TEABE KVALITEET

Teabe kasutamise võimaluse ja tõhususe määravad selle tarbija põhivajadused: kvaliteedinäitajad, kui esinduslikkus, mõtestatus, piisavus, juurdepääsetavus, asjakohasus, õigeaegsus, täpsus, usaldusväärsus, jätkusuutlikkus.

  • Esinduslikkus teavet seostatakse selle valiku ja moodustamise õigsusega, et kajastada adekvaatselt objekti omadusi. Hädavajalik siin on neil:
  • algse kontseptsiooni sõnastuse aluseks oleva mõiste õigsus;
  • kuvatava nähtuse oluliste tunnuste ja seoste valiku kehtivus.
  • Teabe esinduslikkuse rikkumine toob sageli kaasa olulisi vigu.
  • Sisu informatsioon peegeldab semantilist suutlikkust, mis võrdub sõnumis sisalduva semantilise teabe hulga ja töödeldud andmete mahu suhtega, s.t. C = Ic/Vd.

Info sisu suurenedes suureneb semantiline väärtus läbilaskevõime infosüsteemi, kuna sama teabe saamiseks on vaja teisendada väiksemat andmehulka.

Koos semantilist aspekti kajastava sisukoefitsiendiga C saab kasutada ka infosisu koefitsienti, mida iseloomustab arvu suhe süntaktiline teave(Shannoni sõnul) andmemahule Y = I/Vd.

  • Piisav (täielikkus) teave tähendab, et see sisaldab minimaalset, kuid piisavat koostist (näitajate kogumit), et teha õige otsus. Info täielikkuse mõiste on seotud selle semantilise sisu (semantika) ja pragmaatikaga. Mittetäielikuna, s.o. Õige otsuse tegemiseks ebapiisav teave ja üleliigne teave vähendab kasutaja otsuste tõhusust.
  • Kättesaadavus teave kasutaja tajumisele tagatakse asjakohaste protseduuride rakendamisega selle hankimiseks ja teisendamiseks. Näiteks infosüsteemis muudetakse teave kättesaadavaks ja kasutajasõbralikuks vormiks. See saavutatakse eelkõige selle semantilise vormi kooskõlastamisega kasutaja tesaurusega.
  • Asjakohasus Teabe määrab haldamiseks vajaliku teabe säilivusaste selle kasutamise ajal ja see sõltub selle omaduste muutuste dünaamikast ja ajavahemikust, mis on möödunud selle teabe ilmnemisest.
  • Õigeaegsus teave tähendab selle saabumist hiljemalt etteantud ajahetkel, mis on kooskõlas ülesande lahendamise ajaga.
  • Täpsus teave määratakse saadud teabe läheduse astme järgi tõeline olek objekt, protsess, nähtus jne. Kuvatava teabe jaoks digitaalne kood, on teada neli täpsuse klassifitseerimise kontseptsiooni:
  • formaalne täpsus, mida mõõdetakse arvu vähima tähendusega numbri ühikuväärtusega;
  • tegelik täpsus, mis on määratud numbri viimase numbri ühiku väärtusega, mille täpsus on tagatud;
  • maksimaalne täpsus, mida on võimalik saavutada süsteemi konkreetsetes töötingimustes;

Usaldusväärsus teabe määrab selle omadus peegeldada reaalseid objekte vajaliku täpsusega. Info usaldusväärsust mõõdetakse nõutava täpsuse usaldustõenäosusega, s.o. tõenäosus, et teabe abil kuvatav parameetri väärtus erineb selle parameetri tegelikust väärtusest nõutud täpsuse piires.

Jätkusuutlikkus teave peegeldab selle võimet reageerida lähteandmete muutustele nõutavat täpsust rikkumata. Info stabiilsuse ja ka esinduslikkuse määrab selle valiku ja moodustamise metoodika.

Kokkuvõttes tuleb märkida, et sellised teabe kvaliteedi parameetrid nagu esinduslikkus, sisu, piisavus, juurdepääsetavus, stabiilsus on täielikult määratud metoodilisel arengutasemel. infosüsteemid. Asjakohasuse, õigeaegsuse, täpsuse ja usaldusväärsuse parameetrid on samuti suuremal määral määratud metoodilisel tasandil, kuid nende väärtust mõjutab oluliselt süsteemi toimimise iseloom, eelkõige selle töökindlus. Samal ajal on asjakohasuse ja täpsuse parameetrid rangelt seotud vastavalt ajakohasuse ja usaldusväärsuse parameetritega.

Rakendamisel teabeprotsessid Alati toimub teabe ülekanne ruumis ja ajas teabeallikast vastuvõtjale (vastuvõtjale). Sel juhul kasutatakse teabe edastamiseks erinevaid märke või sümboleid, näiteks loomulikku või tehislikku (formaalset) keelt, võimaldades seda väljendada mingil kujul, mida nimetatakse sõnumiks.

Sõnum– edastamiseks kasutatav teabe esitusviis märkide (sümbolite) kogumi kujul.

Sõnum kui märkide kogum semiootika seisukohalt ( kreeka keelest setneion - märk, märk) – teadus, mis uurib märkide ja märgisüsteemide omadusi – saab õppida kolmel tasandil:

1) süntaktiline , kus vaadeldakse sõnumite sisemisi omadusi ehk seoseid märkide vahel, mis peegeldavad antud märgisüsteemi struktuuri. Välised omadused uuritud semantilisel ja pragmaatilisel tasandil. Sellel tasemel käsitlevad nad sõnumite adressaadile edastamise probleeme kui tähemärkide kogumit, võttes arvesse teabekandja tüüpi ja teabe esitamise meetodit, edastamise ja töötlemise kiirust, teabe esituskoodide suurust, usaldusväärsust ja teabe esitamise viisi. nende koodide teisendamise täpsus jne, mis on täielikult abstraheeritud sõnumite semantilisest sisust ja nende sihtotstarbest. Sellel tasemel nimetatakse teavet, mida vaadeldakse ainult süntaktilisest vaatenurgast, tavaliselt andmeteks, kuna semantiline pool ei oma tähtsust.

Kaasaegne infoteooria uurib peamiselt sellel tasemel probleeme. See tugineb mõistele "teabe hulk", mis on märkide kasutamise sageduse mõõt, mis ei kajasta mingil viisil edastatavate sõnumite tähendust ega tähtsust. Sellega seoses öeldakse vahel, et kaasaegne infoteooria on süntaktilisel tasemel.

2) semantiline , kus analüüsitakse seoseid märkide ja nendega tähistatavate objektide, tegevuste ja omaduste vahel, st sõnumi semantilist sisu, selle seost teabeallikaga. Semantilise tasandi probleemid on seotud formaliseerimise ja tähenduse arvestamisega edastatud teave, millega määratakse objekti kujutise ja objekti enda vaheline vastavusaste. Sees see tase analüüsitakse informatsiooni, mida informatsioon peegeldab, vaadeldakse semantilisi seoseid, kujundatakse mõisteid ja ideid, avalikustatakse teabe tähendus ja sisu ning teostatakse selle üldistamine.

3) pragmaatiline , kus vaadeldakse sõnumi ja saaja vahelist suhet ehk sõnumi tarbijasisu, selle suhet adressaadiga.

Sellel tasandil pakuvad huvi tarbijapoolse teabe saamise ja kasutamise tagajärjed. Selle tasandi probleemid on seotud teabe kasutamise väärtuse ja kasulikkuse kindlaksmääramisega, kui tarbija töötab välja lahenduse oma eesmärgi saavutamiseks. Peamine raskus seisneb siin selles, et teabe väärtus ja kasulikkus võivad erinevatele adressaatidele olla täiesti erinevad ning lisaks sõltub see mitmetest teguritest, nagu näiteks selle edastamise ja kasutamise õigeaegsus.


Iga eespool käsitletud teabeedastusprobleemi tasandi jaoks on teabehulga mõõtmiseks ja teabe mõõtmiseks erinevad lähenemisviisid. Teabe mõõtmed on vastavalt süntaktilisel, semantilisel ja semantilisel tasemel pragmaatiline tasand.

Süntaktilise tasandi informatsiooni mõõdud. Kvantifikatsioon informatsioon sellel tasemel ei ole seotud info sisupoolega, vaid opereerib umbisikulise informatsiooniga, mis ei väljenda semantilist seost objektiga. Tänu sellele see meede võimaldab hinnata infovooge objektides, mis on oma olemuselt nii erinevad kui sidesüsteemid, arvutid, juhtimissüsteemid, elusorganismi närvisüsteem jne.

Teabe mõõtmiseks süntaktilisel tasemel võetakse kasutusele kaks parameetrit: teabe (andmete) hulk - V d(mahupõhine lähenemine) ja teabe hulk – I(entroopia lähenemine).

Teabe maht V d (mahuline lähenemine). Infoprotsesside rakendamisel edastatakse teave sõnumi kujul, mis on tähestiku sümbolite kogum. Veelgi enam, iga uus märk sõnumis suurendab märgijadaga esindatava teabe hulka sellest tähestikust. Kui nüüd võtta ühest tähemärgist koosnevas sõnumis sisalduva teabe hulk üheks, siis mis tahes muu sõnumi teabe (andmete) maht V d võrdub selle sõnumi märkide (bittide) arvuga. Kuna sama teavet võivad esindada paljud erinevatel viisidel(kasutades erinevaid tähestikke), siis muutub vastavalt ka info (andmete) mõõtühik.

Niisiis, sisse kümnendsüsteem tähistuses on ühe numbri kaal 10 ja vastavalt sellele on teabe mõõtühik dit (kümnendkoht n n dit. Näiteks neljakohalise numbri 2009 andmemaht on V d = 4 dit.

IN kahendsüsteem tähistuses on ühe numbri kaal 2 ja vastavalt sellele on teabe mõõtühik natuke (bitt (kahendnumber) – kahendnumber). Sel juhul sõnum vormis n-kohalisel arvul on andmemaht V d = n natuke. Näiteks kaheksabitine binaarne kood 11001011 andmemaht on V d = 8 bitti.

Kaasaegses arvutitehnoloogia koos minimaalne ühik andmete mõõtmised natuke laialdaselt kasutatakse suurendatud mõõtühikut bait, võrdne 8 bitiga. Arvuti klaviatuuri tähestiku 256 tähemärgi kodeerimiseks (256 = 2 8) on vaja täpselt kaheksat bitti.

Töötades koos suured mahud selle koguse arvutamiseks kasutatakse rohkem teavet suured üksused mõõdud:

1 kilobait (KB) = 1024 baiti = 210 baiti,

1 megabait (MB) = 1024 KB = 2 20 baiti = 1 048 576 baiti;

1 gigabait (GB) = 1024 MB = 2 30 baiti = 1 073 741 824 baiti;

IN viimasel ajal Seoses töödeldava teabe mahu suurenemisega on kasutusele võetud sellised tuletatud ühikud nagu:

1 terabait (TB) = 1024 GB = 2 40 baiti = 1 099 511 627 776 baiti;

1 petabait (PB) = 1024 TB = 2 50 baiti = 1 125 899 906 842 624 baiti.

Tuleb märkida, et binaarses (arvuti) teabe mõõtmise süsteemis saadakse erinevalt meetermõõdustikust ühikud eesliidetega "kilo", "mega" jne, korrutades põhiühiku mitte arvuga 10 3 = 1000, 10 6 = 1 000 000 jne ja 2 10 puhul = 1024, 2 20 = 1 048 576 jne.

Infohulk I (entroopia lähenemine). Info- ja kodeerimise teoorias kasutatakse teabe mõõtmisel entroopiapõhist lähenemist. See lähenemine põhineb asjaolul, et teabe hankimise fakt on alati seotud süsteemi mitmekesisuse või määramatuse (entroopia) vähenemisega. Selle põhjal sõnumis sisalduva teabe hulk on defineeritud kui meede, mis vähendab teatud süsteemi oleku määramatust pärast sõnumi saamist. Ebakindlust saab tõlgendada selle järgi, kui vähe vaatleja antud süsteemist teab. Kui vaatleja on füüsilises süsteemis midagi tuvastanud, väheneb süsteemi entroopia, kuna vaatleja jaoks on süsteem muutunud korrapärasemaks.

Seega entroopia lähenemisviisiga informatsiooni all mõistetakse määramatuse kvantitatiivset väärtust, mis on kadunud mis tahes protsessi käigus (testimine, mõõtmine jne). Sel juhul võetakse entroopia kasutusele kui määramatuse mõõt N, ja teabe hulk on võrdne:

I = H apr – H aps

kus, H apr – a priori entroopia uuritava süsteemi või protsessi oleku kohta;

H aps – tagumine entroopia.

A posteriori (alates lat. a posteriori – järgnevast) – saadud kogemusest (testid, mõõtmised).

A priori (alates lat. a priori - eelmisest) on teadmisi iseloomustav mõiste, mis eelneb kogemusele (testimisele) ja on sellest sõltumatu.

Juhul, kui testi käigus eemaldatakse olemasolev määramatus (saadakse konkreetne tulemus, st H = 0), langeb saadud teabe hulk kokku esialgse entroopiaga

Vaatleme uuritava süsteemina diskreetset teabeallikat (diskreetsete sõnumite allikat), mille all peame silmas füüsiline süsteem, millel on piiratud hulk võimalikud olekud {ja i}, i = .

Kõik valmis A = (a 1, a 2, ..., a n) süsteemi olekuid nimetatakse infoteoorias abstraktseks tähestikuks või sõnumiallika tähestikuks.

Üksikud osariigid a 1, a 2,..., a n nimetatakse tähestiku tähtedeks või sümboliteks.

Selline süsteem võib igal ajahetkel juhuslikult omandada ühe võimalike olekute lõplikust hulgast. a i. Sel juhul väidavad nad, et erinevad olekud realiseeritakse nende allika valiku tõttu.

Teabe (teate) saajal on teatud ettekujutus teatud sündmuste võimalikust toimumisest. Need ideed on üldiselt ebausaldusväärsed ja neid väljendavad tõenäosus, millega ta seda või teist sündmust ootab. Ebakindluse üldmõõtu (entroopiat) iseloomustab teatav matemaatiline sõltuvus nendest tõenäosustest, mille määrab ära see, kui palju pärast teate saamist määramatuse mõõt väheneb.

Selgitame seda ideed näitega.

Olgu meil 32 erinevaid kaarte. Võimalus valida pakist üks kaart on 32. Enne valiku tegemist on loomulik eeldada, et teatud kaardi valimise võimalused on kõigil kaartidel ühesugused. Valiku tegemisega kõrvaldame selle ebakindluse. Sel juhul saab ebakindlust iseloomustada võimalike võrdselt tõenäoliste valikute arvuga. Kui nüüd defineerida ebakindluse kõrvaldamise mõõdikuna infohulk, siis valiku tulemusena saadud infot saab iseloomustada arvuga 32. Mugavam on aga kasutada mitte seda arvu ennast, vaid selle arvu logaritmi. ülaltoodud hinnang 2 põhjal:

kus m on võimalike võrdselt tõenäoliste valikute arv (Kui m=2, saame informatsiooni ühe bitiga). See tähendab, et meie puhul

H = log 2 32 = 5.

Väljatoodud lähenemisviis kuulub inglise matemaatikule R. Hartleyle (1928). Sellel on huvitav tõlgendus. Seda iseloomustavad mitmed küsimused, mille vastused on jah või ei, et määrata, millise kaardi inimene valis. Piisab 5 sellisest küsimusest.

Kui kaardi valikul ei ole iga kaardi ilmumise võimalus ühesugune (erinevalt tõenäoline), siis saame K. Shannoni (1948) pakutud statistilise lähenemise informatsiooni mõõtmiseks. Sel juhul mõõdetakse teabe suurust valemiga:

Kus p i- valiku tõenäosus i tähestiku märk.

Seda on lihtne näha, kui tõenäosus lk 1, ..., p n on võrdsed, siis on igaüks neist võrdsed 1/N, ja Shannoni valem muutub Hartley valemiks.

Informatsiooni mõõtmised semantilisel tasandil. Info semantilise sisu ehk kvantiteedi mõõtmiseks semantilisel tasandil on enim levinud tesauruse mõõt, mis seob teabe semantilised omadused kasutaja võimega vastu võtta saabuvat sõnumit. Tõepoolest, selleks, et saadud teavet mõista ja kasutada, peab saajal olema teatud hulk teadmisi. Teema täielik teadmatus ei võimalda meil saadud sõnumist selle teema kohta kasulikku teavet ammutada. Kui teadmised teema kohta kasvavad, kasvab ka nende arv kasulikku teavet, välja võetud sõnumist.

Kui nimetada adressaadi teadmisi antud teema kohta tesauruseks (s.o teatud semantiliste seostega ühendatud sõnade, mõistete, objektide nimetuste kogum), siis saab teatud sõnumis sisalduva teabe hulka hinnata muutuse astme järgi. individuaalses tesauruses selle sõnumi mõjul.

Tesaurus- kasutajale või süsteemile kättesaadav teabe kogum.

Teisisõnu, saaja poolt saabuvatest sõnumitest eraldatud semantilise teabe hulk sõltub tema tesauruse valmisolekust sellise teabe tajumiseks.

Olenevalt info semantilise sisu vahekorrast S ja kasutaja tesaurus S p semantilise teabe hulk muutub ma s, mida kasutaja tajub ja seejärel lisab ta oma tesaurusesse. Selle sõltuvuse olemus on näidatud joonisel fig. 2.1. Vaatleme kahte piiravat juhtumit, kui semantilise teabe hulk I c on võrdne 0-ga:

a) kui S p = 0, ei taju (ei mõista) kasutaja sissetulevat teavet;

b) kui S -> ∞ kasutaja “teab kõike” ja ei vaja sissetulevat infot.

Riis. 1.2. Sõltuvus semantilise teabe hulgast,

tarbija tajutud tema tesaurusest I c =f(S p)

Tarbija omandab maksimaalse koguse semantilist teavet selle semantilise sisu S kooskõlastamisel oma tesaurusega S p (S = S p opt), kui sissetulev teave on kasutajale arusaadav ja annab talle varem tundmatut (ei ole tema tesauruses) teavet. .

Järelikult on sõnumis sisalduva semantilise teabe hulk, kasutaja poolt vastuvõetud uute teadmiste hulk suhteline väärtus. Samal sõnumil võib olla asjatundliku kasutaja jaoks tähendusrikas ja ebapädeva kasutaja jaoks see tähenduseta.

Teabe semantilise (sisu) aspekti hindamisel on vaja püüda ühtlustada S ja Sp väärtusi.

Semantilise teabe hulga suhteline mõõt võib olla sisukordaja C, mis on määratletud semantilise teabe hulga ja selle mahu suhtena:

C = I s / V d

Informatsiooni meetmed pragmaatilisel tasandil. See mõõdik määrab teabe kasulikkuse kasutaja eesmärgi saavutamiseks. See mõõt on ka suhteline väärtus, mille määravad selle teabe kasutamise iseärasused konkreetses süsteemis.

Üks esimesi Venemaa teadlasi, kes tegeles teabe pragmaatilisel tasemel hindamise probleemiga, oli A.A. Kharkevitš, kes tegi ettepaneku võtta teabe väärtuse mõõdupuuks eesmärgi saavutamiseks vajaliku teabe hulk, st arvutada eesmärgi saavutamise tõenäosuse juurdekasv. Niisiis, kui enne teabe saamist oli eesmärgi saavutamise tõenäosus p 0 ja pärast selle saamist - p 1, siis määratakse teabe väärtus suhte p 1 / p 0 logaritmina:

I = log 2 p 1 – log 2 p 0 = log 2 (p 1 /p 0)

Seega mõõdetakse teabe väärtust teabeühikutes, in antud juhul bittides.

Teabe hindamisel eristatakse selliseid aspekte nagu süntaktiline, semantiline ja pragmaatiline. Süntaktiline aspekt seotud teabe edastamise meetodiga, sõltumata selle semantilistest ja tarbijaomadustest. Süntaktilisel tasandil vaadeldakse selle edastamise ja säilitamise vorme. Tavaliselt nimetatakse edastamiseks mõeldud teavet sõnumiks. Sõnumit saab esitada märkide ja sümbolite kujul, teisendada elektrilisele kujule ja kodeerida, s.t. esitatakse kindla järjestuse kujul elektrilised signaalid, kuvades edastatud teated üheselt. Sõnumite edastamiseks teisendamise protsesside omadused määratakse süntaktilise aspektiga. Salvestamise ajal määravad süntaktilise aspekti muud teabe esitusviisid, mis võimaldavad parimal võimalikul viisil otsige, salvestage, värskendage, muutke teavet teabebaas. Teavet, mida vaadeldakse ainult süntaktilise aspektiga seoses, nimetatakse sageli andmeid. Semantiline aspekt annab edasi teabe semantilist sisu ja korreleerib selle varem kättesaadava teabega. Kajastuvad semantilised seosed sõnade ja teiste keeleelementide vahel "tesaurus"(sõnaraamat). See koosneb kahest osast: sõnade loendist ja stabiilsed fraasid, mis on rühmitatud tähenduse järgi, ja mõni võti (tähestik), mis võimaldab sõnu järjestada kindlas järjekorras. Teabe saamisel saab tesaurust muuta ning selle muutuse määr iseloomustab taasesitava teabe hulka. Pragmaatiline aspekt määrab kindlaks seatud eesmärgi saavutamise võimaluse, võttes arvesse saadud teavet. See aspekt peegeldab teabe tarbijaomadusi - kui teave osutub väärtuslikuks, muutub selle tarbija käitumine õiges suunas. Pragmaatiline aspekt avaldub siis, kui tarbija ja eesmärgi vahel valitseb ühtsus.

Seega läbib teave selle esinemise ja teisenduste kohta 3 etappi, mis määravad selle semantilised, süntaktilised ja pragmaatilised aspektid. Inimene vaatleb esmalt mõningaid ümbritseva reaalsuse fakte, mis peegelduvad teatud andmekogumi kujul tema teadvuses – see on koht, kus süntaktiline aspekt. Seejärel, pärast nende andmete struktureerimist vastavalt ainevaldkond inimene vormistab teadmised objekti struktuuri kohta – see on semantiline aspekt saadud teavet. Teave teadmiste kujul on olemas kõrge aste struktureerimine, mis võimaldab esile tõsta täielik teaveümbritseva reaalsuse kohta ja luua teabemudelid uuritavad objektid. Seejärel kasutab inimene omandatud teadmisi oma praktikas ehk oma eesmärkide saavutamiseks, mis peegeldab pragmaatiline aspekt.

Meetmete klassifikatsioon

Teabemeetmed

Teabe adekvaatsuse vormid

Teabe adekvaatsust saab väljendada kolmel kujul: semantiline, süntaktiline, pragmaatiline.

Süntaktiline adekvaatsus. See kuvab teabe formaalseid ja struktuurilisi omadusi ega mõjuta selle semantilist sisu. Süntaktilisel tasandil võetakse arvesse andmekandja tüüpi ja teabe esitamise meetodit, edastamise ja töötlemise kiirust, selle esitamise koodide suurust, nende koodide teisendamise usaldusväärsust ja täpsust jne. Teavet, mida vaadeldakse ainult süntaktilisest positsioonist, nimetatakse tavaliselt andmeteks, kuna semantiline pool ei oma tähtsust.

Semantiline (mõtteline) adekvaatsus. See vorm määrab objekti kujutise ja objekti enda vahelise vastavuse taseme. Semantiline aspekt hõlmab teabe semantilise sisu arvestamist. Sellel tasandil analüüsitakse informatsiooni, mida informatsioon peegeldab, ja vaadeldakse semantilisi seoseid. Arvutiteaduses luuakse semantilised seosed info esitamise koodide vahel. See vorm aitab kujundada mõisteid ja ideid, tuvastada teabe tähendust, sisu ja üldistust.

Pragmaatiline (tarbija) adekvaatsus peegeldab teabe ja selle tarbija vahelist suhet, teabe vastavust juhtimiseesmärgile, mida selle alusel rakendatakse. Informatsiooni pragmaatilised omadused ilmnevad ainult siis, kui on olemas teabe (objekti), kasutaja ja kontrollieesmärgi ühtsus. Kaalustamise pragmaatiline aspekt on seotud teabe kasutamise väärtuse ja kasulikkusega, kui tarbija töötab välja lahenduse oma eesmärgi saavutamiseks.

Teabe mõõtmiseks võetakse kasutusele kaks parameetrit: teabe hulk I ja andmete hulk V. Nendel parameetritel on erinevad väljendused ja tõlgendused olenevalt vaadeldavast adekvaatsuse vormist. Iga adekvaatsuse vorm vastab oma teabehulga ja andmemahu mõõtmisele (joonis 2.1).

Andmemaht V d sõnumis mõõdetakse selle sõnumi märkide (bittide) arvuga. IN erinevaid süsteeme Märgistuses on ühel numbril erinev kaal ja andmete mõõtühik muutub vastavalt:

  • kahendarvusüsteemis on mõõtühikuks bit (bit - binary digit - binary digit);
  • Kümnendarvusüsteemis on mõõtühikuks dit (kümnendkoht).


Riis. 2.1. Teabemeetmed

Teabe hulk I süntaktilisel tasandil ei saa määrata ilma süsteemi oleku määramatuse (süsteemi entroopia) mõistet arvestamata. Tõepoolest, süsteemi kohta teabe saamine on alati seotud saaja teadmatuse astme muutumisega selle süsteemi oleku suhtes. Mõelgem sellele kontseptsioonile.


Laske tarbijal enne teabe saamist saada eelteavet süsteemi a kohta (a priori). Tema teadmatuse süsteemist mõõdab funktsioon H(a), mis samal ajal toimib ka süsteemi oleku määramatuse mõõduna.

Pärast mõne sõnumi b saamist on adressaat osa omandanud lisateavet I b (a), mis vähendas tema a priori teadmatust nii, et süsteemi oleku a posteriori (pärast teate b saamist) määramatust sai H b (a).

Seejärel määratakse sõnumiga b vastuvõetud teabe hulk I b (a) süsteemi kohta kui

I b(a) = H(a)-H b(a),

need. info hulka mõõdetakse süsteemi oleku määramatuse muutumise (vähenemise) kaudu.

Kui süsteemi H b (a) lõplik määramatus muutub nulliks, asendatakse esialgsed mittetäielikud teadmised täielikud teadmised ja info hulk I b (a) = H(a). Teisisõnu süsteemi entroopia H(a) võib vaadelda kui puuduva teabe mõõdet.

N võimaliku olekuga süsteemi H(a) entroopia on Shannoni valemi järgi võrdne

,

kus P i on tõenäosus, et süsteem on i-ndas olekus.

Juhuks, kui süsteemi kõik olekud on võrdselt tõenäolised, s.t. nende tõenäosused on võrdsed P i = , selle entroopia määrab seos

.

Tihti kodeeritakse info ühes või teises numbrisüsteemis numbriliste koodidega, eriti kehtib see arvutis info esitamisel. Loomulikult sama arv numbreid erinevad süsteemid tähistus võib edastada kuvatava objekti erinevat arvu olekuid, mida saab esitada suhtena

kus N on kõigi võimalike kuvatud olekute arv;

m - numbrisüsteemi alus (tähestikus kasutatavate sümbolite mitmekesisus);

n on sõnumis olevate bittide (märkide) arv.

Kõige sagedamini kasutatakse kahend- ja kümnendlogaritme. Mõõtühikud on neil juhtudel vastavalt bit ja dit.

Teabe sisu koefitsient (kraad). sõnumi (kokkuvõtlikkus) määrab infohulga ja andmemahu suhe, s.t.

Y = 1/V d ja 0

Kui Y suureneb, väheneb teabe (süsteemis olevate andmete) teisendamiseks vajalik töö maht. Seetõttu püüavad nad suurendada teabesisu, mille jaoks töötatakse välja spetsiaalsed meetodid teabe optimaalseks kodeerimiseks.


Informatsiooni semantilise sisu mõõtmiseks, s.o. enim tunnustust on saanud selle kvantiteet semantilisel tasandil, tesauruse mõõt, mis seob info semantilised omadused kasutaja võimega sissetulevat sõnumit vastu võtta. Sel eesmärgil kasutatakse mõistet tesaurus kasutaja.

Tesaurus on kasutajale või süsteemile kättesaadav teabe kogum.

Sõltuvalt teabe S semantilise sisu ja kasutaja tesauruse S p vahelisest seosest muutub semantilise teabe I c hulk, mida kasutaja tajub ja seejärel tema tesaurusesse kaasab. Selle sõltuvuse olemus on näidatud joonisel fig. 2.2.



Riis. 2.2. Tarbija poolt tajutava semantilise teabe hulga sõltuvus

Vaatleme kahte piiravat juhtumit, kui semantilise teabe hulk I c
võrdub 0:

  • kui S p = 0, ei taju ega mõista kasutaja sissetulevat teavet;
  • S p ® ¥ abil teab kasutaja kõike ega vaja sissetulevat teavet.

Tarbija omandab maksimaalse koguse semantilist teavet I c selle semantilise sisu S kooskõlastamisel oma tesaurusega S p (S p = S p opt), kui sissetulev teave on kasutajale arusaadav ja kannab teda varem tundmatuna (mitte tema tesauruses). ) teavet.

Järelikult on sõnumis sisalduva semantilise teabe hulk, kasutaja poolt vastuvõetud uute teadmiste hulk suhteline väärtus. Samal sõnumil võib olla asjatundliku kasutaja jaoks tähendusrikas sisu ja ebapädeva kasutaja jaoks see olla mõttetu (semantiline müra).

Teabe semantilise (sisu) aspekti hindamisel on vaja püüda ühtlustada S ja S p väärtusi.

Semantilise teabe hulga suhteline mõõt võib olla sisukordaja C, mis on määratletud semantilise teabe hulga ja selle mahu suhtena:


Teabe kogus ja kvaliteet

Infoedastusprobleemide tasemed

Infoprotsesside realiseerimisel kantakse info alati ruumis ja ajas signaalide abil infoallikast vastuvõtjale (vastuvõtjale). Signaal - füüsiline protsess (nähtus), mis kannab sõnumit (teavet) vaatlusobjekti sündmuse või oleku kohta.

Sõnum- teabe esitamise vorm edastamiseks kasutatavate märkide (sümbolite) kogumi kujul.

Sõnumit kui märkide kogumit semiootika – märkide ja märgisüsteemide omadusi uuriva teaduse – vaatenurgast saab uurida kolmel tasandil:

1) süntaktiline, kus vaadeldakse sõnumite sisemisi omadusi ehk märkide vahelisi seoseid, mis peegeldavad antud märgisüsteemi struktuuri.

2) semantiline, kus analüüsitakse seoseid märkide ja nendega tähistatavate objektide, tegevuste, omaduste vahel, s.t sõnumi semantilist sisu, selle seost infoallikaga;

3) pragmaatiline, kus vaadeldakse sõnumi ja saaja vahelist suhet, st sõnumi tarbijasisu, selle suhet adressaadiga.

Probleemid süntaktiline tase puudutavad infosüsteemide ehitamise teoreetiliste aluste loomist. Sellel tasemel käsitlevad nad sõnumite adressaadile edastamise probleeme kui tähemärkide kogumit, võttes arvesse teabekandja tüüpi ja teabe esitamise meetodit, edastamise ja töötlemise kiirust, teabe esituskoodide suurust, usaldusväärsust ja teabe esitamise viisi. nende koodide teisendamise täpsus jne, mis on täielikult abstraheeritud sõnumite semantilisest sisust ja nende sihtotstarbest. Sellel tasemel nimetatakse teavet, mida vaadeldakse ainult süntaktilisest vaatenurgast, tavaliselt andmeteks, kuna semantiline pool ei oma tähtsust.

Probleemid semantiline tasand on seotud edastatava teabe vormistamise ja tähenduse arvestamisega, objekti kujutise ja objekti enda vahelise vastavusastme määramisega. Sellel tasemel analüüsitakse teavet, mida informatsioon peegeldab, vaadeldakse semantilisi seoseid, kujundatakse mõisteid ja ideid, paljastatakse teabe tähendus ja sisu ning teostatakse selle üldistamine.



Pragmaatilisel tasandil huvitatud sellest, millised on selle teabe saamine ja kasutamine tarbija poolt. Selle tasandi probleemid on seotud teabe kasutamise väärtuse ja kasulikkuse kindlaksmääramisega, kui tarbija töötab välja lahenduse oma eesmärgi saavutamiseks. Peamine raskus seisneb siin selles, et teabe väärtus ja kasulikkus võivad erinevatele adressaatidele olla täiesti erinevad ning lisaks sõltub see mitmetest teguritest, nagu näiteks selle edastamise ja kasutamise õigeaegsus.

Teabemeetmed

Süntaktilise tasandi informatsiooni mõõdud

Teabe mõõtmiseks süntaktilisel tasemel võetakse kasutusele kaks parameetrit: teabe (andmete) hulk - V D(mahupõhine lähenemine) ja teabe hulk - I(entroopia lähenemine).

Teabe maht V D. Infoprotsesside rakendamisel edastatakse teave sõnumi kujul, mis on tähestiku sümbolite kogum. Kui ühest tähemärgist koosnevas sõnumis sisalduva teabe hulka võtta üheks, siis teabe (andmete) maht V D mis tahes muus sõnumis on võrdne selles sõnumis olevate märkide (numbrite) arvuga.

Seega on kümnendarvusüsteemis ühe numbri kaal 10 ja vastavalt sellele on teabe mõõtühikuks dit (kümnendkoht). Sel juhul sõnum vormis n V D= n dit. Näiteks neljakohalisel numbril 2003 on andmemaht V D = 4 dit.

Kahendarvusüsteemis on ühe numbri kaal 2 ja vastavalt sellele on teabe mõõtühikuks bitt (bitt (kahendnumber)- kahendnumber). Sel juhul sõnum vormis n-digitaalnumbril on andmemaht V D = p natuke. Näiteks kaheksabitisel kahendkoodil 11001011 on andmemaht V D= 8 bitti.

Kaasaegses andmetöötluses kasutatakse laialdaselt koos andmete minimaalse mõõtühiku, bittide, suurendatud mõõtühikuga baiti, mis võrdub 8 bitiga. Suure teabemahuga töötamisel kasutatakse selle koguse arvutamiseks suuremaid mõõtühikuid, nagu kilobait (KB), megabait (MB), gigabait (GB), terabait (TB):

1 kbit = 1024 baiti = 2 10 baiti;

1 MB = 1024 KB = 2 20 baiti = 1 048 576 baiti;

1 GB = 1024 MB = 2 30 baiti = 1 073 741 824 baiti; .

1 TB = 1024 GB = 2 40 baiti = 1 099 511 627 776 baiti.

Infohulk I (entroopia lähenemine). Info- ja kodeerimise teoorias kasutatakse teabe mõõtmisel entroopiapõhist lähenemist. See lähenemine põhineb asjaolul, et teabe hankimise fakt on alati seotud süsteemi mitmekesisuse või määramatuse (entroopia) vähenemisega. Sellest lähtuvalt määratakse sõnumis sisalduva teabe hulk kui mõõt, mis vähendab antud süsteemi oleku määramatust pärast sõnumi saamist. Kui vaatleja on füüsilises süsteemis midagi tuvastanud, väheneb süsteemi entroopia, kuna vaatleja jaoks on süsteem muutunud korrapärasemaks.

Seega mõistetakse entroopiakäsitluse puhul informatsiooni kui määramatuse kvantitatiivset väärtust, mis on kadunud mingi protsessi käigus (testimine, mõõtmine jne). Sel juhul võetakse entroopia kasutusele kui määramatuse mõõt N, ja info hulk on:

Kus H apr - a priori entroopia uuritava süsteemi oleku kohta;

Õnne- tagumine entroopia.

A posteriori- saadud kogemustest (testid, mõõtmised).

A priori- teadmisi iseloomustav mõiste, mis eelneb kogemusele (testimisele) ja on sellest sõltumatu.

Juhul, kui testi käigus eemaldatakse olemasolev määramatus (saatakse konkreetne tulemus, st. Õnne = 0), saadud teabe hulk langeb kokku esialgse entroopiaga

Vaatleme uuritava süsteemina diskreetset infoallikat (diskreetsete teadete allikat), mille all peame silmas füüsilist süsteemi, millel on piiratud hulk võimalikke olekuid. Seda on palju A= (a 1, a 2 , ..., a p) süsteemi olekuid nimetatakse infoteoorias abstraktseks tähestikuks või sõnumiallika tähestikuks.

Üksikud osariigid a 1, a 2,..., a„ nimetatakse tähestiku tähtedeks või sümboliteks.

Selline süsteem võib igal ajahetkel juhuslikult omandada ühe võimalike olekute lõplikust hulgast. ja i.

Kuna mõnda olekut valib allikas sagedamini ja teisi harvemini, siis üldiselt iseloomustab seda ansambel A, st täielik komplekt olekuid koos nende esinemise tõenäosustega, mis kokku moodustavad ühe:

ja (2.2)

Tutvustame lähteoleku valikul määramatuse mõõdikut. Seda võib pidada ka saadud teabe hulga mõõtmiseks, kõrvaldades täielikult ebakindluse allika võrdselt tõenäoliste olekute osas.

Siis kl N=1 saame N(A)= 0.

Selle mõõdu pakkus välja Ameerika teadlane R. Hartley 1928. Valemis (2.3) olev logaritmi alus ei oma põhimõttelist tähtsust ja määrab ainult skaala või mõõtühiku Sõltuvalt logaritmi alusest järgmised ühikud kasutatakse mõõtmisi.

1. Bitid - sel juhul on logaritmi alus võrdne 2-ga:

(2.4)

2. Nitsid - sel juhul on logaritmi alus võrdne e:

3. Dits - sel juhul on logaritmi alus 10:

Arvutiteaduses kasutatakse määramatuse mõõdikuna tavaliselt valemit (2.4). Sel juhul nimetatakse määramatuse ühikut kahendühikuks või bitiks ja see tähistab kahe võrdselt tõenäolise sündmuse hulgast valimise määramatust.

Valemi (2.4) saab empiiriliselt: määramatuse eemaldamiseks kahe võrdselt tõenäolise sündmuse olukorras on vaja ühte kogemust ja vastavalt ühte bitti informatsiooni neljast võrdselt tõenäolisest sündmusest koosneva määramatuse korral 2 bitti informatsiooni piisab soovitud fakti äraarvamiseks. Kaardi tuvastamiseks 32 kaardist koosnevast pakist piisab 5 bitist infost, see tähendab, et otsitava kaardi määramiseks piisab viie küsimuse esitamisest vastusega “jah” või “ei”.

Kavandatav meede võimaldab lahendada teatud praktilisi probleeme, kui teabeallika kõik võimalikud seisundid on ühesuguse tõenäosusega.

Üldjuhul ei sõltu teabeallika oleku rakendamise määramatuse määr mitte ainult olekute arvust, vaid ka nende olekute tõenäosustest. Kui teabeallikal on näiteks kaks võimalikku olekut tõenäosustega 0,99 ja 0,01, siis on valiku määramatus oluliselt väiksem kui allikal, millel on kaks võrdselt tõenäolist olekut, kuna sel juhul on tulemus praktiliselt ettemääratud ( oleku realiseerimine, tõenäosus, mis on 0,99).

Ameerika teadlane K. Shannon üldistas valiku määramatuse mõõdu mõiste H juhul H ei sõltu mitte ainult olekute arvust, vaid ka nende olekute tõenäosustest (tõenäosustest p i tegelase valik ja i, tähestik A). Seda mõõdikut, mis esindab keskmist määramatust oleku kohta, nimetatakse diskreetse teabeallika entroopia:

(2.5)

Kui keskendume taas määramatuse mõõtmisele binaarsetes ühikutes, siis tuleks logaritmi alus võtta võrdseks kahega:

(2.6)

Võrdtõenäolistel valimistel tõenäosus p i = 1/N valem (2.6) teisendatakse R. Hartley valemiks (2.3):

Kavandatud meedet nimetati entroopiaks mitte juhuslikult. Fakt on see, et väljenduse formaalne struktuur (2.5) langeb kokku Boltzmanni poolt eelnevalt defineeritud füüsilise süsteemi entroopiaga.

Kasutades valemeid (2.4) ja (2.6), saame määrata liiasuse D sõnumi allika tähestik A, mis näitab, kui ratsionaalselt kasutatakse antud tähestiku sümboleid:

Kus N max (A) – maksimaalne võimalik entroopia, mis on määratud valemiga (2.4);

N(A) – allika entroopia, mis määratakse valemiga (2.6).

Selle meetme olemus seisneb selles, et võrdselt tõenäolise valiku korral saab väiksemat tähestikku kasutades tagada märgile sama infokoormuse kui ebavõrdse valiku korral.