Meten van informatie op semantisch en pragmatisch niveau. Maatregelen voor informatie op syntactisch niveau. Pragmatische maatstaf voor informatie

Om de semantische inhoud van informatie te meten, d.w.z. zijn hoeveelheid per semantisch niveau, de thesaurusmaat die verbinding maakt semantische eigenschappen informatie met de mogelijkheid van de gebruiker om een ​​binnenkomend bericht te ontvangen. Hiervoor wordt het concept gebruikt thesaurus van de gebruiker.

Thesaurus is een verzameling informatie die beschikbaar is voor een gebruiker of systeem.

Afhankelijk van de relatie tussen de semantische inhoud van informatie S en de thesaurus van de gebruiker Sp hoeveelheid verandert semantische informatie Ik, waargenomen door de gebruiker en vervolgens door hem opgenomen in zijn thesaurus. De aard van deze afhankelijkheid wordt weergegeven in figuur 2.2. Laten we twee beperkende gevallen bekijken als het gaat om de hoeveelheid semantische informatie ik c gelijk aan 0:

bij S p 0 de gebruiker neemt de binnenkomende informatie niet waar of begrijpt deze niet;

bij Sp; de gebruiker weet alles, maar heeft de binnenkomende informatie niet nodig.

Rijst. 2.2. Afhankelijkheid van de hoeveelheid semantische informatie. waargenomen door de consument, uit zijn thesaurus Ic=f(Sp)

Maximale hoeveelheid semantische informatie ik c de consument verwerft door overeenstemming te bereiken over de semantische inhoud ervan S met uw thesaurus Sp (S p = Sp opt), wanneer de binnenkomende informatie begrijpelijk is voor de gebruiker en hem voorheen onbekende (niet in zijn thesaurus) informatie oplevert.

De hoeveelheid semantische informatie in een bericht, de hoeveelheid nieuwe kennis die de gebruiker ontvangt, is dus een relatieve waarde. Hetzelfde bericht kan betekenisvolle inhoud hebben voor een competente gebruiker en betekenisloos zijn (semantische ruis) voor een incompetente gebruiker.

Bij het beoordelen van het semantische (inhoudelijke) aspect van informatie moet ernaar worden gestreefd de waarden te harmoniseren S En Sp.

Een relatieve maatstaf voor de hoeveelheid semantische informatie kan de inhoudscoëfficiënt zijn MET, die wordt gedefinieerd als de verhouding tussen de hoeveelheid semantische informatie en het volume ervan:

Pragmatische maatregel informatie

Deze maatstaf bepaalt het nut van informatie (waarde) voor de gebruiker om zijn doel te bereiken. Deze maatstaf is ook een relatieve waarde, bepaald door de bijzonderheden van het gebruik van deze informatie in een bepaald systeem. Het is raadzaam om de waarde van informatie te meten in dezelfde eenheden (of daar dichtbij) waarin deze wordt gemeten objectieve functie.



Voorbeeld 2.5. IN economisch systeem de pragmatische eigenschappen (waarde) van informatie kunnen worden bepaald door de toename van het economische effect van de werking die wordt bereikt door het gebruik van deze informatie om het systeem te beheren:

Inb(g)=P(g /b)-P(g),

Waar Inb(g)-waarde informatie bericht b voor besturingssysteem g,

P(g)- a priori verwachte economische gevolgen van de werking van het controlesysteem g ,

P(g/b)- het verwachte effect van het functioneren van systeem g, mits de informatie uit bericht b wordt gebruikt voor controle.

Ter vergelijking presenteren we de geïntroduceerde voorlichtingsmaatregelen in Tabel 2.1.

Tabel 2.1. Informatie-eenheden en voorbeelden

KWALITEIT VAN INFORMATIE

De mogelijkheid en effectiviteit van het gebruik van informatie wordt bepaald door de basisbehoeften van de consument: kwaliteitsindicatoren, zoals representativiteit, betekenis, toereikendheid, toegankelijkheid, relevantie, tijdigheid, nauwkeurigheid, betrouwbaarheid, duurzaamheid.

  • Representativiteit informatie wordt geassocieerd met de juistheid van de selectie en vorming ervan om de eigenschappen van het object adequaat weer te geven. Essentieel hier hebben ze:
  • de juistheid van het concept op basis waarvan het oorspronkelijke concept is geformuleerd;
  • geldigheid van de selectie van essentiële kenmerken en verbindingen van het weergegeven fenomeen.
  • Schending van de representativiteit van informatie leidt vaak tot aanzienlijke fouten.
  • Inhoud informatie weerspiegelt de semantische capaciteit die gelijk is aan de verhouding tussen de hoeveelheid semantische informatie in een bericht en het volume verwerkte gegevens, d.w.z. C=Ic/Vd.

Naarmate de inhoud van informatie toeneemt, neemt de semantische waarde toe doorvoer informatiesysteem, omdat voor het verkrijgen van dezelfde informatie een kleinere hoeveelheid gegevens moet worden omgezet.

Naast de inhoudscoëfficiënt C, die het semantische aspect weerspiegelt, kunt u ook de informatie-inhoudscoëfficiënt gebruiken, gekenmerkt door de verhouding van het aantal syntactische informatie(volgens Shannon) naar datavolume Y=I/Vd.

  • Voldoende (volledigheid) informatie betekent dat het een minimale maar voldoende samenstelling (set van indicatoren) bevat om de juiste beslissing te nemen. Het concept van volledigheid van informatie wordt geassocieerd met de semantische inhoud (semantiek) en pragmatiek. Als onvolledig, d.w.z. Onvoldoende informatie om de juiste beslissing te nemen, en overtollige informatie vermindert de effectiviteit van de beslissingen van de gebruiker.
  • Beschikbaarheid informatie voor de perceptie van de gebruiker wordt verzekerd door de implementatie van geschikte procedures voor de verwerving en transformatie ervan. In een informatiesysteem wordt informatie bijvoorbeeld omgezet in een toegankelijke en gebruiksvriendelijke vorm. Dit wordt met name bereikt door de semantische vorm ervan af te stemmen op de thesaurus van de gebruiker.
  • Relevantie Informatie wordt bepaald door de mate van behoud van de waarde van informatie voor het management op het moment dat deze wordt gebruikt en hangt af van de dynamiek van veranderingen in de kenmerken ervan en van het tijdsinterval dat is verstreken sinds het verschijnen van deze informatie.
  • Tijdigheid informatie betekent dat deze niet later arriveert dan op een vooraf bepaald tijdstip, consistent met het tijdstip waarop de taak is opgelost.
  • Nauwkeurigheid informatie wordt bepaald door de mate van nabijheid van de ontvangen informatie echte staat object, proces, fenomeen, enz. Voor weergegeven informatie digitale code Er zijn vier classificatieconcepten van nauwkeurigheid bekend:
  • formele precisie, gemeten aan de hand van de eenheidswaarde van het minst significante cijfer van een getal;
  • echte nauwkeurigheid, bepaald door de waarde van de eenheid van het laatste cijfer van het getal, waarvan de nauwkeurigheid gegarandeerd is;
  • maximale nauwkeurigheid die kan worden verkregen onder specifieke bedrijfsomstandigheden van het systeem;

Geloofwaardigheid informatie wordt bepaald door de eigenschap ervan om objecten uit het echte leven met de vereiste nauwkeurigheid weer te geven. De betrouwbaarheid van informatie wordt gemeten aan de hand van de bevan de vereiste nauwkeurigheid, d.w.z. de waarschijnlijkheid dat de waarde van een parameter die door informatie wordt weergegeven, binnen de vereiste nauwkeurigheid verschilt van de werkelijke waarde van deze parameter.

Duurzaamheid informatie weerspiegelt het vermogen om te reageren op veranderingen in de brongegevens zonder de vereiste nauwkeurigheid te schenden. De stabiliteit van informatie, evenals de representativiteit, wordt bepaald door de gekozen methodologie voor de selectie en vorming ervan.

Concluderend moet worden opgemerkt dat parameters van informatiekwaliteit zoals representativiteit, inhoud, toereikendheid, toegankelijkheid en stabiliteit volledig worden bepaald op het methodologische ontwikkelingsniveau. informatiesystemen. De parameters relevantie, tijdigheid, nauwkeurigheid en betrouwbaarheid worden ook in grotere mate op methodologisch niveau bepaald, maar hun waarde wordt in belangrijke mate beïnvloed door de aard van het functioneren van het systeem, en dan vooral door de betrouwbaarheid ervan. Tegelijkertijd zijn de parameters relevantie en nauwkeurigheid strikt gerelateerd aan respectievelijk de parameters tijdigheid en betrouwbaarheid.

Bij het implementeren informatie processen Er vindt altijd een overdracht van informatie in ruimte en tijd plaats van de informatiebron naar de ontvanger (ontvanger). In dit geval worden voor het overbrengen van informatie verschillende tekens of symbolen gebruikt, bijvoorbeeld natuurlijke of kunstmatige (formele) taal, waardoor deze kan worden uitgedrukt in een vorm die een bericht wordt genoemd.

Bericht– een vorm van informatierepresentatie in de vorm van een reeks tekens (symbolen) die worden gebruikt voor overdracht.

Een boodschap als een reeks tekens vanuit het oogpunt van de semiotiek ( uit het Grieks setneion - teken, teken) – een wetenschap die de eigenschappen van tekens en tekensystemen bestudeert – kan op drie niveaus worden bestudeerd:

1) syntactisch , waarbij rekening wordt gehouden met de interne eigenschappen van berichten, dat wil zeggen de relaties tussen tekens, die de structuur van een bepaald tekensysteem weerspiegelen. Externe eigenschappen bestudeerd op semantisch en pragmatisch niveau. Op dit niveau beschouwen ze de problemen bij het overbrengen van berichten aan de ontvanger als een reeks karakters, waarbij rekening wordt gehouden met het type media en de manier waarop informatie wordt gepresenteerd, de snelheid van verzending en verwerking, de omvang van de informatiepresentatiecodes, de betrouwbaarheid en de nauwkeurigheid van de conversie van deze codes, enz., waarbij volledig wordt geabstraheerd van de semantische inhoud van berichten en het beoogde doel ervan. Op dit niveau wordt informatie die alleen vanuit een syntactisch perspectief wordt bekeken gewoonlijk data genoemd, omdat de semantische kant er niet toe doet.

De moderne informatietheorie bestudeert vooral problemen op dit niveau. Het is gebaseerd op het concept van ‘hoeveelheid informatie’, een maatstaf voor de frequentie van het gebruik van tekens, die op geen enkele manier de betekenis of het belang van de verzonden berichten weerspiegelt. In dit verband wordt wel eens gezegd dat de moderne informatietheorie zich op syntactisch niveau bevindt.

2) semantisch , waar de relaties tussen tekens en de objecten, acties en kwaliteiten die ze aanduiden worden geanalyseerd, dat wil zeggen de semantische inhoud van de boodschap, de relatie ervan tot de informatiebron. Problemen op semantisch niveau houden verband met formalisering en betekenisoverweging doorgegeven informatie, het bepalen van de mate van overeenstemming tussen het beeld van het object en het object zelf. Op dit niveau de informatie die de informatie weerspiegelt, wordt geanalyseerd, semantische verbanden worden onderzocht, concepten en ideeën worden gevormd, de betekenis en inhoud van de informatie worden onthuld en de generalisatie ervan wordt uitgevoerd.

3) pragmatisch , waarbij rekening wordt gehouden met de relatie tussen het bericht en de ontvanger, d.w.z. de consumenteninhoud van het bericht, de relatie met de ontvanger.

Op dit niveau zijn de gevolgen van het ontvangen en gebruiken van deze informatie door de consument van belang. Problemen op dit niveau houden verband met het bepalen van de waarde en het nut van het gebruik van informatie wanneer de consument een oplossing ontwikkelt om zijn doel te bereiken. De grootste moeilijkheid hier is dat de waarde en het nut van informatie voor verschillende ontvangers totaal verschillend kunnen zijn en bovendien afhankelijk zijn van een aantal factoren, zoals bijvoorbeeld de tijdigheid van de levering en het gebruik ervan.


Voor elk van de niveaus van informatieoverdrachtsproblemen die hierboven zijn besproken, zijn er verschillende benaderingen voor het meten van de hoeveelheid informatie en verschillende maten van informatie. Er zijn respectievelijk metingen van informatie op syntactisch niveau, semantisch niveau en pragmatisch niveau.

Maatregelen voor informatie op syntactisch niveau. Kwantificering Informatie op dit niveau heeft geen betrekking op de inhoudelijke kant van de informatie, maar werkt met onpersoonlijke informatie die geen semantische relatie met het object tot uitdrukking brengt. Hierdoor deze maatregel maakt het mogelijk om informatiestromen te beoordelen in objecten die zo verschillend van aard zijn als communicatiesystemen, computers, controlesystemen, zenuwstelsel van een levend organisme, enz.

Om informatie op syntactisch niveau te meten, worden twee parameters geïntroduceerd: de hoeveelheid informatie (data) - V d(volumebenadering) en hoeveelheid informatie – I(entropiebenadering).

Informatievolume V d (volumebenadering). Bij het implementeren van informatieprocessen wordt informatie verzonden in de vorm van een bericht, een reeks symbolen van een alfabet. Bovendien vergroot elk nieuw teken in het bericht de hoeveelheid informatie die wordt vertegenwoordigd door de reeks tekens van dit alfabet. Als nu de hoeveelheid informatie in een bericht van één teken als één wordt genomen, dan zal het volume aan informatie (data) Vd in elk ander bericht gelijk zijn aan het aantal tekens (bits) in dit bericht. Omdat dezelfde informatie door velen kan worden weergegeven op verschillende manieren(met behulp van verschillende alfabetten), dan zal de meeteenheid van informatie (gegevens) dienovereenkomstig veranderen.

Dus, binnen decimaal systeem in notatie heeft één cijfer een gewicht gelijk aan 10, en dienovereenkomstig zal de meeteenheid van informatie zijn dit (decimale plaats N N dit. Het viercijferige getal 2009 heeft bijvoorbeeld een datavolume van V d = 4 dit.

IN binair systeem in notatie heeft één cijfer een gewicht gelijk aan 2, en dienovereenkomstig zal de meeteenheid van informatie zijn beetje (bit (binair cijfer) – binair cijfer). In dit geval een bericht in het formulier N-cijferig getal heeft datavolume V d = N beetje. Bijvoorbeeld acht bits binaire code 11001011 heeft een datavolume Vd = 8 bits.

In moderne computertechnologie samen met minimale eenheid gegevens metingen beetje de vergrote meeteenheid wordt veel gebruikt byte, gelijk aan 8 bits. Er zijn precies acht bits nodig om een ​​van de 256 tekens van het computertoetsenbordalfabet te coderen (256 = 2 8).

Bij het werken met grote volumes Er wordt meer informatie gebruikt om de hoeveelheid te berekenen grote eenheden afmetingen:

1 Kilobyte (KB) = 1024 bytes = 2 10 bytes,

1 Megabyte (MB) = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 Gigabyte (GB) = 1024 MB = 2 30 bytes = 1.073.741.824 bytes;

IN de laatste tijd Vanwege de toename van het volume aan verwerkte informatie komen dergelijke afgeleide eenheden in gebruik als:

1 Terabyte (TB) = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes;

1 Petabyte (PB) = 1024 TB = 2 50 bytes = 1.125.899.906.842.624 bytes.

Opgemerkt moet worden dat in het binaire (computer) informatiemeetsysteem, in tegenstelling tot het metrische systeem, eenheden met de voorvoegsels "kilo", "mega", enz. Worden verkregen door de basiseenheid te vermenigvuldigen, niet met 10 3 = 1000, 10 6 = 1.000.000, enz., en op 2 10 = 1024, 2 20 = 1.048.576, enz.

Hoeveelheid informatie I (entropiebenadering). In de informatie- en coderingstheorie wordt een entropiebenadering voor het meten van informatie toegepast. Deze benadering is gebaseerd op het feit dat het verkrijgen van informatie altijd gepaard gaat met een afname van de diversiteit of onzekerheid (entropie) van het systeem. Op basis hiervan, de hoeveelheid informatie in een bericht wordt gedefinieerd als een maatstaf voor het verminderen van de onzekerheid van de toestand van een bepaald systeem na ontvangst van het bericht. Onzekerheid kan worden geïnterpreteerd in termen van hoe weinig de waarnemer weet over een bepaald systeem. Zodra een waarnemer iets in een fysiek systeem heeft geïdentificeerd, neemt de entropie van het systeem af omdat het systeem voor de waarnemer ordelijker is geworden.

Dus met de entropiebenadering informatie wordt opgevat als de kwantitatieve waarde van onzekerheid die tijdens welk proces dan ook (testen, meten, etc.) is verdwenen. In dit geval wordt entropie geïntroduceerd als maatstaf voor onzekerheid N, en de hoeveelheid informatie is gelijk aan:

I = H april – H aps

waarbij, H apr – a priori entropie over de toestand van het systeem of proces dat wordt bestudeerd;

H aps – posterieure entropie.

A posteriori (van lat. a posteriori – uit wat volgt) – voortkomend uit ervaring (testen, metingen).

A priori (van lat. a priori - van het vorige) is een concept dat kennis karakteriseert die voorafgaat aan ervaring (testen) en daar onafhankelijk van is.

In het geval dat tijdens de test de bestaande onzekerheid wordt weggenomen (een specifiek resultaat wordt verkregen, d.w.z. H = 0), valt de hoeveelheid ontvangen informatie samen met de initiële entropie

Laten we als het onderzochte systeem een ​​discrete informatiebron (een bron van discrete berichten) beschouwen, waarmee we bedoelen fysiek systeem, met een eindige verzameling mogelijke staten {en ik}, i = .

Helemaal klaar EEN = (een 1, een 2, ..., een n) toestanden van een systeem worden in de informatietheorie een abstract alfabet of een alfabet van een berichtenbron genoemd.

Individuele staten een 1, een 2,..., een n worden letters of symbolen van het alfabet genoemd.

Zo'n systeem kan op elk willekeurig moment willekeurig een van een eindige reeks mogelijke toestanden aannemen. een ik. In dit geval zeggen ze dat verschillende toestanden worden gerealiseerd vanwege hun keuze door de bron.

De ontvanger van de informatie (bericht) heeft een bepaald idee over het mogelijke optreden van bepaalde gebeurtenissen. Deze ideeën zijn over het algemeen onbetrouwbaar en worden uitgedrukt door de waarschijnlijkheden waarmee hij deze of gene gebeurtenis verwacht. De algemene maatstaf voor onzekerheid (entropie) wordt gekenmerkt door een zekere wiskundige afhankelijkheid van deze waarschijnlijkheden; de hoeveelheid informatie in een bericht wordt bepaald door de mate waarin de mate van onzekerheid afneemt na ontvangst van het bericht.

Laten we dit idee uitleggen met een voorbeeld.

Laten we er 32 hebben diverse kaarten. De mogelijkheid om één kaart uit de stapel te kiezen is 32. Voordat u een keuze maakt, is het logisch om aan te nemen dat de kansen om een ​​bepaalde kaart te kiezen voor alle kaarten hetzelfde zijn. Door een keuze te maken nemen we deze onzekerheid weg. In dit geval kan onzekerheid worden gekarakteriseerd door het aantal mogelijke, even waarschijnlijke keuzes. Als we nu de hoeveelheid informatie definiëren als een maatstaf voor het elimineren van onzekerheid, dan kan de informatie die wordt verkregen als resultaat van de keuze worden gekarakteriseerd door het getal 32. Het is echter handiger om niet dit getal zelf te gebruiken, maar de logaritme van de hierboven verkregen schatting op basis van 2:

waarbij m het aantal mogelijke, even waarschijnlijke keuzes is (als m=2 krijgen we informatie in één bit). Dat wil zeggen, in ons geval

H = logboek 2 32 = 5.

De beschreven aanpak is van de Engelse wiskundige R. Hartley (1928). Het heeft een interessante interpretatie. Het wordt gekenmerkt door een aantal vragen met “ja” of “nee” antwoorden om te bepalen welke kaart iemand heeft gekozen. 5 van zulke vragen zijn genoeg.

Als bij het kiezen van een kaart de mogelijkheid dat elke kaart verschijnt niet hetzelfde is (anders waarschijnlijk), dan verkrijgen we een statistische benadering voor het meten van informatie voorgesteld door K. Shannon (1948). In dit geval wordt de hoeveelheid informatie gemeten met behulp van de formule:

Waar p ik– waarschijnlijkheid van keuze i e teken van het alfabet.

Het is gemakkelijk om dat te zien als de kansen blz. 1, ..., p.n gelijk zijn, dan is elk van hen gelijk 1/N, en de formule van Shannon verandert in de formule van Hartley.

Maatregelen van informatie op semantisch niveau. Om de semantische inhoud van informatie te meten, d.w.z. de kwantiteit ervan op semantisch niveau, is de meest gebruikte thesaurusmeting, die de semantische eigenschappen van informatie verbindt met het vermogen van de gebruiker om het binnenkomende bericht te accepteren. Om de ontvangen informatie te kunnen begrijpen en gebruiken, moet de ontvanger inderdaad over een bepaalde hoeveelheid kennis beschikken. Volledige onwetendheid over het onderwerp staat ons niet toe om nuttige informatie uit het ontvangen bericht over dit onderwerp te halen. Naarmate de kennis over een onderwerp groeit, groeit ook het aantal nuttige informatie, geëxtraheerd uit het bericht.

Als we de kennis van de ontvanger over een bepaald onderwerp een thesaurus noemen (dat wil zeggen een bepaalde reeks woorden, concepten, namen van objecten die met elkaar verbonden zijn door semantische verbindingen), dan kan de hoeveelheid informatie in een bepaald bericht worden beoordeeld aan de hand van de mate van verandering. in de individuele thesaurus onder invloed van dit bericht.

Thesaurus- een reeks informatie die beschikbaar is voor een gebruiker of systeem.

Met andere woorden: de hoeveelheid semantische informatie die de ontvanger uit inkomende berichten haalt, hangt af van de mate waarin zijn thesaurus gereed is om dergelijke informatie waar te nemen.

Afhankelijk van de relatie tussen de semantische inhoud van informatie S en de thesaurus van de gebruiker Sp de hoeveelheid semantische informatie verandert Is, waargenomen door de gebruiker en vervolgens door hem opgenomen in zijn thesaurus. De aard van deze afhankelijkheid wordt getoond in Fig. 2.1. Laten we twee beperkende gevallen bekijken waarin de hoeveelheid semantische informatie I c gelijk is aan 0:

a) wanneer Sp = 0, de gebruiker de binnenkomende informatie niet waarneemt (niet begrijpt);

b) wanneer S -> ∞ de gebruiker “alles weet” en de binnenkomende informatie niet nodig heeft.

Rijst. 1.2. Afhankelijkheid van de hoeveelheid semantische informatie,

waargenomen door de consument, uit zijn thesaurus ik c =f(Sp)

De consument verkrijgt de maximale hoeveelheid semantische informatie wanneer hij de semantische inhoud S coördineert met zijn thesaurus S p (S = S p opt), wanneer de binnenkomende informatie begrijpelijk is voor de gebruiker en hem voorziet van voorheen onbekende (niet in zijn thesaurus) informatie .

De hoeveelheid semantische informatie in een bericht, de hoeveelheid nieuwe kennis die de gebruiker ontvangt, is dus een relatieve waarde. Hetzelfde bericht kan betekenisvolle inhoud hebben voor een competente gebruiker en betekenisloos zijn voor een incompetente gebruiker.

Bij het beoordelen van het semantische (inhoudelijke) aspect van informatie moet ernaar worden gestreefd de waarden van S en Sp te harmoniseren.

Een relatieve maatstaf voor de hoeveelheid semantische informatie kan de inhoudscoëfficiënt C zijn, die wordt gedefinieerd als de verhouding tussen de hoeveelheid semantische informatie en het volume ervan:

C = I s / V d

Maatregelen van informatie op pragmatisch niveau. Deze maatstaf bepaalt de bruikbaarheid van informatie voor het bereiken van het doel van de gebruiker. Deze maatstaf is ook een relatieve waarde, bepaald door de bijzonderheden van het gebruik van deze informatie in een bepaald systeem.

Een van de eerste Russische wetenschappers die het probleem van het beoordelen van informatie op een pragmatisch niveau aanpakte, was A.A. Kharkevich, die voorstelde om als maatstaf voor de waarde van informatie de hoeveelheid informatie te nemen die nodig is om het doel te bereiken, dat wil zeggen om de toename van de waarschijnlijkheid om het doel te bereiken te berekenen. Dus als vóór het ontvangen van informatie de waarschijnlijkheid om het doel te bereiken p 0 was, en na ontvangst ervan - p 1, dan wordt de waarde van informatie bepaald als de logaritme van de verhouding p 1 / p 0:

I = log 2 p 1 – log 2 p 0 = log 2 (p 1 /p 0)

De waarde van informatie wordt dus gemeten in informatie-eenheden, in in dit geval in stukjes.

Bij het beoordelen van informatie worden aspecten als syntactisch, semantisch en pragmatisch onderscheiden. Syntactisch aspect geassocieerd met de methode voor het verzenden van informatie, ongeacht de semantische en consumentenkwaliteiten ervan. Op syntactisch niveau worden de vormen van overdracht en opslag beschouwd. Normaal gesproken wordt de informatie die moet worden verzonden een bericht genoemd. De boodschap kan worden weergegeven in de vorm van tekens en symbolen, omgezet in elektrische vorm en gecodeerd, d.w.z. gepresenteerd in de vorm van een specifieke reeks elektrische signalen, waarbij de verzonden berichten ondubbelzinnig worden weergegeven. De kenmerken van de processen voor het transformeren van berichten voor verzending worden bepaald door het syntactische aspect. Tijdens de opslag wordt het syntactische aspect bepaald door andere vormen van informatierepresentatie die dit mogelijk maken op de best mogelijke manier informatie zoeken, vastleggen, bijwerken en wijzigen informatiebasis. Informatie die alleen in relatie tot het syntactische aspect wordt beschouwd, wordt vaak genoemd gegevens. Semantisch aspect brengt de semantische inhoud van informatie over en correleert deze met eerder beschikbare informatie. Semantische verbindingen tussen woorden en andere taalelementen worden weerspiegeld "thesaurus"(woordenboek). Het bestaat uit twee delen: een lijst met woorden en stabiele zinnen, gegroepeerd op betekenis, en een sleutel (alfabet), waarmee je woorden in een bepaalde volgorde kunt rangschikken. Bij het ontvangen van informatie kan de thesaurus worden gewijzigd, en de mate van deze verandering kenmerkt de hoeveelheid gereproduceerde informatie. Pragmatisch aspect bepaalt de mogelijkheid om het gestelde doel te bereiken, rekening houdend met de ontvangen informatie. Dit aspect weerspiegelt de consumenteneigenschappen van informatie: als de informatie waardevol blijkt te zijn, verandert het gedrag van de consument in de goede richting. Het pragmatische aspect manifesteert zich wanneer er eenheid bestaat tussen consument en doel.

Informatie over het voorkomen en de transformaties ervan doorloopt dus drie fasen, die de semantische, syntactische en pragmatische aspecten ervan bepalen. Een persoon observeert eerst enkele feiten uit de omringende realiteit, die worden weerspiegeld in de vorm van een bepaalde reeks gegevens in zijn bewustzijn - dit is waar syntactisch aspect. Vervolgens, na het structureren van deze gegevens volgens vakgebied een persoon formaliseert kennis over de structuur van een object - dit is het semantisch aspect ontvangen informatie. Informatie in de vorm van kennis heeft hoge graad structureren, waardoor je kunt accentueren volledige informatie over de omringende werkelijkheid en creëer informatie modellen objecten die bestudeerd worden. Een persoon gebruikt de opgedane kennis vervolgens in zijn praktijk, dat wil zeggen om zijn doelen te bereiken, wat weerspiegelt pragmatisch aspect.

Classificatie van maatregelen

Informatiemaatregelen

Formulieren voor informatietoereikendheid

De adequaatheid van informatie kan in drie vormen worden uitgedrukt: semantisch, syntactisch en pragmatisch.

Syntactische geschiktheid. Het geeft de formele en structurele kenmerken van informatie weer en heeft geen invloed op de semantische inhoud ervan. Op syntactisch niveau wordt rekening gehouden met het type media en de manier waarop informatie wordt gepresenteerd, de snelheid van verzending en verwerking, de grootte van de codes voor de weergave ervan, de betrouwbaarheid en nauwkeurigheid van de conversie van deze codes, enz. Informatie die alleen vanuit een syntactische positie wordt beschouwd, wordt gewoonlijk data genoemd, omdat de semantische kant doet er niet toe.

Semantische (fictieve) adequaatheid. Deze vorm bepaalt de mate van overeenstemming tussen de afbeelding van het object en het object zelf. Het semantische aspect houdt in dat rekening wordt gehouden met de semantische inhoud van informatie. Op dit niveau wordt de informatie die de informatie weerspiegelt geanalyseerd en worden semantische verbanden overwogen. In de informatica worden semantische verbindingen tot stand gebracht tussen codes voor het representeren van informatie. Deze vorm dient om concepten en ideeën te vormen, de betekenis, inhoud van informatie en de generalisatie ervan te identificeren.

Pragmatische (consumenten) adequaatheid weerspiegelt de relatie tussen informatie en de consument ervan, de correspondentie van informatie met het managementdoel, dat op basis daarvan wordt geïmplementeerd. De pragmatische eigenschappen van informatie verschijnen alleen als er eenheid is van informatie (object), gebruiker en controledoel. Het pragmatische aspect van overweging houdt verband met de waarde en het nut van het gebruik van informatie wanneer de consument een oplossing ontwikkelt om zijn doel te bereiken.

Om informatie te meten, worden twee parameters geïntroduceerd: de hoeveelheid informatie I en de hoeveelheid gegevens V. Deze parameters hebben verschillende uitdrukkingen en interpretaties, afhankelijk van de vorm van geschiktheid die wordt overwogen. Elke vorm van adequaatheid komt overeen met zijn eigen maatstaf voor de hoeveelheid informatie en het gegevensvolume (Fig. 2.1).

Gegevensvolume Vd in een bericht wordt gemeten aan de hand van het aantal tekens (bits) in dit bericht. IN diverse systemen In de notatie heeft één cijfer een ander gewicht en verandert de meeteenheid van de gegevens dienovereenkomstig:

  • in het binaire getalsysteem is de meeteenheid een bit (bit - binair cijfer - binair cijfer);
  • In het decimale getallensysteem is de meeteenheid dit (decimale plaats).


Rijst. 2.1. Informatiemaatregelen

Hoeveelheid informatie I op syntactisch niveau kan niet worden bepaald zonder rekening te houden met het concept van onzekerheid van de toestand van het systeem (entropie van het systeem). Het verkrijgen van informatie over een systeem gaat immers altijd gepaard met een verandering in de mate van onwetendheid van de ontvanger over de toestand van dat systeem. Laten we dit concept eens bekijken.


Geef de consument wat voorlopige (a priori) informatie over systeem a voordat hij informatie ontvangt. De maatstaf voor zijn onwetendheid over het systeem is de functie H(a), die tegelijkertijd dient als maatstaf voor de onzekerheid van de toestand van het systeem.

Na ontvangst van een bericht b heeft de ontvanger er een aantal ontvangen aanvullende informatie I b (a), waardoor zijn a priori onwetendheid werd verminderd, zodat de a posteriori (na ontvangst van bericht b) onzekerheid over de systeemstatus H b (a) werd.

Vervolgens wordt de hoeveelheid informatie Ib(a) over het systeem die wordt ontvangen in bericht b bepaald als

ik b (a) = H(a)-H b (a),

die. de hoeveelheid informatie wordt gemeten door een verandering (vermindering) in de onzekerheid van de systeemtoestand.

Als de uiteindelijke onzekerheid van het systeem H b (a) nul wordt, zal de aanvankelijke onvolledige kennis worden vervangen volledige kennis en de hoeveelheid informatie Ib(a) = H(a). Met andere woorden, entropie van het systeem H(a) kan worden gezien als een maatstaf voor ontbrekende informatie.

De entropie van een systeem H(a), met N mogelijke toestanden, is volgens de formule van Shannon gelijk aan

,

waarbij Pi de waarschijnlijkheid is dat het systeem zich in de i-de toestand bevindt.

Voor het geval waarin alle toestanden van het systeem even waarschijnlijk zijn, d.w.z. hun kansen zijn gelijk aan P i = , de entropie wordt bepaald door de relatie

.

Vaak wordt informatie gecodeerd met numerieke codes in een of ander nummersysteem, dit geldt vooral bij het presenteren van informatie op een computer. Uiteraard hetzelfde aantal cijfers erin verschillende systemen notatie kan een ander aantal toestanden van het weergegeven object weergeven, wat kan worden weergegeven als een verhouding

waarbij N het aantal van alle mogelijke weergegeven toestanden is;

m - basis van het nummersysteem (verscheidenheid aan symbolen die in het alfabet worden gebruikt);

n is het aantal bits (tekens) in het bericht.

De meest gebruikte zijn binaire en decimale logaritmen. De meeteenheden zijn in deze gevallen respectievelijk bit en dit.

Coëfficiënt (graad) van informatie-inhoud(beknoptheid) van een bericht wordt bepaald door de verhouding tussen de hoeveelheid informatie en de hoeveelheid data, d.w.z.

Y=1/Vd, en 0

Naarmate Y toeneemt, neemt de hoeveelheid werk die nodig is om informatie (gegevens in het systeem) om te zetten af. Daarom streven ze ernaar de informatie-inhoud te vergroten, waarvoor speciale methoden voor een optimale codering van informatie worden ontwikkeld.


Om de semantische inhoud van informatie te meten, d.w.z. de kwantiteit ervan op semantisch niveau, de meest erkende is de thesaurusmaatstaf, die de semantische eigenschappen van informatie verbindt met het vermogen van de gebruiker om het binnenkomende bericht te accepteren. Hiervoor wordt het concept gebruikt thesaurus gebruiker.

Thesaurus is een verzameling informatie die beschikbaar is voor een gebruiker of systeem.

Afhankelijk van de relatie tussen de semantische inhoud van informatie S en de thesaurus Sp van de gebruiker, verandert de hoeveelheid semantische informatie Ic die door de gebruiker wordt waargenomen en vervolgens door hem in zijn thesaurus wordt opgenomen. De aard van deze afhankelijkheid wordt getoond in Fig. 2.2.



Rijst. 2.2. Afhankelijkheid van de hoeveelheid semantische informatie die door de consument wordt waargenomen

Laten we twee beperkende gevallen bekijken waarin de hoeveelheid semantische informatie I c
gelijk aan 0:

  • wanneer Sp = 0, neemt de gebruiker de binnenkomende informatie niet waar of begrijpt hij deze niet;
  • met S p® ¥ weet de gebruiker alles en heeft hij de binnenkomende informatie niet nodig.

De consument verkrijgt de maximale hoeveelheid semantische informatie I c wanneer hij de semantische inhoud S coördineert met zijn thesaurus S p (S p = S p opt), wanneer de binnenkomende informatie begrijpelijk is voor de gebruiker en hem voorheen onbekend bevat (niet in zijn thesaurus ) informatie.

De hoeveelheid semantische informatie in een bericht, de hoeveelheid nieuwe kennis die de gebruiker ontvangt, is dus een relatieve waarde. Hetzelfde bericht kan betekenisvolle inhoud hebben voor een competente gebruiker en betekenisloos zijn (semantische ruis) voor een incompetente gebruiker.

Bij het beoordelen van het semantische (inhoudelijke) aspect van informatie moet ernaar worden gestreefd de waarden van S en S p te harmoniseren.

Een relatieve maatstaf voor de hoeveelheid semantische informatie kan de inhoudscoëfficiënt C zijn, die wordt gedefinieerd als de verhouding tussen de hoeveelheid semantische informatie en het volume ervan:


Kwantiteit en kwaliteit van informatie

Niveaus van problemen met de overdracht van informatie

Bij het implementeren van informatieprocessen wordt informatie altijd met behulp van signalen in ruimte en tijd overgedragen van de informatiebron naar de ontvanger (ontvanger). Signaal - een fysiek proces (fenomeen) dat een boodschap (informatie) over een gebeurtenis of toestand van een observatieobject met zich meebrengt.

Bericht- een vorm van weergave van informatie in de vorm van een reeks tekens (symbolen) die worden gebruikt voor verzending.

Een boodschap als een reeks tekens kan vanuit het perspectief van de semiotiek – een wetenschap die de eigenschappen van tekens en tekensystemen bestudeert – op drie niveaus worden bestudeerd:

1) syntactisch, waarbij rekening wordt gehouden met de interne eigenschappen van berichten, dat wil zeggen de relaties tussen tekens, die de structuur van een bepaald tekensysteem weerspiegelen.

2) semantisch, waar de relaties tussen tekens en de objecten, acties en kwaliteiten die ze aanduiden worden geanalyseerd, d.w.z. de semantische inhoud van de boodschap, de relatie ervan tot de informatiebron;

3) pragmatisch, waar de relatie tussen het bericht en de ontvanger in ogenschouw wordt genomen, d.w.z. de consumenteninhoud van het bericht, de relatie ervan met de ontvanger.

Problemen syntactisch niveau hebben betrekking op het creëren van theoretische fundamenten voor het bouwen van informatiesystemen. Op dit niveau beschouwen ze de problemen bij het overbrengen van berichten aan de ontvanger als een reeks karakters, waarbij rekening wordt gehouden met het type media en de manier waarop informatie wordt gepresenteerd, de snelheid van verzending en verwerking, de omvang van de informatiepresentatiecodes, de betrouwbaarheid en de nauwkeurigheid van de conversie van deze codes, enz., waarbij volledig wordt geabstraheerd van de semantische inhoud van berichten en het beoogde doel ervan. Op dit niveau wordt informatie die alleen vanuit een syntactisch perspectief wordt bekeken gewoonlijk data genoemd, omdat de semantische kant er niet toe doet.

Problemen semantisch niveau worden geassocieerd met het formaliseren en rekening houden met de betekenis van de verzonden informatie, het bepalen van de mate van overeenstemming tussen het beeld van het object en het object zelf. Op dit niveau wordt de informatie die de informatie weerspiegelt geanalyseerd, worden semantische verbanden overwogen, worden concepten en ideeën gevormd, worden de betekenis en inhoud van de informatie onthuld en wordt de generalisatie ervan uitgevoerd.



Op pragmatisch niveau geïnteresseerd in de gevolgen van het ontvangen en gebruiken van deze informatie door de consument. Problemen op dit niveau houden verband met het bepalen van de waarde en het nut van het gebruik van informatie wanneer de consument een oplossing ontwikkelt om zijn doel te bereiken. De grootste moeilijkheid hier is dat de waarde en het nut van informatie voor verschillende ontvangers totaal verschillend kunnen zijn en bovendien afhankelijk zijn van een aantal factoren, zoals bijvoorbeeld de tijdigheid van de levering en het gebruik ervan.

Informatiemaatregelen

Maatregelen voor informatie op syntactisch niveau

Om informatie op syntactisch niveau te meten, worden twee parameters geïntroduceerd: de hoeveelheid informatie (data) - V D(volumebenadering) en hoeveelheid informatie - I(entropiebenadering).

Informatievolume V D. Bij het implementeren van informatieprocessen wordt informatie verzonden in de vorm van een bericht, een reeks symbolen van een alfabet. Als de hoeveelheid informatie in een bericht van één teken als één wordt beschouwd, dan is de hoeveelheid informatie (data) V D in elk ander bericht zal gelijk zijn aan het aantal tekens (cijfers) in dit bericht.

In het decimale getalsysteem heeft één cijfer dus een gewicht gelijk aan 10, en dienovereenkomstig zal de meeteenheid van informatie dit zijn (decimaal). In dit geval een bericht in het formulier N V D= N dit. Het viercijferige getal 2003 heeft bijvoorbeeld een datavolume V D = 4 dit.

In het binaire getalsysteem heeft één cijfer een gewicht gelijk aan 2, en dienovereenkomstig zal de meeteenheid van informatie de bit zijn (bit (binair cijfer)- binair cijfer). In dit geval een bericht in het formulier N-digitaal nummer heeft datavolume V D = p beetje. De acht-bits binaire code 11001011 heeft bijvoorbeeld een datavolume V D= 8 bits.

In moderne computers wordt, naast de minimale data-eenheid van bits, de vergrote eenheid van bytes, gelijk aan 8 bits, veel gebruikt. Bij het werken met grote hoeveelheden informatie worden grotere meeteenheden gebruikt om de hoeveelheid ervan te berekenen, zoals kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB):

1 kbyte = 1024 bytes = 2 10 bytes;

1 MB = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 GB = 1024 MB = 2 30 bytes = 1.073.741.824 bytes; .

1 TB = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes.

Hoeveelheid informatie I (entropiebenadering). In de informatie- en coderingstheorie wordt een entropiebenadering voor het meten van informatie toegepast. Deze benadering is gebaseerd op het feit dat het verkrijgen van informatie altijd gepaard gaat met een afname van de diversiteit of onzekerheid (entropie) van het systeem. Op basis hiervan wordt de hoeveelheid informatie in een bericht bepaald als maatstaf voor het verminderen van de onzekerheid van de toestand van een bepaald systeem na ontvangst van het bericht. Zodra een waarnemer iets in een fysiek systeem heeft geïdentificeerd, neemt de entropie van het systeem af omdat het systeem voor de waarnemer ordelijker is geworden.

Bij de entropiebenadering wordt informatie dus opgevat als de kwantitatieve waarde van de onzekerheid die tijdens een bepaald proces (testen, meten, enz.) is verdwenen. In dit geval wordt entropie geïntroduceerd als maatstaf voor onzekerheid N, en de hoeveelheid informatie is:

Waar H april - a priori entropie over de toestand van het onderzochte systeem;

Mogelijk- posterieure entropie.

A posteriori- voortkomend uit ervaring (testen, metingen).

A priori- een concept dat kennis karakteriseert die aan de ervaring voorafgaat (testen) en daarvan onafhankelijk is.

In het geval dat tijdens de test de bestaande onzekerheid wordt weggenomen (een specifiek resultaat wordt verkregen, d.w.z. Mogelijk = 0), valt de hoeveelheid ontvangen informatie samen met de initiële entropie

Laten we als het onderzochte systeem een ​​discrete informatiebron (een bron van discrete berichten) beschouwen, waarmee we een fysiek systeem bedoelen dat een eindige reeks mogelijke toestanden heeft. Dit is veel A= (A 1, A 2 , ..., een p) toestanden van een systeem worden in de informatietheorie een abstract alfabet of een alfabet van een berichtenbron genoemd.

Individuele staten een 1, een 2,..., een„ worden letters of symbolen van het alfabet genoemd.

Zo'n systeem kan op elk willekeurig moment willekeurig een van een eindige reeks mogelijke toestanden aannemen. en ik.

Omdat sommige toestanden vaker door de bron worden geselecteerd en andere minder vaak, wordt deze in het algemeen gekenmerkt door een ensemble A, dat wil zeggen, een complete reeks toestanden met een waarschijnlijkheid van hun optreden die samen één zijn:

en (2.2)

Laten we een mate van onzekerheid introduceren in de keuze van de bronstaat. Het kan ook worden beschouwd als een maatstaf voor de hoeveelheid informatie die wordt verkregen met volledige eliminatie van onzekerheid over even waarschijnlijke toestanden van de bron.

Dan bij N=1 wij krijgen N(A)= 0.

Deze maatstaf werd in 1928 voorgesteld door de Amerikaanse wetenschapper R. Hartley. De basis van de logaritme in formule (2.3) is niet van fundamenteel belang en bepaalt alleen de schaal of meeteenheid, afhankelijk van de basis van de logaritme, de volgende eenheden van metingen worden gebruikt.

1. Bits - in dit geval is de basis van de logaritme gelijk aan 2:

(2.4)

2. Nits - in dit geval is de basis van de logaritme gelijk aan e:

3. Dits - in dit geval is de basis van de logaritme gelijk aan 10:

In de informatica wordt formule (2.4) doorgaans gebruikt als maatstaf voor de onzekerheid. In dit geval wordt de eenheid van onzekerheid een binaire eenheid of bit genoemd en vertegenwoordigt de onzekerheid bij het kiezen uit twee even waarschijnlijke gebeurtenissen.

Formule (2.4) kan empirisch worden verkregen: om onzekerheid weg te nemen in een situatie van twee even waarschijnlijke gebeurtenissen, zijn één ervaring en dienovereenkomstig één bit informatie nodig, in het geval van onzekerheid bestaande uit vier even waarschijnlijke gebeurtenissen, twee bits informatie zijn voldoende om het gewenste feit te raden. Om een ​​kaart uit een kaartspel van 32 kaarten te identificeren, zijn 5 stukjes informatie voldoende, dat wil zeggen, het is voldoende om vijf vragen te stellen met antwoorden “ja” of “nee” om te bepalen welke kaart je zoekt.

De voorgestelde maatregel maakt het mogelijk bepaalde praktische problemen op te lossen wanneer alle mogelijke toestanden van de informatiebron dezelfde waarschijnlijkheid hebben.

Over het algemeen hangt de mate van onzekerheid bij de implementatie van de toestand van de informatiebron niet alleen af ​​van het aantal toestanden, maar ook van de waarschijnlijkheid van deze toestanden. Als een informatiebron bijvoorbeeld twee mogelijke toestanden heeft met een waarschijnlijkheid van 0,99 en 0,01, dan is de keuzeonzekerheid aanzienlijk kleiner dan die van een bron die twee even waarschijnlijke toestanden heeft, aangezien in dit geval het resultaat praktisch vooraf bepaald is ( realisatie van de toestand, waarschijnlijkheid gelijk aan 0,99).

De Amerikaanse wetenschapper K. Shannon generaliseerde het concept van een maatstaf voor keuzeonzekerheid H voor het geval dat H hangt niet alleen af ​​van het aantal toestanden, maar ook van de waarschijnlijkheid van deze toestanden (probabilities p ik karakter selectie en ik, alfabet A). Deze maatstaf, die gemiddeld de onzekerheid per staat weergeeft, wordt genoemd entropie van een discrete informatiebron:

(2.5)

Als we ons opnieuw concentreren op het meten van de onzekerheid in binaire eenheden, moet de basis van de logaritme gelijk worden gesteld aan twee:

(2.6)

Bij gelijkwaardige verkiezingen: de waarschijnlijkheid pi =1/N formule (2.6) wordt omgezet in de formule van R. Hartley (2.3):

De voorgestelde maatregel werd niet toevallig entropie genoemd. Feit is dat de formele structuur van expressie (2.5) samenvalt met de entropie van het fysieke systeem, eerder gedefinieerd door Boltzmann.

Met behulp van formules (2.4) en (2.6) kunnen we de redundantie bepalen D alfabet van berichtbron A, waaruit blijkt hoe rationeel de symbolen van een bepaald alfabet worden gebruikt:

Waar Nmax (A) - de maximaal mogelijke entropie, bepaald door formule (2.4);

N(A) - entropie van de bron, bepaald door formule (2.6).

De essentie van deze maatregel is dat bij een even waarschijnlijke keuze eenzelfde informatiebelasting op een bord kan worden gewaarborgd door een kleiner alfabet te gebruiken dan bij een ongelijke keuze.