Semantische maatstaf voor informatie.

Mijn geheim

Om informatie te meten, worden twee parameters geïntroduceerd: de hoeveelheid informatie I en de hoeveelheid gegevens Vd.

Deze parameters hebben verschillende uitdrukkingen en interpretaties, afhankelijk van de vorm van geschiktheid die wordt overwogen. Syntactische geschiktheid.

Het geeft de formele en structurele kenmerken van informatie weer en heeft geen invloed op de semantische inhoud ervan. Op syntactisch niveau wordt rekening gehouden met het type media en de manier waarop informatie wordt gepresenteerd, de snelheid van verzending en verwerking, de grootte van codes voor het presenteren van informatie, de betrouwbaarheid en nauwkeurigheid van het converteren van deze codes, enz.

Informatie die alleen vanuit een syntactische positie wordt beschouwd, wordt gewoonlijk data genoemd, omdat de semantische kant er niet toe doet. Semantische (fictieve) adequaatheid.

Deze vorm bepaalt de mate van overeenstemming tussen de afbeelding van het object en het object zelf. Het semantische aspect houdt in dat rekening wordt gehouden met de semantische inhoud van informatie. Op dit niveau wordt de informatie die de informatie weerspiegelt geanalyseerd en worden semantische verbanden overwogen. In de informatica worden semantische verbindingen tot stand gebracht tussen codes voor het representeren van informatie. Deze vorm dient om concepten en ideeën te vormen, de betekenis, inhoud van informatie en de generalisatie ervan te identificeren. Pragmatische (consumenten) adequaatheid.

Het weerspiegelt de relatie tussen informatie en de consument ervan, de correspondentie van informatie met het managementdoel, dat op basis daarvan wordt geïmplementeerd. De pragmatische eigenschappen van informatie komen alleen naar voren als er sprake is van eenheid van informatie (object), gebruiker en managementdoel. Pragmatisch aspect

overweging wordt geassocieerd met de waarde en het nut van het gebruik van informatie wanneer de consument een oplossing ontwikkelt om zijn doel te bereiken. Vanuit dit gezichtspunt worden de consumenteneigenschappen van informatie geanalyseerd. Deze vorm van adequaatheid houdt rechtstreeks verband met het praktische gebruik van informatie, met de overeenstemming ervan met de doelfunctie van het systeem.

Elke vorm van adequaatheid komt overeen met zijn eigen maatstaf voor de hoeveelheid informatie en het gegevensvolume (Fig. 2.1).

Rijst. 2.1.

Informatiemaatregelen 2.2.1. Syntactische maatstaf voor informatie

Het gegevensvolume Vd in een bericht wordt gemeten aan de hand van het aantal tekens (bits) in dit bericht. In verschillende getalsystemen heeft één cijfer een ander gewicht en verandert de eenheid voor gegevensmeting dienovereenkomstig:

in het binaire getalsysteem is de meeteenheid bit ( beetje - binair cijfer - binair cijfer);
In het decimale getallensysteem is de meeteenheid dit (decimale plaats).

Voorbeeld. Een bericht in het binaire systeem in de vorm van een acht-bits binaire code 10111011 heeft een datavolume Vd = 8 bits.

Een bericht in het decimale systeem in de vorm van een zescijferig getal 275903 heeft een datavolume van V d = 6 dit.

De hoeveelheid informatie wordt bepaald door de formule:

waarbij H (α) entropie is, d.w.z. de hoeveelheid informatie wordt gemeten door een verandering (vermindering) in de onzekerheid van de systeemtoestand.

De entropie van een systeem H (α), met N mogelijke toestanden, is volgens de formule van Shannon gelijk aan:

waarbij pi de waarschijnlijkheid is dat het systeem zich in de i-de toestand bevindt.

Voor het geval dat alle toestanden van het systeem even waarschijnlijk zijn, wordt de entropie ervan bepaald door de relatie

waarbij N het aantal van alle mogelijke weergegeven toestanden is;

m - basis van het nummersysteem (verscheidenheid aan symbolen die in het alfabet worden gebruikt);

n is het aantal bits (tekens) in het bericht.

2.2.2. Semantische maatstaf voor informatie

Om de semantische inhoud van informatie te meten, d.w.z. de kwantiteit ervan op semantisch niveau is de thesaurusmaatstaf, die de semantische eigenschappen van informatie verbindt met het vermogen van de gebruiker om het binnenkomende bericht te accepteren. Hiervoor wordt het concept gebruikt gebruikersthesaurus.

Een thesaurus is een verzameling informatie die beschikbaar is voor een gebruiker of systeem.

Afhankelijk van de relatie tussen de semantische inhoud van informatie S en de thesaurus Sp van de gebruiker, verandert de hoeveelheid semantische informatie Ic die door de gebruiker wordt waargenomen en vervolgens door hem in zijn thesaurus wordt opgenomen. De aard van deze afhankelijkheid wordt weergegeven in figuur 2.2:

wanneer Sp=0 de gebruiker de binnenkomende informatie niet waarneemt of begrijpt;
wanneer S p → ∞ de gebruiker alles weet, heeft hij de binnenkomende informatie niet nodig.

Rijst. 2.2.

Afhankelijkheid van de door de consument waargenomen hoeveelheid semantische informatie van zijn thesaurus I с = f (S p)

Bij het beoordelen van het semantische (inhoudelijke) aspect van informatie moet ernaar worden gestreefd de waarden van S en S p te harmoniseren.

2.2.3. Pragmatische maatstaf voor informatie

Deze maatstaf bepaalt het nut van informatie (waarde) voor de gebruiker om zijn doel te bereiken. Deze maatstaf is ook een relatieve waarde, bepaald door de eigenaardigheden van het gebruik van informatie in een bepaald systeem. Het is raadzaam om de waarde van informatie te meten in dezelfde eenheden (of daar dichtbij) waarin de objectieve functie wordt gemeten.

Ter vergelijking presenteren we de ingevoerde informatiemaatregelen in de tabel. 2.1.

Tabel 2.1. Informatie-eenheden en voorbeelden

Maatstaf voor informatie	Maateenheden	Voorbeelden (voor het computerveld)
Syntactisch: Shannon-aanpak computerbenadering	Mate van onzekerheidsreductie	Waarschijnlijkheid van de gebeurtenis
Syntactisch: Shannon-aanpak computerbenadering	Eenheden van informatiepresentatie	Bit, byte, KB, enz.
Semantisch	Thesaurus	Applicatiesoftwarepakket, personal computer, computernetwerken, enz.
Semantisch	Economische indicatoren	Winstgevendheid, productiviteit, afschrijvingspercentage, etc.
Pragmatisch	Waarde in gebruik	Monetaire waarde
Pragmatisch	Geheugencapaciteit, computerprestaties, snelheid van gegevensoverdracht, enz.	Tijd voor het verwerken van informatie en het nemen van beslissingen

Om de semantische inhoud van informatie te meten, d.w.z. de kwantiteit ervan op semantisch niveau, de thesaurusmaatstaf (voorgesteld door Yu. I. Shrader), die de semantische eigenschappen van informatie verbindt met het vermogen van de gebruiker om het binnenkomende bericht te accepteren, heeft de grootste erkenning gekregen. Hiervoor wordt het concept van een gebruikersthesaurus gebruikt.

Thesaurus is een verzameling informatie die beschikbaar is voor een gebruiker of systeem.

Afhankelijk van de relatie tussen de semantische inhoud van informatie S en de thesaurus van de gebruiker S p, verandert de hoeveelheid semantische informatie 1 C, waargenomen door de gebruiker en vervolgens door hem opgenomen in zijn thesaurus. De aard van deze afhankelijkheid wordt getoond in Fig. 1.5. Laten we twee beperkende gevallen bekijken als het gaat om de hoeveelheid semantische informatie 1 C gelijk aan 0:

wanneer S p ->0 de gebruiker de binnenkomende informatie niet waarneemt of begrijpt;
wanneer S p ->1 weet de gebruiker alles en heeft hij de binnenkomende informatie niet nodig.

Rijst. 1.5.

De consument verkrijgt de maximale hoeveelheid semantische informatie(s) bij het coördineren van de semantische inhoud S met zijn thesaurus Sp(S p = S popt), wanneer de binnenkomende informatie begrijpelijk is voor de gebruiker en hem voorziet van voorheen onbekende (niet in zijn thesaurus) informatie. De hoeveelheid semantische informatie in een bericht, de hoeveelheid nieuwe kennis die de gebruiker ontvangt, is dus een relatieve waarde. Hetzelfde bericht kan betekenisvolle inhoud hebben voor een competente gebruiker en betekenisloos zijn voor een incompetente gebruiker. Een relatieve maatstaf voor de hoeveelheid semantische informatie kan de hierboven besproken inhoudscoëfficiënt C zijn.

De pragmatische (axiologische) benadering van informatie is gebaseerd op een analyse van de waarde ervan vanuit het standpunt van de consument. Informatie die voor een bioloog van onbetwiste waarde is, heeft voor een programmeur bijvoorbeeld vrijwel geen waarde. De waarde van informatie wordt geassocieerd met tijd, omdat deze na verloop van tijd veroudert en de waarde ervan, en dus de ‘kwantiteit’, afneemt. De pragmatische benadering evalueert dus het inhoudelijke aspect van informatie. Het is van bijzonder belang bij het gebruik van informatie voor management, omdat de hoeveelheid ervan nauw verband houdt met de effectiviteit van het management in het systeem.

Pragmatische maatstaf voor informatie bepaalt de bruikbaarheid van informatie (waarde) voor de gebruiker om de beoogde keten te realiseren. Deze maatstaf is ook een relatieve waarde, bepaald door de bijzonderheden van het gebruik van deze informatie in een bepaald systeem.

Het is raadzaam om de waarde van informatie te meten in dezelfde eenheden (of daar dichtbij) waarin de objectieve functie wordt gemeten.

De algoritmische benadering wordt geassocieerd met de wens om een universele maatstaf voor informatie te introduceren. Een kwantitatief kenmerk dat de complexiteit (grootte) van een programma weerspiegelt en de productie van elk bericht mogelijk maakt, werd voorgesteld door A. N. Kolmogorov.

Omdat er verschillende manieren zijn om een algoritme te specificeren en te implementeren met behulp van verschillende computers en programmeertalen, wordt voor de zekerheid bijvoorbeeld een bepaalde specifieke machine gespecificeerd Turing-machine. In dit geval kunnen we als kwantitatief kenmerk van het bericht het minimale aantal interne toestanden van de machine nemen dat nodig is om een bepaald bericht te reproduceren.

Verschillende benaderingen voor het beoordelen van de hoeveelheid informatie dwingen enerzijds om verschillende soorten informatie-eenheden te gebruiken om verschillende informatieprocessen te karakteriseren, en anderzijds om deze eenheden zowel op logisch als op fysiek niveau met elkaar te verbinden. Het proces van het verzenden van informatie gemeten in één eenheid houdt bijvoorbeeld verband met het proces van het opslaan van informatie, waarbij deze wordt gemeten in andere eenheden, enz., en daarom is de keuze van een informatie-eenheid een zeer dringende taak.

In tabel 1.3 de geïntroduceerde informatiemaatregelen worden vergeleken.

Tabel 1.3

Vergelijking van informatiemaatregelen

Kwantiteit en kwaliteit van informatie

Niveaus van problemen met de overdracht van informatie

Bij het implementeren van informatieprocessen wordt informatie altijd met behulp van signalen in ruimte en tijd overgedragen van de informatiebron naar de ontvanger (ontvanger). Signaal - een fysiek proces (fenomeen) dat een boodschap (informatie) over een gebeurtenis of toestand van een observatieobject met zich meebrengt.

Bericht- een vorm van weergave van informatie in de vorm van een reeks tekens (symbolen) die worden gebruikt voor verzending.

Een boodschap als een reeks tekens kan vanuit het perspectief van de semiotiek – een wetenschap die de eigenschappen van tekens en tekensystemen bestudeert – op drie niveaus worden bestudeerd:

1) syntactisch, waarbij rekening wordt gehouden met de interne eigenschappen van berichten, dat wil zeggen de relaties tussen tekens, die de structuur van een bepaald tekensysteem weerspiegelen.

2) semantisch, waar de relaties tussen tekens en de objecten, acties en kwaliteiten die ze aanduiden worden geanalyseerd, d.w.z. de semantische inhoud van de boodschap, de relatie ervan tot de informatiebron;

3) pragmatisch, waar de relatie tussen het bericht en de ontvanger in ogenschouw wordt genomen, d.w.z. de consumenteninhoud van het bericht, de relatie ervan met de ontvanger.

Problemen syntactisch niveau hebben betrekking op het creëren van theoretische fundamenten voor het bouwen van informatiesystemen. Op dit niveau beschouwen ze de problemen bij het overbrengen van berichten aan de ontvanger als een reeks karakters, waarbij rekening wordt gehouden met het type media en de manier waarop informatie wordt gepresenteerd, de snelheid van verzending en verwerking, de omvang van de informatiepresentatiecodes, de betrouwbaarheid en de nauwkeurigheid van de conversie van deze codes, enz., waarbij volledig wordt geabstraheerd van de semantische inhoud van berichten en het beoogde doel ervan. Op dit niveau wordt informatie die alleen vanuit een syntactisch perspectief wordt bekeken gewoonlijk data genoemd, omdat de semantische kant er niet toe doet.

Problemen semantisch niveau worden geassocieerd met het formaliseren en rekening houden met de betekenis van de verzonden informatie, het bepalen van de mate van overeenstemming tussen het beeld van het object en het object zelf. Op dit niveau wordt de informatie die de informatie weerspiegelt geanalyseerd, worden semantische verbanden overwogen, worden concepten en ideeën gevormd, worden de betekenis en inhoud van de informatie onthuld en wordt de generalisatie ervan uitgevoerd.

Op pragmatisch niveau geïnteresseerd in de gevolgen van het ontvangen en gebruiken van deze informatie door de consument. Problemen op dit niveau houden verband met het bepalen van de waarde en het nut van het gebruik van informatie wanneer de consument een oplossing ontwikkelt om zijn doel te bereiken. De grootste moeilijkheid hier is dat de waarde en het nut van informatie voor verschillende ontvangers totaal verschillend kunnen zijn en bovendien afhankelijk zijn van een aantal factoren, zoals bijvoorbeeld de tijdigheid van de levering en het gebruik ervan.

Informatiemaatregelen

Maatregelen voor informatie op syntactisch niveau

Om informatie op syntactisch niveau te meten, worden twee parameters geïntroduceerd: de hoeveelheid informatie (data) - V D(volumebenadering) en hoeveelheid informatie - I(entropiebenadering).

Informatievolume V D. Bij het implementeren van informatieprocessen wordt informatie verzonden in de vorm van een bericht, een reeks symbolen van een alfabet. Als de hoeveelheid informatie in een bericht van één teken als één wordt beschouwd, dan is de hoeveelheid informatie (data) V D in elk ander bericht zal gelijk zijn aan het aantal tekens (cijfers) in dit bericht.

In het decimale getalsysteem heeft één cijfer dus een gewicht gelijk aan 10, en dienovereenkomstig zal de meeteenheid van informatie dit zijn (decimaal). In dit geval een bericht in het formulier N V D= N dit. Het viercijferige getal 2003 heeft bijvoorbeeld een datavolume V D = 4 dit.

In het binaire getalsysteem heeft één cijfer een gewicht gelijk aan 2, en dienovereenkomstig zal de meeteenheid van informatie de bit zijn (bit (binair cijfer)- binair cijfer). In dit geval een bericht in het formulier N-digitaal nummer heeft datavolume V D = n beetje. De acht-bits binaire code 11001011 heeft bijvoorbeeld een datavolume V D= 8 bits.

In moderne computers wordt, naast de minimale data-eenheid van bits, de vergrote eenheid van bytes, gelijk aan 8 bits, veel gebruikt. Bij het werken met grote hoeveelheden informatie worden grotere meeteenheden gebruikt om de hoeveelheid ervan te berekenen, zoals kilobyte (KB), megabyte (MB), gigabyte (GB), terabyte (TB):

1 kbyte = 1024 bytes = 2 10 bytes;

1 MB = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 GB = 1024 MB = 2 30 bytes = 1.073.741.824 bytes; .

1 TB = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes.

Hoeveelheid informatie I (entropiebenadering). In de informatie- en coderingstheorie wordt een entropiebenadering voor het meten van informatie toegepast. Deze benadering is gebaseerd op het feit dat het verkrijgen van informatie altijd gepaard gaat met een afname van de diversiteit of onzekerheid (entropie) van het systeem. Op basis hiervan wordt de hoeveelheid informatie in een bericht bepaald als maatstaf voor het verminderen van de onzekerheid van de toestand van een bepaald systeem na ontvangst van het bericht. Zodra een waarnemer iets in een fysiek systeem heeft geïdentificeerd, neemt de entropie van het systeem af omdat het systeem voor de waarnemer ordelijker is geworden.

Bij de entropiebenadering wordt informatie dus opgevat als de kwantitatieve waarde van de onzekerheid die tijdens een bepaald proces (testen, meten, enz.) is verdwenen. In dit geval wordt entropie geïntroduceerd als maatstaf voor onzekerheid N, en de hoeveelheid informatie is:

Waar H april - a priori entropie over de toestand van het onderzochte systeem;

Misschien- posterieure entropie.

A posteriori- voortkomend uit ervaring (testen, metingen).

A priori- een concept dat kennis karakteriseert die aan de ervaring voorafgaat (testen) en daarvan onafhankelijk is.

In het geval dat tijdens de test de bestaande onzekerheid wordt weggenomen (een specifiek resultaat wordt verkregen, d.w.z. Misschien = 0), valt de hoeveelheid ontvangen informatie samen met de initiële entropie

Laten we als het onderzochte systeem een discrete informatiebron (een bron van discrete berichten) beschouwen, waarmee we een fysiek systeem bedoelen dat een eindige reeks mogelijke toestanden heeft. Dit is veel A= (A 1, A 2 , ..., een p) toestanden van een systeem worden in de informatietheorie een abstract alfabet of een alfabet van een berichtenbron genoemd.

Individuele staten een 1, een 2,..., een„ worden letters of symbolen van het alfabet genoemd.

Zo'n systeem kan op elk willekeurig moment willekeurig een van een eindige reeks mogelijke toestanden aannemen. en ik.

Omdat sommige toestanden vaker door de bron worden geselecteerd en andere minder vaak, wordt deze in het algemeen gekenmerkt door een ensemble A, dat wil zeggen, een complete reeks toestanden met een waarschijnlijkheid van hun optreden die samen één zijn:

en (2.2)

Laten we een mate van onzekerheid introduceren in de keuze van de bronstaat. Het kan ook worden beschouwd als een maatstaf voor de hoeveelheid informatie die wordt verkregen met volledige eliminatie van onzekerheid over even waarschijnlijke toestanden van de bron.

Dan bij N=1 wij krijgen N(A)= 0.

Deze maatstaf werd in 1928 voorgesteld door de Amerikaanse wetenschapper R. Hartley. De basis van de logaritme in formule (2.3) is niet van fundamenteel belang en bepaalt alleen de schaal of meeteenheid, afhankelijk van de basis van de logaritme, de volgende eenheden van metingen worden gebruikt.

1. Bits - in dit geval is de basis van de logaritme gelijk aan 2:

(2.4)

2. Nits - in dit geval is de basis van de logaritme gelijk aan e:

3. Dits - in dit geval is de basis van de logaritme gelijk aan 10:

In de informatica wordt formule (2.4) doorgaans gebruikt als maatstaf voor de onzekerheid. In dit geval wordt de eenheid van onzekerheid een binaire eenheid of bit genoemd en vertegenwoordigt de onzekerheid bij het kiezen uit twee even waarschijnlijke gebeurtenissen.

Formule (2.4) kan empirisch worden verkregen: om onzekerheid weg te nemen in een situatie van twee even waarschijnlijke gebeurtenissen, is één ervaring en dienovereenkomstig één bit informatie nodig; zijn voldoende om het gewenste feit te raden. Om een kaart uit een kaartspel van 32 kaarten te identificeren, zijn 5 stukjes informatie voldoende, dat wil zeggen, het is voldoende om vijf vragen te stellen met antwoorden “ja” of “nee” om te bepalen welke kaart je zoekt.

De voorgestelde maatregel maakt het mogelijk bepaalde praktische problemen op te lossen wanneer alle mogelijke toestanden van de informatiebron dezelfde waarschijnlijkheid hebben.

Over het algemeen hangt de mate van onzekerheid bij de implementatie van de toestand van de informatiebron niet alleen af van het aantal toestanden, maar ook van de waarschijnlijkheid van deze toestanden. Als een informatiebron bijvoorbeeld twee mogelijke toestanden heeft met een waarschijnlijkheid van 0,99 en 0,01, dan is de keuzeonzekerheid aanzienlijk kleiner dan die van een bron die twee even waarschijnlijke toestanden heeft, aangezien in dit geval het resultaat praktisch vooraf bepaald is ( realisatie van de toestand, waarschijnlijkheid gelijk aan 0,99).

De Amerikaanse wetenschapper K. Shannon generaliseerde het concept van een maatstaf voor keuzeonzekerheid H in het geval dat H hangt niet alleen af van het aantal toestanden, maar ook van de waarschijnlijkheid van deze toestanden (probabilities p ik karakter selectie en ik, alfabet A). Deze maatstaf, die gemiddeld de onzekerheid per staat weergeeft, wordt genoemd entropie van een discrete informatiebron:

(2.5)

Als we ons opnieuw concentreren op het meten van de onzekerheid in binaire eenheden, moet de basis van de logaritme gelijk worden gesteld aan twee:

(2.6)

Bij gelijkwaardige verkiezingen: de waarschijnlijkheid pi =1/N formule (2.6) wordt omgezet in de formule van R. Hartley (2.3):

De voorgestelde maatregel werd niet toevallig entropie genoemd. Feit is dat de formele structuur van expressie (2.5) samenvalt met de entropie van het fysieke systeem, eerder gedefinieerd door Boltzmann.

Met behulp van formules (2.4) en (2.6) kunnen we de redundantie bepalen D alfabet van berichtbron A, waaruit blijkt hoe rationeel de symbolen van een bepaald alfabet worden gebruikt:

Waar Nmax (A) - de maximaal mogelijke entropie, bepaald door formule (2.4);

N(A) - entropie van de bron, bepaald door formule (2.6).

De essentie van deze maatregel is dat bij een even waarschijnlijke keuze eenzelfde informatiebelasting op een bord kan worden gewaarborgd door een kleiner alfabet te gebruiken dan bij een ongelijke keuze.

die gemiddeld per staat voorkomen, wordt genoemd entropie van een discrete informatiebron

matie.

H p ik log p i

ik 1 N

Als we ons opnieuw concentreren op het meten van de onzekerheid in binaire eenheden, moet de basis van de logaritme gelijk worden gesteld aan twee.

H p ilog 2 p i

ik 1 N

Bij gelijkwaardige verkiezingen allemaal


	p log

en formule (5) wordt omgezet in formule (2) van R. Hartley:

					1 logboek2	Nlog2

De voorgestelde maatregel werd niet toevallig entropie genoemd. Feit is dat de formele structuur van uitdrukking (4) samenvalt met de entropie van het fysieke systeem, eerder gedefinieerd door Boltzmann. Volgens de tweede wet van de thermodynamica wordt de entropie van een gesloten ruimte bepaald door:




		P ik 1

groeien dan

kan worden geschreven als

piln

ik 1 N

Deze formule valt volledig samen met (4)

In beide gevallen karakteriseert de waarde de mate van diversiteit van het systeem.
	Met behulp van formules (3) en (5) is het mogelijk om de redundantie van het berichtbronalfabet te bepalen.
		Hieruit blijkt hoe rationeel de symbolen van een bepaald alfabet worden gebruikt:



		) is de maximaal mogelijke entropie, bepaald door formule (3);	() - entropie
bron, bepaald door formule (5).

Informatiemetingen op semantisch niveau

Om de semantische inhoud van informatie te meten, d.w.z. de kwantiteit ervan op semantisch niveau, de meest voorkomende is de thesaurusmaatstaf, die de semantische eigenschappen van informatie verbindt met het vermogen van de gebruiker om het binnenkomende bericht te accepteren. Om de ontvangen informatie te kunnen begrijpen en gebruiken, moet de ontvanger inderdaad over een bepaalde hoeveelheid kennis beschikken. Volledige onwetendheid over het onderwerp staat ons niet toe om nuttige informatie uit het ontvangen bericht over dit onderwerp te halen. Naarmate de kennis over een onderwerp toeneemt, neemt ook de hoeveelheid nuttige informatie die uit de boodschap wordt gehaald toe.

Als we de kennis van de ontvanger over een bepaald onderwerp een ‘thesaurus’ noemen (d.w.z. een bepaalde reeks woorden, concepten, namen van objecten die met elkaar verbonden zijn door semantische verbindingen), dan kan de hoeveelheid informatie in een bepaald bericht worden beoordeeld aan de hand van de mate van verandering in de individuele thesaurus onder invloed van dit bericht.

Een thesaurus is een verzameling informatie die beschikbaar is voor een gebruiker of systeem.

Met andere woorden: de hoeveelheid semantische informatie die de ontvanger uit inkomende berichten haalt, hangt af van de mate waarin zijn thesaurus gereed is om dergelijke informatie waar te nemen.

Afhankelijk van de relatie tussen de semantische inhoud van informatie en de thesaurus van de gebruiker, verandert de hoeveelheid semantische informatie die door de gebruiker wordt waargenomen en vervolgens door hem in zijn thesaurus wordt opgenomen. De aard van deze afhankelijkheid wordt weergegeven in figuur 3. Laten we twee beperkende gevallen bekijken waarin de hoeveelheid semantische informatie gelijk is aan

Figuur 3 - Afhankelijkheid van de hoeveelheid semantische informatie die de consument ervaart op basis van zijn thesaurus ()

Door akkoord te gaan, verkrijgt de consument de maximale hoeveelheid semantische informatie

het combineren van de semantische inhoud met de thesaurus (), wanneer de binnenkomende informatie begrijpelijk is voor de gebruiker en hem voorheen onbekende (niet in zijn thesaurus) informatie oplevert.

De hoeveelheid semantische informatie in een bericht, de hoeveelheid nieuwe kennis die de gebruiker ontvangt, is dus een relatieve waarde. Hetzelfde bericht kan betekenisvolle inhoud hebben voor een competente gebruiker en betekenisloos zijn voor een incompetente gebruiker.

Bij het beoordelen van het semantische (inhoudelijke) aspect van informatie moet ernaar worden gestreefd de waarden en waarden te harmoniseren.

Een relatieve maatstaf voor de hoeveelheid semantische informatie kan de inhoudscoëfficiënt zijn, die wordt gedefinieerd als de verhouding tussen de hoeveelheid semantische informatie en het volume ervan:

Een andere benadering van semantische beoordelingen van informatie, ontwikkeld in het kader van wetenschappelijke studies, is dat het aantal links ernaar in andere documenten wordt genomen als de belangrijkste indicator van de semantische waarde van de informatie in het geanalyseerde document (bericht, publicatie). . Specifieke indicatoren worden gevormd op basis van statistische verwerking van het aantal links in verschillende steekproeven.

Maatregelen van informatie op pragmatisch niveau

Deze maatstaf bepaalt het nut van informatie (waarde) voor de gebruiker om zijn doel te bereiken. Het is ook een relatieve waarde, bepaald door de bijzonderheden van het gebruik van deze informatie in een bepaald systeem.

Een van de eerste binnenlandse wetenschappers die dit probleem aanpakte was A.A. Kharkevich, die voorstelde om als maatstaf voor de waarde van informatie de hoeveelheid informatie te nemen die nodig is om het doel te bereiken, d.w.z. de hoeveelheid informatie die nodig is om het doel te bereiken. bereken de toename van de kans om het doel te bereiken. Dus, als

De waarde van informatie wordt dus gemeten in informatie-eenheden, in dit geval in bits.

Uitdrukking (7) kan worden beschouwd als het resultaat van het normaliseren van het aantal uitkomsten. Ter toelichting toont Figuur 4 drie diagrammen waarin dezelfde waarden voor het aantal uitkomsten zijn genomen: 2 en 6 voor respectievelijk de punten 0 en 1. De startpositie is punt 0. Op basis van de ontvangen informatie wordt overgegaan naar punt 1. Het doel wordt aangegeven met een kruis. Gunstige uitkomsten worden weergegeven door lijnen die naar het doel leiden. Laten we de waarde van de ontvangen informatie in alle drie de gevallen bepalen:

a) het aantal gunstige uitkomsten is drie:

en daarom

b) er is één gunstig resultaat:

c) het aantal gunstige uitkomsten is vier:

In voorbeeld b) werd een negatieve informatiewaarde (negatieve informatie) verkregen. Dergelijke informatie, die de aanvankelijke onzekerheid vergroot en de kans op het bereiken van een doel verkleint, wordt desinformatie genoemd. In voorbeeld b) ontvingen we dus verkeerde informatie over 1,58 binaire eenheden.

Zoals reeds opgemerkt, kan het concept informatie worden beschouwd onder verschillende beperkingen die aan de eigenschappen ervan worden opgelegd, d.w.z. op verschillende niveaus van overweging. Er zijn hoofdzakelijk drie niveaus: syntactisch, semantisch en pragmatisch. Dienovereenkomstig worden bij elk van hen verschillende schattingen gebruikt om de hoeveelheid informatie te bepalen.

Op syntactisch niveau worden voor het schatten van de hoeveelheid informatie probabilistische methoden gebruikt, die alleen rekening houden met de probabilistische eigenschappen van informatie en geen rekening houden met andere (semantische inhoud, bruikbaarheid, relevantie, enz.). Ontwikkeld in het midden van de 20e eeuw. Wiskundige en vooral probabilistische methoden maakten het mogelijk een benadering te formuleren voor het beoordelen van de hoeveelheid informatie als maatstaf voor het verminderen van de onzekerheid van kennis.

Deze benadering, ook wel probabilistisch genoemd, postuleert het principe: als een boodschap leidt tot een afname van de onzekerheid van onze kennis, dan kunnen we zeggen dat zo’n boodschap informatie bevat. In dit geval bevatten berichten informatie over gebeurtenissen die met verschillende waarschijnlijkheden kunnen optreden.

Een formule voor het bepalen van de hoeveelheid informatie voor gebeurtenissen met verschillende waarschijnlijkheden en ontvangen uit een discrete informatiebron werd in 1948 voorgesteld door de Amerikaanse wetenschapper K. Shannon. Volgens deze formule kan de hoeveelheid informatie als volgt worden bepaald:

Waar I– hoeveelheid informatie; N– aantal mogelijke gebeurtenissen (berichten); p ik– waarschijnlijkheid van individuele gebeurtenissen (berichten).

De hoeveelheid informatie die wordt bepaald met formule (2.1) heeft slechts een positieve waarde. Aangezien de waarschijnlijkheid van individuele gebeurtenissen kleiner is dan één, is de uitdrukking log 2, - een negatieve waarde en om een positieve waarde te verkrijgen voor de hoeveelheid informatie in formule (2.1) staat er een “min”-teken vóór de som teken.

Als de waarschijnlijkheid van het optreden van individuele gebeurtenissen hetzelfde is en deze een complete groep gebeurtenissen vormen, d.w.z.:

vervolgens wordt formule (2.1) omgezet in de formule van R. Hartley:

In formules (2.1) en (2.2) de relatie tussen de hoeveelheid informatie I en dienovereenkomstig wordt de waarschijnlijkheid (of het aantal) van individuele gebeurtenissen uitgedrukt met behulp van een logaritme.

Het gebruik van logaritmen in de formules (2.1) en (2.2) kan als volgt worden verklaard. Voor de eenvoud van de redenering gebruiken we relatie (2.2). We zullen het argument achtereenvolgens toewijzen N waarden geselecteerd uit bijvoorbeeld een reeks cijfers: 1, 2, 4, 8, 16, 32, 64, enz. Om te bepalen welke gebeurtenis N Er hebben zich even waarschijnlijke gebeurtenissen voorgedaan, voor elk getal in de reeks is het noodzakelijk om opeenvolgend selectiebewerkingen uit te voeren uit twee mogelijke gebeurtenissen.

Ja, wanneer N= 1, het aantal bewerkingen is gelijk aan 0 (de waarschijnlijkheid van de gebeurtenis is gelijk aan 1), met N= 2, het aantal bewerkingen is gelijk aan 1, wanneer N= 4, het aantal bewerkingen is gelijk aan 2, wanneer N= 8, het aantal bewerkingen is 3, enz. We verkrijgen dus de volgende reeks getallen: 0, 1, 2, 3, 4, 5, 6, enz., die kunnen worden beschouwd als overeenkomend met de waarden van de functie I in relatie (2.2).

De reeks getalswaarden die het argument aanneemt N, is een reeks die in de wiskunde bekend staat als een reeks getallen die een geometrische progressie vormen, en de reeks getalwaarden die de functie aanneemt I, zal een reeks zijn die een rekenkundige progressie vormt. De logaritme in de formules (2.1) en (2.2) legt dus een relatie vast tussen de reeksen die geometrische en rekenkundige progressies vertegenwoordigen, wat vrij goed bekend is in de wiskunde.

Om elke fysieke grootheid te kwantificeren (evalueren), is het noodzakelijk om een meeteenheid te definiëren, die in de meettheorie wordt genoemd maatregelen .

Zoals reeds opgemerkt, moet informatie worden gecodeerd voordat deze wordt verwerkt, verzonden en opgeslagen.

Het coderen gebeurt met behulp van speciale alfabetten (tekensystemen). In de informatica, die de processen bestudeert van het ontvangen, verwerken, verzenden en opslaan van informatie met behulp van computersystemen (computersystemen), wordt voornamelijk binaire codering gebruikt, waarbij een tekensysteem wordt gebruikt dat bestaat uit twee symbolen 0 en 1. Om deze reden wordt in formules ( 2.1) en (2.2) wordt het getal 2 gebruikt als grondtal van de logaritme.

Gebaseerd op de probabilistische benadering voor het bepalen van de hoeveelheid informatie, kunnen deze twee symbolen van het binaire tekensysteem worden beschouwd als twee verschillende mogelijke gebeurtenissen. Daarom wordt een eenheid van informatiehoeveelheid beschouwd als de hoeveelheid informatie die een bericht bevat dat de hoeveelheid informatie vermindert. de onzekerheid van kennis met de helft (vóór ontvangst van gebeurtenissen is hun waarschijnlijkheid 0,5, na ontvangst van – 1 neemt de onzekerheid dienovereenkomstig af: 1/0,5 = 2, d.w.z. 2 keer). Deze maateenheid voor informatie wordt een bit genoemd (van het Engelse woord binair cijfer– binair cijfer). Er wordt dus één bit genomen als maatstaf om de hoeveelheid informatie op syntactisch niveau te schatten, uitgaande van binaire codering.

De volgende grootste meeteenheid voor de hoeveelheid informatie is een byte, een reeks bestaande uit acht bits, d.w.z.:

1 byte = 2 3 bits = 8 bits.

In de informatica worden ook veelgebruikte eenheden voor het meten van de hoeveelheid informatie die een veelvoud van de byte zijn, maar in tegenstelling tot het metrische systeem van maten, waarbij de coëfficiënt 10n wordt gebruikt als vermenigvuldigers van meerdere eenheden, waarbij n = 3, 6 , 9, enz., in meerdere eenheden voor het meten van de hoeveelheid informatie wordt de coëfficiënt 2n gebruikt. Deze keuze wordt verklaard door het feit dat de computer voornamelijk met getallen werkt, niet in het decimale getalsysteem, maar in het binaire getalsysteem.

Eenheden voor het meten van de hoeveelheid informatie die een veelvoud van een byte zijn, worden als volgt ingevoerd:

1 kilobyte (KB) = 210 bytes = 1024 bytes;

1 megabyte (MB) = 210 KB = 1024 KB;

1 gigabyte (GB) = 210 MB = 1024 MB;

1 terabyte (TB) = 210 GB = 1024 GB;

1 petabyte (PB) = 210 TB = 1024 TB;

1 exabyte (Ebyte) = 210 PB = 1024 PB.

Meeteenheden voor de hoeveelheid informatie, waarvan de namen de voorvoegsels "kilo", "mega", enz. bevatten, zijn niet correct vanuit het oogpunt van de meettheorie, aangezien deze voorvoegsels worden gebruikt in het metrische maatstelsel , waarin een coëfficiënt wordt gebruikt als vermenigvuldigers van meerdere eenheden 10 n, waarbij n = 3, 6, 9, enz. Om deze onjuistheid weg te nemen, heeft de internationale organisatie Internationale Elektrotechnische Commissie, dat normen creëert voor de elektronische technologie-industrie, heeft een aantal nieuwe voorvoegsels goedgekeurd voor meeteenheden van de hoeveelheid informatie: kibi, mebi, gibi, tebi, peti, exbi. De oude aanduidingen voor eenheden voor het meten van de hoeveelheid informatie worden echter nog steeds gebruikt, en het zal enige tijd duren voordat de nieuwe namen op grote schaal worden gebruikt.

De probabilistische benadering wordt ook gebruikt bij het bepalen van de hoeveelheid informatie die wordt gepresenteerd met behulp van tekensystemen. Als we de karakters van het alfabet beschouwen als een reeks mogelijke berichten N, dan kan de hoeveelheid informatie die één karakter van het alfabet bevat, worden bepaald met formule (2.1). Als elk teken van het alfabet even waarschijnlijk voorkomt in de tekst van het bericht, kan formule (2.2) worden gebruikt om de hoeveelheid informatie te bepalen.

De hoeveelheid informatie die één teken van het alfabet bevat, hoe groter het aantal tekens in dit alfabet. Het aantal tekens in het alfabet wordt de kracht van het alfabet genoemd. De hoeveelheid informatie (informatievolume) in een bericht dat is gecodeerd met een tekensysteem en dat een bepaald aantal tekens (symbolen) bevat, wordt bepaald met behulp van de formule:

Waar V– informatievolume van het bericht; I= log2N, informatievolume van één symbool (teken); NAAR– aantal symbolen (tekens) in het bericht; N– kracht van het alfabet (aantal tekens in het alfabet).