Syntactische maatstaf voor informatie. Semantische manier om informatie te meten: essentie, basisconcepten en eigenschappen. Coderen van numerieke informatie

Bij het implementeren informatie processen Er vindt altijd een overdracht van informatie in ruimte en tijd plaats van de informatiebron naar de ontvanger (ontvanger). In dit geval worden voor het overbrengen van informatie verschillende tekens of symbolen gebruikt, bijvoorbeeld natuurlijke of kunstmatige (formele) taal, waardoor deze kan worden uitgedrukt in een vorm die een bericht wordt genoemd.

Bericht– een vorm van informatierepresentatie in de vorm van een reeks tekens (symbolen) die worden gebruikt voor overdracht.

Een boodschap als een reeks tekens vanuit het oogpunt van de semiotiek ( uit het Grieks setneion - teken, teken) – een wetenschap die de eigenschappen van tekens en tekensystemen bestudeert – kan op drie niveaus worden bestudeerd:

1) syntactisch , waarbij rekening wordt gehouden met de interne eigenschappen van berichten, dat wil zeggen relaties tussen tekens, die de structuur van een bepaald tekensysteem weerspiegelen. Externe eigenschappen bestudeerd op semantisch en pragmatisch niveau. Op dit niveau beschouwen ze de problemen bij het overbrengen van berichten aan de ontvanger als een reeks karakters, waarbij rekening wordt gehouden met het type medium en de manier waarop informatie wordt gepresenteerd, de snelheid van verzending en verwerking, de omvang van de informatiepresentatiecodes, de betrouwbaarheid en de nauwkeurigheid van de conversie van deze codes, enz., waarbij volledig wordt geabstraheerd van de semantische inhoud van berichten en het beoogde doel ervan. Op dit niveau wordt informatie die alleen vanuit een syntactisch perspectief wordt bekeken gewoonlijk data genoemd, omdat de semantische kant er niet toe doet.

De moderne informatietheorie bestudeert vooral problemen op dit niveau. Het is gebaseerd op het concept van ‘hoeveelheid informatie’, een maatstaf voor de frequentie van het gebruik van tekens, die op geen enkele manier de betekenis of het belang van de verzonden berichten weerspiegelt. In dit verband wordt wel eens gezegd dat de moderne informatietheorie zich op syntactisch niveau bevindt.

2) semantisch , waar de relaties tussen tekens en de objecten, acties en kwaliteiten die ze aanduiden worden geanalyseerd, dat wil zeggen de semantische inhoud van de boodschap, de relatie ervan tot de informatiebron. Problemen op semantisch niveau houden verband met formalisering en betekenisoverweging doorgegeven informatie, het bepalen van de mate van overeenstemming tussen het beeld van het object en het object zelf. Op dit niveau de informatie die de informatie weerspiegelt, wordt geanalyseerd, semantische verbanden worden onderzocht, concepten en ideeën worden gevormd, de betekenis en inhoud van de informatie worden onthuld en de generalisatie ervan wordt uitgevoerd.

3) pragmatisch , waarbij rekening wordt gehouden met de relatie tussen het bericht en de ontvanger, d.w.z. de consumenteninhoud van het bericht, de relatie met de ontvanger.

Op dit niveau zijn de gevolgen van het ontvangen en gebruiken van deze informatie door de consument van belang. Problemen op dit niveau houden verband met het bepalen van de waarde en het nut van het gebruik van informatie wanneer de consument een oplossing ontwikkelt om zijn doel te bereiken. De grootste moeilijkheid hier is dat de waarde en het nut van informatie voor verschillende ontvangers totaal verschillend kunnen zijn en bovendien afhankelijk zijn van een aantal factoren, zoals bijvoorbeeld de tijdigheid van de levering en het gebruik ervan.


Voor elk van de niveaus van informatieoverdrachtsproblemen die hierboven zijn besproken, zijn er hun eigen benaderingen voor het meten van de hoeveelheid informatie en hun eigen metingen van informatie. Er zijn respectievelijk metingen van informatie op syntactisch niveau, semantisch niveau en pragmatisch niveau.

Maatregelen voor informatie op syntactisch niveau. Kwantificering Informatie op dit niveau heeft geen betrekking op de inhoudelijke kant van de informatie, maar werkt met onpersoonlijke informatie die geen semantische relatie met het object tot uitdrukking brengt. Hierdoor deze maatregel maakt het mogelijk om informatiestromen te beoordelen in objecten die zo verschillend van aard zijn als communicatiesystemen, computers, controlesystemen, zenuwstelsel van een levend organisme, enz.

Om informatie op syntactisch niveau te meten, worden twee parameters geïntroduceerd: de hoeveelheid informatie (data) - V d(volumebenadering) en hoeveelheid informatie – I(entropiebenadering).

Informatievolume V d (volumebenadering). Bij het implementeren van informatieprocessen wordt informatie verzonden in de vorm van een bericht, een reeks symbolen van een alfabet. Bovendien vergroot elk nieuw teken in het bericht de hoeveelheid informatie die wordt vertegenwoordigd door de reeks tekens van dit alfabet. Als nu de hoeveelheid informatie in een bericht van één teken als één wordt genomen, dan zal het volume aan informatie (data) Vd in elk ander bericht gelijk zijn aan het aantal tekens (bits) in dit bericht. Omdat dezelfde informatie door velen kan worden weergegeven op verschillende manieren(met behulp van verschillende alfabetten), dan zal de meeteenheid van informatie (gegevens) dienovereenkomstig veranderen.

Dus, binnen decimaal systeem in notatie heeft één cijfer een gewicht gelijk aan 10, en dienovereenkomstig zal de meeteenheid van informatie zijn dit (decimale plaats N N dit. Het viercijferige getal 2009 heeft bijvoorbeeld een datavolume van V d = 4 dit.

IN binair systeem in de notatie heeft één cijfer een gewicht gelijk aan 2, en dienovereenkomstig zal de meeteenheid van informatie zijn beetje (bit (binair cijfer) – binair cijfer). In dit geval een bericht in het formulier N-cijferig getal heeft datavolume V d = N beetje. De acht-bits binaire code 11001011 heeft bijvoorbeeld een datavolume van Vd = 8 bits.

In moderne computertechnologie, samen met minimale eenheid gegevens metingen beetje de vergrote meeteenheid wordt veel gebruikt byte, gelijk aan 8 bits. Er zijn precies acht bits nodig om een ​​van de 256 tekens van het computertoetsenbordalfabet te coderen (256 = 2 8).

Bij het werken met grote volumes Er wordt meer informatie gebruikt om de hoeveelheid te berekenen grote eenheden afmetingen:

1 Kilobyte (KB) = 1024 bytes = 2 10 bytes,

1 Megabyte (MB) = 1024 KB = 2 20 bytes = 1.048.576 bytes;

1 Gigabyte (GB) = 1024 MB = 2 30 bytes = 1.073.741.824 bytes;

IN de laatste tijd Vanwege de toename van het volume aan verwerkte informatie, worden dergelijke afgeleide eenheden in gebruik genomen als:

1 Terabyte (TB) = 1024 GB = 2 40 bytes = 1.099.511.627.776 bytes;

1 Petabyte (PB) = 1024 TB = 2 50 bytes = 1.125.899.906.842.624 bytes.

Opgemerkt moet worden dat in het binaire (computer) informatiemeetsysteem, in tegenstelling tot het metrische systeem, eenheden met de voorvoegsels "kilo", "mega", enz. Worden verkregen door de basiseenheid te vermenigvuldigen, niet met 10 3 = 1000, 10 6 = 1.000.000, enz., en op 2 10 = 1024, 2 20 = 1.048.576, enz.

Hoeveelheid informatie I (entropiebenadering). In de informatie- en coderingstheorie wordt een entropiebenadering voor het meten van informatie toegepast. Deze benadering is gebaseerd op het feit dat het verkrijgen van informatie altijd gepaard gaat met een afname van de diversiteit of onzekerheid (entropie) van het systeem. Op basis hiervan, de hoeveelheid informatie in een bericht wordt gedefinieerd als een maatstaf voor het verminderen van de onzekerheid van de toestand van een bepaald systeem na ontvangst van het bericht. Onzekerheid kan worden geïnterpreteerd in termen van hoe weinig de waarnemer weet over een bepaald systeem. Zodra een waarnemer iets in een fysiek systeem heeft geïdentificeerd, neemt de entropie van het systeem af omdat het systeem voor de waarnemer ordelijker is geworden.

Dus met de entropiebenadering informatie wordt opgevat als de kwantitatieve waarde van onzekerheid die tijdens welk proces dan ook (testen, meten, etc.) is verdwenen. In dit geval wordt entropie geïntroduceerd als maatstaf voor onzekerheid N, en de hoeveelheid informatie is gelijk aan:

I = H april – H aps

waarbij, H apr – a priori entropie over de toestand van het systeem of proces dat wordt bestudeerd;

H aps – posterieure entropie.

A posteriori (van lat. a posteriori – uit wat volgt) – voortkomend uit ervaring (testen, metingen).

A priori (van lat. a priori - van het vorige) is een concept dat kennis karakteriseert die aan ervaring voorafgaat (testen) en daar onafhankelijk van is.

In het geval dat tijdens de test de bestaande onzekerheid wordt weggenomen (een specifiek resultaat wordt verkregen, d.w.z. H = 0), valt de hoeveelheid ontvangen informatie samen met de initiële entropie

Laten we als het onderzochte systeem een ​​discrete informatiebron (een bron van discrete berichten) beschouwen, waarmee we bedoelen fysiek systeem, met een eindige verzameling mogelijke staten {en ik}, i = .

Helemaal klaar EEN = (een 1, een 2, ..., een n) toestanden van een systeem worden in de informatietheorie een abstract alfabet of een alfabet van een berichtenbron genoemd.

Individuele staten een 1, een 2,..., een n worden letters of symbolen van het alfabet genoemd.

Zo'n systeem kan op elk willekeurig moment willekeurig een van een eindige reeks mogelijke toestanden aannemen. een ik. In dit geval zeggen ze dat verschillende toestanden worden gerealiseerd vanwege hun keuze door de bron.

De ontvanger van de informatie (bericht) heeft een bepaald idee over het mogelijke optreden van bepaalde gebeurtenissen. Deze ideeën zijn over het algemeen onbetrouwbaar en worden uitgedrukt door de waarschijnlijkheden waarmee hij deze of gene gebeurtenis verwacht. De algemene maatstaf voor onzekerheid (entropie) wordt gekenmerkt door een zekere wiskundige afhankelijkheid van deze kansen; de hoeveelheid informatie in het bericht wordt bepaald door de mate waarin de mate van onzekerheid afneemt na ontvangst van het bericht.

Laten we dit idee uitleggen met een voorbeeld.

Laten we er 32 hebben diverse kaarten. De mogelijkheid om één kaart uit de stapel te kiezen is 32. Voordat u een keuze maakt, is het normaal om aan te nemen dat de kansen om een ​​bepaalde kaart te kiezen voor alle kaarten hetzelfde zijn. Door een keuze te maken nemen we deze onzekerheid weg. In dit geval kan onzekerheid worden gekarakteriseerd door het aantal mogelijke, even waarschijnlijke keuzes. Als we nu de hoeveelheid informatie definiëren als een maatstaf voor het elimineren van onzekerheid, dan kan de informatie die wordt verkregen als resultaat van de keuze worden gekarakteriseerd door het getal 32. Het is echter handiger om niet dit getal zelf te gebruiken, maar de logaritme van de hierboven verkregen schatting van basis 2:

waarbij m het aantal mogelijke, even waarschijnlijke keuzes is (als m=2 krijgen we informatie in één bit). Dat wil zeggen, in ons geval

H = logboek 2 32 = 5.

De geschetste aanpak is van de Engelse wiskundige R. Hartley (1928). Het heeft een interessante interpretatie. Het wordt gekenmerkt door een aantal vragen met “ja” of “nee” antwoorden om te bepalen welke kaart iemand heeft gekozen. 5 van zulke vragen zijn genoeg.

Als bij het kiezen van een kaart de mogelijkheid dat elke kaart verschijnt niet hetzelfde is (anders waarschijnlijk), dan verkrijgen we een statistische benadering voor het meten van informatie voorgesteld door K. Shannon (1948). In dit geval wordt de hoeveelheid informatie gemeten met behulp van de formule:

Waar p ik– waarschijnlijkheid van keuze i e teken van het alfabet.

Het is gemakkelijk om dat te zien als de kansen blz. 1, ..., p.n gelijk zijn, dan is elk van hen gelijk 1/N, en de formule van Shannon verandert in de formule van Hartley.

Maatregelen van informatie op semantisch niveau. Om de semantische inhoud van informatie te meten, d.w.z. de hoeveelheid per semantisch niveau, de thesaurusmaat die verbinding maakt semantische eigenschappen informatie met de mogelijkheid van de gebruiker om een ​​binnenkomend bericht te ontvangen. Om de ontvangen informatie te kunnen begrijpen en gebruiken, moet de ontvanger inderdaad over een bepaalde hoeveelheid kennis beschikken. Volledige onwetendheid over het onderwerp staat ons niet toe om nuttige informatie uit het ontvangen bericht over dit onderwerp te halen. Naarmate de kennis over een onderwerp groeit, groeit ook het aantal nuttige informatie, geëxtraheerd uit het bericht.

Als we de kennis van de ontvanger over een bepaald onderwerp een thesaurus noemen (dat wil zeggen een bepaalde reeks woorden, concepten, namen van objecten die met elkaar verbonden zijn door semantische verbindingen), dan kan de hoeveelheid informatie in een bepaald bericht worden beoordeeld aan de hand van de mate van verandering. in de individuele thesaurus onder invloed van dit bericht.

Thesaurus- een reeks informatie die beschikbaar is voor een gebruiker of systeem.

Met andere woorden: het aantal semantische informatie, door de ontvanger uit inkomende berichten gehaald, hangt af van de mate van paraatheid van zijn thesaurus om dergelijke informatie waar te nemen.

Afhankelijk van de relatie tussen de semantische inhoud van informatie S en de thesaurus van de gebruiker Sp de hoeveelheid semantische informatie verandert Is, waargenomen door de gebruiker en vervolgens door hem opgenomen in zijn thesaurus. De aard van deze afhankelijkheid wordt getoond in Fig. 2.1. Laten we twee beperkende gevallen bekijken waarin de hoeveelheid semantische informatie I c gelijk is aan 0:

a) wanneer Sp = 0, de gebruiker de binnenkomende informatie niet waarneemt (niet begrijpt);

b) wanneer S -> ∞ de gebruiker “alles weet” en de binnenkomende informatie niet nodig heeft.

Rijst. 1.2. Afhankelijkheid van de hoeveelheid semantische informatie,

waargenomen door de consument, uit zijn thesaurus ik c =f(S p)

Maximale hoeveelheid De consument verkrijgt semantische informatie door de semantische inhoud S af te stemmen op zijn thesaurus S p (S = S p opt), wanneer de binnenkomende informatie begrijpelijk is voor de gebruiker en hem voorziet van voorheen onbekende (niet in zijn thesaurus) informatie.

De hoeveelheid semantische informatie in een bericht, de hoeveelheid nieuwe kennis die de gebruiker ontvangt, is dus een relatieve waarde. Hetzelfde bericht kan betekenisvolle inhoud hebben voor een competente gebruiker en betekenisloos zijn voor een incompetente gebruiker.

Bij het beoordelen van het semantische (inhoudelijke) aspect van informatie moet ernaar worden gestreefd de waarden van S en Sp te harmoniseren.

Een relatieve maatstaf voor de hoeveelheid semantische informatie kan de inhoudscoëfficiënt C zijn, die wordt gedefinieerd als de verhouding tussen de hoeveelheid semantische informatie en het volume ervan:

C = I s / V d

Maatregelen van informatie op pragmatisch niveau. Deze maatstaf bepaalt de bruikbaarheid van informatie voor het bereiken van het doel van de gebruiker. Deze maatstaf is ook een relatieve waarde, bepaald door de bijzonderheden van het gebruik van deze informatie in een bepaald systeem.

Een van de eerste Russische wetenschappers die het probleem van het beoordelen van informatie op een pragmatisch niveau aanpakte, was A.A. Kharkevich, die voorstelde om als maatstaf voor de waarde van informatie de hoeveelheid informatie te nemen die nodig is om het doel te bereiken, dat wil zeggen om de toename van de waarschijnlijkheid om het doel te bereiken te berekenen. Dus als vóór het ontvangen van informatie de waarschijnlijkheid om het doel te bereiken p 0 was, en na ontvangst ervan - p 1, dan wordt de waarde van informatie bepaald als de logaritme van de verhouding p 1 / p 0:

I = log 2 p 1 – log 2 p 0 = log 2 (p 1 /p 0)

De waarde van informatie wordt dus gemeten in informatie-eenheden, in in dit geval in stukjes.

Om informatie te meten, worden twee parameters geïntroduceerd: de hoeveelheid informatie I en de hoeveelheid gegevens Vd.

Deze parameters hebben verschillende uitdrukkingen en interpretaties, afhankelijk van de vorm van geschiktheid die wordt overwogen.

Syntactische adequaatheid. Het geeft de formele en structurele kenmerken van informatie weer en heeft geen invloed op de semantische inhoud ervan. Op syntactisch niveau wordt rekening gehouden met het type medium en de manier waarop informatie wordt gepresenteerd, de snelheid van verzending en verwerking, de grootte van codes voor het presenteren van informatie, de betrouwbaarheid en nauwkeurigheid van het omzetten van deze codes, enz.

Informatie die alleen vanuit een syntactische positie wordt beschouwd, wordt gewoonlijk data genoemd, omdat de semantische kant er niet toe doet.

Semantische (fictieve) adequaatheid. Deze vorm bepaalt de mate van overeenstemming tussen de afbeelding van het object en het object zelf. Het semantische aspect houdt in dat rekening wordt gehouden met de semantische inhoud van informatie. Op dit niveau wordt de informatie die de informatie weerspiegelt geanalyseerd en worden semantische verbanden overwogen. In de informatica worden semantische verbindingen tot stand gebracht tussen codes die informatie representeren. Deze vorm dient om concepten en ideeën te vormen, de betekenis, inhoud van informatie en de generalisatie ervan te identificeren.

Pragmatische (consumenten) adequaatheid. Het weerspiegelt de relatie tussen informatie en de consument ervan, de correspondentie van informatie met het managementdoel, dat op basis daarvan wordt geïmplementeerd. De pragmatische eigenschappen van informatie komen alleen naar voren als er sprake is van eenheid van informatie (object), gebruiker en managementdoel.

Pragmatisch aspect overweging wordt geassocieerd met de waarde en het nut van het gebruik van informatie wanneer de consument een oplossing ontwikkelt om zijn doel te bereiken. Vanuit dit gezichtspunt worden de consumenteneigenschappen van informatie geanalyseerd. Deze vorm van adequaatheid houdt rechtstreeks verband met praktisch gebruik informatie, met de naleving ervan objectieve functie systeemactiviteit.

Elke vorm van adequaatheid komt overeen met zijn eigen maatstaf voor de hoeveelheid informatie en het gegevensvolume (Fig. 2.1).

Rijst. 2.1.

Informatiemaatregelen

2.2.1. Syntactische maatstaf voor informatie Syntactische maatstaf

De hoeveelheid informatie werkt met onpersoonlijke informatie die geen semantische relatie met het object tot uitdrukking brengt. Het gegevensvolume Vd in een bericht wordt gemeten aan de hand van het aantal tekens (bits) in dit bericht. IN diverse systemen

  • in het binaire getalsysteem is de meeteenheid bit ( beetje - binair cijfer - binair cijfer);
  • In het decimale getallensysteem is de meeteenheid dit (decimale plaats).

Voorbeeld. Bericht in binair systeem als 8-bits binaire code 10111011 heeft een datavolume Vd = 8 bits.

Een bericht in het decimale systeem in de vorm van een zescijferig getal 275903 heeft een datavolume van V d = 6 dits.

De hoeveelheid informatie wordt bepaald door de formule:

waarbij H (α) entropie is, d.w.z. de hoeveelheid informatie wordt gemeten door een verandering (vermindering) in de onzekerheid van de systeemtoestand.

De entropie van een systeem H (α), met N mogelijke toestanden, is volgens de formule van Shannon gelijk aan:

waarbij pi de waarschijnlijkheid is dat het systeem zich in de i-de toestand bevindt.

Voor het geval dat alle toestanden van het systeem even waarschijnlijk zijn, wordt de entropie ervan bepaald door de relatie

waarbij N het aantal van alle mogelijke weergegeven toestanden is;

m - basis van het nummersysteem (verscheidenheid aan symbolen die in het alfabet worden gebruikt);

n is het aantal bits (tekens) in het bericht.

2.2.2. Semantische maatstaf voor informatie

Om de semantische inhoud van informatie te meten, d.w.z. de kwantiteit ervan op semantisch niveau, de meest erkende is de thesaurusmaatstaf, die de semantische eigenschappen van informatie verbindt met het vermogen van de gebruiker om het binnenkomende bericht te accepteren. Hiervoor wordt het concept gebruikt gebruikersthesaurus.

Een thesaurus is een verzameling informatie die beschikbaar is voor een gebruiker of systeem.

Afhankelijk van de relatie tussen de semantische inhoud van informatie S en de thesaurus Sp van de gebruiker, verandert de hoeveelheid semantische informatie Ic die door de gebruiker wordt waargenomen en vervolgens door hem in zijn thesaurus wordt opgenomen. De aard van deze afhankelijkheid wordt weergegeven in figuur 2.2:

  • wanneer Sp=0 de gebruiker de binnenkomende informatie niet waarneemt of begrijpt;
  • wanneer S p → ∞ de gebruiker alles weet, heeft hij de binnenkomende informatie niet nodig.

Rijst. 2.2.

Afhankelijkheid van de door de consument waargenomen hoeveelheid semantische informatie van zijn thesaurus I с = f (S p)

Bij het beoordelen van het semantische (inhoudelijke) aspect van informatie moet ernaar worden gestreefd de waarden van S en S p te harmoniseren.

Een relatieve maatstaf voor de hoeveelheid semantische informatie kan de inhoudscoëfficiënt C zijn, die wordt gedefinieerd als de verhouding tussen de hoeveelheid semantische informatie en het volume ervan:

Deze maatstaf bepaalt het nut van informatie (waarde) voor de gebruiker om zijn doel te bereiken. Deze maatstaf is ook een relatieve waarde, bepaald door de eigenaardigheden van het gebruik van informatie in een bepaald systeem. Het is raadzaam om de waarde van informatie te meten in dezelfde eenheden (of daar dichtbij) waarin de objectieve functie wordt gemeten.

Ter vergelijking presenteren we de ingevoerde informatiemaatregelen in de tabel. 2.1.

Tabel 2.1. Informatie-eenheden en voorbeelden

Maatstaf voor informatie Meeteenheden Voorbeelden (voor het computerveld)
Syntactisch:

Shannon-aanpak

computerbenadering

Mate van onzekerheidsreductie Waarschijnlijkheid van de gebeurtenis
Eenheden van informatiepresentatie Bit, byte, KB, enz.
Semantisch Thesaurus Plastic zak applicatieprogramma's, persoonlijke computer, computernetwerken enz.
Economische indicatoren Winstgevendheid, productiviteit, afschrijvingspercentage, etc.
Pragmatisch Waarde in gebruik Monetaire waarde
Geheugencapaciteit, computerprestaties, snelheid van gegevensoverdracht, enz. Tijd voor het verwerken van informatie en het nemen van beslissingen

Onderwerp 2. Basisprincipes van het weergeven en verwerken van informatie in een computer

Literatuur

1. Informatica in de economie: leerboek/ed. ZIJN. Odintsova, A.N. Romanova. – M.: Universitair leerboek, 2008.

2. Informatica: Basis cursus: Leerboek/Ed. S.V. Simonovitsj. – Sint-Petersburg: Peter, 2009.

3. Informatica. Algemene cursus: Leerboek/Co-auteur: A.N. Guda, MA Butakova, N.M. Nechitailo, A.V. Tsjernov; Onder algemeen red. V.I. Kolesnikova. – M.: Dashkov en K, 2009.

4. Informatica voor economen: Leerboek/Ed. Matjoesjka V.M. - M.: Infra-M, 2006.

5. Economische informatica: Inleiding tot de economische analyse van informatiesystemen.

Informatiemaatstaven (syntactisch, semantisch, pragmatisch)

Er kunnen verschillende benaderingen worden gebruikt om informatie te meten, maar de meest gebruikte zijn dat wel statistisch(probabilistisch), semantisch en blz pragmatisch methoden.

Statistisch(probabilistische) methode voor het meten van informatie werd ontwikkeld door K. Shannon in 1948, die voorstelde de hoeveelheid informatie te beschouwen als een maatstaf voor de onzekerheid van de toestand van het systeem, verwijderd als gevolg van het ontvangen van informatie. De kwantitatieve uitdrukking van onzekerheid wordt entropie genoemd. Als de waarnemer, na ontvangst van een bericht, het heeft verworven aanvullende informatie over het systeem X, dan is de onzekerheid afgenomen. De aanvullende hoeveelheid ontvangen informatie wordt gedefinieerd als:

waar is de extra hoeveelheid informatie over het systeem X, ontvangen in de vorm van een bericht;

Initiële onzekerheid (entropie) van het systeem X;

Eindige onzekerheid (entropie) van het systeem X, die plaatsvindt na ontvangst van het bericht.

Als het systeem X kan zich in een van de discrete toestanden bevinden, waarvan het aantal N, en de kans om het systeem in elk van hen te vinden is gelijk en de som van de kansen van alle toestanden is gelijk aan één, dan wordt de entropie berekend met behulp van de formule van Shannon:

waar is de entropie van systeem X;

A- de basis van de logaritme, die de meeteenheid van informatie bepaalt;

N– het aantal toestanden (waarden) waarin het systeem zich kan bevinden.

Entropie is een positieve grootheid, en aangezien kansen altijd kleiner zijn dan één en hun logaritme negatief is, maakt het minteken in de formule van K. Shannon de entropie positief. Dezelfde entropie, maar met het tegenovergestelde teken, wordt dus genomen als maatstaf voor de hoeveelheid informatie.

De relatie tussen informatie en entropie kan als volgt worden begrepen: het verkrijgen van informatie (de toename ervan) betekent tegelijkertijd het verminderen van onwetendheid of informatieonzekerheid (entropie).

De statistische benadering houdt dus rekening met de waarschijnlijkheid dat berichten verschijnen: het bericht dat minder waarschijnlijk is, wordt als informatiever beschouwd, d.w.z. minst verwacht. De hoeveelheid informatie bereikt maximale waarde, als de gebeurtenissen even waarschijnlijk zijn.

R. Hartley stelde de volgende formule voor voor het meten van informatie:

I=log2n ,

Waar N- aantal even waarschijnlijke gebeurtenissen;

I– een maatstaf voor informatie in een bericht over het voorkomen van een van de N evenementen

De meting van informatie wordt uitgedrukt in het volume ervan. Meestal gaat het om volume computergeheugen en de hoeveelheid gegevens die via communicatiekanalen wordt verzonden. Onder een eenheid wordt verstaan ​​de hoeveelheid informatie waarbij de onzekerheid met de helft wordt verminderd; zo'n informatie-eenheid wordt genoemd beetje .

Als de basis van de logaritme in de formule van Hartley wordt gebruikt natuurlijke logaritme(), dan is de meeteenheid van informatie nat ( 1 bit = ln2 ≈ 0,693 nat). Als het getal 3 wordt gebruikt als grondtal van de logaritme, dan - traktatie, als 10, dan - dit (Hartley).

In de praktijk wordt vaker een grotere eenheid gebruikt - byte(byte) gelijk aan acht bits. Er is voor deze eenheid gekozen omdat deze kan worden gebruikt voor het coderen van elk van de 256 tekens van het computertoetsenbordalfabet (256=28).

Naast bytes wordt informatie gemeten in halve woorden (2 bytes), woorden (4 bytes) en dubbele woorden (8 bytes). Zelfs grotere meeteenheden voor informatie worden ook veel gebruikt:

1 Kilobyte (KB - kilobyte) = 1024 bytes = 210 bytes,

1 Megabyte (MB - megabyte) = 1024 kB = 220 bytes,

1 Gigabyte (GB - gigabyte) = 1024 MB = 230 bytes.

1 Terabyte (TB - terabyte) = 1024 GB = 240 bytes,

1 Petabyte (PByte - petabyte) = 1024 TB = 250 bytes.

In 1980 stelde de Russische wiskundige Yu Manin het idee van construeren voor kwantumcomputer, in verband waarmee een dergelijke informatie-eenheid verscheen als Qubit ( kwantumbit, qubit ) – “kwantumbit” is een maatstaf voor het meten van de hoeveelheid geheugen in een theoretisch mogelijke computervorm die gebruik maakt van kwantummedia, bijvoorbeeld elektronenspins. Een qubit kan niet twee verschillende waarden aannemen (“0” en “1”), maar meerdere, overeenkomend met genormaliseerde combinaties van twee grondspintoestanden, wat geeft groter aantal mogelijke combinaties. Zo kunnen 32 qubits ongeveer 4 miljard toestanden coderen.

Semantische benadering. Syntactische maatstaf is niet voldoende als u niet de hoeveelheid gegevens moet bepalen, maar de hoeveelheid informatie die nodig is in het bericht. In dit geval wordt gekeken naar het semantische aspect, waardoor we de inhoud van de informatie kunnen bepalen.

Om de semantische inhoud van informatie te meten, kunt u de thesaurus van de ontvanger (consument) gebruiken. Het idee van de thesaurusmethode werd voorgesteld door N. Wiener en ontwikkeld door onze huiswetenschapper A.Yu. Schrader.

Thesaurus genaamd lichaam van informatie waarover de ontvanger van de informatie beschikt. Door de thesaurus te correleren met de inhoud van het ontvangen bericht, kunt u ontdekken hoeveel dit de onzekerheid vermindert.

Afhankelijkheid van de hoeveelheid semantische informatie van een bericht van de thesaurus van de ontvanger

Volgens de afhankelijkheid die in de grafiek wordt weergegeven, als de gebruiker geen thesaurus heeft (kennis over de essentie van het ontvangen bericht, dat wil zeggen = 0), of de aanwezigheid van een dergelijke thesaurus die niet is veranderd als gevolg van de aankomst van het bericht (), en vervolgens de hoeveelheid semantische informatie erin gelijk aan nul. De optimale thesaurus () zal er een zijn waarin het volume aan semantische informatie maximaal zal zijn (). Bijvoorbeeld semantische informatie in een binnenkomend bericht op onbekend vreemde taal zal nul zijn, maar in dit geval zal dezelfde situatie zich voordoen als het bericht geen nieuws meer is, omdat de gebruiker alles al weet.

Pragmatische maatregel informatie bepaalt het nut ervan bij het bereiken van de doelstellingen van de consument. Om dit te doen, volstaat het om de waarschijnlijkheid van het bereiken van het doel voor en na ontvangst van het bericht te bepalen en deze te vergelijken. De waarde van informatie (volgens A.A. Kharkevich) wordt berekend met behulp van de formule:

waar is de kans dat het doel wordt bereikt voordat het bericht wordt ontvangen;

De waarschijnlijkheid dat het doel wordt bereikt, is het gebied waarop de boodschap wordt ontvangen;

Informatie - wat is het? Waar is het op gebaseerd? Welke doelen streeft het na en welke taken vervult het? We zullen dit allemaal in dit artikel bespreken.

Algemene informatie

In welke gevallen wordt de semantische methode voor het meten van informatie gebruikt? De essentie van de informatie wordt gebruikt, de inhoudelijke kant van het ontvangen bericht is van belang - dit zijn de indicaties voor het gebruik ervan. Maar laten we eerst uitleggen wat het is. Opgemerkt moet worden dat de semantische methode voor het meten van informatie een moeilijke, geformaliseerde benadering is die nog niet volledig is gevormd. Het wordt gebruikt om de hoeveelheid betekenis te meten in de ontvangen gegevens. Met andere woorden, hoeveel van de ontvangen informatie is in dit geval nodig. Deze aanpak wordt gebruikt om de inhoud van de ontvangen informatie te bepalen. En als we het hebben over een semantische manier om informatie te meten, gebruiken we het concept van een thesaurus, dat onlosmakelijk verbonden is met het onderwerp dat wordt besproken. Wat vertegenwoordigt het?

Thesaurus

Ik wil graag een korte introductie geven en een vraag beantwoorden over de semantische methode voor het meten van informatie. Wie heeft het geïntroduceerd? De grondlegger van de cybernetica, Norbert Wiener, stelde voor om deze methode te gebruiken, maar deze kreeg een aanzienlijke ontwikkeling onder invloed van onze landgenoot A. Yu Schrader. Wat is de naam die wordt gebruikt om het geheel aan informatie aan te duiden waarover de ontvanger van de informatie beschikt. Als je de thesaurus vergelijkt met de inhoud van het ontvangen bericht, kun je ontdekken hoeveel de onzekerheid hierdoor is verminderd. Ik zou graag één fout willen corrigeren die vaak onder invloed is van groot aantal mensen. Ze geloven dus dat de semantische methode voor het meten van informatie werd geïntroduceerd door Claude Shannon. Het is niet precies bekend hoe deze misvatting is ontstaan, maar deze mening is onjuist. Claude Shannon introduceert statistische methode meting van informatie, waarvan de ‘opvolger’ de semantische is.

Grafische benadering voor het bepalen van de hoeveelheid semantische informatie in een ontvangen bericht

Waarom moet je iets tekenen? Semantische manier Meting maakt gebruik van deze mogelijkheid om de bruikbaarheid van de gegevens visueel over te brengen in gemakkelijk te begrijpen grafieken. Wat betekent dit in de praktijk? Om de stand van zaken te verklaren, wordt een relatie in de vorm van een grafiek uitgezet. Als de gebruiker geen kennis heeft van de essentie van het ontvangen bericht (gelijk aan nul), dan zal de hoeveelheid semantische informatie gelijk zijn aan dezelfde waarde. Is het mogelijk om te vinden optimale waarde? Ja! Dit is de naam van een thesaurus, waarbij de hoeveelheid semantische informatie maximaal is. Laten we eens naar een klein voorbeeld kijken. Laten we zeggen dat een gebruiker een bericht ontvangt dat is geschreven in een onbekende vreemde taal, of dat een persoon kan lezen wat daar staat, maar dit is geen nieuws meer voor hem, aangezien dit allemaal bekend is. In dergelijke gevallen zeggen ze dat het bericht geen semantische informatie bevat.

Historische ontwikkeling

Dit had waarschijnlijk iets hoger besproken moeten worden, maar het is nog niet te laat om de achterstand in te halen. De semantische methode voor het meten van informatie werd oorspronkelijk geïntroduceerd door Ralph Hartley in 1928. Eerder werd vermeld dat Claude Shannon vaak als grondlegger wordt genoemd. Waarom was er zoveel verwarring? Het feit is dat, hoewel de semantische methode voor het meten van informatie in 1928 door Ralph Hartley werd geïntroduceerd, het Claude Shannon en Warren Weaver waren die deze in 1948 veralgemeniseerden. Hierna vormde de grondlegger van de cybernetica, Norbert Wiener, het idee van de thesaurusmethode, die de grootste erkenning kreeg in de vorm van een maatregel ontwikkeld door Yu I. Schneider. Opgemerkt moet worden dat om dit te begrijpen, je genoeg nodig hebt hoog niveau kennis.

Efficiëntie

Wat levert de thesaurusmethode ons in de praktijk op? Het is een echte bevestiging van de stelling dat informatie zoiets als relativiteit heeft. Opgemerkt moet worden dat het een relatieve (of subjectieve) waarde heeft. Om objectief te kunnen beoordelen wetenschappelijke informatie, introduceerde het concept van een universele thesaurus. De mate van verandering toont de betekenis aan van de kennis die de mensheid ontvangt. Tegelijkertijd is het onmogelijk om precies te zeggen welk eindresultaat (of tussenproduct) uit de informatie kan worden gehaald. Laten we als voorbeeld computers nemen. Computerwetenschappen is gemaakt op basis van buizentechnologie en de bitstatus van elk structureel element en werd oorspronkelijk gebruikt om berekeningen uit te voeren. Nu heeft bijna iedereen iets dat werkt op basis van deze technologie: radio, telefoon, computer, tv, laptop. Zelfs moderne koelkasten, fornuizen en wastafels bevatten enige elektronica, waarvan de basis informatie is over hoe het voor een persoon gemakkelijker wordt om deze huishoudelijke apparaten te gebruiken.

Wetenschappelijke benadering

Waar wordt de semantische methode voor het meten van informatie bestudeerd? Informatica is de wetenschap die zich ermee bezighoudt verschillende aspecten deze vraag. Wat is de eigenaardigheid? De methode is gebaseerd op het gebruik van het ‘waar/onwaar’-systeem, of het ‘één/nul’-bitsysteem. Wanneer bepaalde informatie binnenkomt, wordt deze verdeeld in afzonderlijke blokken, die worden genoemd als spraakeenheden: woorden, lettergrepen en dergelijke. Elk blok krijgt een specifieke waarde. Laten we eens naar een klein voorbeeld kijken. Er staan ​​twee vrienden vlakbij. De een wendt zich tot de tweede met de woorden: “Morgen hebben we een vrije dag.” Iedereen weet wanneer de dagen voor rust zijn. Daarom is de waarde van deze informatie nul. Maar als de tweede zegt dat hij morgen moet werken, dan zal het voor de eerste een verrassing zijn. In dit geval kan het inderdaad blijken dat de plannen die één persoon heeft gemaakt om bijvoorbeeld te gaan bowlen of rond te snuffelen in een werkplaats, worden verstoord. Elk deel van het beschreven voorbeeld kan worden beschreven met behulp van enen en nullen.

Werken met concepten

Maar wat wordt er naast de thesaurus nog meer gebruikt? Wat moet je nog meer weten om de semantische manier van het meten van informatie te begrijpen? De basisconcepten die verder bestudeerd kunnen worden zijn tekensystemen. Ze worden opgevat als middelen om betekenis uit te drukken, zoals regels voor het interpreteren van tekens of hun combinaties. Laten we eens kijken naar een ander voorbeeld uit de informatica. Computers werken met conventionele nullen en enen. In wezen is dit de laag- en hoogspanning die aan de componenten van de apparatuur wordt geleverd. Bovendien zenden ze deze enen en nullen eindeloos door. Hoe kan de technologie daartussen onderscheid maken? Het antwoord hierop werd gevonden: onderbrekingen. Wanneer dezelfde informatie wordt verzonden, zijn de resultaten dat ook diverse blokken zoals woorden, zinnen en individuele betekenissen. Bij gesproken menselijke spraak worden pauzes ook gebruikt om gegevens in afzonderlijke blokken op te delen. Ze zijn zo onzichtbaar dat we de meeste ervan automatisch opmerken. Schriftelijk worden hiervoor punten en komma's gebruikt.

Eigenaardigheden

Laten we ook ingaan op het onderwerp eigenschappen die de semantische methode voor het meten van informatie heeft. We weten al dat dit de naam is van een speciale aanpak die het belang van informatie evalueert. Kunnen we zeggen dat de gegevens die op deze manier worden beoordeeld objectief zullen zijn? Nee, dat is niet waar. Informatie is subjectief. Laten we dit eens bekijken met een school als voorbeeld. Er is een uitstekende student die een voorsprong heeft op het goedgekeurde programma, en een gemiddelde student die bestudeert wat er in de klas wordt onderwezen. In de eerste plaats zal de meeste informatie die hij op school krijgt van weinig belang zijn, omdat hij deze al kent en deze niet voor de eerste keer hoort/leest. Daarom zal het op subjectief niveau niet erg waardevol voor hem zijn (misschien vanwege enkele opmerkingen van de leraar die hij opmerkte tijdens de presentatie van zijn onderwerp). Terwijl het gemiddelde nieuwe informatie Hij hoorde iets slechts op afstand, dus voor hem is de waarde van de gegevens die in de lessen worden gepresenteerd een orde van grootte groter.

Conclusie

Opgemerkt moet worden dat in de informatica de semantische methode voor het meten van informatie niet de enige optie is waarbinnen bestaande problemen kunnen worden opgelost. De keuze moet afhangen van de gestelde doelen en de aanwezige kansen. Daarom, als je geïnteresseerd bent in het onderwerp of er behoefte aan hebt, dan kunnen we je alleen maar sterk aanbevelen om het in meer detail te bestuderen en uit te zoeken welke andere methoden om informatie te meten, naast semantiek, bestaan.