Семантичний захід інформації. Синтаксична міра інформації

Для вимірювання інформації вводяться два параметри: кількість інформації I та обсяг даних V д.

Ці параметри мають різні вирази та інтерпретацію залежно від аналізованої форми адекватності.

Синтаксична адекватність.Вона відображає формально-структурні характеристики інформації та не зачіпає її змістового змісту. На синтаксичному рівні враховуються тип носія та спосіб подання інформації, швидкість передачі та обробки, розміри кодів подання інформації, надійність та точність перетворення цих кодів тощо.

p align="justify"> Інформацію, що розглядається тільки з синтаксичних позицій, зазвичай називають даними, так як при цьому не має значення смислова сторона.

Семантична (смислова) адекватність.Ця форма визначає ступінь відповідності образу об'єкта та самого об'єкта. Семантичний аспект передбачає врахування змістового змісту інформації. На цьому рівні аналізуються відомості, які відображає інформація, розглядаються смислові зв'язки. В інформатиці смислові зв'язки встановлюються між кодами представлення інформації. Ця форма служить на формування понять і уявлень, виявлення сенсу, змісту інформації та її узагальнення.

Прагматична (споживча) адекватність.Вона відбиває ставлення інформації та її споживача, відповідність інформації мети управління, що її основі реалізується. Виявляються прагматичні властивості інформації лише за наявності єдності інформації (об'єкта), користувача та цілі управління.

Прагматичний аспектрозгляду пов'язаний із цінністю, корисністю використання інформації при виробленні споживачем рішення для досягнення своєї мети. З цього погляду аналізуються споживчі властивості інформації. Ця форма адекватності безпосередньо з практичним використанням інформації, з відповідністю її цільової функції діяльності системи.

Кожній формі адекватності відповідає свій захід кількості інформації та обсягу даних (рис. 2.1).

Мал. 2.1. Заходи інформації

2.2.1. Синтаксична міра інформації

Синтаксична міракількість інформації оперує з знеособленою інформацією, яка не виражає смислового ставлення до об'єкта.

Об'єм даних V д у повідомленні вимірюється кількістю символів (розрядів) у цьому повідомленні. У різних системах числення один розряд має різну вагу і відповідно змінюється одиниця виміру даних:

в двійковій системі числення одиниця виміру - біт ( bit - binary digit - двійковий розряд);
у десятковій системі числення одиниця виміру - дит (десятковий розряд).

приклад. Повідомлення у двійковій системі у вигляді восьмирозрядного двійкового коду 10111011 має обсяг даних V д = 8 біт.

Повідомлення у десятковій системі у вигляді шестирозрядного числа 275903 має обсяг даних V д = 6 дит.

Кількість інформації визначається за такою формулою:

де H(α) – ентропія, тобто. кількість інформації вимірюється зміною (зменшенням) невизначеності стану системи.

Ентропія системи Н (α), що має N можливих станів, згідно з формулою Шеннона, дорівнює:

де p i - ймовірність того, що система знаходиться в i-му стані.

Для випадку, коли всі стани системи є рівноймовірними, її ентропія визначається співвідношенням

де N - число всіляких станів, що відображаються;

m – основа системи числення (різноманітність символів, що застосовуються в алфавіті);

n – число розрядів (символів) у повідомленні.

2.2.2. Семантичний захід інформації

Для виміру змістового інформації, тобто. її кількості на семантичному рівні, найбільше визнання отримала тезаурусна міра, яка пов'язує семантичні властивості інформації зі здатністю користувача приймати повідомлення, що надійшло. Для цього використовується поняття тезаурус користувача.

Тезаурус - це сукупність відомостей, які має користувач або система.

Залежно від співвідношень змістового інформації S і тезаурусу користувача S p змінюється кількість семантичної інформації I з сприймається користувачем і включається ним надалі в свій тезаурус. Характер такої залежності показаний на рис.2.2:

при S p =0 користувач не сприймає, не розуміє інформацію, що надходить;
при S p → ∞ користувач все знає, інформація, що надходить, йому не потрібна.

Мал. 2.2. Залежність кількості семантичної інформації, яку сприймає споживач, від його тезаурусу I с = f (S p )

При оцінці семантичного (змістовного) аспекту інформації необхідно прагнути погодження величин S і S p .

Відносним заходом кількості семантичної інформації може бути коефіцієнт змістовності З , який визначається як відношення кількості семантичної інформації до її обсягу:

2.2.3. Прагматичний захід інформації

Цей захід визначає корисність інформації (цінність) для досягнення користувачем поставленої мети. Цей захід також є величиною відносною, обумовленою особливостями використання інформації в тій чи іншій системі. Цінність інформації доцільно вимірювати в тих самих одиницях (або близьких до них), в яких вимірюється цільова функція.

Для порівняння введені заходи інформації подаємо у табл. 2.1.

Таблиця 2.1. Одиниці виміру інформації та приклади

міра інформації	Одиниці виміру	Приклади (для комп'ютерної області)
Синтаксична: шененновський підхід комп'ютерний підхід	Ступінь зменшення невизначеності	Ймовірність події
Синтаксична: шененновський підхід комп'ютерний підхід	Одиниці представлення інформації	Біт, байт, Кбайт і т.д.
Семантична	Тезаурус	Пакет прикладних програм, персональний комп'ютер, комп'ютерні мережі та ін.
Семантична	Економічні показники	Рентабельність, продуктивність, коефіцієнт амортизації тощо.
Прагматична	Цінність використання	Грошовий вираз
Прагматична	Місткість пам'яті, продуктивність комп'ютера, швидкість передачі і т.д.	Час обробки інформації та прийняття рішень

Для виміру змістового інформації, тобто. її кількості на семантичному рівні, найбільше визнання отримала тезаурусна міра (запропонована Ю. І. Шрейдером), яка пов'язує семантичні властивості інформації зі здатністю користувача приймати повідомлення, що надійшло. Для цього використовується поняття тезаурус користувача.

Тезаурус- це сукупність відомостей, які має користувач або система.

Залежно від співвідношень між смисловим змістом інформації S та тезаурусом користувача S p змінюється кількість семантичної інформації 1 С,сприймається користувачем і включається ним надалі у свій тезаурус. Характер такої залежності показано на рис. 1.5. Розглянемо два граничні випадки, коли кількість семантичної інформації 1 Содно 0:

при S p -> 0 користувач не сприймає, не розуміє інформацію, що надходить;
при S p -> 1 користувач все знає, і інформація, що надходить йому не потрібна.

Мал. 1.5.

Максимальна кількість семантичної інформації/с споживач набуває за узгодженням її змістового змісту S зі своїм тезаурусом S p(S p = S popt), коли інформація, що надходить, зрозуміла користувачеві і несе йому раніше не відомі (відсутні в його тезаурусі) відомості. Отже, кількість семантичної інформації в повідомленні, кількість нових знань, які користувач отримує, є величиною відносною. Те саме повідомлення може мати змістовий зміст для компетентного користувача і бути безглуздим для користувача некомпетентного. Відносним заходом кількості семантичної інформації може бути коефіцієнт змістовності З, розглянутий вище.

Прагматичний (аксіологічний) підхід до інформації виходить з аналізі її цінності, з погляду споживача. Наприклад, інформація, що має безперечну цінність для біолога, матиме цінність, близьку до нульової, для програміста. Цінність інформації пов'язують з часом, оскільки з часом вона старіє і цінність її, а отже, і кількість зменшуються. Таким чином, прагматичний підхід оцінює змістовний аспект інформації. Він має особливе значення при використанні інформації для керування, оскільки її кількість тісно пов'язана з ефективністю керування в системі.

Прагматичний захід інформаціївизначає корисність інформації (цінність) задля досягнення користувачем поставленої ланцюга. Цей захід - також величина відносна, обумовлена особливостями використання цієї інформації в тій чи іншій системі.

Цінність інформації доцільно вимірювати в тих самих одиницях (або близьких до них), в яких вимірюється цільова функція.

Алгоритмічний підхід пов'язані з бажанням застосування універсальної міри інформації. Кількісна характеристика, що відображає складність (розмір) програми і дозволяє зробити якесь повідомлення, була запропонована А. Н. Колмогоровим.

Так як існують різні способи завдання та реалізації алгоритму з використанням різних обчислювальних машин та мов програмування, то для визначеності задається деяка конкретна машина, наприклад машина Тюрінга.У цьому випадку як кількісна характеристика повідомлення можна взяти мінімальну кількість внутрішніх станів машини, потрібних для відтворення даного повідомлення.

Різні підходи до оцінки кількості інформації змушують, з одного боку, використовувати різнотипні одиниці інформації для характеристики різних інформаційних процесів, з другого - пов'язувати ці одиниці між собою як у логічному, і на фізичному рівнях. Наприклад, процес передачі інформації, що вимірюється в одних одиницях, сполучається з процесом зберігання інформації, де вона вимірюється в інших одиницях і т.д., а тому вибір одиниці інформації є дуже актуальним завданням.

У табл. 1.3 зіставлено введені заходи інформації.

Таблиця 1.3

Зіставлення заходів інформації

Кількість та якість інформації

Рівні проблем передачі інформації

При реалізації інформаційних процесів завжди відбувається перенесення інформації у просторі та час від джерела інформації до приймача (одержувача) за допомогою сигналів. Сигнал - фізичний процес (явище), що несе повідомлення (інформацію) про подію чи стан об'єкта спостереження.

Повідомлення- форма подання у вигляді сукупності символів (символів), використовувана передачі.

Повідомлення як сукупність знаків з погляду семіотики – науки, що займається дослідженням властивостей знаків та знакових систем, – може вивчатися на трьох рівнях:

1) синтаксичним,де розглядаються внутрішні властивості повідомлень, тобто відносини між знаками, що відбивають структуру цієї знакової системи.

2) семантичному,де аналізуються відносини між знаками і предметами, що позначаються ними, діями, якостями, тобто смисловий зміст повідомлення, його ставлення до джерела інформації;

3) прагматичному,де розглядаються відносини між повідомленням та одержувачем, тобто споживчий зміст повідомлення, його ставлення до одержувача.

Проблеми синтаксичного рівнястосуються створення теоретичних засад побудови інформаційних систем. На цьому рівні розглядають проблеми доставки одержувачу повідомлень як сукупності знаків, враховуючи при цьому тип носія та спосіб подання інформації, швидкість передачі та обробки, розміри кодів подання інформації, надійність та точність перетворення цих кодів тощо, повністю абстрагуючись від змістового повідомлень та їх цільового призначення. На цьому рівні інформацію, яку розглядають тільки з синтаксичних позицій, зазвичай називають даними, оскільки смислова сторона при цьому не має значення.

Проблеми семантичного рівняпов'язані з формалізацією та урахуванням змісту інформації, що передається, визначення ступеня відповідності образу об'єкта і самого об'єкта. На цьому рівні аналізуються ті відомості, які відображає інформація, розглядаються смислові зв'язки, формуються поняття та уявлення, виявляється зміст, зміст інформації, здійснюється її узагальнення.

На прагматичному рівніцікавлять наслідки від отримання та використання цієї інформації споживачем. Проблеми цього рівня пов'язані з визначенням цінності та корисності використання інформації при виробленні споживачем рішення для досягнення своєї мети. Основна складність тут полягає в тому, що цінність, корисність інформації може бути абсолютно різною для різних одержувачів і, крім того, вона залежить від ряду факторів, таких, як своєчасність її доставки та використання.

Заходи інформації

Заходи інформації синтаксичного рівня

Для вимірювання інформації на синтаксичному рівні вводяться два параметри: обсяг інформації (даних) – V Д(об'ємний підхід) та кількість інформації - I(Ентропійний підхід).

Обсяг інформації V Д.При реалізації інформаційних процесів інформація передається у вигляді повідомлення, що є сукупністю символів будь-якого алфавіту. Якщо кількість інформації, що міститься в повідомленні з одного символу, прийняти за одиницю, то обсяг інформації (даних) V Ду будь-якому іншому повідомленні дорівнюватиме кількості символів (розрядів) у цьому повідомленні.

Так, у десятковій системі числення один розряд має вагу, що дорівнює 10, і відповідно одиницею вимірювання інформації буде дит (десятковий розряд). У цьому випадку повідомлення у вигляді n V Д= пдит. Наприклад, чотирирозрядне число 2003 має обсяг даних V Д = 4 дит.

У двійковій системі числення один розряд має вагу, що дорівнює 2, і відповідно одиницею вимірювання інформації буде битий (bit (binary digit)- Двійковий розряд). У цьому випадку повідомлення у вигляді n-Розрядного числа має обсяг даних V Д = пбіт. Наприклад, восьмирозрядний двійковий код 11001011 має обсяг даних V Д= 8 біт.

У сучасній обчислювальній техніці поряд з мінімальною одиницею виміру даних біт широко використовується укрупнена одиниця виміру байт, що дорівнює 8 біт. При роботі з великими обсягами інформації для підрахунку її кількості застосовують більші одиниці виміру, такі як кілобайт (кбайт), мегабайт (Мбайт), гігабайт (Гбайт), терабайт (Тбайт):

1 кбайт = 1024 байт = 210 байт;

1 Мбайт = 1024 кбайт = 220 байт = 1048576 байт;

1 Гбайт = 1024 Мбайт = 230 байт = 1073741824 байт; .

1 Тбайт = 1024 Гбайт = 2 40 байт = 1099511627776 байт.

Кількість інформації I (Ентропійний підхід).У теорії інформації та кодування прийнято ентропійний підхід до вимірювання інформації. Цей підхід ґрунтується на тому, що факт отримання інформації завжди пов'язаний із зменшенням різноманітності чи невизначеності (ентропії) системи. Виходячи з цього, кількість інформації в повідомленні визначається як міра зменшення невизначеності стану даної системи після отримання повідомлення. Як тільки спостерігач виявив що-небудь у фізичній системі, ентропія системи знизилася, тому що для спостерігача система стала більш упорядкованою.

Таким чином, при ентропійному підході під інформацією розуміється кількісна величина зниклої в ході будь-якого процесу (випробування, вимірювання тощо) невизначеності. При цьому як невизначеність вводиться ентропія Н,та кількість інформації дорівнює:

де H apr - апріорна ентропія про стан досліджуваної системи;

H aps- Апостеріорна ентропія.

Апостеріорі- те, що відбувається з досвіду (випробування, вимірювання).

Апріорі- поняття, що характеризує знання, що передує досвіду (випробуванню), та незалежне від нього.

Що стосується, коли під час випробування невизначеність знята (отриманий конкретний результат, тобто. H aps = 0), кількість отриманої інформації збігається з первісною ентропією

Розглянемо як досліджувану систему дискретне джерело інформації (джерело дискретних повідомлень), під яким розумітимемо фізичну систему, що має кінцеве безліч можливих станів. Це безліч А= (a 1, a 2 , ..., а п)станів системи теорії інформації називають абстрактним алфавітом чи алфавітом джерела повідомлень.

Окремі стани а 1 , а 2 ,..., а„називають літерами чи символами алфавіту.

Така система може в кожний момент часу випадковим чином прийняти одну з кінцевих множин можливих станів а i.

Оскільки одні стану вибираються джерелом частіше, інші рідше, то загальному випадку він характеризується ансамблем А,тобто повною сукупністю станів з ймовірностями їх появи, що становлять у сумі одиницю:

, причому (2.2)

Введемо міру невизначеності вибору стану джерела. Її можна розглядати як міру кількості інформації, одержуваної при повному усуненні невизначеності щодо рівноймовірних станів джерела.

Тоді при N = 1отримуємо Н(А)= 0.

Зазначена міра була запропонована американським ученим Р. Хартлі в 1928 р. Заснування логарифму у формулі (2.3) не має принципового значення і визначає лише масштаб чи одиницю виміру Залежно від основи логарифму застосовують такі одиниці виміру.

1. Біти - при цьому основа логарифму дорівнює 2:

(2.4)

2. Нитки - при цьому основа логарифму дорівнює е:

3. Діти - при цьому основа логарифму дорівнює 10:

В інформатиці як міру невизначеності зазвичай використовують формулу (2.4). При цьому одиниця невизначеності називається двійковою одиницею, або бітом, і є невизначеністю вибору з двох рівноймовірних подій.

Формулу (2.4) можна отримати емпірично: для зняття невизначеності в ситуації з двох рівноймовірних подій необхідний один досвід і відповідно один біт інформації, при невизначеності, що складається з чотирьох рівноймовірних подій, достатньо 2 біт інформації, щоб вгадати факт, що шукається. Для визначення карти з колоди, що складається з 32 карт, достатньо 5 біт інформації, тобто достатньо поставити п'ять запитань з відповідями «так» чи «ні», щоб визначити карту, що шукається.

Запропонований захід дозволяє вирішувати певні практичні завдання, коли всі можливі стани джерела інформації мають однакову ймовірність.

У випадку ступінь невизначеності реалізації стану джерела інформації залежить від кількості станів, а й від ймовірностей цих станів. Якщо джерело інформації має, наприклад, два можливі стани з ймовірностями 0,99 і 0,01, то невизначеність вибору у нього значно менше, ніж у джерела, що має два рівноймовірні стани, так як у цьому випадку результат практично вирішений наперед (реалізація стану, ймовірність якого дорівнює 0,99).

Американський вчений К. Шеннон узагальнив поняття міри невизначеності вибору Hна випадок, коли Hзалежить від кількості станів, а й від ймовірностей цих станів (ймовірностей р iвибору символів а i, алфавіту A). Цей захід, що є невизначеністю, що припадає в середньому на один стан, називають ентропією дискретного джерела інформації:

(2.5)

Якщо знову орієнтуватися на вимір невизначеності у двійкових одиницях, то основу логарифму слід прийняти рівним двом:

(2.6)

За рівноймовірних виборів ймовірність p i =1/Nформула (2.6) перетворюється на формулу Р. Хартлі (2.3):

Запропонований захід був названий ентропією не випадково. Річ у тім, що формальна структура висловлювання (2.5) збігається з ентропією фізичної системи, визначеної Больцманом.

Використовуючи формули (2.4) та (2.6), можна визначити надмірність Dалфавіту джерела повідомлень А,яка показує, наскільки раціонально використовуються символи даного алфавіту:

де Н max (А) -максимально можлива ентропія, яка визначається за формулою (2.4);

Н(А) -ентропія джерела, яка визначається за формулою (2.6).

Суть цього заходу у тому, що з рівноймовірному виборі ту ж інформаційну навантаження на знак можна забезпечити, використовуючи алфавіт меншого обсягу, ніж у разі нерівноважним вибором.

що припадає в середньому на один стан, називають ентропією дискретного джерела інформації

мації.

H p i logp i

i 1 N

Якщо знову орієнтуватися на вимір невизначеності в двійкових одиницях, то основу логарифму слід прийняти рівним двом.

H p ilog 2 p i

i 1 N

За рівноймовірних виборів всі


	p log

і формула (5) перетворюється на формулу Р. Хартлі (2):

					1 log2	N log2

Запропонований захід був названий ентропією не випадково. Річ у тім, що формальна структура висловлювання (4) збігається з ентропією фізичної системи, визначеної Больцманом. Згідно з другим законом термодинаміки ентропія замкнутого простору визначається виро-




		П i 1

рости, то

можна записати як

p iln

i 1 N

Дана формула повністю збігається з (4)

В обох випадках величина характеризує ступінь різноманітності системи.
	Використовуючи формули (3) і (5), можна визначити надмірність алфавіту джерела спів-
		Яка показує, наскільки раціонально використовуються символи даного алфавіту:



		) - максимально можлива ентропія, яка визначається за формулою (3);	() - ентропія
джерела, що визначається за формулою (5).

Суть цього заходу у тому, що з рівноймовірному виборі ту ж інформаційну навантаження на знак можна забезпечити, використовуючи алфавіт меншого обсягу, ніж у разі нерівноймовірним вибором.

Заходи інформації семантичного рівня

Для виміру змістового інформації, тобто. її кількості на семантичному рівні, найбільшого поширення набула тезаурусна міра, яка пов'язує семантичні властивості інформації зі здатністю користувача приймати повідомлення, що надійшло. Дійсно, для розуміння та використання отриманої інформації одержувач повинен мати певний запас знань. Повне незнання предмета не дозволяє отримати корисну інформацію з прийнятого повідомлення про цей предмет. У міру зростання знань про предмет зростає і кількість корисної інформації, що витягується з повідомлення.

Якщо назвати наявні в одержувача знання даному предметі «тезаурусом» (тобто. певним зведенням слів, понять, назв об'єктів, пов'язаних смисловими зв'язками), кількість інформації, що міститься у певному повідомленні, можна оцінити ступенем зміни індивідуального тезаурусу під впливом даного повідомлення .

Тезаурус - сукупність відомостей, які має користувач або система.

Іншими словами, кількість семантичної інформації, яку одержувач отримує з повідомлень, що надходять, залежить від ступеня підготовленості його тезаурусу для сприйняття такої інформації.

Залежно від співвідношень між смисловим змістом інформації та тезаурусом користувача змінюється кількість семантичної інформації, яка сприймається користувачем і включається ним надалі до свого тезаурусу. Характер такої залежності показаний на малюнку 3. Розглянемо два граничні випадки, коли кількість семантичної інформації дорівнює

Рисунок 3 - Залежність кількості семантичної інформації, що сприймається споживачем, від його тезаурусу ()

Максимальної кількості семантичної інформації споживач набуває за погодженням.

суванні її смислового змісту зі своїм тезаурусом (), коли інформація, що надходить, зрозуміла користувачеві і несе йому раніше невідомі (відсутні в його тезаурусі) відомості.

Отже, кількість семантичної інформації в повідомленні, кількість нових знань, які користувач отримує, є величиною відносною. Те саме повідомлення може мати змістовий зміст для компетентного користувача і бути безглуздим для користувача некомпетентного.

Оцінюючи семантичного (змістовного) аспекту інформації необхідно прагнути до узгодження величин і.

Відносною мірою кількості семантичної інформації може бути коефіцієнт змістовності, що визначається як відношення кількості семантичної інформації до її обсягу:

Ще один підхід до семантичних оцінок інформації, що розвивається в рамках наукознавства, полягає в тому, що як основний показник семантичної цінності інформації, що міститься в аналізованому документі (повідомленні, публікації), приймається кількість посилань на нього в інших документах. Конкретні показники формуються на основі статистичної обробки кількості посилань у різних вибірках.

Заходи інформації прагматичного рівня

Цей захід визначає корисність інформації (цінність) для досягнення користувачем поставленої мети. Вона також відносна величина, обумовлена особливостями використання цієї інформації в тій або іншій системі.

Одним із перших вітчизняних учених до цієї проблеми звернувся А. А. Харкевич, який запропонував прийняти за міру цінності інформації кількість інформації, необхідну досягнення поставленої мети, тобто. розраховувати збільшення ймовірності досягнення мети. Так, якщо

Отже, цінність інформації у своїй вимірюється в одиницях інформації, у разі у бітах.

Вираз (7) можна як результат нормування числа результатів. У пояснення малюнку 4 наведено три схеми, у яких прийнято однакові значення числа результатів 2 і 6 для точок 0 і 1 відповідно. Вихідне положення - точка 0. З отриманої інформації відбувається перехід у точку 1. Мета позначена хрестиком. Сприятливі наслідки зображені лініями, що ведуть до мети. Визначимо цінність отриманої інформації у всіх трьох випадках:

а) число сприятливих результатів дорівнює трьом:

і, отже,

б) є один сприятливий результат:

в) число сприятливих результатів дорівнює чотирьом:

У прикладі б) отримано негативну цінність інформації (негативна інформація). Таку інформацію, що збільшує вихідну невизначеність та зменшує ймовірність досягнення мети, називають дезінформацією. Таким чином, у прикладі б) ми отримали дезінформацію в 1,58 двійкової одиниці.

Як зазначалося, поняття інформації можна розглядати за різних обмеженнях, накладаних з її властивості, тобто. за різних рівнів розгляду. В основному виділяють три рівні – синтаксичний, семантичний та прагматичний. Відповідно кожному з них визначення кількості інформації застосовують різні оцінки.

На синтаксичному рівні для оцінки кількості інформації використовують ймовірнісні методи, які беруть до уваги лише ймовірнісні властивості інформації та не враховують інші (змістовий, корисність, актуальність тощо). Розроблені в середині XX ст. математичні та, зокрема, імовірнісні методи дозволили сформувати підхід до оцінки кількості інформації як до зменшення невизначеності знань.

Такий підхід, званий також імовірнісним, постулює принцип: якщо деяке повідомлення призводить до зменшення невизначеності наших знань, можна стверджувати, що таке повідомлення містить інформацію. При цьому повідомлення містять інформацію про події, які можуть реалізуватися з різними ймовірностями.

Формулу визначення кількості інформації для подій з різними ймовірностями і одержуваних від дискретного джерела інформації запропонував американський учений До. Шеннон в 1948г. Відповідно до цієї формули кількість інформації може бути визначена таким чином:

Де I– кількість інформації; N– кількість можливих подій (повідомлень); p i- Імовірність окремих подій (повідомлень).

Визначається за допомогою формули (2.1) кількість інформації набуває лише позитивного значення. Оскільки ймовірність окремих подій менше одиниці, відповідно вираз log 2 ,- є негативною величиною і для отримання позитивного значення кількості інформації у формулі (2.1) перед знаком суми стоїть знак «мінус».

Якщо ймовірність появи окремих подій однакова і вони утворюють повну групу подій, тобто:

то формула (2.1) перетворюється на формулу Р. Хартлі:

У формулах (2.1) та (2.2) відношення між кількістю інформації Iі відповідно ймовірністю (або кількістю) окремих подій виражається за допомогою логарифму.

Застосування логарифмів у формулах (2.1) та (2.2) можна пояснити таким чином. Для простоти міркувань скористаємося співвідношенням (2.2). Будемо послідовно надавати аргументу Nзначення, що вибираються, наприклад, з ряду чисел: 1, 2, 4, 8, 16, 32, 64 і т.д. Щоб визначити, яка подія з Nрівноймовірних подій сталося, для кожного числа ряду необхідно послідовно проводити операції вибору з двох можливих подій.

Так, при N= 1 кількість операцій дорівнюватиме 0 (імовірність події дорівнює 1), при N= 2, кількість операцій дорівнюватиме 1, при N= 4 кількість операцій дорівнюватиме 2, при N= 8, кількість операцій дорівнюватиме 3 і т.д. Таким чином, отримаємо наступний ряд чисел: 0, 1, 2, 3, 4, 5, 6 і т.д., який можна вважати відповідним значенням функції Iу співвідношенні (2.2).

Послідовність значень чисел, які приймає аргумент N, являє собою ряд, відомий у математиці як ряд чисел, що утворюють геометричну прогресію, а послідовність значень чисел, які набуває функція I, буде поруч, що утворює арифметичну прогресію. Таким чином, логарифм у формулах (2.1) і (2.2) встановлює співвідношення між рядами, що становлять геометричну та арифметичну прогресії, що досить добре відомо в математиці.

Для кількісного визначення (оцінки) будь-якої фізичної величини необхідно визначити одиницю виміру, яка в теорії вимірів має назву заходи .

Як уже зазначалося, інформацію перед обробкою, передачею та зберіганням необхідно піддати кодуванню.

Кодування провадиться за допомогою спеціальних алфавітів (знакових систем). В інформатиці, що вивчає процеси отримання, обробки, передачі та зберігання інформації за допомогою обчислювальних (комп'ютерних) систем, в основному використовується двійкове кодування, при якому використовується знакова система, що складається з двох символів 0 та 1. З цієї причини у формулах (2.1) та (2.2) як основа логарифму використовується цифра 2.

Виходячи з ймовірнісного підходу до визначення кількості інформації ці два символи двійкової знакової системи можна розглядати як дві різні можливі події, тому за одиницю кількості інформації прийнято таку кількість інформації, яка містить повідомлення, що зменшує невизначеність знання в два рази (до отримання подій їх ймовірність дорівнює 0 ,5 після отримання – 1, невизначеність зменшується відповідно: 1/0,5 = 2, тобто в 2 рази). Така одиниця виміру інформації називається бітом (від англ. слова binary digit- Двійкова цифра). Таким чином, як міру для оцінки кількості інформації на синтаксичному рівні, за умови двійкового кодування, прийнято один біт.

Наступною за величиною одиницею вимірювання кількості інформації є байт, що є послідовністю, складеною з восьми біт, тобто:

1 байт = 2 3 біт = 8 біт.

В інформатиці також широко використовуються кратні байту одиниці вимірювання кількості інформації, проте на відміну від метричної системи заходів, де як множники кратних одиниць застосовують коефіцієнт 10n, де n = 3, 6, 9 і т.д., у кратних одиницях вимірювання кількості інформації використовується коефіцієнт 2n. Вибір цей пояснюється лише тим, що комп'ютер переважно оперує числами над десятковою, а двійковій системі числення.

Кратні байти одиниці вимірювання кількості інформації вводяться таким чином:

1 кілобайт (Кбайт) = 210 байт = 1024 байт;

1 мегабайт (Мбайт) = 210 Кбайт = 1024 Кбайт;

1 гігабайт (Гбайт) = 210 Мбайт = 1024 Мбайт;

1 терабайт (Тбайт) = 210 Гбайт = 1024 Гбайт;

1 петабайт (Пбайт) = 210 Тбайт = 1024 Тбайт;

1 екзабайт (Ебайт) = 210 Пбайт = 1024 Пбайт.

Одиниці виміру кількості інформації, в назві яких є приставки «кіло», «мега» і т.д., з точки зору теорії вимірювань не є коректними, оскільки ці приставки використовуються в метричній системі заходів, в якій як множники кратних одиниць використовується коефіцієнт 10 n де n = 3, 6, 9 і т.д. Для усунення цієї некоректності міжнародна організація International Electrotechnical Commission, Що займається створенням стандартів для галузі електронних технологій, затвердила низку нових приставок для одиниць вимірювання кількості інформації: кібі (kibi), мебі (mebi), загибелі (gibi), tebi (tebi), співи (peti), ексбі (exbi). Однак поки що використовуються старі позначення одиниць вимірювання кількості інформації, і потрібен час, щоб нові назви почали широко застосовуватись.

Імовірнісний підхід використовують і щодо кількості інформації, поданої з допомогою знакових систем. Якщо розглядати символи алфавіту як безліч можливих повідомлень N, кількість інформації, яке несе один знак алфавіту, можна визначити за формулою (2.1). При рівноймовірному появі кожного знака алфавіту у тексті повідомлення визначення кількості інформації можна скористатися формулою (2.2).

Кількість інформації, яка несе один знак алфавіту, тим більше, чим більше символів входить до цього алфавіту. Кількість знаків, що входять до алфавіту, називається потужністю алфавіту. Кількість інформації (інформаційний обсяг), що міститься в повідомленні, закодованому за допомогою знакової системи та містить певну кількість знаків (символів), визначається за допомогою формули:

де V- Інформаційний обсяг повідомлення; I= log 2 N, інформаційний обсяг одного символу (знака); До– кількість символів (знаків) у повідомленні; N- Потужність алфавіту (кількість знаків в алфавіті).