Синтаксична міра інформації. Семантичний спосіб виміру інформації: сутність, основні поняття та властивості. Кодування числової інформації

При реалізації інформаційних процесівзавжди відбувається перенесення інформації у просторі та часу від джерела інформації до приймача (одержувача). При цьому передачі інформації використовують різні знаки чи символи, наприклад природного чи штучного (формального) мови, дозволяють висловити їх у певній формі, званої повідомленням.

Повідомлення- Форма подання інформації у вигляді сукупності знаків (символів), що використовується для передачі.

Повідомлення як сукупність знаків з погляду семіотики ( від грец. setneion - знак, ознака) - науки, що займається дослідженням властивостей знаків та знакових систем, - може вивчатися на трьох рівнях:

1) синтаксичним , де розглядаються внутрішні властивості повідомлень, тобто відносини між знаками, що відбивають структуру цієї знакової системи. Зовнішні властивостівивчають на семантичному та прагматичному рівнях. На цьому рівні розглядають проблеми доставки одержувачу повідомлень як сукупності знаків, враховуючи при цьому тип носія та спосіб подання інформації, швидкість передачі та обробки, розміри кодів подання інформації, надійність та точність перетворення цих кодів тощо, повністю абстрагуючись від змістового повідомлень та їх цільового призначення. На цьому рівні інформацію, яку розглядають тільки з синтаксичних позицій, зазвичай називають даними, оскільки смислова сторона при цьому не має значення.

Сучасна теорія інформації досліджує переважно проблеми саме цього рівня. Вона спирається на поняття «кількість інформації», що є мірою частоти вживання знаків, яка ніяк не відображає ні сенсу, ні важливості повідомлень, що передаються. У зв'язку з цим іноді кажуть, що сучасна теорія інформації перебуває на синтаксичному рівні.

2) семантичному , де аналізуються відносини між знаками та предметами, що позначаються ними, діями, якостями, тобто смисловий зміст повідомлення, його ставлення до джерела інформації. Проблеми семантичного рівня пов'язані з формалізацією та врахуванням сенсу переданої інформації, визначення ступеня відповідності образу об'єкта та самого об'єкта на даному рівніаналізуються ті відомості, які відображає інформація, розглядаються смислові зв'язки, формуються поняття та уявлення, виявляється зміст, зміст інформації, здійснюється її узагальнення.

3) прагматичному , де розглядаються відносини між повідомленням та одержувачем, тобто споживчий зміст повідомлення, його ставлення до одержувача.

На цьому рівні цікавлять наслідки від отримання та використання цієї інформації споживачем. Проблеми цього рівня пов'язані з визначенням цінності та корисності використання інформації при виробленні споживачем рішення для досягнення своєї мети. Основна складність тут полягає в тому, що цінність, корисність інформації може бути абсолютно різною для різних одержувачів і, крім того, вона залежить від ряду факторів, таких, як своєчасність її доставки та використання.

Для кожного з розглянутих вище рівнів проблем передачі існують свої підходи до вимірювання кількості інформації та свої заходи інформації. Розрізняють відповідно заходи інформації синтаксичного рівня, семантичного рівня та прагматичного рівня.

Заходи інформації синтаксичного рівня. Кількісна оцінкаІнформація цього рівня не пов'язана зі змістовною стороною інформації, а оперує з знеособленою інформацією, що не виражає смислового ставлення до об'єкта. У зв'язку з цим даний західдає можливість оцінки інформаційних потоків у таких різних за своєю природою об'єктах, як системи зв'язку, обчислювальні машини, системи управління, нервова система живого організму тощо.

Для вимірювання інформації на синтаксичному рівні вводяться два параметри: обсяг інформації (даних) – V д(об'ємний підхід) та кількість інформації – I(Ентропійний підхід).

Обсяг інформації V д (об'ємний підхід).При реалізації інформаційних процесів інформація передається у вигляді повідомлення, що є сукупністю символів будь-якого алфавіту. При цьому кожен новий символ у повідомленні збільшує кількість інформації, наданої послідовністю символів. даного алфавіту. Якщо тепер кількість інформації, що міститься в повідомленні з одного символу, прийняти за одиницю, то обсяг інформації (даних) V д у будь-якому іншому повідомленні дорівнюватиме кількості символів (розрядів) у цьому повідомленні. Так як та сама інформація може бути представлена багатьма різними способами(з використанням різних алфавітів), то й одиниця виміру інформації (даних) відповідно змінюватиметься.

Так, у десятковій системічислення один розряд має вагу, що дорівнює 10, і відповідно одиницею вимірювання інформації буде дит (десятковий розряд п пдит. Наприклад, чотирирозрядне число 2009 має обсяг даних V д = 4 дит.

У двійковій системічислення один розряд має вагу, що дорівнює 2, і відповідно одиницею вимірювання інформації буде біт (bit (binary digit) – двійковий розряд). У цьому випадку повідомлення у вигляді n-Розрядного числа має обсяг даних V д = пбіт. Наприклад, восьмирозрядний двійковий код 11001011 має обсяг даних V д = 8 біт.

У сучасній обчислювальній техніці поряд з мінімальною одиницеювимірювання даних бітшироко використовується укрупнена одиниця виміру байт, рівна 8 біт. Саме вісім бітів потрібно закодувати будь-який з 256 символів алфавіту клавіатури комп'ютера (256=2 8).

При роботі з великими обсягамиінформації для підрахунку її кількості застосовують більше великі одиницівимірювання:

1 Кілобайт (Кбайт) = 1024 байт = 2 10 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт = 1048576 байт;

1 Гігабайт (Гбайт) = 1024 Мбайт = 2 30 байт = 1073741824 байт;

У Останнім часому зв'язку із збільшенням обсягів оброблюваної інформації входять у вживання такі похідні одиниці, як:

1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт = 1099511627776 байт;

1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт = 1125899906842624 байт.

Слід звернути увагу, що в системі вимірювання двійкової (комп'ютерної) інформації, на відміну від метричної системи, одиниці з приставками «кіло», «мега» тощо виходять шляхом множення основної одиниці не на 10 3 = 1000, 10 6 = 1000000 і т. д., а на 2 10 = 1024, 2 20 = 1048576 і т. д.

Кількість інформації I (Ентропійний підхід).У теорії інформації та кодування прийнято ентропійний підхід до вимірювання інформації. Цей підхід ґрунтується на тому, що факт отримання інформації завжди пов'язаний із зменшенням різноманітності чи невизначеності (ентропії) системи. Виходячи з цього, кількість інформації у повідомленні визначається як міра зменшення невизначеності стану цієї системи після отримання повідомлення.Невизначеність може бути інтерпретована у сенсі того, наскільки мало відомо спостерігачеві про цю систему. Як тільки спостерігач виявив що-небудь у фізичній системі, ентропія системи знизилася, тому що для спостерігача система стала більш упорядкованою.

Таким чином, при ентропійному підході під інформацією розуміється кількісна величина зниклої в ході будь-якого процесу (випробування, вимірювання тощо) невизначеності.При цьому як невизначеність вводиться ентропія Н, а кількість інформації дорівнює:

I = H apr - H aps

де, H apr - апріорна ентропія про стан досліджуваної системи або процесу;

H aps – апостеріорна ентропія.

Апостеріорі (від латів. a posteriori – з наступного) – те, що відбувається з досвіду (випробування, вимірювання).

Апріорі (від латів. a priori – з попереднього) – поняття, що характеризує знання, що передує досвіду (випробуванню), та незалежне від нього.

У разі, коли в ході випробування невизначеність знята (отриманий конкретний результат, тобто Н = 0), кількість отриманої інформації збігається з первісною ентропією

Розглянемо як досліджувану систему дискретне джерело інформації (джерело дискретних повідомлень), під яким будемо розуміти фізичну систему, що має кінцеву множину можливих станів {а i}, i = .

Все безліч А = (a 1, a 2, ..., а n)станів системи теорії інформації називають абстрактним алфавітом чи алфавітом джерела повідомлень.

Окремі стани a 1 , а 2 ,..., а nназивають літерами чи символами алфавіту.

Така система може в кожний момент часу випадковим чином прийняти одну з кінцевих множин можливих станів a i. У цьому кажуть, різні стани реалізуються внаслідок вибору їх джерелом.

Одержувач інформації (повідомлення) має певне уявлення про можливі настання деяких подій. Ці уявлення в загальному випадку недостовірні і виражаються ймовірностями, з якими він чекає на ту чи іншу подію. Загальна міра невизначеності (ентропія) характеризується деякою математичною залежністю від цих ймовірностей, кількість інформації у повідомленні визначається тим, наскільки зменшується міра невизначеності після отримання повідомлення.

Пояснимо цю ідею з прикладу.

Нехай у нас є 32 різні карти. Можливість вибору однієї карти з колоди – 32. До вибору, природно запропонувати, що шанси вибрати певну певну карту, однакові всім карт. Зробивши вибір, ми усуваємо цю невизначеність. У цьому невизначеність можна охарактеризувати кількістю можливих равновероятностных виборів. Якщо тепер визначити кількість інформації як міру усунення невизначеності, то отриману в результаті вибору інформацію можна охарактеризувати числом 32. Однак зручніше використовувати не саме це число, а логарифм від отриманої вище оцінки на підставі 2:

де m - кількість можливих рівноймовірних виборів (При m = 2, отримаємо інформацію в один біт). Тобто в нашому випадку

H = log 2 32 = 5.

Викладений підхід належить англійському математику Р. Хартлі (1928). Він має цікаву інтерпретацію. Він характеризується числом питань із відповідями «так» чи «ні», що дозволяє визначити, яку карту вибрала людина. Таких питань достатньо 5.

Якщо при виборі карти, можливість появи кожної картки не однакові (різноманітні), то отримаємо статистичний підхід до вимірювання інформації, запропонований К. Шенноном (1948). У цьому випадку міра інформації вимірюється за такою формулою:

де p i- Імовірність вибору i-го алфавіту символ.

Легко помітити, що якщо ймовірність p 1, ..., p nрівні, то кожна з них дорівнює 1/N, і формула Шеннона перетворюється на формулу Хартлі.

Заходи інформації семантичного рівня.Для виміру змістового інформації, т. е. її кількості на семантичному рівні, найбільшого поширення набув тезаурусний захід, який пов'язує семантичні властивостіінформації зі здатністю користувача приймати повідомлення, що надійшло. Дійсно, для розуміння та використання отриманої інформації одержувач повинен мати певний запас знань. Повне незнання предмета не дозволяє отримати корисну інформацію з прийнятого повідомлення про цей предмет. У міру зростання знань про предмет зростає і кількість корисної інформації, що витягується з повідомлення.

Якщо назвати наявні в одержувача знання про цей предмет тезаурусом (тобто певним зведенням слів, понять, назв об'єктів, пов'язаних смисловими зв'язками), кількість інформації, що міститься у певному повідомленні, можна оцінити ступенем зміни індивідуального тезаурусу під впливом даного повідомлення.

Тезаурус- сукупність відомостей, які має користувач або система.

Іншими словами, кількість семантичної інформації, що витягується одержувачем з повідомлень, що надходять, залежить від ступеня підготовленості його тезаурусу для сприйняття такої інформації.

Залежно від співвідношень між змістовим змістом інформації Sта тезаурусом користувача S pзмінюється кількість семантичної інформації I з, що сприймається користувачем і включається ним надалі до свого тезаурусу. Характер такої залежності показано на рис. 2.1. Розглянемо два граничні випадки, коли кількість семантичної інформації I дорівнює 0:

а) при S p = 0 користувач не сприймає (не розуміє) інформацію, що надходить;

б) при S -> ∞ користувач «все знає», і інформація, що надходить йому не потрібна.

Мал. 1.2. Залежність кількості семантичної інформації,

сприймається споживачем, від його тезаурусу I c = f(S p)

Максимальна кількістьсемантичної інформації споживач набуває за узгодженням її змістового змісту S зі своїм тезаурусом S p (S = S p opt), коли надходить інформація зрозуміла користувачеві і несе йому раніше невідомі (відсутні у його тезаурусі) відомості.

Отже, кількість семантичної інформації в повідомленні, кількість нових знань, які користувач отримує, є величиною відносною. Те саме повідомлення може мати змістовий зміст для компетентного користувача і бути безглуздим для користувача некомпетентного.

Оцінюючи семантичного (змістовного) аспекту інформації необхідно прагнути до узгодження величин S і Sp.

Відносним заходом кількості семантичної інформації може бути коефіцієнт змістовності С, який визначається як відношення кількості семантичної інформації до її обсягу:

З = I с / V д

Заходи інформації прагматичного рівня.Цей захід визначає корисність інформації для досягнення користувачем поставленої мети. Цей захід також є величиною відносною, обумовленою особливостями використання цієї інформації в тій чи іншій системі.

p align="justify"> Одним з перших російських учених до проблеми оцінки інформації прагматичного рівня звернувся А.А. Харкевич, який запропонував прийняти за міру цінності інформації кількість інформації, необхідну досягнення поставленої мети, т. е. розраховувати збільшення ймовірності досягнення мети. Так, якщо до отримання інформації ймовірність досягнення мети дорівнювала р 0 а після її отримання - p 1 то цінність інформації визначається як логарифм відношення p 1 / p 0:

I = log 2 p 1 - log 2 р 0 = log 2 (p 1 / p 0)

Таким чином, цінність інформації при цьому вимірюється в одиницях інформації, даному випадкуу бітах.

Для вимірювання інформації вводяться два параметри: кількість інформації I та обсяг даних V д.

Ці параметри мають різні вирази та інтерпретацію залежно від аналізованої форми адекватності.

Синтаксична адекватність.Вона відображає формально-структурні характеристики інформації та не зачіпає її змістового змісту. На синтаксичному рівні враховуються тип носія та спосіб подання інформації, швидкість передачі та обробки, розміри кодів подання інформації, надійність та точність перетворення цих кодів тощо.

p align="justify"> Інформацію, що розглядається тільки з синтаксичних позицій, зазвичай називають даними, так як при цьому не має значення смислова сторона.

Семантична (смислова) адекватність.Ця форма визначає ступінь відповідності образу об'єкта та самого об'єкта. Семантичний аспект передбачає врахування змістового змісту інформації. На цьому рівні аналізуються відомості, які відображає інформація, розглядаються смислові зв'язки. В інформатиці смислові зв'язки встановлюються між кодами представлення інформації. Ця форма служить на формування понять і уявлень, виявлення сенсу, змісту інформації та її узагальнення.

Прагматична (споживча) адекватність.Вона відбиває ставлення інформації та її споживача, відповідність інформації мети управління, що її основі реалізується. Виявляються прагматичні властивості інформації лише за наявності єдності інформації (об'єкта), користувача та цілі управління.

Прагматичний аспектрозгляду пов'язаний із цінністю, корисністю використання інформації при виробленні споживачем рішення для досягнення своєї мети. З цього погляду аналізуються споживчі властивості інформації. Ця форма адекватності безпосередньо пов'язана з практичним використаннямінформації, з її відповідністю цільової функціїдіяльність системи.

Кожній формі адекватності відповідає свій захід кількості інформації та обсягу даних (рис. 2.1).

Мал. 2.1. Заходи інформації

2.2.1. Синтаксична міра інформації

Синтаксична міракількість інформації оперує з знеособленою інформацією, яка не виражає смислового ставлення до об'єкта.

Об'єм даних V д у повідомленні вимірюється кількістю символів (розрядів) у цьому повідомленні. У різних системахобчислення один розряд має різну вагу і відповідно змінюється одиниця виміру даних:

в двійковій системі числення одиниця виміру - біт ( bit - binary digit - двійковий розряд);
у десятковій системі числення одиниця виміру - дит (десятковий розряд).

приклад. Повідомлення у двійковій системі у вигляді восьмирозрядного двійкового коду 10111011 має обсяг даних V д = 8 біт.

Повідомлення у десятковій системі у вигляді шестирозрядного числа 275903 має обсяг даних V д = 6 дит.

Кількість інформації визначається за такою формулою:

де H(α) – ентропія, тобто. кількість інформації вимірюється зміною (зменшенням) невизначеності стану системи.

Ентропія системи Н (α), що має N можливих станів, згідно з формулою Шеннона, дорівнює:

де p i - ймовірність того, що система знаходиться в i-му стані.

Для випадку, коли всі стани системи є рівноймовірними, її ентропія визначається співвідношенням

де N - число всіляких станів, що відображаються;

m – основа системи числення (різноманітність символів, що застосовуються в алфавіті);

n – число розрядів (символів) у повідомленні.

2.2.2. Семантичний захід інформації

Для виміру змістового інформації, тобто. її кількості на семантичному рівні, найбільше визнання отримала тезаурусна міра, яка пов'язує семантичні властивості інформації зі здатністю користувача приймати повідомлення, що надійшло. Для цього використовується поняття тезаурус користувача.

Тезаурус - це сукупність відомостей, які має користувач або система.

Залежно від співвідношень змістового інформації S і тезаурусу користувача S p змінюється кількість семантичної інформації I з сприймається користувачем і включається ним надалі в свій тезаурус. Характер такої залежності показаний на рис.2.2:

при S p =0 користувач не сприймає, не розуміє інформацію, що надходить;
при S p → ∞ користувач все знає, інформація, що надходить, йому не потрібна.

Мал. 2.2. Залежність кількості семантичної інформації, яку сприймає споживач, від його тезаурусу I с = f (S p )

При оцінці семантичного (змістовного) аспекту інформації необхідно прагнути погодження величин S і S p .

Відносним заходом кількості семантичної інформації може бути коефіцієнт змістовності З , який визначається як відношення кількості семантичної інформації до її обсягу:

2.2.3. Прагматичний захід інформації

Цей захід визначає корисність інформації (цінність) для досягнення користувачем поставленої мети. Цей захід також є величиною відносною, обумовленою особливостями використання інформації в тій чи іншій системі. Цінність інформації доцільно вимірювати в тих самих одиницях (або близьких до них), в яких вимірюється цільова функція.

Для порівняння введені заходи інформації подаємо у табл. 2.1.

Таблиця 2.1. Одиниці виміру інформації та приклади

міра інформації	Одиниці виміру	Приклади (для комп'ютерної області)
Синтаксична: шененновський підхід комп'ютерний підхід	Ступінь зменшення невизначеності	Ймовірність події
Синтаксична: шененновський підхід комп'ютерний підхід	Одиниці представлення інформації	Біт, байт, Кбайт і т.д.
Семантична	Тезаурус	Пакет прикладних програм, персональний комп'ютер, комп'ютерні мережіі т.д.
Семантична	Економічні показники	Рентабельність, продуктивність, коефіцієнт амортизації тощо.
Прагматична	Цінність використання	Грошовий вираз
Прагматична	Місткість пам'яті, продуктивність комп'ютера, швидкість передачі і т.д.	Час обробки інформації та прийняття рішень

Тема 2. Основи подання та обробки інформації в комп'ютері

Література

1. Інформатика економіки: Навчальний посібник/Под ред. Б.Є. Одинцова, О.М. Романова. - М.: Вузовський підручник, 2008.

2. Інформатика: Базовий курс: Навчальний посібник / Под ред. С.В. Симоновича. - СПб.: Пітер, 2009.

3. Інформатика. Загальний курс: Підручник / Співавт.: О.М. Гуда, М.А. Бутакова, Н.М. Нечитайло, А.В. Чернов; За заг. ред. В.І. Колесникова. - М.: Дашков та К, 2009.

4. Інформатика для економістів: Підручник / За ред. Матюшка В.М. - М: Інфра-М, 2006.

5. Економічна інформатика: Введення в економічний аналіз інформаційних систем. - М.: ІНФРА-М, 2005.

Заходи інформації (синтаксична, семантична, прагматична)

Для вимірювання інформації можуть застосовуватися різні підходи, але найбільшого поширення набули статистичний(імовірнісний), семантичнийі п рагматичнийметоди.

Статистичний(імовірнісний) метод вимірювання інформації було розроблено К. Шенноном в 1948 році, який запропонував кількість інформації розглядати як міру невизначеності стану системи, що знімається в результаті отримання інформації. Кількісно виражена невизначеність дістала назву ентропії. Якщо після отримання деякого повідомлення спостерігач придбав додаткову інформаціюпро систему Х,то невизначеність зменшилась. Додатково отримана кількість інформації визначається як:

де - додаткова кількість інформації про систему Х, що надійшло у формі повідомлення;

Початкова невизначеність (ентропія) системи X;

Кінцева невизначеність (ентропія) системи X,настала після отримання повідомлення.

Якщо система Xможе перебувати в одному з дискретних станів, кількість яких n, а ймовірність знаходження системи у кожному їх дорівнює і сума ймовірностей всіх станів дорівнює одиниці, то ентропія обчислюється за формулою Шеннона:

де – ентропія системи Х;

а- основа логарифму, що визначає одиницю вимірювання інформації;

n– кількість станів (значень), у якому може бути система.

Ентропія величина позитивна, оскільки ймовірності завжди менше одиниці, які логарифм негативний, тому знак мінус у формулі К.Шеннона робить ентропію позитивною. Таким чином, за міру кількості інформації приймається та ж ентропія, але зі зворотним знаком.

Взаємозв'язок інформації та ентропії можна розуміти так: отримання інформації (її збільшення) одночасно означає зменшення незнання або інформаційної невизначеності (ентропії)

Отже, статистичний підхід враховує можливість появи повідомлень: більш інформативним вважається те повідомлення, яке менш імовірно, тобто. найменше очікувалося. Кількість інформації досягає максимального значенняякщо події рівноймовірні.

Р. Хартлі запропонував таку формулу для вимірювання інформації:

I=log2n ,

де n- кількість рівноймовірних подій;

I– міра інформації у повідомленні про настання одного з nподій

Вимірювання інформації виявляється у її обсязі. Найчастіше це стосується обсягу комп'ютерної пам'ятіта обсягу даних, що передаються каналами зв'язку. За одиницю прийнято таку кількість інформації, при якій невизначеність зменшується вдвічі, така одиниця інформації отримала назву біт .

Якщо як основа логарифму у формулі Хартлі використовується натуральний логарифм(), то одиницею вимірювання інформації є нат ( 1 біт = ln2 ≈ 0,693 нат). Якщо як основа логарифму використовується число 3, то - тритякщо 10, то - дит (хартлі).

На практиці частіше застосовується більша одиниця - байт(byte), рівний восьми бітам. Така одиниця вибрана тому, що за допомогою неї можна закодувати будь-який із 256 символів алфавіту клавіатури комп'ютера (256=28).

Крім байтів інформація вимірюється напівсловами (2 байти), словами (4 байти) і подвійними словами (8 байти). Широко використовуються також ще більші одиниці виміру інформації:

1 Кілобайт (Кбайт - kilobyte) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт - megabyte) = 1024 Кбайт = 220 байт,

1 Гігабайт (Гбайт - gigabyte) = 1024 Мбайт = 230 байт.

1 Терабайт (Тбайт - terabyte) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт - petabyte) = 1024 Тбайт = 250 байт.

У 1980 році російський математик Ю. Манін запропонував ідею побудови квантового комп'ютера, у зв'язку з чим з'явилася така одиниця інформації як кубить ( quantum bit, qubit ) – «квантовий біт» – міра вимірювання об'єму пам'яті в теоретично можливому вигляді комп'ютера, який використовує квантові носії, наприклад – спини електронів. Кубіт може приймати не два різні значення («0» і «1»), а кілька, що відповідають нормованим комбінаціям двох основних станів спина, що дає більша кількістьможливих поєднань. Так, 32 кубіти можуть закодувати близько 4 млрд статків.

Семантичний підхід Синтаксичної міримало, якщо потрібно визначити не обсяг даних, а кількість необхідної у повідомленні інформації. І тут розглядається семантичний аспект, що дозволяє визначити змістовну сторону відомостей.

Для вимірювання змістового інформації можна скористатися тезаурусом її одержувача (споживача). Ідея тезаурусного методу була запропонована М. Вінером та розвинена нашим вітчизняним ученим А.Ю. Шрейдер.

Тезаурусомназивається сукупність відомостей, які має одержувач інформації. Співвіднесення тезаурусу зі змістом повідомлення, що надійшло, дозволяє з'ясувати, наскільки воно знижує невизначеність.

Залежність обсягу смислової інформації повідомлення від тезаурусу одержувача

Відповідно до залежності, представленої на графіці, за відсутності у користувача будь-якого тезаурусу (знань про сутність повідомлення, тобто =0), або наявності такого тезаурусу, який не змінився в результаті надходження повідомлення (), то обсяг семантичної інформації в ньому дорівнює нулю. Оптимальним буде такий тезаурус (), коли обсяг семантичної інформації буде максимальним (). Наприклад, семантичної інформації в повідомленні, що надійшло незнайомому іноземною мовоюбуде нуль, Але й така ж ситуація буде в тому випадку, якщо повідомлення вже не є новиною,тому що користувачеві вже все відомо.

Прагматичний захід інформації визначає її корисністьу досягненні споживачем своїх цілей. Для цього достатньо визначити ймовірність досягнення мети до і після отримання повідомлення і порівняти їх. Цінність інформації (за А.А. Харкевичем) розраховується за формулою:

де - ймовірність досягнення мети до отримання повідомлення;

ймовірність досягнення мети поле отримання повідомлення;

Інформації – це що таке? На чому базується? Які цілі переслідує та виконує завдання? Про все це ми і поговоримо в рамках цієї статті.

Загальна інформація

У яких випадках застосовується семантичний спосіб виміру інформації? Використовується сутність інформації, цікавить змістовна сторона отриманого повідомлення - ось свідчення його застосування. Але для початку давайте дамо пояснення того, що він є. Слід зазначити, що семантичний спосіб виміру інформації - це важко формалізований підхід, який досі не сформувався. Використовується він для того, щоб вимірювати кількість змісту даних, які були отримані. Іншими словами, який обсяг інформації з отриманої є необхідним у цьому випадку. Такий підхід використовується визначення змістовної боку одержуваних відомостей. І якщо ми говоримо про семантичний спосіб вимірювання інформації, використовується поняття тезаурусу, яке нерозривно пов'язане з темою, що розглядається. Що ж воно є?

Тезаурус

Хочеться зробити невелике введення та дати відповідь на одне питання про семантичний спосіб виміру інформації. Ким запроваджено його? Запропонував використати цей метод засновник кібернетики Норберт Вінер, але значного розвитку він отримав під впливом нашого співвітчизника А. Ю. Шрейдера. Чим є назва використовується для позначення сукупності відомостей, які є у одержувача інформації. Якщо співвіднести тезаурус із змістом повідомлення, що надійшло, можна з'ясувати, наскільки воно знизило невизначеність. Хочеться виправити одну помилку, під вплив якої часто потрапляє велика кількістьлюдей. Так, вони вважають, що семантичний спосіб вимірювання інформації запроваджено Клодом Шенноном. Невідомо, як саме виникла ця помилка, але ця думка невірна. Клод Шеннон увів статистичний спосібвиміру інформації, «спадкоємцем» якого і вважається семантичний.

Графічний підхід для визначення обсягу смислової інформації в отриманому повідомленні

Навіщо треба щось малювати? Семантичний спосібвимірювання використовує таку можливість для наочного надання даних про корисність даних у вигляді малюнок, що легко розуміються. Що це означає на практиці? Для пояснення стану справ будують залежність як графіка. Якщо у користувача відсутні знання про сутність повідомлення, яке було отримано (рівняється нулю), то обсяг семантичної інформації дорівнюватиме цьому ж значенню. Чи можна знайти оптимальне значення? Так! Так називається тезаурус, де обсяг семантичної інформації є максимальним. Давайте розглянемо невеликий приклад. Припустимо, користувачеві надійшло повідомлення, написане незнайомою іноземною мовою, або людина може прочитати, що там написано, але це для нього вже не є новиною, оскільки все це відомо. У таких випадках говорять про те, що у повідомленні міститься нуль семантичної інформації.

Історичний розвиток

Ймовірно, про це слід поговорити трохи вище, але надолужити втрачене ще не пізно. Спочатку семантичний спосіб вимірювання інформації запроваджено Ральфом Хартлі у 1928 році. Раніше згадувалося, що як засновник часто згадують Клода Шеннона. Чому ж виникла така плутанина? Справа в тому, що хоча семантичний спосіб вимірювання інформації і був введений Ральфом Хартлі в 1928 році, узагальнили його в 1948 саме Клод Шеннон і Уоррен Уівер. Після цього основоположник кібернетики Норберт Вінер сформував ідею тезаурусного методу, яка здобула найбільше визнання у вигляді заходу, розробленого Ю. І. Шнейдером. Слід зазначити, що для того, щоб розібратися в цьому, необхідно достатньо високий рівеньзнань.

Результативність

Що ж нам дає тезаурусний метод на практиці? Він є реальним підтвердженням тези про те, що інформація має таку властивість, як відносність. При цьому слід зазначити, що вона має відносну (або суб'єктивну) цінність. Для того, щоб можна було об'єктивно оцінювати наукову інформацію, запровадили поняття загальнолюдського тезаурусу Його ступінь зміни і показує значущість знань, які набуває людство. При цьому не можна точно сказати, який кінцевий результат (або проміжний) можна буде отримати від інформації. Візьмемо, наприклад, комп'ютери. Обчислювальна технікастворювалася на основі лампової технології та бітового стану кожного структурного елементата спочатку використовувалася для здійснення розрахунків. Зараз майже у кожної людини є щось, що працює на основі цієї технології: радіо, телефон, комп'ютер, телевізор, ноутбук. Навіть сучасні холодильники, плити та умивальники містять у собі трохи електроніки, в основі роботи якої лежить інформація про полегшення використання людиною даних побутових пристроїв.

Науковий підхід

Де ж вивчається семантичний спосіб виміру інформації? Інформатика – ось та наука, яка займається різними аспектамицього питання. У чому полягає особливість? В основу способу покладено використання системи «істина/брехня», або бітова система «одиниця/нуль». Коли надходить певна інформація, то вона розбивається на окремі блоки, які іменуються подібно до одиниць мови: слова, склади тощо. Кожен блок набуває певного значення. Давайте розглянемо невеликий приклад. Поруч стоять двоє друзів. Один звертається до другого зі словами: Завтра у нас вихідний. Коли дні для відпочинку знає кожен. Тому цінність цієї інформації є нульовою. Але якщо другий скаже, що завтра працює, то для першого це буде несподіванка. Адже в такому випадку може виявитися, що будуть порушені плани, які будувала одна людина, наприклад, сходити пограти в боулінг або покопатися в майстерні. Кожну частину описаного прикладу можна описати за допомогою одиниць та нулів.

Оперування поняттями

Але що використовується ще, крім тезауруса? Що ще потрібно знати, щоб розуміти семантичний спосіб виміру інформації? Основні поняття, які додатково можна вивчити ще - це знакові системи. Під ними розуміють засоби вираження сенсу, на кшталт правил інтерпретації знаків або їх поєднань. Давайте розглянемо ще один приклад з інформатики. Комп'ютери оперують умовними нулями та одиницями. По суті, це низька та висока напруга, яка подається на компоненти техніки. Причому передають вони ці одиниці та нулі без кінця та краю. Як же робити різницю між ними техніці? Відповідь на це було знайдено – переривання. Коли передається ця сама інформація, то виходять різні блокина кшталт слів, словосполучень та окремих значень. У усній людській промові для розбивки даних на окремі блоки також використовуються паузи. Вони настільки непомітні, що більшість із них ми помічаємо на «автоматі». У листі для цієї мети служать точки та коми.

Особливості

Давайте торкнемося ще й теми властивостей, які є у семантичного способу вимірювання інформації. Ми вже знаємо, що так називається спеціальний підхід, який оцінює важливість інформації. Чи можна говорити, що дані, які оцінюватимуться у такий спосіб, будуть об'єктивними? Ні, це не так. Інформація є суб'єктивною. Розгляньмо це на прикладі школи. Є відмінник, який йде попереду затвердженої програми, та середньостатистичний середнячок, який вивчає те, що викладається на заняттях. Для першого більшість інформації, яку він отримуватиме в школі, представлятиме досить слабкий інтерес, оскільки він це вже знає і не вперше чує/читає. Тому на суб'єктивному рівні для нього це буде не дуже цінно (за рахунок хіба окремих зауважень вчителя, які він помітив за час викладу свого предмета). Тоді як середнячок про нової інформаціїщось чув тільки віддалено, тому для нього цінність даних, які викладатимуться на уроках, значно більша.

Висновок

Слід зазначити, що у інформатиці семантичний спосіб вимірів інформації - це єдиний варіант, у якого можна вирішувати існуючі завдання. Вибір повинен залежати від поставлених цілей та наявних можливостей. Тому, якщо тема зацікавила або ж у ній існує потреба, можна лише настійно порекомендувати вивчити її докладніше і дізнатися, які ще способи вимірювання інформації, крім семантичного, існують.