Семантичної та прагматичної оцінки інформації. Семантичний захід інформації. Синтаксичні заходи інформації

Інформація та дані

Термін інформаціяпоходить від латинського інформатио, що означає роз'яснення, поінформування, виклад. З позиції матеріалістичної філософії інформація є відображенням реального світу за допомогою відомостей (повідомлень). Повідомлення – це форма подання інформації у вигляді мови, тексту, зображення, цифрових даних, графіків, таблиць тощо. У широкому значенніінформація - це загальнонаукове поняття, що включає обмін відомостями між людьми, обмін сигналами між живою і неживою природою, людьми і пристроями.

Інформація- відомості про об'єкти та явища навколишнього середовища, їх параметри, властивості та стан, які зменшують наявний про них ступінь невизначеності, неповноти знань.

Інформатика розглядає інформацію як концептуально пов'язані між собою відомості, дані, поняття, що змінюють уявлення про явище або об'єкт навколишнього світу. Поряд з інформацією в інформатиці часто використовується поняття дані. Покажемо, у чому їхня відмінність.

Дані можуть розглядатися як ознаки або записані спостереження, які з якихось причин не використовуються, а лише зберігаються. У тому випадку, якщо з'являється можливість використовувати ці дані для зменшення невизначеності про що-небудь, дані перетворюються на інформацію. Тому можна стверджувати, що інформацією є дані, що використовуються.

приклад 2.1.Напишіть на аркуші десять номерів телефонів у вигляді послідовності десяти чисел та покажіть їх вашому другу. Він сприйме ці цифри як дані, оскільки вони не надають йому жодних відомостей

Потім проти кожного номера вкажіть назву фірми та рід діяльності. Для вашого друга незрозумілі цифри набудуть визначеності і перетворяться з даних на інформацію, яку він надалі міг би використовувати.

Однією з найважливіших різновидів інформації є економічна інформація. Її відмінна риса- зв'язок із процесами управління колективами людей, організацією. Економічна інформаціясупроводжує процеси виробництва, розподілу, обміну та споживання матеріальних благ та послуг. Значна частина її пов'язана з громадським виробництвом та може бути названа виробничою інформацією.

Економічна інформація- сукупність відомостей, що відображають соціально-економічні процеси та службовців для управління цими процесами та колективами людей у виробничій та невиробничій сфері.

При роботі з інформацією завжди є її джерело та споживач (одержувач). Шляхи та процеси, що забезпечують передачу повідомлень від джерела інформації до її споживача, називаються інформаційними комунікаціями.

Для споживача інформації дуже важливою характеристикоює її адекватність.

Адекватність інформації- це певний рівень відповідності створюваного за допомогою отриманої інформації образу реального об'єкта, процесу, явища і т.п.

У реального життянавряд чи можлива ситуація, коли ви зможете розраховувати на повну адекватність інформації. Завжди є певний ступінь невизначеності. Від рівня адекватності інформації реального стануоб'єкта чи процесу залежить правильність прийняття рішень людиною.

приклад 2.2.Ви успішно закінчили школу і хочете продовжити освіту з економічного спрямування. Поговоривши з друзями, ви дізнаєтесь, що подібну підготовку можна отримати у різних вишах. Через війну таких розмов ви отримуєте дуже суперечливі відомості, які дозволяють вам прийняти рішення на користь тієї чи іншої варіанта, тобто. одержана інформація неадекватна реальному стану справ. Для того щоб отримати більш достовірну інформацію, ви купуєте довідник для вступників до вузів, з якого отримуєте вичерпну інформацію. У цьому випадку можна говорити, що інформація, отримана з довідника, адекватно відображає напрями навчання у вузах і допомагає вам визначитися в остаточному виборі.

ФОРМИ АДЕКВАТНОСТІ ІНФОРМАЦІЇ

Адекватність інформації може виражатися у трьох формах: семантичній, синтаксичній, прагматичній.

Синтаксична адекватність.Вона відображає формально-структурні характеристики інформації та не зачіпає її змістового змісту. на синтаксичному рівнівраховуються тип носія та спосіб подання інформації, швидкість передачі та обробки, розміри кодів подання інформації, надійність та точність перетворення цих кодів тощо. p align="justify"> Інформацію, що розглядається тільки з синтаксичних позицій, зазвичай називають даними, так як при цьому не має значення смислова сторона. Ця форма сприяє сприйняттю зовнішніх структурних показників, тобто. синтаксичної сторони інформації.

Семантична (смислова) адекватність. Ця форма визначає ступінь відповідності образу об'єкта та самого об'єкта. Семантичний аспект передбачає врахування змістового змісту інформації. На цьому рівні аналізуються відомості, які відображає інформація, розглядаються смислові зв'язки. В інформатиці встановлюються смислові зв'язки між кодами представлення інформації. Ця форма служить на формування понять і уявлень, виявлення сенсу, змісту інформації та її узагальнення.

Прагматична (споживча) адекватність. Вона відбиває ставлення інформації та її споживача, відповідність інформації мети управління, що її основі реалізується. Виявляються прагматичні властивості інформації лише за наявності єдності інформації (об'єкта), користувача та цілі управління. Прагматичний аспект розгляду пов'язаний із цінністю, корисністю використання інформації при виробленні споживачем рішення для досягнення своєї мети. З цього погляду аналізуються споживчі властивості інформації. Ця форма адекватності безпосередньо пов'язана з практичним використаннямінформації, з її відповідністю цільової функціїдіяльність системи.

ЗАХОДИ ІНФОРМАЦІЇ

Класифікація заходів

Для вимірювання інформації вводяться два параметри: кількість інформації Iта обсяг даних Vд .

Ці параметри мають різні вирази та інтерпретацію залежно від аналізованої форми адекватності. Кожній формі адекватності відповідає свій захід кількості інформації та обсягу даних (рис. 2.1).

Мал. 2.1. Заходи інформації

Синтаксична міра інформації

Ця міра кількості інформації оперує з знеособленою інформацією, яка не виражає смислового ставлення до об'єкта.

Обсяг данихVд. у повідомленні вимірюється кількістю символів (розрядів) у цьому повідомленні. У різних системах числення один розряд має різну вагу і відповідно змінюється одиниця виміру даних:

в двійковій системічислення одиниця виміру - біт (bit - binary digit -двійковий розряд);

Примітка. У сучасних ЕОМпоряд з мінімальною одиницеюВимірювання даних "біт" широко використовується укрупнена одиниця вимірювання "байт", що дорівнює 8 біт.

в десятковій системічислення одиниця виміру -дит (десятковий розряд).

приклад 2.3.Повідомлення у двійковій системі у вигляді восьмирозрядного двійкового коду 10111011 має обсяг даних Vд = 8 біт.

Повідомлення у десятковій системі у вигляді шестирозрядного числа 275903 має обсяг даних Vд = 6 дит.

Кількість інформації- на синтаксичному рівні неможливо визначити без розгляду поняття невизначеності стану системи (ентропії системи). Дійсно, отримання інформації про будь-яку систему завжди пов'язане зі зміною ступеня непоінформованості одержувача про стан цієї системи. Розглянемо це поняття.

Нехай перед отриманням інформації споживач має деякі попередні (апріорні) відомості про систему a. Мірою його непоінформованості про систему є функція H(a), яка одночасно служить і мірою невизначеності стану системи.

Після отримання деякого повідомлення b одержувач придбав деяку додаткову інформацію Ib(a), що зменшила його апріорну непоінформованість так, що апостеріорна (після отримання повідомлення b) невизначеність стану системи стала Hb(a).

Тоді кількість інформації Ib(a) про систему, отриману в повідомленні b, визначиться як

Ib(a)=H(a)-Hb(a),

тобто. кількість інформації вимірюється зміною (зменшенням) невизначеності стану системи.

Якщо кінцева невизначеність Hb(a) перетворюється на нуль, то початкове неповне знання заміниться повним знаннямта кількість інформації Ib(a)=H(a). Іншими словами, ентропія системи H(a) може розглядатися як міра інформації, що бракує.

Ентропія системи H(a), що має N можливих станів, згідно формулі Шеннона, дорівнює:

де Рi - ймовірність того, що система знаходиться у i-му стані.

Для випадку, коли стан системи рівноймовірні, тобто. їх ймовірності рівні Pi = 1/N, її ентропія визначається співвідношенням

Часто інформація кодується числовими кодами в тій чи іншій системі числення, особливо це є актуальним при поданні інформації в комп'ютері. Природно, що одна і та ж кількість розрядів у різних системахчислення може передати різне число станів об'єкта, що відображається, що можна представити у вигляді співвідношення

N= m n,

де N-число всіляких станів, що відображаються;

т -основа системи числення (різноманітність символів, що застосовуються в алфавіті);

п -кількість розрядів (символів) у повідомленні.

Приклад 2.4.Але каналу зв'язку передається n-розрядне повідомлення, яке використовує трізних символів. Оскільки кількість всіляких кодових комбінацій буде N= m n, то за рівноймовірності появи будь-якої з них кількість інформації, придбаної абонентом в результаті отримання повідомлення, буде I= logN= logm - формула Хартлі.

Якщо як основа логарифму прийняти т,то I= n. У даному випадкукількість інформації (за умови повного апріорного незнання абонентом змісту повідомлення) дорівнюватиме обсягу даних I= Vд, отриманих каналом зв'язку. Для нерівноймовірних станів системи завжди I< Vд= n.

Найчастіше використовуються двійкові та десяткові логарифми. Одиницями виміру у випадках будуть відповідно бит і дит.

Коефіцієнт(ступінь) інформативності(Лаконічність) повідомлення визначається ставленням кількості інформації до обсягу даних, тобто.

Причому 0

Зі збільшенням Yзменшуються обсяги роботи з перетворення інформації (даних) у системі. Тому прагнуть підвищення інформативності, навіщо розробляються спеціальні методи оптимального кодування інформації.

Семантичний захід інформація

Для виміру змістового інформації, тобто. її кількості на семантичному рівні, найбільше визнання отримала тезаурусна міра, яка пов'язує семантичні властивості інформації зі здатністю користувача приймати повідомлення, що надійшло. Для цього використовується поняття тезаурус користувача.

Тезаурус- це сукупність відомостей, які має користувач або система.

Залежно від співвідношень між змістовим змістом інформації Sта тезаурусом користувача S pзмінюється кількість семантичної інформації I c, сприймається користувачем і включається ним надалі у свій тезаурус. Характер такої залежності показано на рис.2.2. Розглянемо два граничні випадки, коли кількість семантичної інформації I cодно 0:

при S p 0 користувач не сприймає, не розуміє інформацію, що надходить;

при Sp; користувач все знає, що надходить інформація йому не потрібна.

Мал. 2.2. Залежність кількості семантичної інформації. сприймається споживачем, від його тезаурусу Ic= f(Sp)

Максимальна кількість семантичної інформації I c споживач набуває за погодженням її змістового змісту Sзі своїм тезаурусом S p (S p = S p opt), коли інформація, що надходить, зрозуміла користувачеві і несе йому раніше не відомі (відсутні в його тезаурусі) відомості.

Отже, кількість семантичної інформації в повідомленні, кількість нових знань, які користувач отримує, є величиною відносною. Те саме повідомлення може мати змістовий зміст для компетентного користувача і бути безглуздим (семантичний шум) для користувача некомпетентного.

Оцінюючи семантичного (змістовного) аспекту інформації необхідно прагнути до узгодження величин Sі S p.

Відносним заходом кількості семантичної інформації може бути коефіцієнт змістовності З, Який визначається як відношення кількості семантичної інформації до її обсягу:

Прагматичний захід інформації

Цей захід визначає корисність інформації (цінність) для досягнення користувачем поставленої мети. Цей захід також є величиною відносною, обумовленою особливостями використання цієї інформації в тій чи іншій системі. Цінність інформації доцільно вимірювати в тих самих одиницях (або близьких до них), в яких вимірюється цільова функція.

приклад 2.5.В економічній системі прагматичні властивості (цінність) інформації можна визначити приростом економічного ефекту функціонування, досягнутим завдяки використанню цієї інформації для управління системою:

Inb(g)= П(g / b)- П(g),

де Inb(g) -цінність інформаційного повідомлення b для системи управління g,

П(g) -Апріорний очікуваний економічний ефект функціонування системи управління g ,

П(g / b) - очікуваний ефект функціонування системи g за умови, що для керування буде використано інформацію, що міститься в повідомленні b.

Для порівняння введені заходи інформації подаємо у табл.2.1.

Таблиця 2.1. Одиниці виміру інформації та приклади

міра інформації

Одиниці виміру

Приклади
(Для комп'ютерної області)

Синтаксична:

шененновський підхід

комп'ютерний підхід

Ступінь зменшення невизначеності

Одиниці представлення інформації

Ймовірність події

Біт, байт і т.д.

Семантична

Тезаурус

Економічні показники

Пакет прикладних програм, персональний комп'ютер, комп'ютерні мережі та ін.

Рентабельність, продуктивність, коефіцієнт амортизації тощо.

Прагматична

Цінність використання

Місткість пам'яті, продуктивність комп'ютера, швидкість передачі і т.д.

Час обробки інформації та прийняття рішень

ЯКІСТЬ ІНФОРМАЦІЇ

Можливість та ефективність використання інформації обумовлюються такими основними її споживчими показниками якості,як репрезентативність, змістовність, достатність, доступність, актуальність, своєчасність, точність, достовірність, стійкість.

Репрезентативністьінформації пов'язана з правильністю її відбору та формування з метою адекватного відображення властивостей об'єкта. Найважливіше значення тут мають:

правильність концепції, з урахуванням якої сформульовано вихідне поняття;

обґрунтованість відбору істотних ознак і зв'язків явища, що відображається.

Порушення репрезентативності інформації призводить нерідко до її похибок.

Змістовністьінформації відбиває семантичну ємність, рівну відношенню кількості семантичної інформації у повідомленні обсягу оброблюваних даних, тобто. C=Ic/Vд.

Зі збільшенням змістовності інформації зростає семантична пропускна спроможність інформаційної системи, оскільки для отримання тих самих відомостей потрібно перетворити менший обсяг даних.

Поряд із коефіцієнтом змістовності С, що відображає семантичний аспект, можна використовувати і коефіцієнт інформативності, що характеризується ставленням кількості синтаксичної інформації (за Шенноном) до обсягу даних Y=I/Vд.

Достатність (повнота)Інформація означає, що вона містить мінімальний, але достатній для прийняття правильного рішення склад (набір показників). Поняття повноти інформації пов'язане з її змістовим змістом (семантикою) та прагматикою. Як неповна, тобто. недостатня для прийнятого правильного рішення, так і надмірна інформація знижує ефективність прийнятих користувачем рішень.

ДоступністьІнформація про сприйняття користувача забезпечується виконанням відповідних процедур її отримання та перетворення. Наприклад, в інформаційній системі інформація перетворюється на доступну і зручну для сприйняття користувача форму. Це досягається, зокрема, шляхом узгодження її семантичної форми з тезаурусом користувача.

Актуальністьінформації визначається ступенем збереження цінності інформації для управління в момент її використання та залежить від динаміки зміни її характеристик та від інтервалу часу, що минув з моменту виникнення даної інформації.

Своєчасністьінформації означає її надходження пізніше заздалегідь призначеного моменту часу, узгодженого з часом вирішення поставленої задачи.

Точністьінформації визначається ступенем близькості отримуваної інформації до реального стану об'єкта, процесу, явища тощо. Для інформації, що відображається цифровим кодом, відомі чотири класифікаційні поняття точності:

формальна точність, що вимірюється значенням одиниці молодшого розряду числа;

реальна точність, яка визначається значенням одиниці останнього розряду числа, вірність якого гарантується;

максимальна точність, яку можна отримати у конкретних умовах функціонування системи;

необхідна точність, що визначається функціональним призначенням показника.

ДостовірністьІнформація визначається її властивістю відображати реально існуючі об'єкти з необхідною точністю. Вимірюється достовірність інформації довірчою ймовірністю необхідної точності, тобто. ймовірністю того, що значення параметра, що відображається інформацією, відрізняється від істинного значення цього параметра в межах необхідної точності.

Стійкістьінформації відбиває її здатність реагувати зміни вихідних даних без порушення необхідної точності. Стійкість інформації, як і репрезентативність, обумовлена обраною методикою її відбору та формування.

На закінчення слід зазначити, що такі параметри якості інформації, як репрезентативність, змістовність, достатність, доступність, стійкість цілком визначаються на методичному рівні розробки інформаційних систем. Параметри актуальності, своєчасності, точності та достовірності обумовлюються переважно також на методичному рівні, проте на їхню величину істотно впливає і характер функціонування системи, насамперед її надійність. При цьому параметри актуальності та точності жорстко пов'язані відповідно до параметрів своєчасності та достовірності.

ВВЕРХ

Ця міра кількості інформації оперує з знеособленою інформацією, яка не виражає смислового ставлення до об'єкта. На синтаксичному рівні враховуються тип носія та спосіб подання інформації, швидкість передачі та обробки, розміри кодів подання інформації.

Обсяг даних(V Д) розуміється в технічному сенсі цього слова як інформаційний об'єм повідомлення або обсяг пам'яті, необхідний для зберігання повідомлення без будь-яких змін.

Інформаційний обсяг повідомлення вимірюється в бітахі дорівнює кількості двійкових цифр (“0” та “1”), якими закодовано повідомлення.

У комп'ютерній практиці слово “біт” використовується як одиниця виміру обсягу пам'яті. Осередок пам'яті розміром 1 біт може бути у двох станах (“включено” і “выключено”) й у неї може бути записана одна двійкова цифра (0 чи 1). Зрозуміло, що біт – надто маленька одиниця виміру інформації, тому користуються кратними їй величинами. Основною одиницею виміру інформації є байт. 1 байт дорівнює 8 біт. У комірку розміром 1 байт можна помістити 8 двійкових цифр, тобто в одному байті можна зберігати 256 = 2 8 різних чисел. Для виміру ще більших обсягів інформації використовуються такі величини:

приклад 1.Важливо мати уявлення, скільки інформації може вмістити кілобайт, мегабайт чи гігабайт

· При двійковому кодуванні тексту кожна буква, розділовий знак, пропуск займають 1 байт.

· На сторінці книги середнього формату приблизно 50 рядків, у кожному рядку близько 60 символів, таким чином повністю заповнена сторінка має об'єм 50 x 60 = 3000 байт ≈3 Кілобайта.

· Вся книга середнього формату займає ≈ 0,5 мегабайт. Один номер чотиристорінкової газети – 150 Кілобайт. Якщо людина говорить по 8 годин на день без перерви, то за 70 років він наговорить близько 10 Гб інформації.

· Один чорно-білий кадр (при 32 градаціях яскравості кожної точки) містить приблизно 300 Кб інформації, кольоровий кадр містить близько 1 Мб інформації.

· Телевізійний фільм тривалістю 1,5 години з частотою 25 кадрів на секунду – 135 Гб.

Кількість інформаціїIна синтаксичному рівні визначається через поняття ентропії системи.

Нехай перед отриманням інформації споживач має деякі попередні (апріорні) відомості про систему α. Мірою його непоінформованості про систему є функція H(α), яка називається ентропією системи, яка в той же час є і мірою невизначеності стану системи.

Після отримання деякого повідомлення β одержувач придбав деяку додаткову інформацію I β (α), що зменшила його апріорну непоінформованість так, що невизначеність стану системи після отримання повідомлення β стала H β (α).

Тоді кількість інформації I β (α) ξ системі, отриманої в повідомленні β, визначиться як

I β (α) = H(α)-H β (α).

тобто. кількість інформації вимірюється зміною (зменшенням) невизначеності стану системи. Якщо кінцева невизначеність H β (α) перетвориться на нуль, то початкове неповне знання заміниться повним знанням і кількість інформації I β (α)=H(α). Іншими словами, ентропія системи Н(а) може розглядатися як міра інформації, що бракує.

Ентропія H(α) системи α, що має N можливих станів, згідно з формулою Шеннона, дорівнює:

де P i – ймовірність того, що система знаходиться в i-му стані. Для випадку, коли стан системи рівноймовірні, тобто. їх ймовірності дорівнюють P i =, її ентропія визначається співвідношенням

приклад 2. Часто інформація кодується числовими кодами в тій чи іншій системі числення, особливо це є актуальним при поданні інформації в комп'ютері. Природно, що те саме кількість розрядів у різних системах числення може передати різне число станів відображуваного об'єкта, що можна у вигляді співвідношення

де N - число всіляких станів, що відображаються;
m – основа системи числення (різноманітність символів, що застосовуються в алфавіті);
n-число розрядів (символів) у повідомленні.

Припустимо, що каналом зв'язку передається n-розрядне повідомлення, використовує m різних символів. Оскільки кількість всіляких кодових комбінацій буде N=m", то за рівної ймовірності появи будь-якої з них кількість інформації, придбаної абонентом в результаті отримання повідомлення, буде

I = log N = n log m – формула Хартлі.

Якщо підставою логарифму прийняти m, то I = n. У разі кількість інформації (за умови повного апріорного незнання абонентом змісту повідомлення) дорівнюватиме обсягу даних I=V Д, отриманих каналом зв'язку.

Найчастіше використовуються двійкові та десяткові логарифми. Одиницями вимірювання у цих випадках будуть відповідно біті дит.

Коефіцієнт(ступінь) інформативності (Лаконічність) повідомлення визначається ставленням кількості інформації до обсягу даних, тобто.

Зі збільшенням Y зменшуються обсяги роботи з перетворення інформації (даних) у системі. Тому прагнуть підвищення інформативності, навіщо розробляються спеціальні методи оптимального кодування інформації.

Кінець роботи -

Ця тема належить розділу:

Лекція 1. Введення. Поняття інформатики

Структура інформатики.. Інформатика в широкому розумінні є єдністю різноманітних.

Якщо Вам потрібний додатковий матеріал на цю тему, або Ви не знайшли те, що шукали, рекомендуємо скористатися пошуком по нашій базі робіт:

Що робитимемо з отриманим матеріалом:

Якщо цей матеріал виявився корисним для Вас, Ви можете зберегти його на свою сторінку в соціальних мережах:

Всі теми цього розділу:

Поняття інформатики
Термін інформатика виник у 60-х роках. у Франції назви області, що займається автоматизованою обробкою інформації з допомогою електронних обчислювальних машин. Французька

Інформаційне суспільство
Інформаційна культура - вміння цілеспрямовано працювати з інформацією та використовувати для її отримання, обробки та передачі комп'ютерної інформаційну технологію,

Історія розвитку ринку інформаційних послуг
З середини 50-х років. почалося формування сталого ринку інформаційних послуг. Основними постачальниками інформаційних послуг були: інформаційні служби академічних, професійних та наукових

Інформація, повідомлення, сигнали
Інформація поряд з матерією та енергією є первинним поняттям нашого світу і тому у строгому значенні не може бути визначена. Можна лише перерахувати її основні властивості, наприклад:

Семантичний захід інформації
Для виміру змістового інформації, тобто. її кількості на семантичному рівні, найбільше визнання набув тезаурусний захід, який пов'язує семантичні властивості інформації зі сп

Прагматичний захід інформації
Цей захід визначає корисність інформації (цінність) для досягнення користувачем поставленого ланцюга. Цей захід також є величиною відносною, обумовленою особливостями використання цієї інформації

Якісні характеристики інформації
Можливість та ефективність використання інформації обумовлюються такими основними її споживчими показниками якості, як репрезентативність, змістовність, достатність.

Кодування текстової інформації
В даний час більша частина користувачів за допомогою комп'ютера обробляє текстову інформацію, яка складається з символів: букв, цифр, розділових знаків та ін. Традиційно, для того

Кодування графічної інформації
Графічну інформацію можна представляти у двох формах: аналогової чи дискретної. Мальовниче полотно, колір якого змінюється безперервно - це при

Растрове зображення
За допомогою збільшувального скла можна побачити, що чорно-біле графічне зображення, наприклад із газети, складається з найдрібніших точок, що становлять певний візерунок - растр. У Франції у 19 ві

Модель CMYK
В основі цієї моделі лежить субтрактивне відтворення кольору (характерне для відбивають об'єктів). Кожному з основних кольорів ставиться у відповідність додатковий колір.

Графічні режими
Розрізняють кілька режимів представлення кольорової графіки: повнокольоровий (True Color) - для кодування яскравості кожної зі складових використовують по 256 значень (вісім двійкових розрядів)

Векторне та фрактальне зображення
Векторне зображення – це графічний об'єкт, що складається з елементарних відрізків та дуг. Базовим елементом є лінія. Як і будь-який об'єкт, вона має

Кодування звукової інформації
На слух людина сприймає пружні хвилі, що мають частоту десь у межах від 16 Гц до 20 кГц (1 Гц – 1 коливання на секунду). Відповідно до цього пружні хвилі в будь-якому середовищі, частоти яких л

Цифро-аналогове та аналого-цифрове перетворення звукової інформації
Звукові хвилі за допомогою мікрофона перетворюються на аналоговий змінний електричний сигнал. Він потрапляє в аналого-цифровий перетворювач (АЦП) - пристрій, який переводить сигнал у цифрову

Параметри семплювання
Частота – кількість вимірювань амплітуди аналогового сигналу за секунду. Якщо частота семплювання не буде більш ніж удвічі перевищувати частоту верхньої грані

Стиснення інформації
Кодування ділиться на три великі групи - стиснення (ефективні коди), завадостійке кодування та криптографія. Коди, призначені для стиснення інформації, поділяються, у свою чергу, на

Стиснення без втрат
Один із найпростіших способів стиснення інформації – групове кодування. Відповідно до цієї схеми серії повторюваних величин (наприклад, число) замінюються єдиною величиною

Стиснення з втратою інформації
використовується для пакування графічних зображень. Цей метод ґрунтується на особливості людського сприйняття зображень. Для людського ока яскравість більш істотна, ніж інформація про квіти

Інформаційні революції
В історії розвитку цивілізації відбулося кілька інформаційних революцій – перетворень суспільних відносин через кардинальні зміни у сфері обробки інформації. Наслідком цих преобр

Поняття інформаційної системи
Під системою розуміють будь-який об'єкт, який одночасно розглядається як єдине ціле, і як об'єднана на користь досягнення поставленої мети сукупність різнорідних елементів. Системи

Етапи розвитку інформаційних систем
Історія розвитку інформаційних систем та цілі їх використання на різних періодах представлені у таблиці 1: Таблиця 1. Зміна підходу до використання інформаційних систем

Процеси в ІВ
Процеси, які забезпечують роботу ІВ будь-якого значення, умовно можна як схеми. ІС складається з блоків: · Введення інформації із зовнішніх або внутрішніх джерел;

Структура інформаційної системи
Загальну структуру ІС можна як сукупність підсистем незалежно від сфери застосування. Таким чином, структура будь-якої ІС може бути представлена в такий спосіб.

Старіння ІТ
Для ІТ цілком природним те, що вони застарівають і замінюються новим. приклад. На зміну технології пакетної обробки програм на великий ЕОМ у обчислювальному центрі прийшла техноло

Методологія використання ІТ
Централізована обробка інформації на ЕОМ обчислювальних центрів була першою технологією, що історично склалася. Створювалися великі обчислювальні центри (ВЦ) колективного використання.

Система команд деякої ЕОМ - це сукупність команд, яку може виконати дана ЕОМ
Послідовність команд, запропоновану ЕОМ до виконання, називають програмою. Незважаючи на різноманітність сучасних ЕОМ, їх структура заснована на загальних логічних

Основні блоки ПК та їх значення
Мал. Структурна схема персонального комп'ютера Мікропроцесор (МП). Це центральні

Шини розширень
Шина ISA (Industry Standard Architecture - архітектура промислового стандарту) - 16-розрядна шина даних і 24-розрядна шина адреси, робоча частота 16 МГц, але мож

Локальні шини
Локальні шини підключаються безпосередньо до шини МП, працюють на тактовій частоті МП і забезпечують зв'язок з деякими зовнішніми швидкісними по відношенню до МП пристроями: основний і зовнішньої пам'яті

Призначення та типи МП
МП виконує такі функції: · Читання та дешифрацію команд з ОП; · Читання даних з ВП та регістрів адаптерів ВУ; · прийом та обробку запитів та команд від адаптерів на

Структура МП
Мікропроцесори складаються з двох частин: · Операційної, що містить УУ, АЛУ та МППС, за винятком декількох адресних регістрів; · Інтерфейсної, що містить адресні регістри МПП,

Кеш-пам'ять
Кеш-пам'ять – високошвидкісна пам'ять, що є буфером між ВП та МП і дозволяє збільшити швидкість виконання операцій. Реєстри кеш-пам'яті недоступні для користувача; звідси і назва «кеш»

Фізична структура ВП
ВП містить RAM і ROM, тобто ОЗУ та ПЗУ. ОЗП призначене для зберігання інформації (програм та даних), що безпосередньо бере участь на поточному етапі функціонування ПК.

Логічна структура ВП
Розподіл одномегабайтової області ОЗУ наведено на рис. 3.4. Логічна структура всієї ВП показано на рис. 3.5. Кожна комірка пам'яті має свою унікальну (відмінну від усіх інших) адресу.

Дискові накопичувачі зовнішньої пам'яті
Пристрої пам'яті на дисках відносяться до пристроїв із прямим доступом. Швидкий доступ до будь-якої частини диска забезпечується: · Швидким обертанням диска (гнучкий – близько 300 об/хв, жорсткий – ок

Відеотермінальні пристрої
Відеотермінал складається з відеомонітора (дисплея) та відеоконтролера (адаптера). Відеоконтролери входять до складу системного блоку ПК (перебувають на відеокарті, що встановлюється в роз'єм материнської п

Принтери
Принтери (друкарські пристрої) - це пристрої виведення даних з ЕОМ, що перетворюють інформаційні ASCII-коди у відповідні графічні символи (літери, цифри, знаки тощо) і фіксують е

Сканери
Сканер - це введення в ЕОМ інформації безпосередньо з паперового документа. Можна вводити тексти, схеми, малюнки, графіки, фотографії та іншу графічну інформацію. Сканери вага

СуперЕОМ
До суперЕОМ відносяться потужні багатопроцесорні обчислювальні машини з швидкодією сотні мільйонів - десятки мільярдів операцій на секунду. Типова модель суперЕОМ 2000 г

Переносні комп'ютери
Переносні комп'ютери - підклас персональних комп'ютерів, що швидко розвивається. За прогнозом фахівців, у 1998 р. понад 50% користувачів будуть використовувати саме переносні машини

Процес передачі інформації
Будь-яка комунікаційна мережа має включати такі компоненти: передавач, засоби передачі, приймач. Передавач – це пристрій, що є джерелом даних.

Форми взаємодії абонентських ЕОМ
Існують такі основні форми взаємодії абонентських ЕОМ. 1. Термінал-віддалений процес – передбачає поводження з терміналом однієї з абонентських ЕОМ до процесу

Модель взаємодії відкритих систем
Різноманітність виробників ЗС мереж та мережного ПЗ породило проблему об'єднання мереж різних архітектур. Для цього було розроблено модель архітектури відкритих систем. Відкрита

Протоколи комп'ютерної мережі
При обміні інформацією мережі кожен рівень моделі взаємодії відкритих систем реагує на свій заголовок, тобто відбувається взаємодія між однолінійними рівнями моделі в різних або

Локальні обчислювальні мережі
Основне призначення будь-якої комп'ютерної мережі - надання інформаційних та обчислювальних ресурсів підключеним до неї користувачам. З цього погляду ЛОМ можна розглядати як совок

Основні топології ЛОМ
Топологія ЛОМ – це усереднена геометрична схема з'єднань вузлів мережі. ВС можна розглядати як сукупність вузлів – пристроїв, безпосередньо підключених до перед

Фізичне передавальне середовище ЛОМ
Фізична передавальна середовище ЛОМ може бути представлена трьома типами. 1. Віта пара. Складається із двох ізольованих проводів, звитих між собою. Скручування проводів зменшує вплив зовнішніх

Методи доступу до передавального середовища
Метод доступу до передавальної середовища – метод, який забезпечує виконання сукупності правил, відповідно до якими вузли мережі отримують доступом до ресурсу мережі. Існують два основні класи

Способи об'єднання ЛОМ
Причини застосування різних способів об'єднання ЛОМ такі: вичерпані технічні можливості ЛОМ, потрібно створити ще одну ЛОМ, підключивши нових користувачів і об'єднавши її з вже існуючою ЛОМ

Глобальна мережа Internet
Internet - це мережа, що об'єднує окремі мережі. Логічна структура Internet є деяке віртуальне об'єднання, має своє віртуальне простір. Основні яч

Системне програмне забезпечення
Системне ПЗ – сукупність програм та програмних комплексів для забезпечення роботи комп'ютера та обчислювальних мереж. Системне ПЗ спрямоване: · на створення операційного середовища ф

Інструментарій технології програмування
Інструментарій технології програмування забезпечує процес розробки програм і включає спеціалізоване програмне забезпечення, яке є інструментальними засобами розробки. ПО даного класу при

Пакети прикладних програм
Прикладне програмне забезпечення служить програмним інструментарієм для вирішення функціональних завдань і є найчисленнішим класом програмного забезпечення. В даний клас входять програмні продукти, що виконують обробку інформації

Захист програмного забезпечення
Захист ПЗ має такі цілі: · обмеження несанкціонованого доступу до програм або їх навмисне руйнування та розкрадання; · Виняток несанкціонованого копіювання

Тема 2. Основи подання та обробки інформації в комп'ютері

Література

1. Інформатика економіки: Навчальний посібник/Под ред. Б.Є. Одинцова, О.М. Романова. - М.: Вузовський підручник, 2008.

2. Інформатика: Базовий курс: Навчальний посібник / Под ред. С.В. Симоновича. - СПб.: Пітер, 2009.

3. Інформатика. Загальний курс: Підручник / Співавт.: А.М. Гуда, М.А. Бутакова, Н.М. Нечитайло, А.В. Чернов; За заг. ред. В.І. Колесникова. - М.: Дашков та К, 2009.

4. Інформатика для економістів: Підручник / За ред. Матюшка В.М. - М: Інфра-М, 2006.

5. Економічна інформатика: Введення в економічний аналіз інформаційних систем. - М.: ІНФРА-М, 2005.

Заходи інформації (синтаксична, семантична, прагматична)

Для вимірювання інформації можуть застосовуватися різні підходи, але найбільшого поширення набули статистичний(імовірнісний), семантичнийі п рагматичнийметоди.

Статистичний(імовірнісний) метод вимірювання інформації було розроблено К. Шенноном в 1948 році, який запропонував кількість інформації розглядати як міру невизначеності стану системи, що знімається в результаті отримання інформації. Кількісно виражена невизначеність дістала назву ентропії. Якщо після отримання повідомлення спостерігач придбав додаткову інформацію про систему Х,то невизначеність зменшилась. Додатково отримана кількість інформації визначається як:

де - додаткова кількість інформації про систему Х, що надійшло у формі повідомлення;

Початкова невизначеність (ентропія) системи X;

Кінцева невизначеність (ентропія) системи X,настала після отримання повідомлення.

Якщо система Xможе перебувати в одному з дискретних станів, кількість яких n, а ймовірність знаходження системи у кожному їх дорівнює і сума ймовірностей всіх станів дорівнює одиниці , то ентропія обчислюється за такою формулою Шеннона:

де – ентропія системи Х;

а- основа логарифму, що визначає одиницю вимірювання інформації;

n– кількість станів (значень), у якому може бути система.

Ентропія величина позитивна, оскільки ймовірності завжди менше одиниці, які логарифм негативний, тому знак мінус у формулі К.Шеннона робить ентропію позитивною. Таким чином, за міру кількості інформації приймається та ж ентропія, але зі зворотним знаком.

Взаємозв'язок інформації та ентропії можна розуміти так: отримання інформації (її збільшення) одночасно означає зменшення незнання або інформаційної невизначеності (ентропії)

Отже, статистичний підхід враховує можливість появи повідомлень: більш інформативним вважається те повідомлення, яке менш імовірно, тобто. найменше очікувалося. Кількість інформації досягає максимального значення, якщо події є рівноймовірними.

Р. Хартлі запропонував таку формулу для вимірювання інформації:

I = log 2 n ,

де n- кількість рівноймовірних подій;

I– міра інформації у повідомленні про настання одного з nподій

Вимірювання інформації виявляється у її обсязі. Найчастіше це стосується обсягу комп'ютерної пам'яті та обсягу даних, що передаються каналами зв'язку. За одиницю прийнято таку кількість інформації, при якій невизначеність зменшується вдвічі, така одиниця інформації отримала назву біт .

Якщо як основа логарифму у формулі Хартлі використовується натуральний логарифм (), то одиницею виміру інформації є нат ( 1 біт = ln2 ≈ 0,693 нат). Якщо як основа логарифму використовується число 3, то - тритякщо 10, то - дит (хартлі).

На практиці частіше застосовується більша одиниця - байт(byte), рівний восьми бітам. Така одиниця вибрана тому, що за її допомогою можна закодувати будь-який із 256 символів алфавіту клавіатури комп'ютера (256=2 8).

Крім байтів інформація вимірюється напівсловами (2 байти), словами (4 байти) і подвійними словами (8 байти). Широко використовуються також ще більші одиниці виміру інформації:

1 Кілобайт (Кбайт - kilobyte) = 1024 байт = 2 10 байт,

1 Мегабайт (Мбайт - megabyte) = 1024 Кбайт = 2 20 байт,

1 Гігабайт (Гбайт - gigabyte) = 1024 Мбайт = 230 байт.

1 Терабайт (Тбайт - terabyte) = 1024 Гбайт = 2 40 байт,

1 Петабайт (Пбайт - petabyte) = 1024 Тбайт = 250 байт.

У 1980 році російський математик Ю. Манін запропонував ідею побудови квантового комп'ютера, у зв'язку з чим з'явилася така одиниця інформації, як кубить ( quantum bit, qubit ) – «квантовий біт» – міра вимірювання об'єму пам'яті в теоретично можливому вигляді комп'ютера, який використовує квантові носії, наприклад – спини електронів. Кубит може приймати не два різні значення ("0" і "1"), а кілька, що відповідають нормованим комбінаціям двох основних станів спина, що дає більшу кількість можливих поєднань. Так, 32 кубіти можуть закодувати близько 4 млрд статків.

Семантичний підхідСинтаксичного заходу недостатньо, якщо потрібно визначити не обсяг даних, а кількість необхідної в повідомленні інформації. І тут розглядається семантичний аспект, що дозволяє визначити змістовну сторону відомостей.

Для вимірювання змістового інформації можна скористатися тезаурусом її одержувача (споживача). Ідея тезаурусного методу була запропонована М. Вінером та розвинена нашим вітчизняним ученим А.Ю. Шрейдер.

Тезаурусомназивається сукупність відомостей, які має одержувач інформації. Співвіднесення тезаурусу зі змістом повідомлення, що надійшло, дозволяє з'ясувати, наскільки воно знижує невизначеність.

Залежність обсягу смислової інформації повідомлення від тезаурусу одержувача

Відповідно до залежності, представленої на графіці, за відсутності у користувача будь-якого тезаурусу (знань про сутність повідомлення, тобто =0), або наявності такого тезаурусу, який не змінився в результаті надходження повідомлення (), то обсяг семантичної інформації в ньому дорівнює нулю. Оптимальним буде такий тезаурус (), коли обсяг семантичної інформації буде максимальним (). Наприклад, семантичної інформації в повідомленні, що надійшло незнайомою іноземною мовою буде нуль, Але й така ж ситуація буде в тому випадку, якщо повідомлення вже не є новиною,тому що користувачеві вже все відомо.

Прагматичний західінформації визначає її корисністьу досягненні споживачем своїх цілей. Для цього достатньо визначити ймовірність досягнення мети до і після отримання повідомлення і порівняти їх. Цінність інформації (за А.А. Харкевичем) розраховується за формулою:

де - ймовірність досягнення мети до отримання повідомлення;

ймовірність досягнення мети поле отримання повідомлення;

Лекція №7

Тема: Заходи інформації: синтаксична, семантична, прагматична.

Інформація - це відомості про об'єкти та явища довкілля, їх параметрах, властивостях та станах, які зменшують наявний про них ступінь невизначеності, неповноти знань.

Інформатика розглядає інформацію як пов'язані між собою відомості, що змінюють уявлення про явище або об'єкт навколишнього світу. З цієї точки зору інформацію можна розглядати як сукупність знань про фактичні дані та залежність між ними.

У процесі обробки інформація може змінювати структуру та форму. Ознакою структури є елементи інформації та їх взаємозв'язок. Форми представлення інформації може бути різні. Основними з них є: символьна (заснована на використанні різних символів), текстова (текст - це символи, розташовані у певному порядку), графічна (різні види зображень), звукова.

У повсякденній практиці такі поняття, як інформація та дані, часто розглядаються як синоніми. Насправді з-поміж них є відмінності. Даними називається інформація, подана у зручному для обробки вигляді. Дані можуть бути представлені у вигляді тексту, графіки, аудіо-візуального ряду. Подання даних називається мовою інформатики, що є сукупність символів, угод і правил, що використовуються спілкування, відображення, передачі у електронному вигляді.

Інформаційна комунікація – це шляхи процеси, що забезпечують передачу повідомлень від джерела інформації до споживача. Для споживачів інформації важливою характеристикою є адекватність.

Адекватність інформації – певний рівень відповідності, створюваного з допомогою отриманої інформації образу реальному образу, процесу чи явище.

Однією з найважливіших характеристик інформації її адекватність. Від рівня адекватності інформації залежить правильність прийняття рішення.

Адекватність інформації може виражатися у трьох формах: синтаксичної, семантичної та прагматичної.

Синтаксична адекватність відображає формально-структурні характеристики інформації, не торкаючись її змістового змісту. На синтаксичному рівні враховуються тип носія та спосіб подання інформації, швидкість її передачі та обробки, розміри кодів подання інформації, надійність та Точність перетворення цих кодів і т. д. Інформацію, що розглядається з таких позицій, зазвичай називають даними.

Семантична адекватність визначає ступінь відповідності образу об'єкта самому об'єкту. Тут враховується змістове зміст інформації. На цьому рівні аналізуються відомості, що відображаються інформацією, розглядаються смислові зв'язки. Таким чином, семантична адекватність проявляється за наявності єдності інформації та користувача. Ця форма служить на формування понять і уявлень, виявлення сенсу, змісту інформації та її узагальнення.

Прагматична адекватність відбиває відповідність інформації мети управління, реалізованої її основі. Прагматичні властивості інформації виявляються за наявності єдиної інформації, користувача та мети управління. На цьому рівні аналізуються споживчі властивості інформації, пов'язані з практичним використанням інформації, відповідно до її цільової функції діяльності системи.

Кожній формі адекватності відповідає свій захід кількості інформації.

Синтаксична міраінформації оперує з знеособлену інформацію, яка не виражає смислового ставлення до об'єкта. На цьому рівні обсяг даних у повідомленні вимірюється кількістю символів цього повідомлення. У сучасних ЕОМ мінімальною одиницею вимірювання даних є біт – один двійковий розряд. Широко використовуються також більші одиниці виміру: байт, що дорівнює 8 бітам; кілобайт, що дорівнює 1024 байтам; мегабайт, що дорівнює 1024 кілобайтам, і т.д.

Семантичний захід інформації використовується для вимірювання змістового змісту інформації. Найбільшого поширення тут набув тезаурусний захід, що зв'язує семантичні властивості інформації зі здатністю користувача приймати повідомлення, що надійшло. Тезаурус - це сукупність відомостей, які має користувач або система. Максимальна кількість семантичної інформації споживач отримує за узгодженням її змістового змісту зі своїм тезаурусом, коли інформація, що надходить, зрозуміла користувачеві і несе йому раніше не відомі відомості. З семантичною мірою кількості інформації пов'язаний коефіцієнт змістовності, який визначається як відношення кількості семантичної інформації до загального обсягу даних.

Кількість та якість інформації

Рівні проблем передачі інформації

При реалізації інформаційних процесів завжди відбувається перенесення інформації у просторі та час від джерела інформації до приймача (одержувача) за допомогою сигналів. Сигнал - фізичний процес (явище), що несе повідомлення (інформацію) про подію чи стан об'єкта спостереження.

Повідомлення- форма подання у вигляді сукупності символів (символів), використовувана передачі.

Повідомлення як сукупність знаків з погляду семіотики – науки, що займається дослідженням властивостей знаків та знакових систем, – може вивчатися на трьох рівнях:

1) синтаксичним,де розглядаються внутрішні властивості повідомлень, тобто відносини між знаками, що відбивають структуру цієї знакової системи.

2) семантичному,де аналізуються відносини між знаками і предметами, що позначаються ними, діями, якостями, тобто смисловий зміст повідомлення, його ставлення до джерела інформації;

3) прагматичному,де розглядаються відносини між повідомленням та одержувачем, тобто споживчий зміст повідомлення, його ставлення до одержувача.

Проблеми синтаксичного рівнястосуються створення теоретичних засад побудови інформаційних систем. На цьому рівні розглядають проблеми доставки одержувачу повідомлень як сукупності знаків, враховуючи при цьому тип носія та спосіб подання інформації, швидкість передачі та обробки, розміри кодів подання інформації, надійність та точність перетворення цих кодів тощо, повністю абстрагуючись від змістового повідомлень та їх цільового призначення. На цьому рівні інформацію, яку розглядають тільки з синтаксичних позицій, зазвичай називають даними, оскільки смислова сторона при цьому не має значення.

Проблеми семантичного рівняпов'язані з формалізацією та урахуванням змісту інформації, що передається, визначення ступеня відповідності образу об'єкта і самого об'єкта. На цьому рівні аналізуються ті відомості, які відображає інформація, розглядаються смислові зв'язки, формуються поняття та уявлення, виявляється зміст, зміст інформації, здійснюється її узагальнення.

На прагматичному рівніцікавлять наслідки від отримання та використання цієї інформації споживачем. Проблеми цього рівня пов'язані з визначенням цінності та корисності використання інформації при виробленні споживачем рішення для досягнення своєї мети. Основна складність тут полягає в тому, що цінність, корисність інформації може бути абсолютно різною для різних одержувачів і, крім того, вона залежить від ряду факторів, таких, як своєчасність її доставки та використання.

Заходи інформації

Заходи інформації синтаксичного рівня

Для вимірювання інформації на синтаксичному рівні вводяться два параметри: обсяг інформації (даних) – V Д(об'ємний підхід) та кількість інформації - I(Ентропійний підхід).

Обсяг інформації V Д.При реалізації інформаційних процесів інформація передається у вигляді повідомлення, що є сукупністю символів будь-якого алфавіту. Якщо кількість інформації, що міститься в повідомленні з одного символу, прийняти за одиницю, то обсяг інформації (даних) V Ду будь-якому іншому повідомленні дорівнюватиме кількості символів (розрядів) у цьому повідомленні.

Так, у десятковій системі числення один розряд має вагу, що дорівнює 10, і відповідно одиницею вимірювання інформації буде дит (десятковий розряд). У цьому випадку повідомлення у вигляді n V Д= пдит. Наприклад, чотирирозрядне число 2003 має обсяг даних V Д = 4 дит.

У двійковій системі числення один розряд має вагу, що дорівнює 2, і відповідно одиницею вимірювання інформації буде битий (bit (binary digit)- Двійковий розряд). У цьому випадку повідомлення у вигляді n-Розрядного числа має обсяг даних V Д = пбіт. Наприклад, восьмирозрядний двійковий код 11001011 має обсяг даних V Д= 8 біт.

У сучасній обчислювальній техніці поряд з мінімальною одиницею вимірювання даних біт широко використовується укрупнена одиниця вимірювання байт, рівна 8 біт. При роботі з великими обсягами інформації для підрахунку її кількості застосовують більші одиниці виміру, такі як кілобайт (кбайт), мегабайт (Мбайт), гігабайт (Гбайт), терабайт (Тбайт):

1 кбайт = 1024 байт = 210 байт;

1 Мбайт = 1024 кбайт = 220 байт = 1048576 байт;

1 Гбайт = 1024 Мбайт = 230 байт = 1073741824 байт; .

1 Тбайт = 1024 Гбайт = 2 40 байт = 1099511627776 байт.

Кількість інформації I (Ентропійний підхід).У теорії інформації та кодування прийнято ентропійний підхід до вимірювання інформації. Цей підхід ґрунтується на тому, що факт отримання інформації завжди пов'язаний із зменшенням різноманітності чи невизначеності (ентропії) системи. Виходячи з цього, кількість інформації в повідомленні визначається як міра зменшення невизначеності стану даної системи після отримання повідомлення. Як тільки спостерігач виявив що-небудь у фізичній системі, ентропія системи знизилася, тому що для спостерігача система стала більш упорядкованою.

Таким чином, при ентропійному підході під інформацією розуміється кількісна величина зниклої в ході будь-якого процесу (випробування, вимірювання тощо) невизначеності. При цьому як невизначеність вводиться ентропія Н,та кількість інформації дорівнює:

де H apr - апріорна ентропія про стан досліджуваної системи;

H aps- Апостеріорна ентропія.

Апостеріорі- те, що відбувається з досвіду (випробування, вимірювання).

Апріорі- поняття, що характеризує знання, що передує досвіду (випробуванню), та незалежне від нього.

Що стосується, коли під час випробування невизначеність знята (отриманий конкретний результат, тобто. H aps = 0), кількість отриманої інформації збігається з первісною ентропією

Розглянемо як досліджувану систему дискретне джерело інформації (джерело дискретних повідомлень), під яким розумітимемо фізичну систему, що має кінцеве безліч можливих станів. Це безліч А= (a 1, a 2 , ..., а п)станів системи теорії інформації називають абстрактним алфавітом чи алфавітом джерела повідомлень.

Окремі стани а 1 , а 2 ,..., а„називають літерами чи символами алфавіту.

Така система може в кожний момент часу випадковим чином прийняти одну з кінцевих множин можливих станів а i.

Оскільки одні стану вибираються джерелом частіше, інші рідше, то загальному випадку він характеризується ансамблем А,тобто повною сукупністю станів з ймовірностями їх появи, що становлять у сумі одиницю:

, причому (2.2)

Введемо міру невизначеності вибору стану джерела. Її можна розглядати як міру кількості інформації, одержуваної при повному усуненні невизначеності щодо рівноймовірних станів джерела.

(2.3)

Тоді при N = 1отримуємо Н(А)= 0.

Зазначена міра була запропонована американським ученим Р. Хартлі в 1928 р. Заснування логарифму у формулі (2.3) не має принципового значення і визначає лише масштаб чи одиницю виміру Залежно від основи логарифму застосовують такі одиниці виміру.

1. Біти - при цьому основа логарифму дорівнює 2:

(2.4)

2. Нитки - при цьому основа логарифму дорівнює е:

3. Діти - при цьому основа логарифму дорівнює 10:

В інформатиці як міру невизначеності зазвичай використовують формулу (2.4). При цьому одиниця невизначеності називається двійковою одиницею, або бітом, і є невизначеністю вибору з двох рівноймовірних подій.

Формулу (2.4) можна отримати емпірично: для зняття невизначеності в ситуації з двох рівноймовірних подій необхідний один досвід і відповідно один біт інформації, при невизначеності, що складається з чотирьох рівноймовірних подій, достатньо 2 біт інформації, щоб вгадати факт, що шукається. Для визначення карти з колоди, що складається з 32 карт, достатньо 5 біт інформації, тобто достатньо поставити п'ять запитань з відповідями «так» чи «ні», щоб визначити карту, що шукається.

Запропонований захід дозволяє вирішувати певні практичні завдання, коли всі можливі стани джерела інформації мають однакову ймовірність.

У випадку ступінь невизначеності реалізації стану джерела інформації залежить від кількості станів, а й від ймовірностей цих станів. Якщо джерело інформації має, наприклад, два можливі стани з ймовірностями 0,99 і 0,01, то невизначеність вибору у нього значно менше, ніж у джерела, що має два рівноймовірні стани, так як у цьому випадку результат практично вирішений наперед (реалізація стану, ймовірність якого дорівнює 0,99).

Американський вчений К. Шеннон узагальнив поняття міри невизначеності вибору Hна випадок, коли Hзалежить від кількості станів, а й від ймовірностей цих станів (ймовірностей р iвибору символів а i, алфавіту A). Цей захід, що є невизначеністю, що припадає в середньому на один стан, називають ентропією дискретного джерела інформації:

(2.5)

Якщо знову орієнтуватися на вимір невизначеності у двійкових одиницях, то основу логарифму слід прийняти рівним двом:

(2.6)

За рівноймовірних виборів ймовірність p i =1/Nформула (2.6) перетворюється на формулу Р. Хартлі (2.3):

Запропонований захід був названий ентропією не випадково. Річ у тім, що формальна структура висловлювання (2.5) збігається з ентропією фізичної системи, визначеної Больцманом.

Використовуючи формули (2.4) та (2.6), можна визначити надмірність Dалфавіту джерела повідомлень А,яка показує, наскільки раціонально використовуються символи даного алфавіту:

де Н max (А) -максимально можлива ентропія, яка визначається за формулою (2.4);

Н(А) -ентропія джерела, яка визначається за формулою (2.6).

Суть цього заходу у тому, що з рівноймовірному виборі ту ж інформаційну навантаження на знак можна забезпечити, використовуючи алфавіт меншого обсягу, ніж у разі нерівноважним вибором.