Ukuran sintaksis maklumat. Cara semantik untuk mengukur maklumat: intipati, konsep asas dan sifat. Pengekodan maklumat berangka

Apabila melaksanakan proses maklumat Sentiasa berlaku pemindahan maklumat dalam ruang dan masa daripada sumber maklumat kepada penerima (penerima). Dalam kes ini, pelbagai tanda atau simbol digunakan untuk menghantar maklumat, contohnya, bahasa semula jadi atau buatan (formal), membolehkan ia dinyatakan dalam beberapa bentuk yang dipanggil mesej.

Mesej– satu bentuk perwakilan maklumat dalam bentuk satu set tanda (simbol) yang digunakan untuk penghantaran.

Mesej sebagai satu set tanda dari sudut pandangan semiotik ( daripada bahasa Yunani setneion - tanda, tanda) - sains yang mengkaji sifat tanda dan sistem tanda - boleh dikaji pada tiga peringkat:

1) sintaksis , di mana sifat dalaman mesej dipertimbangkan, iaitu hubungan antara tanda, mencerminkan struktur sistem tanda yang diberikan. Sifat luaran dipelajari pada peringkat semantik dan pragmatik. Pada peringkat ini, mereka menganggap masalah penyampaian mesej kepada penerima sebagai satu set aksara, dengan mengambil kira jenis media dan kaedah penyampaian maklumat, kelajuan penghantaran dan pemprosesan, saiz kod persembahan maklumat, kebolehpercayaan dan ketepatan penukaran kod ini, dsb., mengabstraksi sepenuhnya daripada kandungan semantik mesej dan tujuan yang dimaksudkan. Pada tahap ini, maklumat yang dipertimbangkan hanya dari perspektif sintaksis biasanya dipanggil data, kerana bahagian semantik tidak penting.

Teori maklumat moden terutamanya mengkaji masalah pada tahap ini. Ia bergantung pada konsep "jumlah maklumat," yang merupakan ukuran kekerapan penggunaan tanda, yang sama sekali tidak mencerminkan sama ada makna atau kepentingan mesej yang dihantar. Dalam hal ini, kadangkala dikatakan teori maklumat moden berada pada tahap sintaksis.

2) semantik , di mana hubungan antara tanda dan objek, tindakan, dan kualiti yang mereka nyatakan dianalisis, iaitu, kandungan semantik mesej, hubungannya dengan sumber maklumat. Masalah pada peringkat semantik adalah berkaitan dengan pemformalan dan pertimbangan makna maklumat yang dihantar, menentukan tahap kesesuaian antara imej objek dan objek itu sendiri. hidup tahap ini maklumat yang dicerminkan oleh maklumat dianalisis, kaitan semantik diperiksa, konsep dan idea dibentuk, makna dan kandungan maklumat didedahkan, dan generalisasinya dijalankan.

3) pragmatik , di mana hubungan antara mesej dan penerima dipertimbangkan, iaitu kandungan pengguna mesej, hubungannya dengan penerima.

Pada peringkat ini, akibat menerima dan menggunakan maklumat ini oleh pengguna adalah menarik. Masalah pada tahap ini dikaitkan dengan menentukan nilai dan kegunaan menggunakan maklumat apabila pengguna membangunkan penyelesaian untuk mencapai matlamatnya. Kesukaran utama di sini ialah nilai dan kegunaan maklumat boleh berbeza sama sekali untuk penerima yang berbeza dan, sebagai tambahan, ia bergantung kepada beberapa faktor, seperti, sebagai contoh, ketepatan masa penghantaran dan penggunaannya.

Bagi setiap peringkat masalah pemindahan maklumat yang dibincangkan di atas, terdapat pendekatan yang berbeza untuk mengukur jumlah maklumat dan ukuran maklumat yang berbeza. Terdapat masing-masing ukuran maklumat pada peringkat sintaksis, peringkat semantik dan peringkat pragmatik.

Ukuran maklumat tahap sintaksis. Kuantifikasi maklumat pada tahap ini tidak berkaitan dengan bahagian kandungan maklumat, tetapi beroperasi dengan maklumat tidak peribadi yang tidak menyatakan hubungan semantik dengan objek. Disebabkan ini ukuran ini memungkinkan untuk menilai aliran maklumat dalam objek yang berbeza sifatnya seperti sistem komunikasi, mesin pengkomputeran, sistem kawalan, sistem saraf organisma hidup, dsb.

Untuk mengukur maklumat pada tahap sintaksis, dua parameter diperkenalkan: jumlah maklumat (data) - V d(pendekatan volum) dan jumlah maklumat – saya(pendekatan entropi).

Isipadu maklumat V d (pendekatan volum). Apabila melaksanakan proses maklumat, maklumat dihantar dalam bentuk mesej, yang merupakan satu set simbol abjad. Selain itu, setiap aksara baharu dalam mesej meningkatkan jumlah maklumat yang diwakili oleh urutan aksara abjad ini. Jika kini jumlah maklumat yang terkandung dalam mesej satu aksara diambil sebagai satu, maka jumlah maklumat (data) V d dalam mana-mana mesej lain akan sama dengan bilangan aksara (bit) dalam mesej ini. Oleh kerana maklumat yang sama boleh diwakili oleh ramai cara yang berbeza(menggunakan abjad yang berbeza), maka unit ukuran maklumat (data) akan berubah dengan sewajarnya.

Jadi, dalam sistem perpuluhan dalam tatatanda, satu digit mempunyai berat bersamaan dengan 10, dan sewajarnya unit ukuran maklumat akan dit (titik perpuluhan P P dit. Sebagai contoh, nombor empat digit 2009 mempunyai isipadu data V d = 4 dit.

DALAM sistem binari dalam tatatanda, satu digit mempunyai berat sama dengan 2, dan sewajarnya unit ukuran maklumat akan menjadi sedikit (bit (digit binari) – digit binari). Dalam kes ini, mesej dalam borang n-digit nombor mempunyai isipadu data V d = P sedikit. Sebagai contoh, kod binari lapan bit 11001011 mempunyai volum data V d = 8 bit.

Dalam teknologi pengkomputeran moden, bersama-sama dengan unit minimum pengukuran data sedikit unit ukuran yang diperbesarkan digunakan secara meluas bait, sama dengan 8 bit. Ia adalah tepat lapan bit yang diperlukan untuk mengekod mana-mana daripada 256 aksara abjad papan kekunci komputer (256 = 2 8).

Apabila bekerja dengan jumlah yang besar lebih banyak maklumat digunakan untuk mengira kuantitinya unit besar ukuran:

1 Kilobait (KB) = 1024 bait = 2 10 bait,

1 Megabait (MB) = 1024 KB = 2 20 bait = 1,048,576 bait;

1 Gigabait (GB) = 1024 MB = 2 30 bait = 1,073,741,824 bait;

DALAM Kebelakangan ini Disebabkan oleh peningkatan dalam jumlah maklumat yang diproses, unit terbitan tersebut mula digunakan sebagai:

1 Terabait (TB) = 1024 GB = 2 40 bait = 1,099,511,627,776 bait;

1 Petabait (PB) = 1024 TB = 2 50 bait = 1,125,899,906,842,624 bait.

Perlu diingatkan bahawa dalam sistem pengukuran maklumat binari (komputer), tidak seperti sistem metrik, unit dengan awalan "kilo", "mega", dll. diperoleh dengan mendarab unit asas bukan dengan 10 3 = 1000, 10 6 = 1,000,000, dsb., dan pada 2 10 = 1024, 2 20 = 1,048,576, dsb.

Jumlah maklumat I (pendekatan entropi). Dalam teori maklumat dan pengekodan, pendekatan entropi untuk mengukur maklumat diguna pakai. Pendekatan ini berdasarkan fakta bahawa fakta mendapatkan maklumat sentiasa dikaitkan dengan penurunan kepelbagaian atau ketidakpastian (entropi) sistem. Berdasarkan ini, jumlah maklumat dalam mesej ditakrifkan sebagai ukuran untuk mengurangkan ketidakpastian keadaan sistem yang diberikan selepas menerima mesej. Ketidakpastian boleh ditafsirkan dari segi betapa sedikit pemerhati mengetahui tentang sistem tertentu. Sebaik sahaja pemerhati telah mengenal pasti sesuatu dalam sistem fizikal, entropi sistem berkurangan kerana, kepada pemerhati, sistem telah menjadi lebih teratur.

Oleh itu, dengan pendekatan entropi maklumat difahami sebagai nilai kuantitatif ketidakpastian yang telah hilang semasa sebarang proses (ujian, pengukuran, dll.). Dalam kes ini, entropi diperkenalkan sebagai ukuran ketidakpastian N, dan jumlah maklumat adalah sama dengan:

I = H apr – H aps

di mana, H apr – entropi priori tentang keadaan sistem atau proses yang dikaji;

H aps – entropi posterior.

Sebuah posterior (dari lat. a posteriori - dari apa yang berikut) – berasal daripada pengalaman (ujian, pengukuran).

A priori (dari lat. a priori - dari sebelumnya) ialah konsep yang mencirikan pengetahuan yang mendahului pengalaman (ujian) dan bebas daripadanya.

Dalam kes apabila semasa ujian ketidakpastian yang sedia ada dikeluarkan (hasil tertentu diperolehi, iaitu H = 0), jumlah maklumat yang diterima bertepatan dengan entropi awal

Mari kita pertimbangkan sebagai sistem yang dikaji sebagai sumber maklumat diskret (sumber mesej diskret), yang kami maksudkan sistem fizikal, mempunyai set terhingga negeri yang mungkin {dan saya}, i = .

Semua siap A = (a 1, a 2, ..., a n) keadaan sistem dalam teori maklumat dipanggil abjad abstrak atau abjad sumber mesej.

Negeri individu a 1, a 2,..., a n dipanggil huruf atau simbol abjad.

Sistem sedemikian boleh secara rawak mengambil salah satu set terhingga keadaan yang mungkin pada bila-bila masa. a i. Dalam kes ini, mereka mengatakan bahawa pelbagai negeri direalisasikan kerana pilihan mereka oleh sumber.

Penerima maklumat (mesej) mempunyai idea tertentu tentang kemungkinan berlakunya peristiwa tertentu. Idea-idea ini secara amnya tidak boleh dipercayai dan dinyatakan oleh kebarangkalian yang dia menjangkakan peristiwa ini atau itu. Ukuran umum ketidakpastian (entropi) dicirikan oleh beberapa pergantungan matematik pada kebarangkalian ini; jumlah maklumat dalam mesej ditentukan oleh berapa banyak ukuran ketidakpastian berkurangan selepas menerima mesej.

Mari kita jelaskan idea ini dengan contoh.

Mari kita mempunyai 32 pelbagai kad. Kemungkinan untuk memilih satu kad daripada dek ialah 32. Sebelum membuat pilihan, adalah wajar untuk menganggap bahawa peluang untuk memilih kad tertentu adalah sama untuk semua kad. Dengan membuat pilihan, kami menghapuskan ketidakpastian ini. Dalam kes ini, ketidakpastian boleh dicirikan oleh bilangan kemungkinan pilihan yang sama kemungkinan. Jika sekarang kita mentakrifkan jumlah maklumat sebagai ukuran menghapuskan ketidakpastian, maka maklumat yang diperoleh hasil daripada pilihan boleh dicirikan oleh nombor 32. Walau bagaimanapun, adalah lebih mudah untuk menggunakan bukan nombor ini sendiri, tetapi logaritma bagi anggaran asas 2 yang diperolehi di atas:

di mana m ialah bilangan kemungkinan pilihan yang sama kemungkinan (Apabila m=2, kita mendapat maklumat dalam satu bit). Iaitu, dalam kes kita

H = log 2 32 = 5.

Pendekatan yang digariskan adalah milik ahli matematik Inggeris R. Hartley (1928). Ia mempunyai tafsiran yang menarik. Ia dicirikan oleh beberapa soalan dengan jawapan "ya" atau "tidak" untuk menentukan kad yang dipilih oleh seseorang. 5 soalan sebegitu sudah memadai.

Jika, apabila memilih kad, kemungkinan setiap kad muncul tidak sama (berbeza kemungkinan), maka kami memperoleh pendekatan statistik untuk mengukur maklumat yang dicadangkan oleh K. Shannon (1948). Dalam kes ini, ukuran maklumat diukur menggunakan formula:

di mana p i– kebarangkalian pilihan i watak abjad ke-.

Ia adalah mudah untuk melihat bahawa jika kebarangkalian p 1, ..., p n adalah sama, maka setiap daripada mereka adalah sama 1/N, dan formula Shannon bertukar menjadi formula Hartley.

Ukuran maklumat pada peringkat semantik. Untuk mengukur kandungan semantik maklumat, iaitu kuantitinya setiap tahap semantik, ukuran tesaurus yang menghubungkan sifat semantik maklumat dengan keupayaan pengguna untuk menerima mesej masuk. Sememangnya, untuk memahami dan menggunakan maklumat yang diterima, penerima mesti mempunyai pengetahuan tertentu. Kejahilan sepenuhnya tentang subjek tidak membenarkan kami mengeluarkan maklumat berguna daripada mesej yang diterima tentang subjek ini. Apabila pengetahuan tentang sesuatu subjek bertambah, bilangannya juga bertambah informasi berguna, diekstrak daripada mesej.

Jika kita memanggil pengetahuan penerima tentang subjek tertentu sebagai tesaurus (iaitu, set perkataan, konsep, nama objek tertentu yang disambungkan oleh sambungan semantik), maka jumlah maklumat yang terkandung dalam mesej tertentu boleh dinilai dengan tahap perubahan. dalam tesaurus individu di bawah pengaruh mesej ini.

Tesaurus- satu set maklumat yang tersedia kepada pengguna atau sistem.

Dengan kata lain, nombor maklumat semantik, yang diekstrak oleh penerima daripada mesej masuk, bergantung pada tahap kesediaan tesaurusnya untuk menerima maklumat tersebut.

Bergantung kepada hubungan antara kandungan semantik maklumat S dan tesaurus pengguna S hlm jumlah perubahan maklumat semantik saya s, dirasakan oleh pengguna dan seterusnya dimasukkan olehnya dalam tesaurusnya. Sifat pergantungan ini ditunjukkan dalam Rajah. 2.1. Mari kita pertimbangkan dua kes mengehadkan apabila jumlah maklumat semantik I c adalah sama dengan 0:

a) apabila S p = 0, pengguna tidak melihat (tidak memahami) maklumat yang masuk;

b) apabila S -> ∞ pengguna “tahu segala-galanya” dan tidak memerlukan maklumat masuk.

nasi. 1.2. Ketergantungan jumlah maklumat semantik,

dilihat oleh pengguna, daripada tesaurusnya I c =f(S p)

Jumlah maksimum Pengguna memperoleh maklumat semantik dengan menyelaraskan kandungan semantiknya S dengan tesaurusnya S p (S = S p opt), apabila maklumat yang masuk dapat difahami oleh pengguna dan memberikannya maklumat yang tidak diketahui sebelumnya (bukan dalam tesaurusnya).

Akibatnya, jumlah maklumat semantik dalam mesej, jumlah pengetahuan baharu yang diterima oleh pengguna, adalah nilai relatif. Mesej yang sama boleh mempunyai kandungan yang bermakna untuk pengguna yang cekap dan tidak bermakna bagi pengguna yang tidak cekap.

Apabila menilai aspek semantik (kandungan) maklumat, adalah perlu untuk berusaha untuk mengharmonikan nilai S dan Sp.

Ukuran relatif bagi jumlah maklumat semantik boleh menjadi pekali kandungan C, yang ditakrifkan sebagai nisbah jumlah maklumat semantik kepada volumnya:

C = I s / V d

Ukuran maklumat pada tahap pragmatik. Langkah ini menentukan kegunaan maklumat untuk mencapai matlamat pengguna. Ukuran ini juga merupakan nilai relatif, ditentukan oleh keanehan penggunaan maklumat ini dalam sistem tertentu.

Salah seorang saintis Rusia pertama yang menangani masalah menilai maklumat pada tahap pragmatik ialah A.A. Kharkevich, yang mencadangkan untuk mengambil sebagai ukuran nilai maklumat jumlah maklumat yang diperlukan untuk mencapai matlamat, iaitu, untuk mengira kenaikan dalam kebarangkalian untuk mencapai matlamat. Jadi, jika sebelum menerima maklumat kebarangkalian untuk mencapai matlamat adalah p 0, dan selepas menerimanya - p 1, maka nilai maklumat ditentukan sebagai logaritma nisbah p 1 / p 0:

I = log 2 p 1 – log 2 p 0 = log 2 (p 1 /p 0)

Oleh itu, nilai maklumat diukur dalam unit maklumat, dalam dalam kes ini dalam bit.

Untuk mengukur maklumat, dua parameter diperkenalkan: jumlah maklumat I dan jumlah data V d.

Parameter ini mempunyai ungkapan dan tafsiran yang berbeza bergantung pada bentuk kecukupan yang dipertimbangkan.

Kecukupan sintaksis. Ia memaparkan ciri formal dan struktur maklumat dan tidak menjejaskan kandungan semantiknya. Di peringkat sintaksis, jenis medium dan kaedah penyampaian maklumat, kelajuan penghantaran dan pemprosesan, saiz kod untuk menyampaikan maklumat, kebolehpercayaan dan ketepatan penukaran kod ini, dan lain-lain diambil kira.

Maklumat yang dipertimbangkan hanya dari kedudukan sintaksis biasanya dipanggil data, kerana bahagian semantik tidak penting.

Kecukupan semantik (nosional). Borang ini menentukan tahap kesesuaian antara imej objek dan objek itu sendiri. Aspek semantik melibatkan mengambil kira kandungan semantik maklumat. Pada peringkat ini, maklumat yang dicerminkan oleh maklumat dianalisis dan perkaitan semantik dipertimbangkan. Dalam sains komputer, sambungan semantik diwujudkan antara kod untuk mewakili maklumat. Bentuk ini berfungsi untuk membentuk konsep dan idea, mengenal pasti makna, kandungan maklumat dan generalisasinya.

Kecukupan pragmatik (pengguna). Ia mencerminkan hubungan antara maklumat dan penggunanya, kesesuaian maklumat dengan matlamat pengurusan, yang dilaksanakan berdasarkannya. Sifat pragmatik maklumat muncul hanya jika terdapat kesatuan maklumat (objek), pengguna dan matlamat pengurusan.

Aspek pragmatik pertimbangan dikaitkan dengan nilai, kegunaan menggunakan maklumat apabila pengguna membangunkan penyelesaian untuk mencapai matlamatnya. Dari sudut pandangan ini, sifat pengguna maklumat dianalisis. Bentuk kecukupan ini berkaitan secara langsung dengan kegunaan praktikal maklumat, dengan pematuhannya Fungsi objektif aktiviti sistem.

Setiap bentuk kecukupan sepadan dengan ukurannya sendiri bagi jumlah maklumat dan volum data (Rajah 2.1).

nasi. 2.1. Langkah-langkah maklumat

2.2.1. Ukuran sintaksis maklumat

Ukuran sintaksis kuantiti maklumat beroperasi dengan maklumat tidak peribadi yang tidak menyatakan hubungan semantik dengan objek.

Jumlah data V d dalam mesej diukur dengan bilangan aksara (bit) dalam mesej ini. DALAM pelbagai sistem Dalam tatatanda, satu digit mempunyai berat yang berbeza dan unit ukuran data berubah dengan sewajarnya:

dalam sistem nombor binari unit ukuran adalah bit ( sedikit - digit binari - digit binari);
Dalam sistem nombor perpuluhan, unit ukuran ialah dit (tempat perpuluhan).

Contoh. Mesej dalam sistem binari sebagai lapan-bit kod binari 10111011 mempunyai isipadu data V d = 8 bit.

Mesej dalam sistem perpuluhan dalam bentuk nombor enam digit 275903 mempunyai isipadu data V d = 6 dit.

Jumlah maklumat ditentukan oleh formula:

di mana H (α) ialah entropi, i.e. jumlah maklumat diukur dengan perubahan (pengurangan) dalam ketidakpastian keadaan sistem.

Entropi sistem H (α), mempunyai N keadaan yang mungkin, mengikut formula Shannon, adalah sama dengan:

di mana p i ialah kebarangkalian bahawa sistem berada dalam keadaan ke-i.

Bagi kes apabila semua keadaan sistem berkemungkinan sama, entropinya ditentukan oleh hubungan

di mana N ialah bilangan semua keadaan yang mungkin dipaparkan;

m - asas sistem nombor (pelbagai simbol yang digunakan dalam abjad);

n ialah bilangan bit (karakter) dalam mesej.

2.2.2. Ukuran semantik maklumat

Untuk mengukur kandungan semantik maklumat, i.e. kuantitinya pada tahap semantik, yang paling dikenali ialah ukuran tesaurus, yang menghubungkan sifat semantik maklumat dengan keupayaan pengguna untuk menerima mesej masuk. Untuk tujuan ini konsep digunakan tesaurus pengguna.

Tesaurus ialah koleksi maklumat yang tersedia kepada pengguna atau sistem.

Bergantung pada hubungan antara kandungan semantik maklumat S dan tesaurus pengguna S p , jumlah maklumat semantik yang saya rasai oleh pengguna dan seterusnya dimasukkan olehnya dalam tesaurusnya berubah. Sifat pergantungan ini ditunjukkan dalam Rajah 2.2:

apabila S p =0 pengguna tidak melihat atau memahami maklumat yang masuk;
apabila S p → ∞ pengguna mengetahui segala-galanya, dia tidak memerlukan maklumat masuk.

nasi. 2.2. Kebergantungan jumlah maklumat semantik yang dirasakan oleh pengguna pada tesaurusnya I c = f (S p)

Apabila menilai aspek semantik (kandungan) maklumat, adalah perlu untuk berusaha untuk mengharmonikan nilai S dan S p.

Ukuran relatif bagi jumlah maklumat semantik boleh menjadi pekali kandungan C, yang ditakrifkan sebagai nisbah jumlah maklumat semantik kepada volumnya:

2.2.3. Ukuran pragmatik maklumat

Ukuran ini menentukan kegunaan maklumat (nilai) untuk pengguna mencapai matlamatnya. Ukuran ini juga merupakan nilai relatif, ditentukan oleh keanehan penggunaan maklumat dalam sistem tertentu. Adalah dinasihatkan untuk mengukur nilai maklumat dalam unit yang sama (atau hampir dengannya) di mana fungsi objektif diukur.

Sebagai perbandingan, kami membentangkan ukuran maklumat yang dimasukkan dalam jadual. 2.1.

Jadual 2.1. Unit maklumat dan contoh

Ukuran maklumat	Unit	Contoh (untuk bidang komputer)
Sintaksis: pendekatan Shannon pendekatan komputer	Tahap pengurangan ketidakpastian	Kebarangkalian kejadian
Sintaksis: pendekatan Shannon pendekatan komputer	Unit pembentangan maklumat	Bit, bait, KB, dsb.
Semantik	Tesaurus	Beg plastik program aplikasi, Komputer peribadi, jaringan komputer dan lain-lain.
Semantik	Penunjuk ekonomi	Keuntungan, produktiviti, kadar susut nilai, dsb.
Pragmatik	Nilai dalam penggunaan	Nilai kewangan
Pragmatik	Kapasiti memori, prestasi komputer, kelajuan pemindahan data, dsb.	Masa untuk memproses maklumat dan membuat keputusan

Topik 2. Asas mewakili dan memproses maklumat dalam komputer

kesusasteraan

1. Informatik dalam Ekonomi: Buku Teks/Ed. B.E. Odintsova, A.N. Romanova. – M.: Buku teks universiti, 2008.

2. Sains komputer: Kursus asas: Buku Teks/Ed. S.V. Simonovich. – St. Petersburg: Peter, 2009.

3. Sains komputer. Kursus am: Buku Teks/Penulis Bersama: A.N. Guda, M.A. Butakova, N.M. Nechitailo, A.V. Chernov; Di bawah umum ed. DALAM DAN. Kolesnikova. – M.: Dashkov dan K, 2009.

4. Informatik untuk ahli ekonomi: Buku Teks/Ed. Matyushka V.M. - M.: Infra-M, 2006.

5. Informatik ekonomi: Pengenalan kepada analisis ekonomi sistem maklumat - M.: INFRA-M, 2005.

Ukuran maklumat (sintaktik, semantik, pragmatik)

Pelbagai pendekatan boleh digunakan untuk mengukur maklumat, tetapi yang paling banyak digunakan ialah statistik(kebarangkalian), semantik dan p pragmatik kaedah.

Statistik(kebarangkalian) kaedah mengukur maklumat telah dibangunkan oleh K. Shannon pada tahun 1948, yang mencadangkan untuk mempertimbangkan jumlah maklumat sebagai ukuran ketidakpastian keadaan sistem, yang dikeluarkan akibat menerima maklumat. Ungkapan kuantitatif ketidakpastian dipanggil entropi. Jika, selepas menerima beberapa mesej, pemerhati memperoleh Maklumat tambahan tentang sistem X, maka ketidakpastian telah berkurangan. Jumlah tambahan maklumat yang diterima ditakrifkan sebagai:

di manakah jumlah maklumat tambahan tentang sistem X, diterima dalam bentuk mesej;

Ketidakpastian awal (entropi) sistem X;

Ketidakpastian terhingga (entropi) sistem X, berlaku selepas menerima mesej.

Jika sistem X mungkin dalam salah satu keadaan diskret, yang bilangannya n, dan kebarangkalian untuk mencari sistem dalam setiap daripadanya adalah sama dan jumlah kebarangkalian semua keadaan adalah sama dengan satu, maka entropi dikira menggunakan formula Shannon:

di manakah entropi sistem X;

A- asas logaritma, yang menentukan unit pengukuran maklumat;

n– bilangan keadaan (nilai) di mana sistem boleh berada.

Entropi ialah kuantiti positif, dan kerana kebarangkalian sentiasa kurang daripada satu, dan logaritmanya adalah negatif, oleh itu tanda tolak dalam formula K. Shannon menjadikan entropi itu positif. Oleh itu, entropi yang sama, tetapi dengan tanda yang bertentangan, diambil sebagai ukuran jumlah maklumat.

Hubungan antara maklumat dan entropi boleh difahami seperti berikut: mendapatkan maklumat (peningkatannya) secara serentak bermakna mengurangkan kejahilan atau ketidakpastian maklumat (entropi)

Oleh itu, pendekatan statistik mengambil kira kemungkinan mesej muncul: mesej yang kurang berkemungkinan dianggap lebih bermaklumat, i.e. paling tidak dijangka. Jumlah maklumat yang sampai nilai maksimum, jika peristiwa itu berkemungkinan sama.

R. Hartley mencadangkan formula berikut untuk mengukur maklumat:

I=log2n ,

di mana n- bilangan peristiwa yang berkemungkinan sama;

saya– ukuran maklumat dalam mesej tentang kejadian salah satu daripada n peristiwa

Pengukuran maklumat dinyatakan dalam jumlahnya. Selalunya ini melibatkan jumlah ingatan komputer dan jumlah data yang dihantar melalui saluran komunikasi. Satu unit dianggap sebagai jumlah maklumat di mana ketidakpastian dikurangkan separuh; unit maklumat sedemikian dipanggil sedikit .

Jika asas logaritma dalam formula Hartley digunakan logaritma semula jadi(), maka unit ukuran maklumat ialah nat ( 1 bit = ln2 ≈ 0.693 nat). Jika nombor 3 digunakan sebagai asas logaritma, maka - merawat, jika 10, maka - dit (Hartley).

Dalam amalan, unit yang lebih besar lebih kerap digunakan - bait(bait) sama dengan lapan bit. Unit ini dipilih kerana ia boleh digunakan untuk mengekod mana-mana daripada 256 aksara abjad papan kekunci komputer (256=28).

Selain bait, maklumat diukur dalam separuh perkataan (2 bait), perkataan (4 bait) dan kata ganda (8 bait). Unit ukuran maklumat yang lebih besar juga digunakan secara meluas:

1 Kilobait (KB - kilobait) = 1024 bait = 210 bait,

1 Megabait (MB - megabait) = 1024 KB = 220 bait,

1 Gigabait (GB - gigabait) = 1024 MB = 230 bait.

1 Terabait (TB - terabait) = 1024 GB = 240 bait,

1 Petabait (PByte - petabyte) = 1024 TB = 250 bait.

Pada tahun 1980, ahli matematik Rusia Yu. Manin mencadangkan idea untuk membina komputer kuantum, yang berkaitan dengannya unit maklumat sedemikian muncul sebagai qubit ( bit kuantum, qubit ) – “bit kuantum” ialah ukuran untuk mengukur jumlah memori dalam bentuk komputer yang mungkin secara teorinya menggunakan media kuantum, contohnya, putaran elektron. Qubit tidak boleh mengambil dua nilai yang berbeza ("0" dan "1"), tetapi beberapa, sepadan dengan gabungan normal dua keadaan putaran tanah, yang memberikan bilangan yang lebih besar kombinasi yang mungkin. Oleh itu, 32 qubit boleh mengekodkan kira-kira 4 bilion negeri.

Pendekatan semantik. Ukuran sintaksis tidak mencukupi jika anda tidak perlu menentukan jumlah data, tetapi jumlah maklumat yang diperlukan dalam mesej. Dalam kes ini, aspek semantik dipertimbangkan, yang membolehkan kita menentukan kandungan maklumat.

Untuk mengukur kandungan semantik maklumat, anda boleh menggunakan tesaurus penerimanya (pengguna). Idea kaedah tesaurus telah dicadangkan oleh N. Wiener dan dibangunkan oleh saintis domestik kami A.Yu. Schrader.

Tesaurus dipanggil badan maklumat yang ada pada penerima maklumat. Mengaitkan tesaurus dengan kandungan mesej yang diterima membolehkan anda mengetahui sejauh mana ia mengurangkan ketidakpastian.

Kebergantungan jumlah maklumat semantik mesej pada tesaurus penerima

Mengikut pergantungan yang dibentangkan pada graf, jika pengguna tidak mempunyai sebarang tesaurus (pengetahuan tentang intipati mesej yang diterima, iaitu =0), atau kehadiran tesaurus sedemikian yang tidak berubah akibat daripada ketibaan daripada mesej (), kemudian jumlah maklumat semantik di dalamnya sama dengan sifar. Tesaurus optimum () ialah tesaurus yang jumlah maklumat semantiknya adalah maksimum (). Contohnya, maklumat semantik dalam mesej masuk pada tak biasa Bahasa asing akan menjadi sifar, tetapi situasi yang sama akan berlaku dalam kes itu jika mesej itu bukan berita lagi, kerana pengguna sudah mengetahui segala-galanya.

Ukuran pragmatik maklumat menentukan kegunaannya dalam mencapai matlamat pengguna. Untuk melakukan ini, sudah cukup untuk menentukan kebarangkalian untuk mencapai matlamat sebelum dan selepas menerima mesej dan membandingkannya. Nilai maklumat (mengikut A.A. Kharkevich) dikira menggunakan formula:

di manakah kebarangkalian untuk mencapai matlamat sebelum menerima mesej;

Kebarangkalian untuk mencapai matlamat adalah medan penerimaan mesej;

Maklumat - apakah itu? Ia berdasarkan apa? Apakah matlamat yang ia kejar dan apakah tugas yang dicapainya? Kami akan bercakap tentang semua ini dalam artikel ini.

maklumat am

Dalam kes apakah kaedah semantik untuk mengukur maklumat digunakan? Intipati maklumat digunakan, bahagian kandungan mesej yang diterima adalah menarik - ini adalah petunjuk untuk penggunaannya. Tetapi pertama, mari kita berikan penjelasan tentang apa itu. Perlu diingatkan bahawa kaedah semantik untuk mengukur maklumat adalah pendekatan formal yang sukar yang belum terbentuk sepenuhnya. Ia digunakan untuk mengukur jumlah makna dalam data yang telah diterima. Dengan kata lain, berapa banyak maklumat yang diterima diperlukan dalam kes ini. Pendekatan ini digunakan untuk menentukan kandungan maklumat yang diterima. Dan jika kita bercakap tentang cara semantik untuk mengukur maklumat, kita menggunakan konsep tesaurus, yang berkait rapat dengan topik yang sedang dipertimbangkan. Apakah yang diwakilinya?

Tesaurus

Saya ingin membuat pengenalan ringkas dan menjawab satu soalan tentang kaedah semantik untuk mengukur maklumat. Siapa yang memperkenalkannya? Pengasas sibernetik, Norbert Wiener, mencadangkan menggunakan kaedah ini, tetapi ia menerima perkembangan yang ketara di bawah pengaruh rakan senegara kita A. Yu. Schrader. Apakah nama yang digunakan untuk menetapkan keseluruhan maklumat yang ada pada penerima maklumat. Jika anda membandingkan tesaurus dengan kandungan mesej yang diterima, anda boleh mengetahui sejauh mana ia mengurangkan ketidakpastian. Saya ingin membetulkan satu kesilapan yang sering jatuh di bawah pengaruh sejumlah besar daripada orang. Oleh itu, mereka percaya bahawa kaedah semantik untuk mengukur maklumat telah diperkenalkan oleh Claude Shannon. Tidak diketahui dengan tepat bagaimana salah tanggapan ini timbul, tetapi pendapat ini tidak betul. Claude Shannon memperkenalkan kaedah statistik pengukuran maklumat, "pengganti" daripadanya ialah semantik.

Pendekatan grafik untuk menentukan jumlah maklumat semantik dalam mesej yang diterima

Mengapa anda perlu melukis sesuatu? Cara semantik Pengukuran menggunakan keupayaan ini untuk menyampaikan kegunaan data secara visual dalam grafik yang mudah difahami. Apakah maksud ini dalam amalan? Untuk menerangkan keadaan, hubungan diplotkan dalam bentuk graf. Jika pengguna tidak mempunyai pengetahuan tentang intipati mesej yang diterima (sama dengan sifar), maka jumlah maklumat semantik akan sama dengan nilai yang sama. Adakah mungkin untuk mencari nilai optimum? Ya! Ini adalah nama tesaurus, di mana volum maklumat semantik adalah maksimum. Mari kita lihat contoh kecil. Katakan pengguna menerima mesej yang ditulis dalam bahasa asing yang tidak dikenali, atau seseorang boleh membaca apa yang ditulis di sana, tetapi ini bukan lagi berita kepadanya, kerana semua ini diketahui. Dalam kes sedemikian, mereka mengatakan bahawa mesej itu mengandungi maklumat semantik sifar.

Perkembangan sejarah

Ini mungkin sepatutnya dibincangkan lebih tinggi sedikit, tetapi masih belum terlambat untuk mengejarnya. Kaedah semantik untuk mengukur maklumat pada asalnya diperkenalkan oleh Ralph Hartley pada tahun 1928. Telah disebut sebelum ini bahawa Claude Shannon sering disebut sebagai pengasas. Mengapa berlaku kekeliruan sedemikian? Hakikatnya, walaupun kaedah semantik untuk mengukur maklumat telah diperkenalkan oleh Ralph Hartley pada tahun 1928, Claude Shannon dan Warren Weaver yang menggeneralisasikannya pada tahun 1948. Selepas ini, pengasas sibernetik, Norbert Wiener, membentuk idea kaedah tesaurus, yang menerima pengiktirafan terbesar dalam bentuk ukuran yang dibangunkan oleh Yu. I. Schneider. Perlu diingatkan bahawa untuk memahami ini, anda memerlukan cukup tahap tinggi pengetahuan.

Kecekapan

Apakah kaedah tesaurus memberi kita dalam amalan? Ia adalah pengesahan sebenar tesis bahawa maklumat mempunyai sifat seperti relativiti. Perlu diingatkan bahawa ia mempunyai nilai relatif (atau subjektif). Supaya dapat menilai secara objektif maklumat saintifik, memperkenalkan konsep tesaurus universal. Tahap perubahannya menunjukkan kepentingan pengetahuan yang diterima oleh manusia. Pada masa yang sama, adalah mustahil untuk mengatakan dengan tepat apakah keputusan akhir (atau perantaraan) yang boleh diperolehi daripada maklumat tersebut. Mari kita ambil komputer sebagai contoh. Kejuruteraan Komputer dicipta berdasarkan teknologi tiub dan keadaan bit masing-masing elemen struktur dan pada asalnya digunakan untuk menjalankan pengiraan. Kini hampir setiap orang mempunyai sesuatu yang berfungsi berdasarkan teknologi ini: radio, telefon, komputer, TV, komputer riba. Malah peti sejuk moden, dapur dan singki basuh mengandungi beberapa elektronik, yang asasnya adalah maklumat tentang memudahkan seseorang menggunakan peranti rumah ini.

Pendekatan saintifik

Di manakah kaedah semantik mengukur maklumat dikaji? Sains komputer ialah sains yang berurusan dengan pelbagai aspek soalan ini. Apakah keistimewaannya? Kaedah ini berdasarkan penggunaan sistem "benar/salah", atau sistem bit "satu/sifar". Apabila maklumat tertentu tiba, ia dibahagikan kepada blok berasingan, yang dinamakan seperti unit pertuturan: perkataan, suku kata, dan seumpamanya. Setiap blok menerima nilai tertentu. Mari kita lihat contoh kecil. Dua orang kawan berdiri berdekatan. Seseorang beralih ke yang kedua dengan kata-kata: "Kami mempunyai hari cuti esok." Semua orang tahu bila hari untuk berehat. Oleh itu, nilai maklumat ini adalah sifar. Tetapi jika yang kedua mengatakan bahawa dia bekerja esok, maka untuk yang pertama ia akan menjadi kejutan. Malah, dalam kes ini, mungkin rancangan yang dibuat oleh seseorang, misalnya, untuk bermain boling atau menyelongkar di bengkel, akan terganggu. Setiap bahagian contoh yang diterangkan boleh diterangkan menggunakan satu dan sifar.

Beroperasi dengan konsep

Tetapi apa lagi yang digunakan selain tesaurus? Apa lagi yang perlu anda ketahui untuk memahami cara semantik mengukur maklumat? Konsep asas yang boleh dikaji lebih lanjut ialah sistem tanda. Mereka difahami sebagai cara untuk menyatakan makna, seperti peraturan untuk mentafsir tanda atau gabungannya. Mari kita lihat contoh lain dari sains komputer. Komputer beroperasi dengan sifar konvensional dan satu. Pada asasnya, ini adalah voltan rendah dan tinggi yang dibekalkan kepada komponen peralatan. Lebih-lebih lagi, mereka menghantar satu dan sifar ini tanpa henti. Bagaimanakah teknologi boleh membezakan antara mereka? Jawapan untuk ini ditemui - gangguan. Apabila maklumat yang sama ini dihantar, hasilnya adalah pelbagai blok seperti perkataan, frasa dan makna individu. Dalam pertuturan manusia yang dituturkan, jeda juga digunakan untuk memecahkan data kepada blok yang berasingan. Mereka sangat tidak kelihatan sehingga kami melihat kebanyakannya secara automatik. Secara bertulis, noktah dan koma digunakan untuk tujuan ini.

Keanehan

Mari kita sentuh juga topik sifat yang ada pada kaedah semantik untuk mengukur maklumat. Kita sudah tahu bahawa ini adalah nama pendekatan khas yang menilai kepentingan maklumat. Bolehkah kita mengatakan bahawa data yang akan dinilai dengan cara ini adalah objektif? Tidak, itu tidak benar. Maklumat adalah subjektif. Mari kita lihat ini menggunakan sekolah sebagai contoh. Terdapat pelajar cemerlang yang mendahului program yang diluluskan, dan pelajar biasa yang mempelajari apa yang diajar di dalam kelas. Untuk yang pertama, kebanyakan maklumat yang akan diterimanya di sekolah akan menjadi kurang menarik, kerana dia sudah mengetahuinya dan tidak mendengar/membacanya buat kali pertama. Oleh itu, pada tahap subjektif, ia tidak akan menjadi sangat berharga untuknya (disebabkan oleh beberapa komen guru yang dia perhatikan semasa pembentangan subjeknya). Manakala purata maklumat baru Dia mendengar sesuatu hanya dari jauh, jadi baginya nilai data yang akan dibentangkan dalam pelajaran adalah urutan magnitud yang lebih besar.

Kesimpulan

Perlu diingatkan bahawa dalam sains komputer, kaedah semantik untuk mengukur maklumat bukanlah satu-satunya pilihan di mana masalah sedia ada boleh diselesaikan. Pilihan harus bergantung pada matlamat yang ditetapkan dan peluang yang ada. Oleh itu, jika anda berminat dengan topik itu atau ada keperluan untuk itu, maka kami hanya boleh mengesyorkan mempelajarinya dengan lebih terperinci dan mengetahui kaedah lain untuk mengukur maklumat, selain semantik, wujud.