Penilaian semantik dan pragmatik maklumat. Ukuran semantik maklumat. Ukuran sintaksis maklumat

Maklumat dan data

Penggal maklumat berasal dari bahasa Latin informatio yang bermaksud penerangan, maklumat, persembahan. Daripada kedudukan falsafah materialistik, maklumat adalah cerminan dunia sebenar dengan bantuan maklumat (mesej). Mesej ialah satu bentuk penyampaian maklumat dalam bentuk ucapan, teks, imej, data digital, graf, jadual, dll. DALAM dalam erti kata yang luas maklumat ialah konsep saintifik umum yang merangkumi pertukaran maklumat antara manusia, pertukaran isyarat antara alam semula jadi, manusia dan peranti yang hidup dan tidak bernyawa.

Maklumat- maklumat tentang objek dan fenomena alam sekitar, parameter, sifat dan keadaannya, yang mengurangkan tahap ketidakpastian dan pengetahuan yang tidak lengkap tentangnya.

Sains komputer menganggap maklumat sebagai maklumat yang saling berkaitan secara konseptual, data, konsep yang mengubah idea kita tentang fenomena atau objek di dunia sekeliling. Seiring dengan maklumat, konsep ini sering digunakan dalam sains komputer data. Mari kita tunjukkan bagaimana mereka berbeza.

Data boleh dianggap sebagai tanda atau pemerhatian yang direkodkan yang atas sebab tertentu tidak digunakan, tetapi hanya disimpan. Apabila menjadi mungkin untuk menggunakan data ini untuk mengurangkan ketidakpastian tentang sesuatu, data itu bertukar menjadi maklumat. Oleh itu, boleh dikatakan bahawa maklumat adalah data yang digunakan.

Contoh 2.1. Tulis sepuluh nombor telefon dalam urutan sepuluh nombor pada sekeping kertas dan tunjukkan kepada rakan anda. Dia akan menganggap nombor ini sebagai data, kerana mereka tidak memberikannya sebarang maklumat

Kemudian, terhadap setiap nombor, nyatakan nama syarikat dan jenis aktiviti. Bagi rakan anda, nombor yang tidak dapat difahami akan mendapat kepastian dan bertukar daripada data kepada maklumat yang boleh digunakannya pada masa hadapan.

Salah satu jenis maklumat yang paling penting ialah maklumat ekonomi. dia ciri yang membezakan- hubungan dengan proses pengurusan pasukan orang dan organisasi. Maklumat ekonomi mengiringi proses pengeluaran, pengedaran, pertukaran dan penggunaan barangan dan perkhidmatan material. Sebahagian penting daripadanya berkaitan dengan pengeluaran sosial dan boleh dipanggil maklumat pengeluaran.

Maklumat ekonomi- satu set maklumat yang mencerminkan proses sosio-ekonomi dan berfungsi untuk mengurus proses dan kumpulan orang ini dalam bidang pengeluaran dan bukan pengeluaran.

Apabila bekerja dengan maklumat, sentiasa ada sumber dan pengguna (penerima). Laluan dan proses yang memastikan penghantaran mesej daripada sumber maklumat kepada penggunanya dipanggil komunikasi maklumat.

Bagi pengguna maklumat ia sangat ciri penting adalah kecukupannya.

Kecukupan maklumat- ini ialah tahap korespondensi tertentu imej yang dibuat menggunakan maklumat yang diterima kepada objek sebenar, proses, fenomena, dsb.

DALAM kehidupan sebenar Situasi tidak mungkin berlaku apabila anda boleh mengharapkan kecukupan maklumat yang lengkap. Sentiasa ada beberapa tahap ketidakpastian. Mengenai tahap kecukupan maklumat keadaan sebenar objek atau proses bergantung pada ketepatan pembuatan keputusan manusia.

Contoh 2.2. Anda telah berjaya menamatkan sekolah dan ingin menyambung pelajaran dalam bidang ekonomi. Selepas bercakap dengan rakan-rakan, anda akan belajar bahawa latihan serupa boleh diperolehi di universiti yang berbeza. Hasil daripada perbualan sedemikian, anda menerima maklumat yang sangat bercanggah yang tidak membenarkan anda membuat keputusan yang memihak kepada satu pilihan atau yang lain, i.e. maklumat yang diterima adalah tidak mencukupi dengan keadaan sebenar. Untuk mendapatkan maklumat yang lebih dipercayai, anda membeli panduan untuk pemohon ke universiti, dari mana anda menerima maklumat yang komprehensif. Dalam kes ini, kami boleh mengatakan bahawa maklumat yang anda terima daripada direktori menggambarkan dengan secukupnya bidang pengajian di universiti dan membantu anda membuat pilihan terakhir anda.

BENTUK KECUKUPAN MAKLUMAT

Kecukupan maklumat boleh dinyatakan dalam tiga bentuk: semantik, sintaksis, pragmatik.

Kecukupan sintaksis. Ia memaparkan ciri formal dan struktur maklumat dan tidak menjejaskan kandungan semantiknya. hidup peringkat sintaksis jenis medium dan kaedah penyampaian maklumat, kelajuan penghantaran dan pemprosesan, saiz kod untuk menyampaikan maklumat, kebolehpercayaan dan ketepatan penukaran kod ini, dll. diambil kira. Maklumat yang dipertimbangkan hanya dari kedudukan sintaksis biasanya dipanggil data, kerana bahagian semantik tidak penting. Bentuk ini menyumbang kepada persepsi ciri-ciri struktur luaran, i.e. sisi sintaksis maklumat.

Kecukupan semantik (nosional).. Borang ini menentukan tahap kesesuaian antara imej objek dan objek itu sendiri. Aspek semantik melibatkan mengambil kira kandungan semantik maklumat. Pada peringkat ini, maklumat yang dicerminkan oleh maklumat dianalisis dan perkaitan semantik dipertimbangkan. Dalam sains komputer, sambungan semantik diwujudkan antara kod untuk mewakili maklumat. Bentuk ini berfungsi untuk membentuk konsep dan idea, mengenal pasti makna, kandungan maklumat dan generalisasinya.

Kecukupan pragmatik (pengguna).. Ia mencerminkan hubungan antara maklumat dan penggunanya, kesesuaian maklumat dengan matlamat pengurusan, yang dilaksanakan berdasarkannya. Sifat pragmatik maklumat muncul hanya jika terdapat kesatuan maklumat (objek), pengguna dan matlamat pengurusan. Aspek pertimbangan pragmatik dikaitkan dengan nilai, kegunaan menggunakan maklumat apabila pengguna membangunkan penyelesaian untuk mencapai matlamatnya. Dari sudut pandangan ini, sifat pengguna maklumat dianalisis. Bentuk kecukupan ini berkaitan secara langsung dengan kegunaan praktikal maklumat, dengan pematuhannya Fungsi objektif aktiviti sistem.

LANGKAH MAKLUMAT

Klasifikasi langkah

Untuk mengukur maklumat, dua parameter diperkenalkan: jumlah maklumat saya dan volum data V d .

Parameter ini mempunyai ungkapan dan tafsiran yang berbeza bergantung pada bentuk kecukupan yang dipertimbangkan. Setiap bentuk kecukupan sepadan dengan ukurannya sendiri bagi jumlah maklumat dan volum data (Rajah 2.1).

nasi. 2.1. Langkah-langkah maklumat

Ukuran sintaksis maklumat

Ukuran jumlah maklumat ini beroperasi dengan maklumat tidak peribadi yang tidak menyatakan hubungan semantik dengan objek.

Jumlah dataVd. dalam mesej diukur dengan bilangan aksara (bit) dalam mesej ini. Dalam sistem nombor yang berbeza, satu digit mempunyai berat yang berbeza dan unit pengukuran data berubah dengan sewajarnya:

V sistem binari unit notasi ukuran - bit (bit - digit binari - digit binari);

Catatan. DALAM komputer moden bersama dengan unit minimum Apabila mengukur "bit" data, satu unit ukuran besar "bait", bersamaan dengan 8 bit, digunakan secara meluas.

V sistem perpuluhan unit notasi ukuran ialah dit (tempat perpuluhan).

Contoh 2.3. Mesej dalam sistem binari sebagai lapan-bit kod binari 10111011 mempunyai volum data V d=8 bit.

Mesej dalam sistem perpuluhan dalam bentuk nombor enam digit 275903 mempunyai isipadu data V d=6 dit.

Jumlah maklumat- pada peringkat sintaksis adalah mustahil untuk ditentukan tanpa mengambil kira konsep ketidakpastian keadaan sistem (entropi sistem). Sememangnya, mendapatkan maklumat tentang sesuatu sistem sentiasa dikaitkan dengan perubahan tahap kejahilan penerima tentang keadaan sistem ini. Mari kita pertimbangkan konsep ini.

Biarkan pengguna mempunyai beberapa maklumat awal (a priori) tentang sistem a sebelum menerima maklumat. Ukuran ketidaktahuannya tentang sistem ialah fungsi H(a), yang pada masa yang sama berfungsi sebagai ukuran ketidakpastian keadaan sistem.

Selepas menerima beberapa mesej b, penerima telah memperoleh beberapa mesej Maklumat tambahan Ib(a), yang mengurangkan kejahilan a priorinya sehingga ketidakpastian a posteriori (selepas menerima mesej b) keadaan sistem menjadi Hb(a).

Kemudian jumlah maklumat Ib(a) tentang sistem yang diterima dalam mesej b akan ditentukan sebagai

Ib(a)=H(a)-Hb(a),

mereka. jumlah maklumat diukur dengan perubahan (pengurangan) dalam ketidakpastian keadaan sistem.

Jika ketidakpastian akhir Hb(a) menjadi sifar, maka pengetahuan asal yang tidak lengkap akan diganti pengetahuan penuh dan jumlah maklumat Ib(a)=H(a). Dalam kata lain, entropi sistem H(a) boleh dilihat sebagai ukuran maklumat yang hilang.

Entropi sistem H(a) yang mempunyai N negeri yang mungkin, mengikut formula Shannon, adalah sama dengan:

di mana Ri - kebarangkalian bahawa sistem berada dalam keadaan ke-i.

Untuk kes apabila semua keadaan sistem berkemungkinan sama, i.e. kebarangkalian mereka adalah sama Pi= 1/N, entropinya ditentukan oleh hubungan

Selalunya maklumat dikodkan dengan kod berangka dalam satu atau sistem nombor lain, ini benar terutamanya apabila menyampaikan maklumat pada komputer. Sememangnya, bilangan digit yang sama dalam sistem yang berbeza tatatanda boleh menyampaikan bilangan keadaan yang berbeza bagi objek yang dipaparkan, yang boleh diwakili sebagai nisbah

N= m n,

di mana N-bilangan keadaan yang mungkin dipaparkan;

T - asas sistem nombor (pelbagai simbol yang digunakan dalam abjad);

P - bilangan bit (karakter) dalam mesej.

Contoh 2.4. Tetapi mesej n-bit dihantar ke saluran komunikasi menggunakan T pelbagai simbol. Oleh kerana bilangan semua kemungkinan kombinasi kod akan menjadi N= m n, maka, jika mana-mana daripada mereka berkemungkinan sama muncul, jumlah maklumat yang diperoleh oleh pelanggan hasil daripada menerima mesej akan saya= logN= logm - Formula Hartley.

Jika kita ambil sebagai asas logaritma T, Itu saya= n. DALAM dalam kes ini jumlah maklumat (di bawah syarat kejahilan a priori lengkap oleh pelanggan kandungan mesej) akan sama dengan jumlah data saya= Vd, diterima melalui saluran komunikasi. Untuk keadaan sistem yang tidak seragam, sentiasa saya< Vd= n.

Yang paling biasa digunakan ialah logaritma binari dan perpuluhan. Unit ukuran dalam kes ini akan menjadi bit dan dit, masing-masing.

Pekali(darjah) kandungan maklumat(ketepatan) mesej ditentukan oleh nisbah jumlah maklumat kepada jumlah data, i.e.

Selain itu, 0

Dengan peningkatan Y jumlah kerja untuk mengubah maklumat (data) dalam sistem dikurangkan. Oleh itu, mereka berusaha untuk meningkatkan kandungan maklumat, yang mana kaedah khas untuk pengekodan maklumat yang optimum sedang dibangunkan.

Maklumat ukuran semantik

Untuk mengukur kandungan semantik maklumat, i.e. kuantitinya pada tahap semantik, yang paling dikenali ialah ukuran tesaurus, yang menghubungkan sifat semantik maklumat dengan keupayaan pengguna untuk menerima mesej masuk. Untuk tujuan ini konsep digunakan tesaurus pengguna.

Tesaurus ialah koleksi maklumat yang tersedia kepada pengguna atau sistem.

Bergantung kepada hubungan antara kandungan semantik maklumat S dan tesaurus pengguna S hlm jumlah perubahan maklumat semantik Kad Pengenalan, dirasakan oleh pengguna dan seterusnya dimasukkan olehnya dalam tesaurusnya. Sifat pergantungan ini ditunjukkan dalam Rajah 2.2. Mari kita pertimbangkan dua kes mengehadkan apabila jumlah maklumat semantik Kad Pengenalan sama dengan 0:

di S hlm 0 pengguna tidak melihat atau memahami maklumat yang masuk;

di Shlm; pengguna mengetahui segala-galanya, tetapi dia tidak memerlukan maklumat yang masuk.

nasi. 2.2. Pergantungan jumlah maklumat semantik. dilihat oleh pengguna, daripada tesaurusnya sayac= f(Shlm)

Jumlah maksimum maklumat semantik Kad Pengenalan pengguna memperoleh dengan bersetuju dengan kandungan semantiknya S dengan tesaurus anda S hlm (S hlm = S hlm opt), apabila maklumat yang masuk dapat difahami oleh pengguna dan memberikannya maklumat yang tidak diketahui sebelumnya (bukan dalam tesaurusnya).

Akibatnya, jumlah maklumat semantik dalam mesej, jumlah pengetahuan baharu yang diterima oleh pengguna, adalah nilai relatif. Mesej yang sama boleh mempunyai kandungan yang bermakna untuk pengguna yang cekap dan tidak bermakna (bunyi semantik) untuk pengguna yang tidak cekap.

Apabila menilai aspek semantik (kandungan) maklumat, adalah perlu untuk berusaha untuk mengharmonikan nilai. S Dan S hlm.

Ukuran relatif bagi jumlah maklumat semantik boleh menjadi pekali kandungan DENGAN, yang ditakrifkan sebagai nisbah jumlah maklumat semantik kepada volumnya:

Ukuran pragmatik maklumat

Ukuran ini menentukan kegunaan maklumat (nilai) untuk pengguna mencapai matlamatnya. Ukuran ini juga merupakan nilai relatif, ditentukan oleh keanehan penggunaan maklumat ini dalam sistem tertentu. Adalah dinasihatkan untuk mengukur nilai maklumat dalam unit yang sama (atau hampir dengannya) di mana fungsi objektif diukur.

Contoh 2.5. Dalam sistem ekonomi, sifat pragmatik (nilai) maklumat boleh ditentukan oleh peningkatan kesan ekonomi operasi yang dicapai melalui penggunaan maklumat ini untuk mengurus sistem:

sayanb(g)= P(g / b)- P(g),

di mana sayanb(g) -nilai mesej maklumat b untuk sistem kawalan g,

P(g) - kesan ekonomi yang dijangkakan apriori terhadap fungsi sistem kawalan g ,

P(g / b) - kesan jangkaan dari fungsi sistem g, dengan syarat maklumat yang terkandung dalam mesej b digunakan untuk kawalan.

Sebagai perbandingan, kami membentangkan langkah-langkah maklumat yang diperkenalkan dalam Jadual 2.1.

Jadual 2.1. Unit maklumat dan contoh

Ukuran maklumat
Unit

Contoh
(untuk kawasan komputer)

Sintaksis:

pendekatan Shannon

pendekatan komputer

Tahap pengurangan ketidakpastian

Unit pembentangan maklumat

Kebarangkalian kejadian

Bit, bait, dsb.

Semantik

Tesaurus

Penunjuk ekonomi

Pakej perisian aplikasi, komputer peribadi, rangkaian komputer, dsb.

Keuntungan, produktiviti, kadar susut nilai, dsb.

Pragmatik

Nilai dalam penggunaan

Kapasiti memori, prestasi komputer, kelajuan pemindahan data, dsb.

Masa untuk memproses maklumat dan membuat keputusan

KUALITI MAKLUMAT

Kemungkinan dan keberkesanan penggunaan maklumat ditentukan oleh keperluan asas penggunanya: penunjuk kualiti, sebagai representasi, kebermaknaan, kecukupan, kebolehcapaian, perkaitan, ketepatan masa, ketepatan, kebolehpercayaan, kemampanan.

  • Keterwakilan maklumat dikaitkan dengan ketepatan pemilihan dan pembentukannya untuk mencerminkan sifat objek dengan secukupnya. Perkara yang paling penting di sini ialah:
  • ketepatan konsep berdasarkan konsep asal yang dirumuskan;
  • kesahan pemilihan ciri penting dan sambungan fenomena yang dipaparkan.
  • Pelanggaran keterwakilan maklumat sering membawa kepada kesilapan yang ketara.
  • Kandungan maklumat mencerminkan kapasiti semantik sama dengan nisbah jumlah maklumat semantik dalam mesej kepada jumlah data yang diproses, i.e. C=Ic/Vd.

Apabila kandungan maklumat meningkat, daya pemprosesan semantik sistem maklumat meningkat, kerana untuk mendapatkan maklumat yang sama adalah perlu untuk menukar jumlah data yang lebih kecil.

Bersama dengan pekali kandungan C, yang mencerminkan aspek semantik, anda juga boleh menggunakan pekali kandungan maklumat, yang dicirikan oleh nisbah jumlah maklumat sintaksis (menurut Shannon) kepada jumlah data Y=I/Vd.

  • Kecukupan (kesempurnaan) maklumat bermakna ia mengandungi komposisi minimum tetapi mencukupi (set penunjuk) untuk membuat keputusan yang betul. Konsep kesempurnaan maklumat dikaitkan dengan kandungan semantik (semantik) dan pragmatiknya. Sebagai tidak lengkap, i.e. Maklumat yang tidak mencukupi untuk membuat keputusan yang betul, dan maklumat yang berlebihan mengurangkan keberkesanan keputusan yang dibuat oleh pengguna.
  • Ketersediaan maklumat kepada persepsi pengguna dipastikan dengan pelaksanaan prosedur yang sesuai untuk pemerolehan dan transformasinya. Sebagai contoh, dalam sistem maklumat, maklumat diubah menjadi bentuk yang boleh diakses dan mesra pengguna. Ini dicapai, khususnya, dengan menyelaraskan bentuk semantiknya dengan tesaurus pengguna.
  • Perkaitan maklumat ditentukan oleh tahap pemeliharaan nilai maklumat untuk pengurusan pada masa penggunaannya dan bergantung kepada dinamik perubahan ciri-cirinya dan pada selang masa yang telah berlalu sejak berlakunya maklumat ini.
  • Ketepatan masa maklumat bermakna ketibaannya tidak lewat daripada titik masa yang telah ditetapkan, selaras dengan masa menyelesaikan tugas.
  • Ketepatan maklumat ditentukan oleh tahap kedekatan maklumat yang diterima dengan keadaan sebenar objek, proses, fenomena, dsb. Untuk maklumat yang dipaparkan oleh kod digital, empat konsep klasifikasi ketepatan diketahui:
  • ketepatan formal, diukur dengan nilai unit digit terkecil nombor;
  • ketepatan sebenar, ditentukan oleh nilai unit digit terakhir nombor, ketepatannya dijamin;
  • ketepatan maksimum yang boleh diperolehi di bawah keadaan operasi khusus sistem;
  • ketepatan yang diperlukan, ditentukan oleh tujuan fungsi penunjuk.

Kredibiliti maklumat ditentukan oleh sifatnya yang mencerminkan objek kehidupan sebenar dengan ketepatan yang diperlukan. Kebolehpercayaan maklumat diukur dengan kebarangkalian keyakinan ketepatan yang diperlukan, i.e. kebarangkalian bahawa nilai parameter yang dipaparkan oleh maklumat berbeza daripada nilai sebenar parameter ini dalam ketepatan yang diperlukan.

Kelestarian maklumat mencerminkan keupayaannya untuk bertindak balas terhadap perubahan dalam data sumber tanpa melanggar ketepatan yang diperlukan. Kestabilan maklumat, serta keterwakilan, ditentukan oleh metodologi yang dipilih untuk pemilihan dan pembentukannya.

Kesimpulannya, perlu diingatkan bahawa parameter kualiti maklumat seperti keterwakilan, kandungan, kecukupan, kebolehcapaian, kemampanan ditentukan sepenuhnya pada peringkat metodologi pembangunan sistem maklumat. Parameter perkaitan, ketepatan masa, ketepatan dan kebolehpercayaan juga ditentukan pada tahap yang lebih besar pada tahap metodologi, tetapi nilainya dipengaruhi dengan ketara oleh sifat fungsi sistem, terutamanya kebolehpercayaannya. Pada masa yang sama, parameter perkaitan dan ketepatan adalah berkaitan dengan parameter ketepatan masa dan kebolehpercayaan, masing-masing.

KE ATAS

Ukuran jumlah maklumat ini beroperasi dengan maklumat tidak peribadi yang tidak menyatakan hubungan semantik dengan objek. Pada peringkat sintaksis, jenis media dan kaedah penyampaian maklumat, kelajuan penghantaran dan pemprosesan, dan saiz kod persembahan maklumat diambil kira.

Jumlah data(V D) difahami dalam erti kata teknikal perkataan sebagai jumlah maklumat mesej atau sebagai jumlah memori yang diperlukan untuk menyimpan mesej tanpa sebarang perubahan.

Jumlah maklumat mesej diukur dalam bit dan adalah sama dengan bilangan digit binari (“0” dan “1”) yang dengannya mesej dikodkan.

Dalam amalan komputer, perkataan "bit" juga digunakan sebagai unit ukuran untuk kapasiti memori. Sel memori 1-bit boleh berada dalam dua keadaan (“hidup” dan “mati”) dan satu digit binari (0 atau 1) boleh ditulis kepadanya. Adalah jelas bahawa sedikit adalah terlalu kecil unit ukuran maklumat, jadi gandaan daripadanya digunakan. Unit asas pengukuran maklumat ialah bait. 1 bait adalah sama dengan 8 bit. Sel 1 bait boleh memuatkan 8 digit binari, iaitu 256 = 2 8 nombor berbeza boleh disimpan dalam satu bait. Untuk mengukur jumlah maklumat yang lebih besar, kuantiti berikut digunakan:

Contoh 1.Adalah penting untuk mempunyai idea tentang berapa banyak maklumat yang boleh disimpan oleh kilobait, megabait atau gigabait

· Dengan pengekodan teks binari, setiap huruf, tanda baca dan ruang menduduki 1 bait.

· Pada halaman buku format sederhana terdapat kira-kira 50 baris, setiap baris mempunyai kira-kira 60 aksara, jadi halaman yang diisi sepenuhnya mempunyai volum 50 x 60 = 3000 bait ≈3 Kilobait.

· Keseluruhan buku format sederhana menggunakan ≈ 0.5 Megabait. Satu terbitan akhbar empat muka surat ialah 150 Kilobait. Jika seseorang bercakap selama 8 jam sehari tanpa rehat, maka dalam 70 tahun dia akan bercakap kira-kira 10 Gigabait maklumat.

· Satu bingkai hitam dan putih (dengan 32 penggredan kecerahan untuk setiap titik) mengandungi kira-kira 300 KB maklumat, bingkai warna sudah mengandungi kira-kira 1 MB maklumat.

· Filem televisyen berdurasi 1.5 jam dengan kekerapan 25 bingkai sesaat - 135 GB.

Jumlah maklumatI pada peringkat sintaksis ditakrifkan melalui konsep entropi sistem.

Biarkan pengguna mempunyai beberapa maklumat awal (a priori) tentang sistem α sebelum menerima maklumat. Ukuran ketidaktahuannya tentang sistem ialah fungsi H(α), yang dipanggil entropi sistem, yang pada masa yang sama berfungsi sebagai ukuran ketidakpastian keadaan sistem.

Selepas menerima beberapa mesej β, penerima memperoleh beberapa maklumat tambahan I β (α), yang mengurangkan kejahilan a priorinya supaya ketidakpastian keadaan sistem selepas menerima mesej β menjadi H β (α).

Kemudian jumlah maklumat I β (α) ξ kepada sistem yang diterima dalam mesej β akan ditentukan sebagai

I β (α)=H(α)-H β (α).

mereka. jumlah maklumat diukur dengan perubahan (pengurangan) dalam ketidakpastian keadaan sistem. Jika ketidakpastian akhir H β (α) menjadi sifar, maka pengetahuan awal yang tidak lengkap akan digantikan dengan pengetahuan lengkap dan jumlah maklumat I β (α)=H(α). Dengan kata lain, entropi sistem H(a) boleh dianggap sebagai ukuran maklumat yang hilang.

Entropi H(α) sistem α mempunyai N keadaan yang mungkin, mengikut formula Shannon, adalah sama dengan:

di mana P i ialah kebarangkalian bahawa sistem berada dalam keadaan ke-i. Untuk kes apabila semua keadaan sistem berkemungkinan sama, i.e. kebarangkalian mereka adalah sama dengan P i =, entropinya ditentukan oleh hubungan

Contoh 2. Selalunya maklumat dikodkan dengan kod berangka dalam satu atau sistem nombor lain, ini benar terutamanya apabila menyampaikan maklumat pada komputer. Sememangnya, bilangan digit yang sama dalam sistem nombor yang berbeza boleh menyampaikan bilangan keadaan yang berbeza bagi objek yang dipaparkan, yang boleh diwakili sebagai nisbah

di mana N ialah bilangan semua keadaan yang mungkin dipaparkan;
m - asas sistem nombor (pelbagai simbol yang digunakan dalam abjad);
n ialah bilangan bit (karakter) dalam mesej.

Mari kita anggap bahawa mesej n-bit menggunakan m simbol berbeza dihantar melalui saluran komunikasi. Oleh kerana bilangan semua kombinasi kod yang mungkin adalah N=m", maka dengan kebarangkalian yang sama untuk kemunculan mana-mana daripada mereka, jumlah maklumat yang diperoleh oleh pelanggan hasil daripada menerima mesej akan menjadi

I = log N = n log m - formula Hartley.

Jika kita mengambil m sebagai asas logaritma, maka I = n. Dalam kes ini, jumlah maklumat (di bawah syarat kejahilan a priori lengkap oleh pelanggan kandungan mesej) akan sama dengan jumlah data I = V D yang diterima melalui saluran komunikasi.

Yang paling biasa digunakan ialah logaritma binari dan perpuluhan. Unit ukuran dalam kes ini adalah masing-masing sedikit Dan dit.

Pekali(ijazah) kandungan maklumat (ketepatan) mesej ditentukan oleh nisbah jumlah maklumat kepada jumlah data, i.e.

Apabila Y meningkat, jumlah kerja untuk mengubah maklumat (data) dalam sistem berkurangan. Oleh itu, mereka berusaha untuk meningkatkan kandungan maklumat, yang mana kaedah khas untuk pengekodan maklumat yang optimum sedang dibangunkan.

Tamat kerja -

Topik ini tergolong dalam bahagian:

Syarahan 1. Pengenalan. Konsep sains komputer

Struktur sains komputer.. Sains komputer dalam erti kata luas adalah kesatuan pelbagai.. Sains komputer dalam erti kata sempit boleh diwakili sebagai terdiri daripada tiga bahagian yang saling berkaitan cara teknikal..

Jika anda memerlukan bahan tambahan mengenai topik ini, atau anda tidak menemui apa yang anda cari, kami mengesyorkan menggunakan carian dalam pangkalan data kerja kami:

Apa yang akan kami lakukan dengan bahan yang diterima:

Jika bahan ini berguna kepada anda, anda boleh menyimpannya ke halaman anda di rangkaian sosial:

Semua topik dalam bahagian ini:

Konsep sains komputer
Istilah sains komputer bermula pada tahun 60-an. di Perancis untuk menamakan bidang yang berurusan dengan pemprosesan maklumat automatik menggunakan komputer elektronik. Perancis

Masyarakat maklumat
Budaya maklumat - keupayaan untuk sengaja bekerja dengan maklumat dan menggunakan teknologi maklumat komputer, teknologi moden untuk menerima, memproses dan menghantarnya

Sejarah perkembangan pasaran perkhidmatan maklumat
Sejak pertengahan 50-an. pembentukan pasaran yang stabil untuk perkhidmatan maklumat bermula. Pembekal utama perkhidmatan maklumat ialah: perkhidmatan maklumat akademik, profesional dan saintifik

Maklumat, mesej, isyarat
Maklumat, bersama-sama dengan jirim dan tenaga, adalah konsep utama dunia kita dan oleh itu tidak boleh ditakrifkan dalam erti kata yang ketat. Kami hanya boleh menyenaraikan sifat utamanya, seperti:

Ukuran semantik maklumat
Untuk mengukur kandungan semantik maklumat, i.e. kuantitinya pada tahap semantik, ukuran tesaurus, yang menghubungkan sifat semantik maklumat dengan sp

Ukuran pragmatik maklumat
Langkah ini menentukan kegunaan maklumat (nilai) untuk pengguna mencapai rantaian yang dimaksudkan. Ukuran ini juga merupakan nilai relatif, disebabkan oleh keanehan penggunaan maklumat ini

Ciri kualitatif maklumat
Kemungkinan dan keberkesanan penggunaan maklumat ditentukan oleh petunjuk asas kualiti pengguna seperti keterwakilan, kandungan, mencukupi.

Pengekodan maklumat teks
Pada masa ini, kebanyakan pengguna menggunakan komputer untuk memproses maklumat teks, yang terdiri daripada simbol: huruf, nombor, tanda baca, dll. Secara tradisinya, untuk tujuan ini

Pengekodan maklumat grafik
Maklumat grafik boleh dipersembahkan dalam dua bentuk: analog atau diskret. Kanvas bergambar, warna yang berubah secara berterusan - inilah masanya

Imej raster
Menggunakan kaca pembesar, anda boleh melihat bahawa imej grafik hitam dan putih, contohnya dari surat khabar, terdiri daripada titik-titik kecil yang membentuk corak tertentu - raster. Di Perancis pada abad ke-19

model CMYK
Model ini berdasarkan pembiakan warna tolak (biasa objek reflektif). Setiap warna utama dikaitkan dengan warna tambahan (pelengkap kepada warna utama).

Mod grafik
Terdapat beberapa mod untuk mempersembahkan grafik warna: warna penuh (Warna Sebenar) - 256 nilai (lapan digit binari) digunakan untuk mengekod kecerahan setiap komponen

Imej vektor dan fraktal
Imej vektor ialah objek grafik yang terdiri daripada segmen asas dan lengkok. Elemen asas imej ialah garisan. Seperti mana-mana objek, ia mempunyai

Pengekodan maklumat audio
Dengan telinga, seseorang merasakan gelombang elastik mempunyai frekuensi di suatu tempat dalam julat dari 16 Hz hingga 20 kHz (1 Hz - 1 getaran sesaat). Selaras dengan ini, gelombang elastik dalam mana-mana medium, yang frekuensinya adalah

Penukaran maklumat audio digital-ke-analog dan analog-ke-digital
Gelombang bunyi ditukar menjadi isyarat elektrik berselang-seli analog menggunakan mikrofon. Ia memasuki penukar analog-ke-digital (ADC) - peranti yang menukar isyarat kepada digital

Pilihan pensampelan
Kekerapan ialah bilangan ukuran amplitud isyarat analog sesaat. Jika kekerapan pensampelan tidak lebih daripada dua kali kekerapan tepi atas

Pemampatan maklumat
Pengekodan dibahagikan kepada tiga kumpulan besar - pemampatan (kod yang cekap), pengekodan tahan ralat dan kriptografi. Kod yang direka untuk memampatkan maklumat dibahagikan, seterusnya, kepada

Mampatan tanpa rugi
Salah satu cara paling mudah untuk memampatkan maklumat ialah pengekodan kumpulan. Mengikut skema ini, satu siri kuantiti berulang (contohnya, nombor) digantikan dengan kuantiti tunggal

Mampatan lossy
digunakan untuk membungkus imej grafik. Kaedah ini berdasarkan keanehan persepsi manusia terhadap imej. Bagi mata manusia, kecerahan adalah lebih penting daripada maklumat warna

Revolusi maklumat
Dalam sejarah perkembangan tamadun, beberapa revolusi maklumat telah berlaku - transformasi hubungan sosial akibat perubahan asas dalam bidang pemprosesan maklumat. Akibat daripada transformasi ini

Konsep sistem maklumat
Sistem difahami sebagai sebarang objek yang pada masa yang sama dianggap sebagai satu keseluruhan dan sebagai koleksi elemen heterogen yang bersatu untuk kepentingan mencapai matlamat yang ditetapkan. Sistem

Peringkat pembangunan sistem maklumat
Sejarah pembangunan sistem maklumat dan tujuan penggunaannya pada tempoh yang berbeza dibentangkan dalam Jadual 1: Jadual 1. Perubahan dalam pendekatan penggunaan sistem maklumat

Proses dalam IP
Proses yang memastikan operasi IS daripada sebarang nilai boleh diwakili secara konvensional dalam bentuk rajah. IS terdiri daripada blok: · input maklumat daripada sumber luaran atau dalaman;

Struktur sistem maklumat
Struktur umum IS boleh dianggap sebagai satu set subsistem, tanpa mengira skop aplikasi. Oleh itu, struktur mana-mana IS boleh dibentangkan seperti berikut.

IT usang
Ia adalah wajar untuk IT menjadi usang dan digantikan dengan perkara baru. Contoh. Teknologi pemprosesan kumpulan program pada komputer besar di pusat komputer telah digantikan dengan teknologi

Metodologi untuk menggunakan IT
Pemprosesan maklumat berpusat pada komputer di pusat komputer adalah teknologi pertama yang ditubuhkan secara sejarah. Pusat komputer besar (CC) untuk kegunaan kolektif telah diwujudkan

Sistem arahan komputer ialah satu set arahan yang boleh dilaksanakan oleh komputer tertentu.
Urutan arahan yang dicadangkan oleh komputer untuk pelaksanaan dipanggil program. Walaupun kepelbagaian komputer moden, struktur mereka adalah berdasarkan logik biasa

Blok PC asas dan maksudnya
nasi. Gambar rajah blok mikropemproses komputer peribadi (MP). Ini adalah pusat

Bas pengembangan
Bas ISA (Seni Bina Standard Industri) – bas data 16-bit dan bas alamat 24-bit, frekuensi operasi 16 MHz, tetapi boleh

Bas tempatan
Bas tempatan disambungkan terus ke bas MP, beroperasi pada frekuensi jam MP dan menyediakan komunikasi dengan beberapa peranti berkelajuan tinggi di luar MP: memori utama dan luaran

Tujuan dan jenis MP
MP melaksanakan fungsi berikut: · membaca dan menyahkod arahan daripada OP; · membaca data daripada OP dan daftar penyesuai VU; · menerima dan memproses permintaan dan arahan daripada penyesuai dihidupkan

struktur MP
Mikropemproses terdiri daripada dua bahagian: · bahagian operasi, yang mengandungi unit kawalan, ALU dan MPPS, dengan pengecualian beberapa daftar alamat; · antara muka, yang mengandungi daftar alamat MPP,

Memori cache
Memori cache ialah memori berkelajuan tinggi yang berfungsi sebagai penimbal antara RAM dan MP dan membolehkan anda meningkatkan kelajuan operasi. Daftar cache tidak boleh diakses oleh pengguna; maka nama "cache"

Struktur fizikal OP
OP mengandungi RAM dan ROM, iaitu RAM dan ROM. RAM direka untuk menyimpan maklumat (program dan data) yang terlibat secara langsung dalam peringkat semasa operasi PC.

Struktur logik OP
Taburan kawasan RAM satu megabait ditunjukkan dalam Rajah. 3.4. Struktur logik keseluruhan OP ditunjukkan dalam Rajah. 3.5. Setiap sel memori mempunyai alamat tersendiri (berbeza daripada yang lain).

Pemacu cakera memori luaran
Peranti storan cakera ialah peranti capaian terus. Akses pantas ke mana-mana bahagian cakera disediakan oleh: putaran pantas cakera (fleksibel - kira-kira 300 rpm, keras - lebih kurang.

Peranti terminal video
Terminal video terdiri daripada monitor video (paparan) dan pengawal video (penyesuai). Pengawal video adalah sebahagian daripada unit sistem PC (terletak pada kad video yang dipasang dalam penyambung papan induk

Pencetak
Pencetak (peranti pencetak) ialah peranti untuk mengeluarkan data daripada komputer, menukar kod maklumat ASCII kepada simbol grafik yang sepadan (huruf, nombor, tanda, dll.) dan membetulkannya

Pengimbas
Pengimbas ialah peranti untuk memasukkan maklumat ke dalam komputer terus daripada dokumen kertas. Anda boleh memasukkan teks, rajah, gambar, graf, gambar dan maklumat grafik lain. Berat pengimbas

Superkomputer
Superkomputer termasuk komputer berbilang pemproses yang berkuasa dengan kelajuan ratusan juta - berpuluh bilion operasi sesaat. Model tipikal superkomputer 2000 mempunyai

Komputer riba
Komputer riba ialah subkelas komputer peribadi yang berkembang pesat. Menurut pakar, pada tahun 1998 lebih daripada 50% pengguna akan menggunakan mesin mudah alih, dan oleh

Proses pemindahan maklumat
Sebarang rangkaian komunikasi mesti termasuk komponen berikut: pemancar, media penghantaran, penerima. Pemancar ialah peranti yang menjadi sumber data.

Bentuk interaksi antara komputer pelanggan
Terdapat bentuk interaksi utama berikut antara komputer pelanggan. 1. Proses terminal-jauh – menyediakan akses daripada terminal salah satu komputer pelanggan kepada proses tersebut

Model Saling Operasi Sistem Terbuka
Kepelbagaian pengeluar rangkaian BC dan perisian rangkaian telah menimbulkan masalah untuk menggabungkan rangkaian seni bina yang berbeza. Untuk tujuan ini, model seni bina sistem terbuka telah dibangunkan. Buka

Protokol rangkaian komputer
Apabila bertukar maklumat pada rangkaian, setiap peringkat model interaksi sistem terbuka bertindak balas terhadap pengepalanya sendiri, iaitu, interaksi berlaku antara tahap satu baris model dengan cara yang berbeza.

Rangkaian kawasan setempat
Tujuan utama mana-mana rangkaian komputer adalah untuk menyediakan maklumat dan sumber pengkomputeran kepada pengguna yang disambungkan kepadanya. Dari sudut pandangan ini, LAN boleh dianggap sebagai scoop

Topologi LAN asas
Topologi LAN ialah gambarajah geometri purata sambungan nod rangkaian. Pesawat itu boleh dianggap sebagai satu set nod - peranti yang disambungkan terus ke hadapan

Media penghantaran fizikal LAN
Media penghantaran fizikal LAN boleh diwakili oleh tiga jenis. 1. Pasangan berpintal. Terdiri daripada dua wayar berpenebat yang dipintal bersama. Memusing wayar mengurangkan pengaruh luaran

Kaedah akses kepada medium penghantaran
Kaedah capaian medium penghantaran ialah kaedah yang memastikan pelaksanaan set peraturan mengikut mana nod rangkaian mendapat akses kepada sumber rangkaian. Terdapat dua kelas utama

Kaedah untuk menggabungkan LAN
Sebab untuk menggunakan pelbagai kaedah untuk menggabungkan LAN adalah seperti berikut: keupayaan teknikal LAN telah habis, anda perlu membuat LAN lain, menyambungkan pengguna baharu dan menggabungkannya dengan LAN sedia ada.

Internet Global
Internet ialah rangkaian yang menghubungkan rangkaian individu. Struktur logik Internet adalah sejenis persatuan maya yang mempunyai ruang maya sendiri. Sel asas

Perisian sistem
Perisian sistem ialah satu set program dan pakej perisian untuk memastikan operasi komputer dan rangkaian komputer. Perisian sistem bertujuan untuk: · mewujudkan persekitaran operasi untuk

Kit Alat Teknologi Pengaturcaraan
Alat teknologi pengaturcaraan menyokong proses pembangunan program dan termasuk perisian khusus, yang merupakan alat pembangunan. Perisian kelas ini dengan

Pakej permohonan
Perisian aplikasi berfungsi sebagai alat perisian untuk menyelesaikan masalah berfungsi dan merupakan kelas perisian terbesar. Kelas ini termasuk produk perisian yang memproses maklumat

Perlindungan Perisian
Perlindungan perisian mengejar matlamat berikut: · sekatan akses tanpa kebenaran kepada program atau pemusnahan dan kecurian yang disengajakan; · pengecualian penyalinan tanpa kebenaran

Topik 2. Asas mewakili dan memproses maklumat dalam komputer

kesusasteraan

1. Informatik dalam Ekonomi: Buku Teks/Ed. B.E. Odintsova, A.N. Romanova. – M.: Buku teks universiti, 2008.

2. Sains Komputer: Kursus Asas: Buku Teks/Ed. S.V. Simonovich. – St. Petersburg: Peter, 2009.

3. Sains komputer. Kursus am: Buku Teks/Penulis Bersama: A.N. Guda, M.A. Butakova, N.M. Nechitailo, A.V. Chernov; Di bawah umum ed. DALAM DAN. Kolesnikova. – M.: Dashkov dan K, 2009.

4. Informatik untuk ahli ekonomi: Buku Teks/Ed. Matyushka V.M. - M.: Infra-M, 2006.

5. Informatik ekonomi: Pengenalan kepada analisis ekonomi sistem maklumat - M.: INFRA-M, 2005.

Ukuran maklumat (sintaktik, semantik, pragmatik)

Pelbagai pendekatan boleh digunakan untuk mengukur maklumat, tetapi yang paling banyak digunakan ialah statistik(kebarangkalian), semantik dan p pragmatik kaedah.

Statistik(kebarangkalian) kaedah mengukur maklumat telah dibangunkan oleh K. Shannon pada tahun 1948, yang mencadangkan untuk mempertimbangkan jumlah maklumat sebagai ukuran ketidakpastian keadaan sistem, yang dikeluarkan akibat menerima maklumat. Ungkapan kuantitatif ketidakpastian dipanggil entropi. Jika, selepas menerima mesej tertentu, pemerhati telah memperoleh maklumat tambahan tentang sistem X, maka ketidakpastian telah berkurangan. Jumlah tambahan maklumat yang diterima ditakrifkan sebagai:

di manakah jumlah maklumat tambahan tentang sistem X, diterima dalam bentuk mesej;

Ketidakpastian awal (entropi) sistem X;

Ketidakpastian terhingga (entropi) sistem X, berlaku selepas menerima mesej.

Jika sistem X mungkin dalam salah satu keadaan diskret, yang bilangannya n, dan kebarangkalian untuk mencari sistem dalam setiap daripadanya adalah sama dan jumlah kebarangkalian semua keadaan adalah sama dengan perpaduan, maka entropi dikira menggunakan formula Shannon:

di manakah entropi sistem X;

A- asas logaritma, yang menentukan unit pengukuran maklumat;

n– bilangan keadaan (nilai) di mana sistem boleh berada.

Entropi ialah kuantiti positif, dan kerana kebarangkalian sentiasa kurang daripada satu, dan logaritmanya adalah negatif, oleh itu tanda tolak dalam formula K. Shannon menjadikan entropi itu positif. Oleh itu, entropi yang sama, tetapi dengan tanda yang bertentangan, diambil sebagai ukuran jumlah maklumat.

Hubungan antara maklumat dan entropi boleh difahami seperti berikut: mendapatkan maklumat (peningkatannya) secara serentak bermakna mengurangkan kejahilan atau ketidakpastian maklumat (entropi)

Oleh itu, pendekatan statistik mengambil kira kemungkinan mesej muncul: mesej yang kurang berkemungkinan dianggap lebih bermaklumat, i.e. paling tidak dijangka. Jumlah maklumat mencapai nilai maksimumnya jika peristiwa berkemungkinan sama.

R. Hartley mencadangkan formula berikut untuk mengukur maklumat:

I=log 2n ,

di mana n- bilangan peristiwa yang berkemungkinan sama;

saya– ukuran maklumat dalam mesej tentang kejadian salah satu daripada n peristiwa

Pengukuran maklumat dinyatakan dalam jumlahnya. Selalunya ini melibatkan jumlah memori komputer dan jumlah data yang dihantar melalui saluran komunikasi. Satu unit dianggap sebagai jumlah maklumat di mana ketidakpastian dikurangkan separuh; unit maklumat sedemikian dipanggil sedikit .

Jika logaritma asli () digunakan sebagai asas logaritma dalam formula Hartley, maka unit pengukuran maklumat ialah nat ( 1 bit = ln2 ≈ 0.693 nat). Jika nombor 3 digunakan sebagai asas logaritma, maka - merawat, jika 10, maka - dit (Hartley).

Dalam amalan, unit yang lebih besar lebih kerap digunakan - bait(bait) sama dengan lapan bit. Unit ini dipilih kerana ia boleh digunakan untuk mengekod mana-mana daripada 256 aksara abjad papan kekunci komputer (256 = 2 8).

Selain bait, maklumat diukur dalam separuh perkataan (2 bait), perkataan (4 bait) dan kata ganda (8 bait). Unit ukuran maklumat yang lebih besar juga digunakan secara meluas:

1 Kilobait (KB - kilobait) = 1024 bait = 2 10 bait,

1 Megabait (MB - megabait) = 1024 KB = 2 20 bait,

1 Gigabait (GB - gigabait) = 1024 MB = 2 30 bait.

1 Terabait (TB - terabait) = 1024 GB = 2 40 bait,

1 Petabait (PByte - petabyte) = 1024 TB = 2 50 bait.

Pada tahun 1980, ahli matematik Rusia Yu. Manin mencadangkan idea ​​membina komputer kuantum, yang berkaitan dengannya unit maklumat sedemikian muncul sebagai qubit ( bit kuantum, qubit ) – “bit kuantum” ialah ukuran untuk mengukur jumlah memori dalam bentuk komputer yang mungkin secara teorinya menggunakan media kuantum, contohnya, putaran elektron. Qubit tidak boleh mengambil dua nilai berbeza ("0" dan "1"), tetapi beberapa, sepadan dengan gabungan normal dua keadaan putaran tanah, yang memberikan lebih banyak kemungkinan kombinasi. Oleh itu, 32 qubit boleh mengekodkan kira-kira 4 bilion negeri.

Pendekatan semantik. Ukuran sintaksis tidak mencukupi jika anda tidak perlu menentukan jumlah data, tetapi jumlah maklumat yang diperlukan dalam mesej. Dalam kes ini, aspek semantik dipertimbangkan, yang membolehkan kita menentukan kandungan maklumat.

Untuk mengukur kandungan semantik maklumat, anda boleh menggunakan tesaurus penerimanya (pengguna). Idea kaedah tesaurus telah dicadangkan oleh N. Wiener dan dibangunkan oleh saintis domestik kami A.Yu. Schrader.

Tesaurus dipanggil badan maklumat yang ada pada penerima maklumat. Mengaitkan tesaurus dengan kandungan mesej yang diterima membolehkan anda mengetahui sejauh mana ia mengurangkan ketidakpastian.

Kebergantungan jumlah maklumat semantik mesej pada tesaurus penerima

Mengikut pergantungan yang dibentangkan pada graf, jika pengguna tidak mempunyai sebarang tesaurus (pengetahuan tentang intipati mesej yang diterima, iaitu =0), atau kehadiran tesaurus sedemikian yang tidak berubah akibat daripada ketibaan daripada mesej (), maka jumlah maklumat semantik di dalamnya adalah sama dengan sifar. Tesaurus optimum () ialah tesaurus yang jumlah maklumat semantiknya adalah maksimum (). Contohnya, maklumat semantik dalam mesej masuk pada dalam bahasa asing yang tidak dikenali akan ada sifar, tetapi situasi yang sama akan berlaku dalam kes itu jika mesej itu bukan berita lagi, kerana pengguna sudah mengetahui segala-galanya.

Ukuran pragmatik maklumat menentukan kegunaannya dalam mencapai matlamat pengguna. Untuk melakukan ini, sudah cukup untuk menentukan kebarangkalian untuk mencapai matlamat sebelum dan selepas menerima mesej dan membandingkannya. Nilai maklumat (mengikut A.A. Kharkevich) dikira menggunakan formula:

di manakah kebarangkalian untuk mencapai matlamat sebelum menerima mesej;

Kebarangkalian untuk mencapai matlamat adalah medan penerimaan mesej;

Kuliah No 7

Topik: Ukuran maklumat: sintaksis, semantik, pragmatik.

Maklumat ialah maklumat tentang objek dan fenomena persekitaran, parameter, sifat dan keadaan mereka, yang mengurangkan tahap ketidakpastian dan pengetahuan yang tidak lengkap tentangnya.

Sains komputer menganggap maklumat sebagai maklumat yang saling berkaitan yang mengubah idea kita tentang fenomena atau objek di dunia sekeliling. Dari sudut pandangan ini, maklumat boleh dianggap sebagai satu badan pengetahuan tentang data fakta dan kebergantungan antara mereka.

Semasa pemprosesan, maklumat boleh mengubah struktur dan bentuk. Tanda struktur ialah unsur-unsur maklumat dan hubungannya. Borang untuk menyampaikan maklumat mungkin berbeza. Yang utama ialah: simbolik (berdasarkan penggunaan pelbagai simbol), teks (teks ialah simbol yang disusun mengikut susunan tertentu), grafik (pelbagai jenis imej), bunyi.

Dalam amalan harian, konsep seperti maklumat dan data sering dianggap sinonim. Malah, terdapat perbezaan antara mereka. Data ialah maklumat yang dipersembahkan dalam bentuk yang mudah untuk diproses. Data boleh dipersembahkan dalam bentuk teks, grafik, audio-visual. Perwakilan data dipanggil bahasa sains komputer, iaitu satu set simbol, konvensyen dan peraturan yang digunakan untuk berkomunikasi, memaparkan, menghantar maklumat secara elektronik.

Komunikasi maklumat ialah satu proses yang memastikan penghantaran mesej daripada sumber maklumat kepada penggunanya. Bagi pengguna maklumat, ciri penting ialah kecukupan.

Kecukupan maklumat ialah tahap surat-menyurat tertentu yang dicipta dengan bantuan maklumat imej yang diterima kepada imej, proses atau fenomena sebenar.

Salah satu ciri maklumat yang paling penting ialah kecukupannya. Ketepatan membuat keputusan bergantung pada tahap kecukupan maklumat.

Kecukupan maklumat boleh dinyatakan dalam tiga bentuk: sintaksis, semantik dan pragmatik.

Kecukupan sintaksis mencerminkan ciri formal dan struktur maklumat tanpa menjejaskan kandungan semantiknya. Pada peringkat sintaksis, jenis medium dan kaedah penyampaian maklumat, kelajuan penghantaran dan pemprosesannya, saiz kod perwakilan maklumat, kebolehpercayaan dan ketepatan penukaran kod ini, dll. diambil kira. Maklumat dipertimbangkan daripada kedudukan tersebut biasanya dipanggil data.

Kecukupan semantik menentukan tahap kesesuaian imej sesuatu objek dengan objek itu sendiri. Kandungan semantik maklumat diambil kira di sini. Pada peringkat ini, maklumat yang dicerminkan oleh maklumat dianalisis dan perkaitan semantik dipertimbangkan. Oleh itu, kecukupan semantik dimanifestasikan dengan adanya kesatuan maklumat dan pengguna. Bentuk ini berfungsi untuk membentuk konsep dan idea, mengenal pasti makna, kandungan maklumat dan generalisasinya.

Kecukupan pragmatik mencerminkan kesesuaian maklumat dengan matlamat pengurusan yang dilaksanakan berdasarkannya. Sifat pragmatik maklumat muncul apabila terdapat kesatuan maklumat, pengguna dan matlamat pengurusan. Pada peringkat ini, sifat pengguna maklumat yang berkaitan dengan penggunaan praktikal maklumat dan pematuhannya dengan fungsi sasaran sistem dianalisis.

Setiap bentuk kecukupan mempunyai ukuran sendiri bagi jumlah maklumat.

Ukuran sintaksis maklumat beroperasi dengan maklumat tidak peribadi yang tidak menyatakan hubungan semantik dengan objek. Pada tahap ini, jumlah data dalam mesej diukur dengan bilangan aksara dalam mesej tersebut. Dalam komputer moden, unit minimum pengukuran data adalah sedikit - satu digit binari. Unit ukuran yang lebih besar juga digunakan secara meluas: bait, sama dengan 8 bit; kilobait bersamaan dengan 1024 bait; megabait bersamaan dengan 1024 kilobait, dsb.

Ukuran maklumat semantik digunakan untuk mengukur kandungan semantik maklumat. Ukuran yang paling banyak digunakan di sini ialah ukuran tesaurus, yang menghubungkan sifat semantik maklumat dengan keupayaan pengguna untuk menerima mesej masuk. Tesaurus ialah koleksi maklumat yang tersedia kepada pengguna atau sistem. Pengguna menerima jumlah maksimum maklumat semantik apabila menyelaraskan kandungan semantiknya dengan tesaurusnya, apabila maklumat yang masuk dapat difahami oleh pengguna dan memberikannya maklumat yang tidak diketahui sebelumnya. Dikaitkan dengan ukuran semantik jumlah maklumat ialah pekali kandungan, ditakrifkan sebagai nisbah jumlah maklumat semantik kepada jumlah data.

Kuantiti dan kualiti maklumat

Tahap masalah penghantaran maklumat

Apabila melaksanakan proses maklumat, maklumat sentiasa dipindahkan dalam ruang dan masa daripada sumber maklumat kepada penerima (penerima) menggunakan isyarat. Isyarat - proses fizikal (fenomena) yang membawa mesej (maklumat) tentang sesuatu peristiwa atau keadaan objek cerapan.

Mesej- satu bentuk mewakili maklumat dalam bentuk satu set tanda (simbol) yang digunakan untuk penghantaran.

Mesej sebagai satu set tanda dari sudut pandangan semiotik - sains yang mengkaji sifat tanda dan sistem tanda - boleh dikaji pada tiga peringkat:

1) sintaksis, di mana sifat dalaman mesej dipertimbangkan, iaitu hubungan antara tanda, mencerminkan struktur sistem tanda yang diberikan.

2) semantik, di mana hubungan antara tanda dan objek, tindakan, kualiti yang mereka nyatakan dianalisis, iaitu kandungan semantik mesej, hubungannya dengan sumber maklumat;

3) pragmatik, di mana hubungan antara mesej dan penerima dipertimbangkan, iaitu kandungan pengguna mesej, hubungannya dengan penerima.

Masalah peringkat sintaksis melibatkan penciptaan asas teori untuk membina sistem maklumat. Pada peringkat ini, mereka menganggap masalah penyampaian mesej kepada penerima sebagai satu set aksara, dengan mengambil kira jenis media dan kaedah penyampaian maklumat, kelajuan penghantaran dan pemprosesan, saiz kod persembahan maklumat, kebolehpercayaan dan ketepatan penukaran kod ini, dsb., mengabstraksi sepenuhnya daripada kandungan semantik mesej dan tujuan yang dimaksudkan. Pada tahap ini, maklumat yang dipertimbangkan hanya dari perspektif sintaksis biasanya dipanggil data, kerana bahagian semantik tidak penting.

Masalah tahap semantik dikaitkan dengan memformalkan dan mengambil kira makna maklumat yang dihantar, menentukan tahap korespondensi antara imej objek dan objek itu sendiri. Pada tahap ini, maklumat yang dicerminkan oleh maklumat dianalisis, perkaitan semantik dipertimbangkan, konsep dan idea dibentuk, makna dan kandungan maklumat didedahkan, dan generalisasinya dijalankan.



Pada tahap pragmatik berminat dengan akibat menerima dan menggunakan maklumat ini oleh pengguna. Masalah pada tahap ini dikaitkan dengan menentukan nilai dan kegunaan menggunakan maklumat apabila pengguna membangunkan penyelesaian untuk mencapai matlamatnya. Kesukaran utama di sini ialah nilai dan kegunaan maklumat boleh berbeza sama sekali untuk penerima yang berbeza dan, sebagai tambahan, ia bergantung kepada beberapa faktor, seperti, sebagai contoh, ketepatan masa penghantaran dan penggunaannya.

Langkah-langkah maklumat

Ukuran maklumat tahap sintaksis

Untuk mengukur maklumat pada tahap sintaksis, dua parameter diperkenalkan: jumlah maklumat (data) - V D(pendekatan volum) dan jumlah maklumat - saya(pendekatan entropi).

Jumlah maklumat V D. Apabila melaksanakan proses maklumat, maklumat dihantar dalam bentuk mesej, yang merupakan satu set simbol abjad. Jika jumlah maklumat yang terkandung dalam mesej satu aksara diambil sebagai satu, maka jumlah maklumat (data) V D dalam mana-mana mesej lain akan sama dengan bilangan aksara (digit) dalam mesej ini.

Oleh itu, dalam sistem nombor perpuluhan, satu digit mempunyai berat sama dengan 10, dan sewajarnya unit ukuran maklumat akan dit (tempat perpuluhan). Dalam kes ini, mesej dalam borang n V D= P dit. Sebagai contoh, nombor empat digit 2003 mempunyai jumlah data V D = 4 dit.

Dalam sistem nombor binari, satu digit mempunyai berat sama dengan 2, dan dengan itu unit pengukuran maklumat akan menjadi bit. (bit (digit binari)- digit binari). Dalam kes ini, mesej dalam borang n-nombor digital mempunyai isipadu data V D = n sedikit. Sebagai contoh, kod binari lapan bit 11001011 mempunyai volum data V D= 8 bit.

Dalam teknologi pengkomputeran moden, bersama-sama dengan unit minimum pengukuran data, bit, unit yang diperbesarkan digunakan secara meluas. mengukur bait, sama dengan 8 bit. Apabila bekerja dengan jumlah maklumat yang besar, unit ukuran yang lebih besar digunakan untuk mengira kuantitinya, seperti kilobait (KB), megabait (MB), gigabait (GB), terabait (TB):

1 kbait = 1024 bait = 2 10 bait;

1 MB = 1024 KB = 2 20 bait = 1,048,576 bait;

1 GB = 1024 MB = 2 30 bait = 1,073,741,824 bait; .

1 TB = 1024 GB = 2 40 bait = 1,099,511,627,776 bait.

Jumlah maklumat I (pendekatan entropi). Dalam teori maklumat dan pengekodan, pendekatan entropi untuk mengukur maklumat diguna pakai. Pendekatan ini berdasarkan fakta bahawa fakta mendapatkan maklumat sentiasa dikaitkan dengan penurunan kepelbagaian atau ketidakpastian (entropi) sistem. Berdasarkan ini, jumlah maklumat dalam mesej ditentukan sebagai ukuran untuk mengurangkan ketidakpastian keadaan sistem yang diberikan selepas menerima mesej. Sebaik sahaja pemerhati telah mengenal pasti sesuatu dalam sistem fizikal, entropi sistem berkurangan kerana, kepada pemerhati, sistem telah menjadi lebih teratur.

Oleh itu, dengan pendekatan entropi, maklumat difahami sebagai nilai kuantitatif ketidakpastian yang telah hilang semasa beberapa proses (pengujian, pengukuran, dll.). Dalam kes ini, entropi diperkenalkan sebagai ukuran ketidakpastian N, dan jumlah maklumat ialah:

di mana H apr - entropi priori tentang keadaan sistem yang dikaji;

Haps- entropi posterior.

Sebuah posterior- berasal dari pengalaman (ujian, pengukuran).

A priori- konsep yang mencirikan pengetahuan yang mendahului pengalaman (ujian) dan bebas daripadanya.

Dalam kes apabila semasa ujian ketidakpastian yang sedia ada dikeluarkan (hasil tertentu diperolehi, i.e. Haps = 0), jumlah maklumat yang diterima bertepatan dengan entropi awal

Mari kita pertimbangkan sebagai sistem yang sedang dikaji sebagai sumber maklumat yang diskret (sumber mesej diskret), yang bermaksud sistem fizikal yang mempunyai set terhingga keadaan yang mungkin. Ini banyak A= (a 1, a 2 , ..., a p) keadaan sistem dalam teori maklumat dipanggil abjad abstrak atau abjad sumber mesej.

Negeri individu a 1, a 2,..., a„ dipanggil huruf atau simbol abjad.

Sistem sedemikian boleh secara rawak mengambil salah satu set terhingga keadaan yang mungkin pada bila-bila masa. dan saya.

Oleh kerana beberapa negeri dipilih oleh sumber lebih kerap, dan yang lain lebih jarang, maka dalam kes umum ia dicirikan oleh ensemble A, iaitu, satu set keadaan lengkap dengan kebarangkalian kejadiannya yang menjumlahkan sehingga satu:

, dan (2.2)

Marilah kita memperkenalkan ukuran ketidakpastian dalam pilihan keadaan sumber. Ia juga boleh dianggap sebagai ukuran jumlah maklumat yang diperolehi dengan penghapusan lengkap ketidakpastian mengenai keadaan sumber yang berkemungkinan sama.

(2.3)

Kemudian pada N=1 kita mendapatkan PADA)= 0.

Ukuran ini dicadangkan oleh saintis Amerika R. Hartley pada tahun 1928. Asas logaritma dalam formula (2.3) tidak mempunyai kepentingan asas dan hanya menentukan skala atau unit ukuran. Bergantung kepada asas logaritma, unit berikut ukuran digunakan.

1. Bit - dalam kes ini asas logaritma adalah sama dengan 2:

(2.4)

2. Nits - dalam kes ini asas logaritma adalah sama dengan e:

3. Dits - dalam kes ini asas logaritma adalah sama dengan 10:

Dalam sains komputer, formula (2.4) biasanya digunakan sebagai ukuran ketidakpastian. Dalam kes ini, unit ketidakpastian dipanggil unit binari, atau bit, dan mewakili ketidakpastian memilih daripada dua peristiwa yang berkemungkinan sama.

Formula (2.4) boleh diperolehi secara empirikal: untuk menghapuskan ketidakpastian dalam situasi dua peristiwa yang berkemungkinan sama, satu pengalaman dan, dengan itu, satu bit maklumat diperlukan; dalam kes ketidakpastian yang terdiri daripada empat kejadian yang sama berkemungkinan, 2 bit maklumat sudah cukup untuk meneka fakta yang dikehendaki. Untuk mengenal pasti kad dari dek 32 kad, 5 bit maklumat sudah cukup, iaitu cukup untuk bertanya lima soalan dengan jawapan "ya" atau "tidak" untuk menentukan kad yang anda cari.

Langkah yang dicadangkan membolehkan menyelesaikan masalah praktikal tertentu apabila semua kemungkinan keadaan sumber maklumat mempunyai kebarangkalian yang sama.

Secara umum, tahap ketidakpastian dalam pelaksanaan keadaan sumber maklumat bergantung bukan sahaja pada bilangan negeri, tetapi juga pada kebarangkalian negeri ini. Jika sumber maklumat mempunyai, sebagai contoh, dua keadaan yang mungkin dengan kebarangkalian 0.99 dan 0.01, maka ketidakpastian pilihan adalah jauh lebih rendah daripada sumber yang mempunyai dua keadaan yang berkemungkinan sama, kerana dalam kes ini hasilnya secara praktikal telah ditentukan ( realisasi keadaan, kebarangkalian yang sama dengan 0.99).

Saintis Amerika K. Shannon menyamaratakan konsep ukuran ketidakpastian pilihan H sekiranya H bergantung bukan sahaja pada bilangan negeri, tetapi juga pada kebarangkalian negeri ini (kebarangkalian p i pemilihan watak dan saya, abjad A). Ukuran ini, yang mewakili ketidakpastian setiap negeri secara purata, dipanggil entropi sumber maklumat diskret:

(2.5)

Jika kita sekali lagi menumpukan pada mengukur ketidakpastian dalam unit binari, maka asas logaritma harus diambil sama dengan dua:

(2.6)

Dalam pilihan raya equiprobable, kebarangkalian p i =1/N formula (2.6) diubah menjadi formula R. Hartley (2.3):

Ukuran yang dicadangkan dipanggil entropi bukan secara kebetulan. Hakikatnya ialah struktur formal ungkapan (2.5) bertepatan dengan entropi sistem fizikal, yang sebelum ini ditakrifkan oleh Boltzmann.

Menggunakan formula (2.4) dan (2.6), kita boleh menentukan lebihan D abjad sumber mesej A, yang menunjukkan betapa rasionalnya simbol abjad tertentu digunakan:

di mana N maks (A) - entropi maksimum yang mungkin, ditentukan oleh formula (2.4);

PADA) - entropi sumber, ditentukan oleh formula (2.6).

Intipati langkah ini ialah dengan pilihan yang berkemungkinan sama, beban maklumat yang sama pada tanda boleh dipastikan dengan menggunakan abjad yang lebih kecil daripada dalam kes pilihan yang tidak sama rata.