Jadual kod ascii dalam sistem binari. Pengekodan ASCII (kod standard Amerika untuk pertukaran maklumat) - pengekodan teks asas untuk abjad Latin

Unicode (Unicode dalam bahasa Inggeris) ialah standard pengekodan aksara. Ringkasnya, ini ialah jadual surat-menyurat antara aksara teks ( , huruf, elemen tanda baca) kod binari. Komputer hanya memahami urutan sifar dan satu. Supaya ia tahu apa sebenarnya yang perlu dipaparkan pada skrin, adalah perlu untuk menetapkan setiap watak nombor uniknya sendiri. Pada tahun lapan puluhan, aksara telah dikodkan dalam satu bait, iaitu lapan bit (setiap bit ialah 0 atau 1). Oleh itu, ternyata satu jadual (aka pengekodan atau set) hanya boleh memuatkan 256 aksara. Ini mungkin tidak mencukupi walaupun untuk satu bahasa. Oleh itu, banyak pengekodan berbeza muncul, kekeliruan yang sering menyebabkan beberapa omong kosong aneh muncul pada skrin dan bukannya teks yang boleh dibaca. Satu standard diperlukan, iaitu Unicode menjadi. Pengekodan yang paling banyak digunakan ialah UTF-8 (Format Transformasi Unikod), yang menggunakan 1 hingga 4 bait untuk mewakili aksara.

Simbol

Aksara dalam jadual Unicode dinomborkan dengan nombor perenambelasan. Sebagai contoh, huruf besar Cyrillic M ditetapkan sebagai U+041C. Ini bermakna ia terletak di persimpangan baris 041 dan lajur C. Anda hanya boleh menyalinnya dan kemudian menampalnya di suatu tempat. Untuk tidak menyelongkar senarai berbilang kilometer, anda harus menggunakan carian. Apabila anda pergi ke halaman simbol, anda akan melihat nombor Unikodnya dan cara ia ditulis dalam fon yang berbeza. Anda boleh memasukkan tanda itu sendiri ke dalam bar carian, walaupun segi empat sama dilukis sebaliknya, sekurang-kurangnya untuk mengetahui perkara itu. Juga, di laman web ini terdapat set khas (dan rawak) daripada jenis ikon yang sama, dikumpulkan dari bahagian yang berbeza, untuk kemudahan penggunaan.

Piawaian Unicode adalah antarabangsa. Ia termasuk watak dari hampir semua skrip dunia. Termasuk yang tidak digunakan lagi. Hieroglif Mesir, rune Jerman, tulisan Maya, cuneiform dan abjad negeri purba. Penetapan berat dan sukatan, notasi muzik, dan konsep matematik juga dibentangkan.

Konsortium Unicode sendiri tidak mencipta aksara baharu. Ikon yang didapati digunakan dalam masyarakat ditambahkan pada jadual. Sebagai contoh, tanda ruble telah digunakan secara aktif selama enam tahun sebelum ia ditambahkan pada Unicode. Piktogram emoji (emotikon) juga pertama kali digunakan secara meluas di Jepun sebelum ia dimasukkan dalam pengekodan. Tetapi tanda dagangan dan logo syarikat tidak ditambah pada dasarnya. Malah yang biasa seperti epal Apple atau bendera Windows. Sehingga kini, kira-kira 120 ribu aksara dikodkan dalam versi 8.0.

Dis Hex Simbol Dis Hex Simbol
000 00 pakar. TIDAK 128 80 Ђ
001 01 pakar. SOH 129 81 Ѓ
002 02 pakar. STX 130 82
003 03 pakar. ETX 131 83 ѓ
004 04 pakar. EOT 132 84
005 05 pakar. ENQ 133 85
006 06 pakar. ACK 134 86
007 07 pakar. BEL 135 87
008 08 pakar. B.S. 136 88
009 09 pakar. TAB 137 89
010 0Apakar. LF 138 8AЉ
011 0Bpakar. VT 139 8B‹ ‹
012 0Cpakar. FF 140 8CЊ
013 0Dpakar. CR 141 8DЌ
014 0Epakar. JADI 142 8EЋ
015 0Fpakar. S.I. 143 8FЏ
016 10 pakar. DLE 144 90 ђ
017 11 pakar. DC1 145 91
018 12 pakar. DC2 146 92
019 13 pakar. DC3 147 93
020 14 pakar. DC4 148 94
021 15 pakar. N.A.K. 149 95
022 16 pakar. SYN 150 96
023 17 pakar. ETB 151 97
024 18 pakar. BOLEH 152 98
025 19 pakar. E.M. 153 99
026 1Apakar. SUB 154 9Aљ
027 1Bpakar. ESC 155 9B
028 1Cpakar. FS 156 9Cњ
029 1Dpakar. G.S. 157 9Dќ
030 1Epakar. R.S. 158 9Eћ
031 1Fpakar. AS 159 9Fџ
032 20 klac SP (Angkasa) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Yo
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 AD­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 B.C.ј
061 3D= 189 BDЅ
062 3E> 190 JADILAHѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 DALAM
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 DAN
071 47 G 199 C7 Z
072 48 H 200 C8 DAN
073 49 saya 201 C9 Y
074 4AJ 202 C.A. KEPADA
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. TENTANG
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 DENGAN
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 Sh
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF saya
096 60 ` 224 E0 A
097 61 a 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 dan
103 67 g 231 E7 h
104 68 h 232 E8 Dan
105 69 i 233 E9 ke
106 6Aj 234 E.A. Kepada
107 6Bk 235 E.B. l
108 6Cl 236 E.C. m
109 6Dm 237 ED n
110 6En 238 E.E. O
111 6Fo 239 E.F. P
112 70 hlm 240 F0 R
113 71 q 241 F1 Dengan
114 72 r 242 F2 T
115 73 s 243 F3 di
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 sch
122 7Az 250 F.A. ъ
123 7B{ 251 FB s
124 7C| 252 F.C. b
125 7D} 253 FD eh
126 7E~ 254 F.E. Yu
127 7FPakar. DEL 255 FF saya

Jadual kod aksara Windows ASCII.
Perihalan watak khas (kawalan).

Perlu diingatkan bahawa aksara kawalan jadual ASCII pada asalnya digunakan untuk memastikan pertukaran data melalui teletypewriter, kemasukan data daripada pita tebuk, dan untuk kawalan mudah peranti luaran.
Pada masa ini, kebanyakan aksara kawalan jadual ASCII tidak lagi membawa beban ini dan boleh digunakan untuk tujuan lain.
Kod Penerangan
NUL, 00Null, kosong
SOH, 01Permulaan Tajuk
STX, 02Permulaan TeXt, permulaan teks.
ETX, 03Tamat TeXt, akhir teks
EOT, 04Tamat Penghantaran, tamat penghantaran
ENQ, 05Tanya. Tolong sahkan
ACK, 06Pengakuan. Saya mengesahkan
BEL, 07Bell, panggil
BS, 08Ruang belakang, kembali satu aksara
TAB, 09Tab, tab mendatar
LF, 0ASuapan Baris, suapan baris.
Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \n
VT, 0BTab Menegak, penjadualan menegak.
FF, 0CSuapan Borang, suapan halaman, halaman baharu
CR, 0DPulang gerabak, pemulangan gerabak.
Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \r
JADI,0EShift Out, tukar warna reben dakwat dalam peranti pencetakan
SI, 0FShift In, kembalikan warna reben dakwat dalam peranti pencetakan semula
DLE, 10Data Link Escape, menukar saluran kepada penghantaran data
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Kawalan Peranti, simbol kawalan peranti
NAK, 15Pengakuan Negatif, saya tidak mengesahkan.
SYN, 16Penyegerakan. Simbol penyegerakan
ETB, 17Tamat Blok Teks, hujung blok teks
BOLEH, 18Batal, pembatalan yang dihantar sebelum ini
EM, 19Akhir Sederhana
SUB, 1APengganti, pengganti. Diletakkan di tempat simbol yang maknanya hilang atau rosak semasa penghantaran
ESC, 1BUrutan Kawalan Melarikan Diri
FS, 1CPemisah Fail, pemisah fail
GS, 1DPemisah Kumpulan
RS, 1EPemisah Rekod, pemisah rekod
AS, 1FPemisah Unit
DEL, 7FPadam, padam aksara terakhir.

Setiap komputer mempunyai set aksara sendiri yang dilaksanakannya. Set ini mengandungi 26 huruf besar dan kecil, nombor dan aksara khas (titik, ruang, dsb.). Apabila ditukar kepada integer, simbol dipanggil kod. Piawaian telah dibangunkan supaya komputer mempunyai set kod yang sama.

Piawaian ASCII

ASCII (American Standard Code for Information Interchange) ialah kod standard Amerika untuk pertukaran maklumat. Setiap aksara ASCII mempunyai 7 bit, jadi bilangan maksimum aksara ialah 128 (Jadual 1). Kod 0 hingga 1F ialah aksara kawalan yang tidak dicetak. Banyak aksara ASCII yang tidak boleh dicetak diperlukan untuk menghantar data. Sebagai contoh, mesej mungkin terdiri daripada aksara permulaan pengepala SOH, pengepala itu sendiri dan aksara permulaan teks STX, teks itu sendiri dan aksara akhir teks ETX, dan akhir penghantaran. watak EOT. Walau bagaimanapun, data melalui rangkaian dihantar dalam paket, yang bertanggungjawab untuk permulaan dan akhir penghantaran. Jadi aksara yang tidak boleh dicetak hampir tidak pernah digunakan.

Jadual 1 - Jadual kod ASCII

Nombor Pasukan Maknanya Nombor Pasukan Maknanya
0 NUL Penunjuk nol 10 DLE Keluar dari sistem penghantaran
1 SOH permulaan tajuk 11 DC1 Pengurusan peranti
2 STX Permulaan teks 12 DC2 Pengurusan peranti
3 ETX Akhir teks 13 DC3 Pengurusan peranti
4 EOT Tamat penghantaran 14 DC4 Pengurusan peranti
5 ACK Permintaan 15 N.A.K. Tidak pengesahan penerimaan
6 BEL Pengesahan penerimaan 16 SYN Mudah
7 B.S. Simbol loceng 17 ETB Tamat blok penghantaran
8 HT Berundur 18 BOLEH Tandakan
9 LF Penjadualan mendatar 19 E.M. Tamat media
A VT Terjemahan baris 1A SUB Subskrip
B FF Tab menegak 1B ESC Keluar
C CR Terjemahan halaman 1C FS Pemisah fail
D JADI Pulangan pengangkutan 1D G.S. Pemisah kumpulan
E S.I. Beralih ke daftar tambahan 1E R.S. Pemisah rekod
S.I. Tukar kepada kes standard 1F AS Pemisah modul
Nombor Simbol Nombor Simbol Nombor Simbol Nombor Simbol Nombor Simbol Nombor Simbol
20 angkasa lepas 30 0 40 @ 50 P 60 . 70 hlm
21 ! 31 1 41 A 51 Q 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 DAN 65 e 75 Dan
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 saya 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Piawaian Unicode

Pengekodan sebelumnya bagus untuk bahasa Inggeris, tetapi ia tidak sesuai untuk bahasa lain. Contohnya, bahasa Jerman mempunyai umlaut, dan bahasa Perancis mempunyai superskrip. Sesetengah bahasa mempunyai abjad yang sama sekali berbeza. Percubaan pertama untuk melanjutkan ASCII ialah IS646, yang melanjutkan pengekodan sebelumnya dengan tambahan 128 aksara. Huruf Latin dengan sebatan dan diakritik telah ditambah, dan menerima nama - Latin 1. Percubaan seterusnya ialah IS 8859 - yang mengandungi halaman kod. Terdapat juga percubaan pada sambungan, tetapi ini tidak universal. Pengekodan UNICODE telah dibuat (ialah 10646). Idea di sebalik pengekodan adalah untuk memberikan setiap aksara nilai 16-bit malar tunggal, yang dipanggil - penunjuk kod. Secara keseluruhan terdapat 65536 petunjuk. Untuk menjimatkan ruang, kami menggunakan Latin-1 untuk kod 0 -255, menukar ASII kepada UNICODE dengan mudah. Piawaian ini menyelesaikan banyak masalah, tetapi bukan semua. Disebabkan oleh kedatangan perkataan baru, contohnya, untuk bahasa Jepun, jumlah istilah perlu ditambah kira-kira 20 ribu. Ia juga perlu memasukkan braille.

Seperti yang anda ketahui, komputer menyimpan maklumat dalam bentuk binari, mewakilinya sebagai urutan satu dan sifar. Untuk menterjemah maklumat ke dalam bentuk yang sesuai untuk persepsi manusia, setiap urutan nombor unik digantikan dengan simbol yang sepadan apabila dipaparkan.

Salah satu sistem untuk mengaitkan kod binari dengan aksara bercetak dan kawalan ialah

Pada tahap perkembangan teknologi komputer semasa, pengguna tidak perlu mengetahui kod setiap watak tertentu. Walau bagaimanapun, pemahaman umum tentang cara pengekodan dijalankan amat berguna, dan untuk sesetengah kategori pakar, malah diperlukan.

Mencipta ASCII

Pengekodan pada asalnya dibangunkan pada tahun 1963 dan kemudian dikemas kini dua kali dalam tempoh 25 tahun.

Dalam versi asal, jadual aksara ASCII termasuk 128 aksara; kemudian versi lanjutan muncul, di mana 128 aksara pertama telah disimpan, dan aksara yang hilang sebelum ini diberikan kepada kod dengan bit kelapan terlibat.

Selama bertahun-tahun, pengekodan ini adalah yang paling popular di dunia. Pada tahun 2006, Latin 1252 mengambil kedudukan utama, dan dari penghujung tahun 2007 hingga kini, Unicode telah memegang kedudukan utama dengan kukuh.

Perwakilan komputer ASCII

Setiap aksara ASCII mempunyai kodnya sendiri, terdiri daripada 8 aksara yang mewakili sifar atau satu. Nombor minimum dalam perwakilan ini ialah sifar (lapan sifar dalam sistem binari), iaitu kod elemen pertama dalam jadual.

Dua kod dalam jadual telah dikhaskan untuk bertukar antara AS-ASCII standard dan varian nasionalnya.

Selepas ASCII mula memasukkan bukan 128, tetapi 256 aksara, varian pengekodan menjadi meluas, di mana versi asal jadual disimpan dalam 128 kod pertama dengan sifar bit ke-8. Aksara bertulis kebangsaan disimpan di bahagian atas jadual (kedudukan 128-255).

Pengguna tidak perlu mengetahui kod aksara ASCII secara langsung. Pembangun perisian biasanya hanya perlu mengetahui nombor elemen dalam jadual untuk mengira kodnya menggunakan sistem binari jika perlu.

Bahasa Rusia

Selepas pembangunan pengekodan untuk bahasa Scandinavia, Cina, Korea, Yunani, dll. pada awal 70-an, Kesatuan Soviet mula mencipta versinya sendiri. Tidak lama kemudian, versi pengekodan 8-bit yang dipanggil KOI8 telah dibangunkan, mengekalkan 128 kod aksara ASCII yang pertama dan memperuntukkan bilangan kedudukan yang sama untuk huruf abjad kebangsaan dan aksara tambahan.

Sebelum pengenalan Unicode, KOI8 menguasai segmen Internet Rusia. Terdapat pilihan pengekodan untuk kedua-dua abjad Rusia dan Ukraine.

masalah ASCII

Memandangkan bilangan elemen walaupun dalam jadual lanjutan tidak melebihi 256, tidak ada kemungkinan untuk menampung beberapa skrip berbeza dalam satu pengekodan. Pada tahun 90-an, masalah "crocozyabr" muncul di Runet, apabila teks yang ditaip dalam aksara ASCII Rusia dipaparkan dengan tidak betul.

Masalahnya ialah kod ASCII yang berbeza tidak sepadan antara satu sama lain. Mari kita ingat bahawa pelbagai aksara boleh ditempatkan di kedudukan 128-255, dan apabila menukar satu pengekodan Cyrillic kepada yang lain, semua huruf teks digantikan dengan yang lain yang mempunyai nombor yang sama dalam versi pengekodan yang berbeza.

Keadaan sekarang

Dengan kemunculan Unicode, populariti ASCII mula merosot dengan mendadak.

Sebabnya terletak pada hakikat bahawa pengekodan baharu memungkinkan untuk menampung aksara daripada hampir semua bahasa bertulis. Dalam kes ini, 128 aksara ASCII yang pertama sepadan dengan aksara yang sama dalam Unicode.

Pada tahun 2000, ASCII ialah pengekodan paling popular di Internet dan digunakan pada 60% halaman web yang diindeks oleh Google. Menjelang 2012, bahagian halaman sedemikian telah menurun kepada 17%, dan Unicode (UTF-8) menggantikan pengekodan yang paling popular.

Oleh itu, ASCII adalah bahagian penting dalam sejarah teknologi maklumat, tetapi penggunaannya pada masa hadapan nampaknya tidak menjanjikan.

Mari kita ingat beberapa fakta yang kita tahu:

Set simbol yang digunakan untuk menulis teks dipanggil abjad.

Bilangan aksara dalam abjad ialah kardinalitinya.

Formula untuk menentukan jumlah maklumat: N = 2 b,

di mana N ialah kuasa abjad (bilangan aksara),

b - bilangan bit (berat maklumat simbol).

Abjad, dengan kapasiti 256 aksara, boleh memuatkan hampir semua aksara yang diperlukan. Abjad sedemikian dipanggil mencukupi.

Kerana 256 = 2 8 , maka berat 1 aksara ialah 8 bit.

Unit ukuran 8 bit diberi nama 1 bait:

1 bait = 8 bit.

Kod binari setiap aksara dalam teks komputer mengambil 1 bait memori.

Bagaimanakah maklumat teks diwakili dalam ingatan komputer?

Pengekodan terdiri daripada memberikan setiap aksara kod perpuluhan unik dari 0 hingga 255 atau kod binari yang sepadan dari 00000000 hingga 11111111. Oleh itu, seseorang membezakan aksara dengan garis besarnya dan komputer dengan kodnya.

Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.

Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara.

Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.

Jadual ASCII telah menjadi piawaian antarabangsa untuk PC (baca tanya) (Kod Standard Amerika untuk Pertukaran Maklumat).

Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).

Nombor siri

Simbol

00000000 - 00011111


Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


Separuh kedua jadual kod ASCII, dipanggil halaman kod (128 kod, bermula dengan 10000000 dan berakhir dengan 11111111), boleh mempunyai varian yang berbeza, setiap varian mempunyai nombor sendiri.


Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.


Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251.

Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode . Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode merangkumi semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.

Mari cuba gunakan jadual ASCII untuk bayangkan rupa perkataan dalam ingatan komputer.

Kata-kata

Ingatan

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Apabila memasukkan maklumat teks ke dalam komputer, aksara (huruf, nombor, tanda) dikodkan menggunakan pelbagai sistem kod, yang terdiri daripada satu set jadual kod yang terletak pada halaman piawaian yang sepadan untuk pengekodan maklumat teks. Dalam jadual sedemikian, setiap aksara diberikan kod berangka tertentu dalam sistem nombor perenambelasan atau perpuluhan, iaitu, jadual kod menggambarkan kesesuaian antara imej simbol dan kod angka dan bertujuan untuk pengekodan dan penyahkodan maklumat teks. Apabila memasukkan maklumat teks menggunakan papan kekunci komputer, setiap aksara yang dimasukkan dikodkan, iaitu, ditukar kepada kod angka; apabila maklumat teks dikeluarkan kepada peranti output komputer (paparan, pencetak atau plotter), imejnya dibina menggunakan kod angka watak. Penyerahan kod berangka tertentu kepada simbol adalah hasil perjanjian antara organisasi berkaitan di negara yang berbeza. Pada masa ini, tiada satu jadual kod universal yang sepadan dengan huruf abjad kebangsaan negara yang berbeza.

Jadual kod moden termasuk bahagian antarabangsa dan kebangsaan, iaitu ia mengandungi huruf Latin dan abjad kebangsaan, nombor, operasi aritmetik dan tanda baca, simbol matematik dan kawalan, dan simbol pseudografik. Bahagian antarabangsa jadual kod berdasarkan standard ASCII (Kod Standard Amerika untuk Pertukaran Maklumat), mengekod separuh pertama aksara dalam jadual kod dengan kod angka dari 0 hingga 7 F 16, atau dalam sistem nombor perpuluhan dari 0 hingga 127. Dalam kes ini, kod dari 0 hingga 20 16 (0 ? 32 10) diberikan kepada kekunci fungsi (F1, F2, F3, dsb.) papan kekunci komputer peribadi. Dalam Rajah. 3.1 menunjukkan bahagian antarabangsa jadual kod berdasarkan standard ASCII. Sel jadual dinomborkan dalam sistem nombor perpuluhan dan heksadesimal, masing-masing.

Rajah 3.1. Bahagian antarabangsa jadual kod (standard ASCII) dengan nombor sel dipersembahkan dalam sistem nombor perpuluhan (a) dan heksadesimal (b).


Bahagian kebangsaan jadual kod mengandungi kod abjad kebangsaan, yang juga dipanggil jadual set aksara (set aksara).

Pada masa ini, untuk menyokong huruf abjad Rusia (Cyrillic), terdapat beberapa jadual kod (pengekodan) yang digunakan oleh pelbagai sistem pengendalian, yang merupakan kelemahan yang ketara dan dalam beberapa kes membawa kepada masalah yang berkaitan dengan operasi penyahkodan nilai aksara angka. Dalam jadual 3.1 menunjukkan nama halaman kod (standard) di mana jadual kod Cyrillic (pengekodan) terletak.

Jadual 3.1

Salah satu piawaian pertama untuk pengekodan abjad Cyrillic pada komputer ialah standard KOI8-R. Bahagian kebangsaan jadual kod piawaian ini ditunjukkan dalam Rajah. 3.2.

nasi. 3.2. Bahagian kebangsaan jadual kod standard KOI8-R


Pada masa ini, jadual kod yang terletak pada halaman CP866 standard pengekodan maklumat teks, yang digunakan dalam sistem pengendalian, juga digunakan MS DOS atau sesi MS DOS untuk pengekodan abjad Cyrillic (Rajah 3.3, A).

nasi. 3.3. Bahagian kebangsaan jadual kod, terletak pada halaman CP866 (a) dan pada halaman CP1251 (b) standard pengekodan maklumat teks


Pada masa ini, jadual kod yang paling banyak digunakan untuk pengekodan abjad Cyrillic terletak pada halaman CP1251 standard yang sepadan, yang digunakan dalam sistem pengendalian keluarga Windows syarikat Microsoft(Gamb. 3.2, b). Dalam semua jadual kod yang dibentangkan, kecuali jadual standard Unicode Untuk mengekod satu aksara, 8 digit binari (8 bit) diperuntukkan.

Pada penghujung abad yang lalu, satu piawaian antarabangsa baru muncul Unicode di mana satu aksara diwakili sebagai kod binari dua bait. Penggunaan piawaian ini adalah kesinambungan pembangunan piawaian antarabangsa sejagat untuk menyelesaikan masalah keserasian pengekodan aksara kebangsaan. Menggunakan standard ini, 2 16 = 65536 aksara berbeza boleh dikodkan. Dalam Rajah. 3.4 menunjukkan jadual kod 0400 (abjad Rusia) standard Unicode.

nasi. 3.4. Jadual kod Unicode 0400


Mari kita terangkan apa yang telah diperkatakan mengenai pengekodan maklumat teks menggunakan contoh.

Contoh 3.1

Kod perkataan "Komputer" sebagai jujukan nombor perpuluhan dan heksadesimal menggunakan pengekodan CP1251. Apakah aksara yang akan dipaparkan dalam jadual kod CP866 dan KOI8-R apabila menggunakan kod yang diterima.

Urutan kod perenambelasan dan binari perkataan "Komputer" berdasarkan jadual pengekodan CP1251 (lihat Rajah 3.3, b) akan kelihatan seperti ini:

Urutan kod dalam pengekodan SR866 dan KOI8-R ini akan menghasilkan paparan aksara berikut:

Untuk menukar dokumen teks bahasa Rusia dari satu standard pengekodan maklumat teks kepada yang lain, program khas digunakan - penukar. Penukar biasanya dibina ke dalam program lain. Contohnya ialah program penyemak imbas - Internet Explorer (IE), yang mempunyai penukar terbina dalam. Program pelayar ialah program khas untuk melihat kandungan. laman sesawang pada rangkaian komputer global Internet. Mari gunakan program ini untuk mengesahkan hasil pemetaan simbol yang diperolehi dalam contoh 3.1. Untuk melakukan ini, kami akan melakukan langkah-langkah berikut.

1. Lancarkan program Notepad (NotePad). Program Notepad dalam sistem pengendalian Windows XP dilancarkan menggunakan arahan: [Button Mulakan– Program – Standard – Notepad]. Dalam tetingkap program Notepad yang terbuka, taip perkataan "Komputer" menggunakan sintaks bahasa penanda dokumen hiperteks - HTML (Bahasa Penanda Teks Hiper). Bahasa ini digunakan untuk membuat dokumen di Internet. Teks sepatutnya kelihatan seperti ini:

Computerwater

, Di mana

Dan

tag (binaan khas) bahasa HTML untuk penanda pengepala. Dalam Rajah. Rajah 3.5 menunjukkan keputusan tindakan ini.

nasi. 3.5. Memaparkan teks dalam tetingkap Notepad


Mari kita simpan teks ini dengan melaksanakan arahan: [Fail - Simpan sebagai...] dalam folder yang sesuai pada komputer; apabila menyimpan teks, kami akan memberi nama fail - Nota, dengan sambungan fail. html.

2. Jom lancarkan program Internet Explorer, dengan melaksanakan arahan: [Button Mulakan- Program - Internet Explorer]. Apabila anda memulakan program, tetingkap yang ditunjukkan dalam Rajah. 3.6

nasi. 3.6. Tetingkap akses luar talian


Pilih dan aktifkan butang Luar talian Dalam kes ini, komputer tidak akan bersambung ke Internet global. Tetingkap program utama akan muncul Microsoft Internet Explorer, ditunjukkan dalam Rajah. 3.7.

nasi. 3.7. Tetingkap utama Microsoft Internet Explorer


Mari laksanakan arahan berikut: [Fail – Buka], tetingkap akan muncul (Gamb. 3.8), di mana anda perlu menentukan nama fail dan klik butang okey atau tekan butang Semak… dan cari fail Prim.html.

nasi. 3.8. Buka tingkap


Tetingkap utama program Internet Explorer akan mengambil bentuk yang ditunjukkan dalam Rajah. 3.9. Perkataan "Komputer" akan muncul dalam tetingkap. Seterusnya, menggunakan menu atas program Internet Explorer, jalankan arahan berikut: [View – Encoding – Cyrillic (DOS)]. Selepas melaksanakan arahan ini dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah. akan dipaparkan. 3.10. Apabila melaksanakan arahan: [Lihat – Pengekodan – Cyrillic (KOI8-R) ] dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah. akan dipaparkan. 3.11.

nasi. 3.9. Aksara dipaparkan dengan pengekodan CP1251


nasi. 3.10. Aksara dipaparkan apabila pengekodan CP866 didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251


nasi. 3.11. Aksara dipaparkan apabila pengekodan KOI8-R didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251


Oleh itu, diperolehi menggunakan program internet Explorer jujukan aksara bertepatan dengan jujukan aksara yang diperoleh menggunakan jadual kod CP866 dan KOI8-R dalam contoh 3.1.

3.2. Pengekodan maklumat grafik

Maklumat grafik yang dipersembahkan dalam bentuk gambar, gambar, slaid, imej bergerak (animasi, video), gambar rajah, lukisan boleh dibuat dan disunting menggunakan komputer, dan ia dikodkan dengan sewajarnya. Pada masa ini, terdapat sejumlah besar program aplikasi untuk memproses maklumat grafik, tetapi semuanya melaksanakan tiga jenis grafik komputer: raster, vektor dan fraktal.

Jika anda melihat lebih dekat pada imej grafik pada skrin monitor komputer, anda boleh melihat sejumlah besar titik berbilang warna (piksel - dari bahasa Inggeris. piksel berpendidikan daripada elemen gambar - elemen imej), yang, apabila dikumpulkan bersama, membentuk imej grafik yang diberikan. Daripada ini kita boleh membuat kesimpulan: imej grafik pada komputer dikodkan dengan cara tertentu dan mesti dibentangkan dalam bentuk fail grafik. Fail ialah unit struktur asas untuk mengatur dan menyimpan data pada komputer dan, dalam kes ini, mesti mengandungi maklumat tentang cara membentangkan set mata ini pada skrin monitor.

Fail yang dibuat berdasarkan grafik vektor mengandungi maklumat dalam bentuk hubungan matematik (fungsi matematik yang menerangkan hubungan linear) dan data yang sepadan tentang cara membina imej objek menggunakan segmen garisan (vektor) apabila dipaparkan pada monitor komputer.

Fail yang dibuat berdasarkan grafik raster memerlukan penyimpanan data tentang setiap titik individu dalam imej. Untuk memaparkan grafik raster, pengiraan matematik yang kompleks tidak diperlukan; cukup untuk mendapatkan data mengenai setiap titik imej (koordinat dan warnanya) dan memaparkannya pada skrin monitor komputer.

Semasa proses pengekodan, imej didiskritkan secara spatial, iaitu, imej dibahagikan kepada titik individu dan setiap titik diberi kod warna (kuning, merah, biru, dll.). Untuk mengekod setiap titik imej grafik berwarna, prinsip penguraian warna sewenang-wenang ke dalam komponen utamanya digunakan, yang mana tiga warna utama digunakan: merah (perkataan Inggeris merah, dilambangkan dengan huruf KEPADA), hijau (Hijau, dilambangkan dengan huruf G), biru (Biru, dilambangkan dengan beech DALAM). Mana-mana warna titik yang dilihat oleh mata manusia boleh diperolehi dengan tambahan (berkadar) tambahan (pencampuran) tiga warna utama - merah, hijau dan biru. Sistem pengekodan ini dipanggil sistem warna RGB. Fail grafik yang menggunakan sistem warna RGB mewakili setiap titik imej sebagai triplet warna - tiga nilai berangka R, G Dan DALAM, keamatan sepadan warna merah, hijau dan biru. Proses pengekodan imej grafik dijalankan menggunakan pelbagai cara teknikal (pengimbas, kamera digital, kamera video digital, dll.); hasilnya ialah imej raster. Apabila menghasilkan semula imej grafik berwarna pada monitor komputer berwarna, warna setiap titik (piksel) imej sedemikian diperoleh dengan mencampurkan tiga warna utama R,G Dan B.

Kualiti imej raster ditentukan oleh dua parameter utama - resolusi (bilangan piksel secara mendatar dan menegak) dan palet warna yang digunakan (bilangan warna yang ditentukan untuk setiap piksel dalam imej). Resolusi ditentukan dengan menunjukkan bilangan piksel secara mendatar dan menegak, contohnya 800 x 600 piksel.

Terdapat hubungan antara bilangan warna yang diberikan kepada titik dalam imej raster dan jumlah maklumat yang mesti diperuntukkan untuk menyimpan warna titik, ditentukan oleh perhubungan (rumus R. Hartley):

di mana saya– jumlah maklumat; N – bilangan warna yang diberikan kepada titik.

Jumlah maklumat yang diperlukan untuk menyimpan warna titik juga dipanggil kedalaman warna, atau kualiti pemaparan warna.

Jadi, jika bilangan warna yang dinyatakan untuk titik imej ialah N= 256, maka jumlah maklumat yang diperlukan untuk penyimpanannya (kedalaman warna) mengikut formula (3.1) akan sama dengan saya= 8 bit.

Komputer menggunakan pelbagai mod grafik monitor untuk memaparkan maklumat grafik. Perlu diingatkan di sini bahawa sebagai tambahan kepada mod grafik monitor, terdapat juga mod teks, di mana skrin monitor secara konvensional dibahagikan kepada 25 baris 80 aksara setiap baris. Mod grafik ini dicirikan oleh resolusi skrin monitor dan kualiti warna (kedalaman warna). Untuk menetapkan mod grafik skrin monitor dalam sistem pengendalian MS Windows XP anda perlu melaksanakan arahan: [Button Mulakan– Tetapan – Panel Kawalan – Skrin]. Dalam kotak dialog "Properties: Skrin" yang muncul (Rajah 3.12), anda mesti memilih tab "Parameter" dan menggunakan peluncur "Resolusi Skrin" untuk memilih resolusi skrin yang sesuai (800 x 600 piksel, 1024 x 768 piksel, dan lain-lain.). Menggunakan senarai juntai bawah "Kualiti warna", anda boleh memilih kedalaman warna - "Tertinggi (32 bit)", "Sederhana (16 bit)", dsb., dan bilangan warna yang ditetapkan pada setiap titik dalam imej akan masing-masing menjadi 2 32 (4294967296), 2 16 (65536), dsb.

nasi. 3.12. Kotak Dialog Sifat Paparan


Untuk melaksanakan setiap mod grafik skrin monitor, sejumlah memori video komputer diperlukan. Jumlah maklumat yang diperlukan memori video (V) ditentukan daripada perkaitan

di mana KEPADA - bilangan titik imej pada skrin monitor (K = A · B); A - bilangan titik mendatar pada skrin monitor; DALAM - bilangan titik menegak pada skrin monitor; saya– jumlah maklumat (kedalaman warna).

Jadi, jika skrin monitor mempunyai resolusi 1024 x 768 piksel dan palet yang terdiri daripada 65,536 warna, maka kedalaman warna mengikut formula (3.1) adalah I = log 2 65,538 = 16 bit, jumlah piksel imej akan sama dengan: K = 1024 x 768 = 786432, dan jumlah maklumat yang diperlukan bagi memori video mengikut (3.2) akan sama dengan

V= 786432 · 16 bit = 12582912 bit = 1572864 bait = 1536 KB = 1.5 MB.

Sebagai kesimpulan, perlu diingatkan bahawa sebagai tambahan kepada ciri yang disenaraikan, ciri yang paling penting bagi monitor ialah dimensi geometri skrin dan titik imejnya. Dimensi geometri skrin ditentukan oleh saiz pepenjuru monitor. Saiz pepenjuru monitor dinyatakan dalam inci (1 inci = 1" = 25.4 mm) dan boleh mengambil nilai yang sama dengan: 14", 15", 17", 21", dll. Teknologi pengeluaran monitor moden boleh memberikan imej saiz titik sama dengan 0.22 mm.

Oleh itu, bagi setiap monitor terdapat resolusi skrin maksimum yang mungkin secara fizikal, ditentukan oleh saiz pepenjurunya dan saiz titik imej.

Latihan untuk dilakukan sendiri

1. Menggunakan program MS Excel tukar jadual kod ASCII, SR866, SR1251, KOI8-R kepada jadual dalam bentuk: dalam sel lajur pertama jadual tulis dalam susunan abjad huruf besar dan kemudian huruf kecil abjad Latin dan Cyrillic, dalam sel lajur kedua - kod yang sepadan dengan huruf dalam sistem nombor perpuluhan, dalam sel lajur ketiga ialah kod yang sepadan dengan huruf dalam sistem nombor heksadesimal. Nilai kod mesti dipilih daripada jadual kod yang sepadan.

2. Kod dan tulis perkataan berikut sebagai urutan nombor dalam sistem nombor perpuluhan dan perenambelasan:

a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Pengekodan dijalankan menggunakan jadual pengekodan ASCII moden yang diperolehi dalam latihan sebelumnya.

3. Menggunakan jadual pengekodan KOI8-R yang dimodenkan, nyahkod jujukan nombor yang ditulis dalam sistem nombor heksadesimal:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Bagaimanakah rupa perkataan "Cybernetics" yang ditulis dalam pengekodan SR1251 apabila menggunakan pengekodan SR866 dan KOI8-R? Semak keputusan menggunakan program Internet Explorer.

5. Menggunakan jadual kod yang ditunjukkan dalam Rajah. 3.1 A, menyahkod urutan kod berikut yang ditulis dalam sistem nombor binari:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Tentukan isipadu maklumat perkataan "Ekonomi", yang dikodkan menggunakan jadual kod SR866, SR1251, Unicode dan KOI8-R.

7. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna berukuran 12x12 cm Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 600 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 16 bit.

Resolusi pengimbas 600 dpi (inci titik - titik per inci) menentukan keupayaan pengimbas dengan resolusi ini untuk membezakan 600 titik pada segmen 1 inci.

8. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna bersaiz A4. Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 1200 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 24 bit.

9. Tentukan bilangan warna dalam palet pada kedalaman warna 8, 16, 24 dan 32 bit.

10. Tentukan jumlah memori video yang diperlukan untuk mod grafik skrin monitor 640 kali 480, 800 kali 600, 1024 kali 768 dan 1280 kali 1024 piksel dengan kedalaman warna piksel imej 8, 16, 24 dan 32 bit. Ringkaskan keputusan dalam jadual. Membangunkan dalam MS Excel program untuk mengautomasikan pengiraan.

11. Tentukan bilangan maksimum warna yang boleh digunakan untuk menyimpan imej berukuran 32 x 32 piksel, jika komputer mempunyai 2 KB memori yang diperuntukkan untuk imej.

12. Tentukan resolusi maksimum yang mungkin bagi skrin monitor dengan panjang pepenjuru 15" dan saiz titik imej 0.28 mm.

13. Apakah mod grafik monitor yang boleh disediakan oleh memori video 64 MB?

Kandungan

I. Sejarah pengekodan maklumat……………………………..3

II. Pengekodan maklumat……………………………………………………4

III. Pengekodan maklumat teks…………………………….4

IV. Jenis jadual pengekodan……………………………………………………...6

V. Pengiraan jumlah maklumat teks………………………………14

Senarai rujukan……………………………..16

saya . Sejarah pengekodan maklumat

Umat ​​manusia telah menggunakan penyulitan teks (pengekodan) sejak saat maklumat rahsia pertama muncul. Berikut adalah beberapa teknik pengekodan teks yang dicipta pada pelbagai peringkat perkembangan pemikiran manusia:

Kriptografi ialah penulisan rahsia, sistem mengubah tulisan untuk membuat teks tidak dapat difahami oleh yang belum tahu;

Kod Morse atau kod telegraf tidak sekata, di mana setiap huruf atau tanda diwakili oleh gabungan sendiri letusan asas pendek arus elektrik (titik) dan letusan asas tempoh tiga kali ganda (sempang);

bahasa isyarat ialah bahasa isyarat yang digunakan oleh orang yang mempunyai masalah pendengaran.

Salah satu kaedah penyulitan yang paling awal diketahui dinamakan sempena nama maharaja Rom Julius Caesar (abad pertama SM). Kaedah ini berdasarkan menggantikan setiap huruf teks yang disulitkan dengan yang lain, dengan mengalihkan abjad daripada huruf asal dengan bilangan aksara tetap, dan abjad dibaca dalam bulatan, iaitu, selepas huruf i, a dianggap . Jadi perkataan "bait", apabila dialihkan dua aksara ke kanan, dikodkan sebagai perkataan "gwlf". Proses terbalik untuk mentafsir perkataan yang diberikan adalah perlu untuk menggantikan setiap huruf yang disulitkan dengan yang kedua di sebelah kirinya.

II. Pengekodan maklumat

Kod ialah satu set konvensyen (atau isyarat) untuk merekod (atau berkomunikasi) beberapa konsep yang telah ditetapkan.

Pengekodan maklumat ialah proses membentuk perwakilan maklumat tertentu. Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.

Biasanya, setiap imej semasa pengekodan (kadangkala dipanggil penyulitan) diwakili oleh tanda yang berasingan.

Tanda ialah unsur bagi satu set unsur terhingga yang berbeza antara satu sama lain.

Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.

Anda boleh memproses maklumat teks pada komputer. Apabila dimasukkan ke dalam komputer, setiap huruf dikodkan dengan nombor tertentu, dan apabila output ke peranti luaran (skrin atau cetakan), imej huruf dibina daripada nombor ini untuk persepsi manusia. Korespondensi antara satu set huruf dan nombor dipanggil pengekodan aksara.

Sebagai peraturan, semua nombor dalam komputer diwakili menggunakan sifar dan satu (bukan sepuluh digit, seperti biasa untuk orang). Dalam erti kata lain, komputer biasanya beroperasi dalam sistem nombor binari, kerana ini menjadikan peranti untuk memprosesnya lebih mudah. Memasukkan nombor ke dalam komputer dan mengeluarkannya untuk bacaan manusia boleh dilakukan dalam bentuk perpuluhan biasa, dan semua penukaran yang diperlukan dilakukan oleh program yang dijalankan pada komputer.

III. Pengekodan maklumat teks

Maklumat yang sama boleh dibentangkan (dikodkan) dalam beberapa bentuk. Dengan kemunculan komputer, timbul keperluan untuk mengekod semua jenis maklumat yang ditangani oleh individu dan manusia secara keseluruhan. Tetapi manusia mula menyelesaikan masalah pengekodan maklumat jauh sebelum kemunculan komputer. Pencapaian hebat umat manusia - menulis dan mengira - tidak lebih daripada sistem pengekodan pertuturan dan maklumat berangka. Maklumat tidak pernah muncul dalam bentuk tulennya, ia sentiasa dibentangkan entah bagaimana, dikodkan entah bagaimana.

Pengekodan binari adalah salah satu cara biasa untuk mewakili maklumat. Dalam komputer, robot dan mesin yang dikawal secara berangka, sebagai peraturan, semua maklumat yang dikendalikan oleh peranti dikodkan dalam bentuk perkataan abjad binari.

Sejak lewat 60-an, komputer semakin digunakan untuk memproses maklumat teks, dan pada masa ini sebahagian besar komputer peribadi di dunia (dan kebanyakan masa) sibuk dengan memproses maklumat teks. Semua jenis maklumat dalam komputer ini dibentangkan dalam kod binari, iaitu, abjad kuasa dua digunakan (hanya dua aksara 0 dan 1). Ini disebabkan oleh fakta bahawa ia adalah mudah untuk mewakili maklumat dalam bentuk urutan impuls elektrik: tidak ada impuls (0), terdapat impuls (1).

Pengekodan sedemikian biasanya dipanggil binari, dan urutan logik sifar dan satu sendiri dipanggil bahasa mesin.

Dari sudut pandangan komputer, teks terdiri daripada aksara individu. Simbol termasuk bukan sahaja huruf (huruf besar atau kecil, Latin atau Rusia), tetapi juga nombor, tanda baca, aksara khas seperti "=", "(", "&", dll., dan juga (beri perhatian khusus!) ruang antara perkataan.

Teks dimasukkan ke dalam memori komputer menggunakan papan kekunci. Huruf, nombor, tanda baca dan simbol lain yang kita kenali ditulis pada kekunci. Mereka memasukkan RAM dalam kod binari. Ini bermakna setiap aksara diwakili oleh kod binari 8-bit.

Secara tradisinya, untuk mengekod satu aksara, jumlah maklumat yang sama dengan 1 bait digunakan, iaitu I = 1 bait = 8 bit. Menggunakan formula yang menghubungkan bilangan kemungkinan peristiwa K dan jumlah maklumat I, anda boleh mengira berapa banyak simbol berbeza boleh dikodkan (dengan mengandaikan bahawa simbol adalah peristiwa yang mungkin): K = 2 I = 2 8 = 256, iaitu untuk Untuk mewakili maklumat teks, anda boleh menggunakan abjad dengan kapasiti 256 aksara.

Bilangan aksara ini cukup memadai untuk mewakili maklumat teks, termasuk huruf besar dan huruf kecil abjad Rusia dan Latin, nombor, tanda, simbol grafik, dsb.

Pengekodan terdiri daripada memberikan setiap aksara kod perpuluhan unik dari 0 hingga 255 atau kod binari yang sepadan dari 00000000 hingga 11111111. Oleh itu, seseorang membezakan aksara dengan garis besarnya dan komputer dengan kodnya.

Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.

Dalam proses memaparkan simbol pada skrin komputer, proses terbalik dilakukan - penyahkodan, iaitu, menukar kod simbol ke dalam imejnya. Adalah penting bahawa memberikan kod khusus kepada simbol adalah perkara persetujuan, yang direkodkan dalam jadual kod.

Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara. Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.

Semua aksara abjad komputer dinomborkan dari 0 hingga 255. Setiap nombor sepadan dengan kod binari lapan bit dari 00000000 hingga 11111111. Kod ini hanyalah nombor siri aksara dalam sistem nombor binari.

IV . Jenis jadual pengekodan

Jadual di mana semua aksara abjad komputer diberikan nombor siri dipanggil jadual pengekodan.

Jenis komputer yang berbeza menggunakan jadual pengekodan yang berbeza.

Jadual kod ASCII (Kod Piawai Amerika untuk Pertukaran Maklumat) telah diterima pakai sebagai piawaian antarabangsa, mengekod separuh pertama aksara dengan kod angka dari 0 hingga 127 (kod dari 0 hingga 32 diberikan bukan kepada aksara, tetapi untuk kekunci berfungsi) .

Jadual kod ASCII dibahagikan kepada dua bahagian.

Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).

Struktur jadual pengekodan ASCII

Nombor siri Kod Simbol
0 - 31 00000000 - 00011111

Simbol dengan nombor dari 0 hingga 31 biasanya dipanggil simbol kawalan.

Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb.

32 - 127 0100000 - 01111111

Bahagian standard jadual (Bahasa Inggeris). Ini termasuk huruf kecil dan huruf besar abjad Latin, nombor perpuluhan, tanda baca, semua jenis kurungan, simbol komersial dan lain-lain.

Watak 32 ialah ruang, i.e. kedudukan kosong dalam teks.

Semua yang lain dicerminkan oleh tanda-tanda tertentu.

128 - 255 10000000 - 11111111

Bahagian alternatif jadual (Rusia).

Separuh kedua jadual kod ASCII, yang dipanggil halaman kod (128 kod, bermula dari 10000000 dan berakhir dengan 11111111), boleh mempunyai pilihan yang berbeza, setiap pilihan mempunyai nombor sendiri.

Halaman kod digunakan terutamanya untuk menampung abjad kebangsaan selain daripada Latin. Dalam pengekodan kebangsaan Rusia, aksara daripada abjad Rusia diletakkan di bahagian jadual ini.

Separuh pertama jadual kod ASCII

Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.

Untuk huruf abjad Rusia, prinsip pengekodan berurutan juga diperhatikan.

Separuh kedua jadual kod ASCII

Malangnya, pada masa ini terdapat lima pengekodan Cyrillic yang berbeza (KOI8-R, Windows. MS-DOS, Macintosh dan ISO). Oleh kerana itu, masalah sering timbul dengan memindahkan teks Rusia dari satu komputer ke komputer lain, dari satu sistem perisian ke yang lain.

Secara kronologi, salah satu piawaian pertama untuk pengekodan huruf Rusia pada komputer ialah KOI8 ("Kod Pertukaran Maklumat, 8-bit"). Pengekodan ini telah digunakan pada tahun 70-an pada komputer siri komputer ES, dan dari pertengahan 80-an ia mula digunakan dalam versi pertama sistem pengendalian UNIX yang telah dirussifikasikan.

Dari awal 90-an, masa penguasaan sistem pengendalian MS DOS, pengekodan CP866 kekal ("CP" bermaksud "Halaman Kod", "halaman kod").

Komputer Apple yang menjalankan sistem pengendalian Mac OS menggunakan pengekodan Mac mereka sendiri.

Selain itu, Pertubuhan Piawaian Antarabangsa (ISO) telah meluluskan pengekodan lain yang dipanggil ISO 8859-5 sebagai standard untuk bahasa Rusia.

Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251. Diperkenalkan oleh Microsoft; Dengan mengambil kira pengedaran luas sistem pengendalian (OS) dan produk perisian lain syarikat ini di Persekutuan Rusia, ia telah menemui pengedaran yang meluas.

Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode.

Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode merangkumi semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.

Perwakilan dalaman perkataan dalam ingatan komputer

menggunakan jadual ASCII

Kadang-kadang ia berlaku bahawa teks yang terdiri daripada huruf abjad Rusia yang diterima dari komputer lain tidak boleh dibaca - beberapa jenis "abracadabra" kelihatan pada skrin monitor. Ini berlaku kerana komputer menggunakan pengekodan aksara yang berbeza untuk bahasa Rusia.

Oleh itu, setiap pengekodan ditentukan oleh jadual kodnya sendiri. Seperti yang dapat dilihat daripada jadual, aksara yang berbeza diberikan kepada kod binari yang sama dalam pengekodan yang berbeza.

Sebagai contoh, jujukan kod angka 221, 194, 204 dalam pengekodan CP1251 membentuk perkataan "komputer", manakala dalam pengekodan lain ia akan menjadi set aksara yang tidak bermakna.

Nasib baik, dalam kebanyakan kes pengguna tidak perlu risau tentang transcoding dokumen teks, kerana ini dilakukan oleh program penukar khas yang terbina dalam aplikasi.

V . Pengiraan jumlah maklumat teks

Tugasan 1: Kod perkataan "Rom" menggunakan jadual pengekodan KOI8-R dan CP1251.

Penyelesaian:

Tugasan 2: Dengan mengandaikan bahawa setiap aksara dikodkan dalam satu bait, anggarkan isipadu maklumat ayat berikut:

"Paman saya mempunyai peraturan yang paling jujur,

Apabila saya jatuh sakit teruk,

Dia memaksa dirinya untuk menghormati

Dan saya tidak dapat memikirkan apa-apa yang lebih baik."

Penyelesaian: Frasa ini mempunyai 108 aksara, termasuk tanda baca, tanda petikan dan ruang. Kami mendarabkan nombor ini dengan 8 bit. Kami mendapat 108*8=864 bit.

Tugasan 3: Kedua-dua teks mengandungi bilangan aksara yang sama. Teks pertama ditulis dalam bahasa Rusia, dan yang kedua dalam bahasa suku Naguri, yang abjadnya terdiri daripada 16 aksara. Teks siapa yang mengandungi maklumat lanjut?

Penyelesaian:

1) I = K * a (isipadu maklumat teks adalah sama dengan hasil darab bilangan aksara dan berat maklumat satu aksara).

2) Kerana Kedua-dua teks mempunyai bilangan aksara (K) yang sama, maka perbezaannya bergantung pada kandungan maklumat satu aksara abjad (a).

3) 2 a1 = 32, i.e. a 1 = 5 bit, 2 a2 = 16, i.e. dan 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Ini bermakna bahawa teks yang ditulis dalam bahasa Rusia membawa 5/4 kali lebih banyak maklumat.

Tugasan 4: Saiz mesej, yang mengandungi 2048 aksara, ialah 1/512 MB. Tentukan kuasa abjad.

Penyelesaian:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - menukar isipadu maklumat mesej kepada bit.

2) a = I / K = 16384 /1024 = 16 bit - menyumbang satu aksara abjad.

3) 2*16*2048 = 65536 aksara – kuasa abjad yang digunakan.

Tugasan 5: Pencetak laser Canon LBP mencetak pada kelajuan purata 6.3 Kbps. Berapa lama masa yang diperlukan untuk mencetak dokumen 8 halaman, jika anda tahu bahawa satu halaman mempunyai purata 45 baris dan 70 aksara setiap baris (1 aksara - 1 bait)?

Penyelesaian:

1) Cari jumlah maklumat yang terkandung pada 1 halaman: 45 * 70 * 8 bit = 25200 bit

2) Cari jumlah maklumat pada 8 muka surat: 25200 * 8 = 201600 bit

3) Kami mengurangkan kepada unit ukuran biasa. Untuk melakukan ini, kami menukar Mbit kepada bit: 6.3*1024=6451.2 bit/saat.

4) Cari masa cetakan: 201600: 6451.2 =31 saat.

Bibliografi

1. Ageev V.M. Teori maklumat dan pengekodan: persampelan dan pengekodan maklumat pengukuran. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Asas teori maklumat dan pengekodan. - Kyiv, sekolah Vishcha, 1986.

3. Kaedah penyulitan teks yang paling mudah / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 p.

4. Ugrinovich N.D. Sains komputer dan teknologi maklumat. Buku teks untuk gred 10-11 / N.D. Ugrinovich. – M.: BINOM. Makmal Pengetahuan, 2003. – 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Bahan pembelajaran kendiri pada tajuk Kuliah 2

Pengekodan ASCII

Jadual pengekodan ASCII (ASCII - Kod Standard Amerika untuk Pertukaran Maklumat - Kod Standard Amerika untuk Pertukaran Maklumat).

Secara keseluruhan, 256 aksara berbeza boleh dikodkan menggunakan jadual pengekodan ASCII (Rajah 1). Jadual ini dibahagikan kepada dua bahagian: yang utama (dengan kod dari OOh hingga 7Fh) dan yang tambahan (dari 80h hingga FFh, di mana huruf h menunjukkan bahawa kod itu tergolong dalam sistem nombor perenambelasan).

Gambar 1

Untuk mengekod satu aksara daripada jadual, 8 bit (1 bait) diperuntukkan. Semasa memproses maklumat teks, satu bait mungkin mengandungi kod aksara tertentu - huruf, nombor, tanda baca, tanda tindakan, dsb. Setiap aksara mempunyai kod sendiri dalam bentuk integer. Dalam kes ini, semua kod dikumpul dalam jadual khas yang dipanggil jadual pengekodan. Dengan bantuan mereka, kod simbol ditukar kepada perwakilan yang boleh dilihat pada skrin monitor. Akibatnya, sebarang teks dalam memori komputer diwakili sebagai urutan bait dengan kod aksara.

Contohnya, perkataan hello! akan dikodkan seperti berikut (Jadual 1).

Jadual 1

Kod binari

kod perpuluhan

Rajah 1 menunjukkan aksara yang disertakan dalam pengekodan ASCII standard (Bahasa Inggeris) dan lanjutan (Rusia).

Separuh pertama jadual ASCII diseragamkan. Ia mengandungi kod kawalan (dari 00j hingga 20j dan 77j). Kod ini telah dialih keluar daripada jadual kerana ia tidak digunakan pada elemen teks. Tanda baca dan simbol matematik juga diletakkan di sini: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., huruf Latin besar dan kecil: 41h - A, 61h – a.

Separuh kedua jadual mengandungi fon kebangsaan, simbol pseudografik dari mana jadual boleh dibina, dan simbol matematik khas. Bahagian bawah jadual pengekodan boleh diganti menggunakan pemacu yang sesuai - mengawal program tambahan. Teknik ini membolehkan anda menggunakan beberapa fon dan muka taipnya.

Paparan untuk setiap kod simbol harus memaparkan imej simbol - bukan hanya kod digital, tetapi gambar yang sepadan, kerana setiap simbol mempunyai bentuknya sendiri. Penerangan tentang bentuk setiap aksara disimpan dalam memori paparan khas - penjana aksara. Penonjolan watak pada skrin paparan PC IBM, sebagai contoh, dijalankan menggunakan titik-titik membentuk matriks aksara. Setiap piksel dalam matriks sedemikian adalah elemen imej dan boleh menjadi terang atau gelap. Titik gelap dikodkan sebagai 0, titik terang (terang) sebagai 1. Jika anda mewakili piksel gelap dalam medan matriks tanda sebagai titik dan piksel terang sebagai asterisk, anda boleh menggambarkan bentuk simbol secara grafik.

Orang di negara yang berbeza menggunakan simbol untuk menulis perkataan dalam bahasa ibunda mereka. Hari ini, kebanyakan aplikasi, termasuk sistem e-mel dan penyemak imbas web, adalah 8-bit tulen, bermakna ia hanya boleh memaparkan dan menerima aksara 8-bit dengan betul, mengikut piawaian ISO-8859-1.

Terdapat lebih daripada 256 aksara di dunia (jika anda mengambil kira Cyrillic, Arab, Cina, Jepun, Korea dan Thai), dan semakin banyak aksara baharu muncul. Dan ini mewujudkan jurang berikut untuk ramai pengguna:

Anda tidak boleh menggunakan aksara daripada set pengekodan yang berbeza dalam dokumen yang sama. Memandangkan setiap dokumen teks menggunakan set pengekodan sendiri, terdapat kesukaran besar dengan pengecaman teks automatik.

Simbol baharu muncul (contohnya: Euro), akibatnya ISO membangunkan piawaian baharu, ISO-8859-15, yang hampir serupa dengan piawaian ISO-8859-1. Perbezaannya ialah jadual pengekodan ISO-8859-1 lama telah mengalih keluar simbol untuk mata wang lama yang tidak digunakan pada masa ini untuk memberi ruang kepada simbol yang baru diperkenalkan (seperti Euro). Akibatnya, pengguna mungkin mempunyai dokumen yang sama pada cakera mereka, tetapi dalam pengekodan yang berbeza. Penyelesaian kepada masalah ini ialah penggunaan satu set pengekodan antarabangsa yang dipanggil Pengekodan Universal atau Unikod.

Pengekodan Unicode

Piawaian ini dicadangkan pada tahun 1991 oleh organisasi bukan untung Unicode Consortium (Unicode Inc.). Penggunaan standard ini membolehkan anda mengekod sejumlah besar aksara daripada skrip yang berbeza: Dokumen Unicode boleh mengandungi aksara Cina, simbol matematik, huruf abjad Yunani, abjad Latin dan Cyrillic, dan penukaran halaman kod menjadi tidak diperlukan.

Standard ini terdiri daripada dua bahagian utama: set aksara universal (UCS) dan keluarga pengekodan (UTF, format transformasi Unicode). Set aksara universal menentukan surat-menyurat satu dengan satu antara aksara dan kod - elemen ruang kod yang mewakili integer bukan negatif. Keluarga pengekodan mentakrifkan perwakilan mesin bagi urutan kod UCS.

Piawaian Unicode dibangunkan untuk mencipta pengekodan aksara tunggal untuk semua bahasa bertulis moden dan banyak bahasa purba. Setiap aksara dalam piawaian ini dikodkan dengan 16 bit, yang membolehkan ia meliputi bilangan aksara yang tidak dapat dibandingkan dengan pengekodan 8-bit yang diterima sebelum ini. Satu lagi perbezaan penting antara Unicode dan sistem pengekodan lain ialah ia bukan sahaja memberikan kod unik kepada setiap aksara, tetapi juga mentakrifkan pelbagai ciri watak itu, contohnya:

    jenis aksara (huruf besar, huruf kecil, nombor, tanda baca, dsb.);

    atribut aksara (paparan dari kiri ke kanan atau kanan ke kiri, ruang, pemisah baris, dsb.);

    huruf besar atau huruf kecil yang sepadan (untuk huruf kecil dan huruf besar, masing-masing);

    nilai angka yang sepadan (untuk aksara angka).

Keseluruhan julat kod dari 0 hingga FFFF dibahagikan kepada beberapa subset standard, setiap satunya sepadan dengan abjad sesuatu bahasa atau dengan sekumpulan aksara khas yang serupa dalam fungsinya. Rajah di bawah mengandungi senarai umum subset Unicode 3.0 (Rajah 2).

Rajah 2

Piawaian Unicode adalah asas untuk menyimpan teks dalam banyak sistem komputer moden. Walau bagaimanapun, ia tidak serasi dengan kebanyakan protokol Internet kerana kodnya boleh mengandungi sebarang nilai bait, dan protokol biasanya menggunakan bait 00 - 1F dan FE - FF sebagai bait perkhidmatan. Untuk mencapai keserasian, beberapa format transformasi Unicode (UTF, Format Transformasi Unicode) telah dibangunkan, yang mana UTF-8 adalah yang paling biasa hari ini. Format ini mentakrifkan peraturan berikut untuk menukar setiap kod Unicode kepada satu set bait (satu hingga tiga) yang sesuai untuk pengangkutan melalui protokol Internet.

Di sini x,y,z menandakan bit kod sumber yang harus diekstrak, bermula dengan kod yang paling tidak signifikan, dan dimasukkan ke dalam bait hasil dari kanan ke kiri sehingga semua kedudukan yang ditentukan diisi.

Perkembangan lanjut standard Unicode dikaitkan dengan penambahan satah bahasa baharu, i.e. aksara dalam julat 10000 - 1FFFF, 20000 - 2FFFF, dsb., di mana ia sepatutnya memasukkan pengekodan untuk skrip bahasa mati yang tidak disertakan dalam jadual di atas. Format baharu, UTF-16, telah dibangunkan untuk mengekod aksara tambahan ini.

Jadi terdapat 4 cara utama untuk mengekod bait Unicode:

UTF-8: 128 aksara yang dikodkan dalam satu bait (format ASCII), 1920 aksara yang dikodkan dalam 2 bait ((Romawi, Yunani, Cyrillic, Koptik, Armenia, Ibrani, aksara Arab), 63488 aksara yang dikodkan dalam 3 bait (Cina, Jepun dll .) Baki 2,147,418,112 aksara (belum digunakan) boleh dikodkan dengan 4, 5 atau 6 bait.

UCS-2: Setiap aksara diwakili oleh 2 bait. Pengekodan ini hanya merangkumi 65,535 aksara pertama daripada format Unicode.

UTF-16: Sambungan UCS-2, ia mengandungi 1,114,112 aksara format Unicode. 65,535 aksara pertama diwakili oleh 2 bait, selebihnya dengan 4 bait.

USC-4: Setiap aksara dikodkan dalam 4 bait.