Unicode (Unicode dalam bahasa Inggeris) ialah standard pengekodan aksara. Ringkasnya, ini ialah jadual surat-menyurat antara aksara teks ( , huruf, elemen tanda baca) kod binari. Komputer hanya memahami urutan sifar dan satu. Supaya ia tahu apa sebenarnya yang perlu dipaparkan pada skrin, adalah perlu untuk menetapkan setiap watak nombor uniknya sendiri. Pada tahun lapan puluhan, aksara telah dikodkan dalam satu bait, iaitu lapan bit (setiap bit ialah 0 atau 1). Oleh itu, ternyata satu jadual (aka pengekodan atau set) hanya boleh memuatkan 256 aksara. Ini mungkin tidak mencukupi walaupun untuk satu bahasa. Oleh itu, banyak pengekodan berbeza muncul, kekeliruan yang sering menyebabkan beberapa omong kosong aneh muncul pada skrin dan bukannya teks yang boleh dibaca. Satu standard diperlukan, iaitu Unicode menjadi. Pengekodan yang paling banyak digunakan ialah UTF-8 (Format Transformasi Unikod), yang menggunakan 1 hingga 4 bait untuk mewakili aksara.
Simbol
Aksara dalam jadual Unicode dinomborkan dengan nombor perenambelasan. Sebagai contoh, huruf besar Cyrillic M ditetapkan sebagai U+041C. Ini bermakna ia terletak di persimpangan baris 041 dan lajur C. Anda hanya boleh menyalinnya dan kemudian menampalnya di suatu tempat. Untuk tidak menyelongkar senarai berbilang kilometer, anda harus menggunakan carian. Apabila anda pergi ke halaman simbol, anda akan melihat nombor Unikodnya dan cara ia ditulis dalam fon yang berbeza. Anda boleh memasukkan tanda itu sendiri ke dalam bar carian, walaupun segi empat sama dilukis sebaliknya, sekurang-kurangnya untuk mengetahui perkara itu. Juga, di laman web ini terdapat set khas (dan rawak) daripada jenis ikon yang sama, dikumpulkan dari bahagian yang berbeza, untuk kemudahan penggunaan.
Piawaian Unicode adalah antarabangsa. Ia termasuk watak dari hampir semua skrip dunia. Termasuk yang tidak digunakan lagi. Hieroglif Mesir, rune Jerman, tulisan Maya, cuneiform dan abjad negeri purba. Penetapan berat dan sukatan, notasi muzik, dan konsep matematik juga dibentangkan.
Konsortium Unicode sendiri tidak mencipta aksara baharu. Ikon yang didapati digunakan dalam masyarakat ditambahkan pada jadual. Sebagai contoh, tanda ruble telah digunakan secara aktif selama enam tahun sebelum ia ditambahkan pada Unicode. Piktogram emoji (emotikon) juga pertama kali digunakan secara meluas di Jepun sebelum ia dimasukkan dalam pengekodan. Tetapi tanda dagangan dan logo syarikat tidak ditambah pada dasarnya. Malah yang biasa seperti epal Apple atau bendera Windows. Sehingga kini, kira-kira 120 ribu aksara dikodkan dalam versi 8.0.
Dis | Hex | Simbol | Dis | Hex | Simbol | |
000 | 00 | pakar. TIDAK | 128 | 80 | Ђ | |
001 | 01 | pakar. SOH | 129 | 81 | Ѓ | |
002 | 02 | pakar. STX | 130 | 82 | ‚ | |
003 | 03 | pakar. ETX | 131 | 83 | ѓ | |
004 | 04 | pakar. EOT | 132 | 84 | „ | |
005 | 05 | pakar. ENQ | 133 | 85 | … | |
006 | 06 | pakar. ACK | 134 | 86 | † | |
007 | 07 | pakar. BEL | 135 | 87 | ‡ | |
008 | 08 | pakar. B.S. | 136 | 88 | € | |
009 | 09 | pakar. TAB | 137 | 89 | ‰ | |
010 | 0A | pakar. LF | 138 | 8A | Љ | |
011 | 0B | pakar. VT | 139 | 8B | ‹ ‹ | |
012 | 0C | pakar. FF | 140 | 8C | Њ | |
013 | 0D | pakar. CR | 141 | 8D | Ќ | |
014 | 0E | pakar. JADI | 142 | 8E | Ћ | |
015 | 0F | pakar. S.I. | 143 | 8F | Џ | |
016 | 10 | pakar. DLE | 144 | 90 | ђ | |
017 | 11 | pakar. DC1 | 145 | 91 | ‘ | |
018 | 12 | pakar. DC2 | 146 | 92 | ’ | |
019 | 13 | pakar. DC3 | 147 | 93 | “ | |
020 | 14 | pakar. DC4 | 148 | 94 | ” | |
021 | 15 | pakar. N.A.K. | 149 | 95 | ||
022 | 16 | pakar. SYN | 150 | 96 | – | |
023 | 17 | pakar. ETB | 151 | 97 | — | |
024 | 18 | pakar. BOLEH | 152 | 98 | ||
025 | 19 | pakar. E.M. | 153 | 99 | ™ | |
026 | 1A | pakar. SUB | 154 | 9A | љ | |
027 | 1B | pakar. ESC | 155 | 9B | › | |
028 | 1C | pakar. FS | 156 | 9C | њ | |
029 | 1D | pakar. G.S. | 157 | 9D | ќ | |
030 | 1E | pakar. R.S. | 158 | 9E | ћ | |
031 | 1F | pakar. AS | 159 | 9F | џ | |
032 | 20 | klac SP (Angkasa) | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | " | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | " | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Yo | |
041 | 29 | ) | 169 | A9 | © | |
042 | 2A | * | 170 | A.A. | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | A.C. | ¬ | |
045 | 2D | - | 173 | AD | | |
046 | 2E | . | 174 | A.E. | ® | |
047 | 2F | / | 175 | A.F. | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | e | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | B.A. | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | B.C. | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | JADILAH | ѕ | |
063 | 3F | ? | 191 | B.F. | ї | |
064 | 40 | @ | 192 | C0 | A | |
065 | 41 | A | 193 | C1 | B | |
066 | 42 | B | 194 | C2 | DALAM | |
067 | 43 | C | 195 | C3 | G | |
068 | 44 | D | 196 | C4 | D | |
069 | 45 | E | 197 | C5 | E | |
070 | 46 | F | 198 | C6 | DAN | |
071 | 47 | G | 199 | C7 | Z | |
072 | 48 | H | 200 | C8 | DAN | |
073 | 49 | saya | 201 | C9 | Y | |
074 | 4A | J | 202 | C.A. | KEPADA | |
075 | 4B | K | 203 | C.B. | L | |
076 | 4C | L | 204 | CC | M | |
077 | 4D | M | 205 | CD | N | |
078 | 4E | N | 206 | C.E. | TENTANG | |
079 | 4F | O | 207 | CF | P | |
080 | 50 | P | 208 | D0 | R | |
081 | 51 | Q | 209 | D1 | DENGAN | |
082 | 52 | R | 210 | D2 | T | |
083 | 53 | S | 211 | D3 | U | |
084 | 54 | T | 212 | D4 | F | |
085 | 55 | U | 213 | D5 | X | |
086 | 56 | V | 214 | D6 | C | |
087 | 57 | W | 215 | D7 | H | |
088 | 58 | X | 216 | D8 | Sh | |
089 | 59 | Y | 217 | D9 | SCH | |
090 | 5A | Z | 218 | D.A. | Kommersant | |
091 | 5B | [ | 219 | D.B. | Y | |
092 | 5C | \ | 220 | DC | b | |
093 | 5D | ] | 221 | DD | E | |
094 | 5E | ^ | 222 | DE | YU | |
095 | 5F | _ | 223 | DF | saya | |
096 | 60 | ` | 224 | E0 | A | |
097 | 61 | a | 225 | E1 | b | |
098 | 62 | b | 226 | E2 | V | |
099 | 63 | c | 227 | E3 | G | |
100 | 64 | d | 228 | E4 | d | |
101 | 65 | e | 229 | E5 | e | |
102 | 66 | f | 230 | E6 | dan | |
103 | 67 | g | 231 | E7 | h | |
104 | 68 | h | 232 | E8 | Dan | |
105 | 69 | i | 233 | E9 | ke | |
106 | 6A | j | 234 | E.A. | Kepada | |
107 | 6B | k | 235 | E.B. | l | |
108 | 6C | l | 236 | E.C. | m | |
109 | 6D | m | 237 | ED | n | |
110 | 6E | n | 238 | E.E. | O | |
111 | 6F | o | 239 | E.F. | P | |
112 | 70 | hlm | 240 | F0 | R | |
113 | 71 | q | 241 | F1 | Dengan | |
114 | 72 | r | 242 | F2 | T | |
115 | 73 | s | 243 | F3 | di | |
116 | 74 | t | 244 | F4 | f | |
117 | 75 | u | 245 | F5 | X | |
118 | 76 | v | 246 | F6 | ts | |
119 | 77 | w | 247 | F7 | h | |
120 | 78 | x | 248 | F8 | w | |
121 | 79 | y | 249 | F9 | sch | |
122 | 7A | z | 250 | F.A. | ъ | |
123 | 7B | { | 251 | FB | s | |
124 | 7C | | | 252 | F.C. | b | |
125 | 7D | } | 253 | FD | eh | |
126 | 7E | ~ | 254 | F.E. | Yu | |
127 | 7F | Pakar. DEL | 255 | FF | saya |
Jadual kod aksara Windows ASCII.
Perihalan watak khas (kawalan).
Perlu diingatkan bahawa aksara kawalan jadual ASCII pada asalnya digunakan untuk memastikan pertukaran data melalui teletypewriter, kemasukan data daripada pita tebuk, dan untuk kawalan mudah peranti luaran. Pada masa ini, kebanyakan aksara kawalan jadual ASCII tidak lagi membawa beban ini dan boleh digunakan untuk tujuan lain.
Kod | Penerangan |
---|---|
NUL, 00 | Null, kosong |
SOH, 01 | Permulaan Tajuk |
STX, 02 | Permulaan TeXt, permulaan teks. |
ETX, 03 | Tamat TeXt, akhir teks |
EOT, 04 | Tamat Penghantaran, tamat penghantaran |
ENQ, 05 | Tanya. Tolong sahkan |
ACK, 06 | Pengakuan. Saya mengesahkan |
BEL, 07 | Bell, panggil |
BS, 08 | Ruang belakang, kembali satu aksara |
TAB, 09 | Tab, tab mendatar |
LF, 0A | Suapan Baris, suapan baris. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \n |
VT, 0B | Tab Menegak, penjadualan menegak. |
FF, 0C | Suapan Borang, suapan halaman, halaman baharu |
CR, 0D | Pulang gerabak, pemulangan gerabak. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \r |
JADI,0E | Shift Out, tukar warna reben dakwat dalam peranti pencetakan |
SI, 0F | Shift In, kembalikan warna reben dakwat dalam peranti pencetakan semula |
DLE, 10 | Data Link Escape, menukar saluran kepada penghantaran data |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Kawalan Peranti, simbol kawalan peranti |
NAK, 15 | Pengakuan Negatif, saya tidak mengesahkan. |
SYN, 16 | Penyegerakan. Simbol penyegerakan |
ETB, 17 | Tamat Blok Teks, hujung blok teks |
BOLEH, 18 | Batal, pembatalan yang dihantar sebelum ini |
EM, 19 | Akhir Sederhana |
SUB, 1A | Pengganti, pengganti. Diletakkan di tempat simbol yang maknanya hilang atau rosak semasa penghantaran |
ESC, 1B | Urutan Kawalan Melarikan Diri |
FS, 1C | Pemisah Fail, pemisah fail |
GS, 1D | Pemisah Kumpulan |
RS, 1E | Pemisah Rekod, pemisah rekod |
AS, 1F | Pemisah Unit |
DEL, 7F | Padam, padam aksara terakhir. |
Setiap komputer mempunyai set aksara sendiri yang dilaksanakannya. Set ini mengandungi 26 huruf besar dan kecil, nombor dan aksara khas (titik, ruang, dsb.). Apabila ditukar kepada integer, simbol dipanggil kod. Piawaian telah dibangunkan supaya komputer mempunyai set kod yang sama.
Piawaian ASCII
ASCII (American Standard Code for Information Interchange) ialah kod standard Amerika untuk pertukaran maklumat. Setiap aksara ASCII mempunyai 7 bit, jadi bilangan maksimum aksara ialah 128 (Jadual 1). Kod 0 hingga 1F ialah aksara kawalan yang tidak dicetak. Banyak aksara ASCII yang tidak boleh dicetak diperlukan untuk menghantar data. Sebagai contoh, mesej mungkin terdiri daripada aksara permulaan pengepala SOH, pengepala itu sendiri dan aksara permulaan teks STX, teks itu sendiri dan aksara akhir teks ETX, dan akhir penghantaran. watak EOT. Walau bagaimanapun, data melalui rangkaian dihantar dalam paket, yang bertanggungjawab untuk permulaan dan akhir penghantaran. Jadi aksara yang tidak boleh dicetak hampir tidak pernah digunakan.
Jadual 1 - Jadual kod ASCII
Nombor | Pasukan | Maknanya | Nombor | Pasukan | Maknanya |
---|---|---|---|---|---|
0 | NUL | Penunjuk nol | 10 | DLE | Keluar dari sistem penghantaran |
1 | SOH | permulaan tajuk | 11 | DC1 | Pengurusan peranti |
2 | STX | Permulaan teks | 12 | DC2 | Pengurusan peranti |
3 | ETX | Akhir teks | 13 | DC3 | Pengurusan peranti |
4 | EOT | Tamat penghantaran | 14 | DC4 | Pengurusan peranti |
5 | ACK | Permintaan | 15 | N.A.K. | Tidak pengesahan penerimaan |
6 | BEL | Pengesahan penerimaan | 16 | SYN | Mudah |
7 | B.S. | Simbol loceng | 17 | ETB | Tamat blok penghantaran |
8 | HT | Berundur | 18 | BOLEH | Tandakan |
9 | LF | Penjadualan mendatar | 19 | E.M. | Tamat media |
A | VT | Terjemahan baris | 1A | SUB | Subskrip |
B | FF | Tab menegak | 1B | ESC | Keluar |
C | CR | Terjemahan halaman | 1C | FS | Pemisah fail |
D | JADI | Pulangan pengangkutan | 1D | G.S. | Pemisah kumpulan |
E | S.I. | Beralih ke daftar tambahan | 1E | R.S. | Pemisah rekod |
S.I. | Tukar kepada kes standard | 1F | AS | Pemisah modul |
Nombor | Simbol | Nombor | Simbol | Nombor | Simbol | Nombor | Simbol | Nombor | Simbol | Nombor | Simbol |
---|---|---|---|---|---|---|---|---|---|---|---|
20 | angkasa lepas | 30 | 0 | 40 | @ | 50 | P | 60 | . | 70 | hlm |
21 | ! | 31 | 1 | 41 | A | 51 | Q | 61 | a | 71 | q |
22 | ‘ | 32 | 2 | 42 | B | 52 | R | 62 | b | 72 | r |
23 | # | 33 | 3 | 43 | C | 53 | S | 63 | c | 73 | s |
24 | φ | 34 | 4 | 44 | D | 54 | T | 64 | d | 74 | t |
25 | % | 35 | 5 | 45 | E | 55 | DAN | 65 | e | 75 | Dan |
26 | & | 36 | 6 | 46 | F | 56 | V | 66 | f | 76 | v |
27 | ‘ | 37 | 7 | 47 | G | 57 | W | 67 | g | 77 | w |
28 | ( | 38 | 8 | 48 | H | 58 | X | 68 | h | 78 | x |
29 | ) | 39 | 9 | 49 | saya | 59 | Y | 69 | i | 70 | y |
2A | ‘ | 3A | ; | 4A | J | 5A | Z | 6A | j | 7A | z |
2B | + | 3B | ; | 4B | K | 5B | [ | 6B | k | 7B | { |
2C | ‘ | 3C | < | 4C | L | 5C | \ | 6C | l | 7C | | |
2D | — | 3D | = | 4D | M | 5D | ] | 6D | m | 7D | } |
2E | 3E | > | 4E | N | 5E | — | 6E | n | 7E | ~ | |
2F | / | 3F | g | 4F | O | 5F | _ | 6F | o | 7F | DEL |
Piawaian Unicode
Pengekodan sebelumnya bagus untuk bahasa Inggeris, tetapi ia tidak sesuai untuk bahasa lain. Contohnya, bahasa Jerman mempunyai umlaut, dan bahasa Perancis mempunyai superskrip. Sesetengah bahasa mempunyai abjad yang sama sekali berbeza. Percubaan pertama untuk melanjutkan ASCII ialah IS646, yang melanjutkan pengekodan sebelumnya dengan tambahan 128 aksara. Huruf Latin dengan sebatan dan diakritik telah ditambah, dan menerima nama - Latin 1. Percubaan seterusnya ialah IS 8859 - yang mengandungi halaman kod. Terdapat juga percubaan pada sambungan, tetapi ini tidak universal. Pengekodan UNICODE telah dibuat (ialah 10646). Idea di sebalik pengekodan adalah untuk memberikan setiap aksara nilai 16-bit malar tunggal, yang dipanggil - penunjuk kod. Secara keseluruhan terdapat 65536 petunjuk. Untuk menjimatkan ruang, kami menggunakan Latin-1 untuk kod 0 -255, menukar ASII kepada UNICODE dengan mudah. Piawaian ini menyelesaikan banyak masalah, tetapi bukan semua. Disebabkan oleh kedatangan perkataan baru, contohnya, untuk bahasa Jepun, jumlah istilah perlu ditambah kira-kira 20 ribu. Ia juga perlu memasukkan braille.
Seperti yang anda ketahui, komputer menyimpan maklumat dalam bentuk binari, mewakilinya sebagai urutan satu dan sifar. Untuk menterjemah maklumat ke dalam bentuk yang sesuai untuk persepsi manusia, setiap urutan nombor unik digantikan dengan simbol yang sepadan apabila dipaparkan.
Salah satu sistem untuk mengaitkan kod binari dengan aksara bercetak dan kawalan ialah
Pada tahap perkembangan teknologi komputer semasa, pengguna tidak perlu mengetahui kod setiap watak tertentu. Walau bagaimanapun, pemahaman umum tentang cara pengekodan dijalankan amat berguna, dan untuk sesetengah kategori pakar, malah diperlukan.
Mencipta ASCII
Pengekodan pada asalnya dibangunkan pada tahun 1963 dan kemudian dikemas kini dua kali dalam tempoh 25 tahun.
Dalam versi asal, jadual aksara ASCII termasuk 128 aksara; kemudian versi lanjutan muncul, di mana 128 aksara pertama telah disimpan, dan aksara yang hilang sebelum ini diberikan kepada kod dengan bit kelapan terlibat.
Selama bertahun-tahun, pengekodan ini adalah yang paling popular di dunia. Pada tahun 2006, Latin 1252 mengambil kedudukan utama, dan dari penghujung tahun 2007 hingga kini, Unicode telah memegang kedudukan utama dengan kukuh.
Perwakilan komputer ASCII
Setiap aksara ASCII mempunyai kodnya sendiri, terdiri daripada 8 aksara yang mewakili sifar atau satu. Nombor minimum dalam perwakilan ini ialah sifar (lapan sifar dalam sistem binari), iaitu kod elemen pertama dalam jadual.
Dua kod dalam jadual telah dikhaskan untuk bertukar antara AS-ASCII standard dan varian nasionalnya.
Selepas ASCII mula memasukkan bukan 128, tetapi 256 aksara, varian pengekodan menjadi meluas, di mana versi asal jadual disimpan dalam 128 kod pertama dengan sifar bit ke-8. Aksara bertulis kebangsaan disimpan di bahagian atas jadual (kedudukan 128-255).
Pengguna tidak perlu mengetahui kod aksara ASCII secara langsung. Pembangun perisian biasanya hanya perlu mengetahui nombor elemen dalam jadual untuk mengira kodnya menggunakan sistem binari jika perlu.
Bahasa Rusia
Selepas pembangunan pengekodan untuk bahasa Scandinavia, Cina, Korea, Yunani, dll. pada awal 70-an, Kesatuan Soviet mula mencipta versinya sendiri. Tidak lama kemudian, versi pengekodan 8-bit yang dipanggil KOI8 telah dibangunkan, mengekalkan 128 kod aksara ASCII yang pertama dan memperuntukkan bilangan kedudukan yang sama untuk huruf abjad kebangsaan dan aksara tambahan.
Sebelum pengenalan Unicode, KOI8 menguasai segmen Internet Rusia. Terdapat pilihan pengekodan untuk kedua-dua abjad Rusia dan Ukraine.
masalah ASCII
Memandangkan bilangan elemen walaupun dalam jadual lanjutan tidak melebihi 256, tidak ada kemungkinan untuk menampung beberapa skrip berbeza dalam satu pengekodan. Pada tahun 90-an, masalah "crocozyabr" muncul di Runet, apabila teks yang ditaip dalam aksara ASCII Rusia dipaparkan dengan tidak betul.
Masalahnya ialah kod ASCII yang berbeza tidak sepadan antara satu sama lain. Mari kita ingat bahawa pelbagai aksara boleh ditempatkan di kedudukan 128-255, dan apabila menukar satu pengekodan Cyrillic kepada yang lain, semua huruf teks digantikan dengan yang lain yang mempunyai nombor yang sama dalam versi pengekodan yang berbeza.
Keadaan sekarang
Dengan kemunculan Unicode, populariti ASCII mula merosot dengan mendadak.
Sebabnya terletak pada hakikat bahawa pengekodan baharu memungkinkan untuk menampung aksara daripada hampir semua bahasa bertulis. Dalam kes ini, 128 aksara ASCII yang pertama sepadan dengan aksara yang sama dalam Unicode.
Pada tahun 2000, ASCII ialah pengekodan paling popular di Internet dan digunakan pada 60% halaman web yang diindeks oleh Google. Menjelang 2012, bahagian halaman sedemikian telah menurun kepada 17%, dan Unicode (UTF-8) menggantikan pengekodan yang paling popular.
Oleh itu, ASCII adalah bahagian penting dalam sejarah teknologi maklumat, tetapi penggunaannya pada masa hadapan nampaknya tidak menjanjikan.
Mari kita ingat beberapa fakta yang kita tahu:
Set simbol yang digunakan untuk menulis teks dipanggil abjad.
Bilangan aksara dalam abjad ialah kardinalitinya.
Formula untuk menentukan jumlah maklumat: N = 2 b,
di mana N ialah kuasa abjad (bilangan aksara),
b - bilangan bit (berat maklumat simbol).
Abjad, dengan kapasiti 256 aksara, boleh memuatkan hampir semua aksara yang diperlukan. Abjad sedemikian dipanggil mencukupi.
Kerana 256 = 2 8 , maka berat 1 aksara ialah 8 bit.
Unit ukuran 8 bit diberi nama 1 bait:
1 bait = 8 bit.
Kod binari setiap aksara dalam teks komputer mengambil 1 bait memori.
Bagaimanakah maklumat teks diwakili dalam ingatan komputer?
Pengekodan terdiri daripada memberikan setiap aksara kod perpuluhan unik dari 0 hingga 255 atau kod binari yang sepadan dari 00000000 hingga 11111111. Oleh itu, seseorang membezakan aksara dengan garis besarnya dan komputer dengan kodnya. |
Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.
Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara.
Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.
Jadual ASCII telah menjadi piawaian antarabangsa untuk PC (baca tanya) (Kod Standard Amerika untuk Pertukaran Maklumat).
Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).
Nombor siri | Simbol |
|
00000000 - 00011111 |
|
|
32 - 127 | 00100000 - 01111111 |
|
128 - 255 | 10000000 - 11111111 |
|
|
Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.
Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251.
Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode . Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode merangkumi semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.
Mari cuba gunakan jadual ASCII untuk bayangkan rupa perkataan dalam ingatan komputer.
Kata-kata | Ingatan |
01100110 01101001 01101100 01100101 |
|
01100100 01101001 01110011 01101011 |
Apabila memasukkan maklumat teks ke dalam komputer, aksara (huruf, nombor, tanda) dikodkan menggunakan pelbagai sistem kod, yang terdiri daripada satu set jadual kod yang terletak pada halaman piawaian yang sepadan untuk pengekodan maklumat teks. Dalam jadual sedemikian, setiap aksara diberikan kod berangka tertentu dalam sistem nombor perenambelasan atau perpuluhan, iaitu, jadual kod menggambarkan kesesuaian antara imej simbol dan kod angka dan bertujuan untuk pengekodan dan penyahkodan maklumat teks. Apabila memasukkan maklumat teks menggunakan papan kekunci komputer, setiap aksara yang dimasukkan dikodkan, iaitu, ditukar kepada kod angka; apabila maklumat teks dikeluarkan kepada peranti output komputer (paparan, pencetak atau plotter), imejnya dibina menggunakan kod angka watak. Penyerahan kod berangka tertentu kepada simbol adalah hasil perjanjian antara organisasi berkaitan di negara yang berbeza. Pada masa ini, tiada satu jadual kod universal yang sepadan dengan huruf abjad kebangsaan negara yang berbeza.
Jadual kod moden termasuk bahagian antarabangsa dan kebangsaan, iaitu ia mengandungi huruf Latin dan abjad kebangsaan, nombor, operasi aritmetik dan tanda baca, simbol matematik dan kawalan, dan simbol pseudografik. Bahagian antarabangsa jadual kod berdasarkan standard ASCII (Kod Standard Amerika untuk Pertukaran Maklumat), mengekod separuh pertama aksara dalam jadual kod dengan kod angka dari 0 hingga 7 F 16, atau dalam sistem nombor perpuluhan dari 0 hingga 127. Dalam kes ini, kod dari 0 hingga 20 16 (0 ? 32 10) diberikan kepada kekunci fungsi (F1, F2, F3, dsb.) papan kekunci komputer peribadi. Dalam Rajah. 3.1 menunjukkan bahagian antarabangsa jadual kod berdasarkan standard ASCII. Sel jadual dinomborkan dalam sistem nombor perpuluhan dan heksadesimal, masing-masing.
Rajah 3.1. Bahagian antarabangsa jadual kod (standard ASCII) dengan nombor sel dipersembahkan dalam sistem nombor perpuluhan (a) dan heksadesimal (b).
Bahagian kebangsaan jadual kod mengandungi kod abjad kebangsaan, yang juga dipanggil jadual set aksara (set aksara).
Pada masa ini, untuk menyokong huruf abjad Rusia (Cyrillic), terdapat beberapa jadual kod (pengekodan) yang digunakan oleh pelbagai sistem pengendalian, yang merupakan kelemahan yang ketara dan dalam beberapa kes membawa kepada masalah yang berkaitan dengan operasi penyahkodan nilai aksara angka. Dalam jadual 3.1 menunjukkan nama halaman kod (standard) di mana jadual kod Cyrillic (pengekodan) terletak.
Jadual 3.1Salah satu piawaian pertama untuk pengekodan abjad Cyrillic pada komputer ialah standard KOI8-R. Bahagian kebangsaan jadual kod piawaian ini ditunjukkan dalam Rajah. 3.2.
nasi. 3.2. Bahagian kebangsaan jadual kod standard KOI8-R
Pada masa ini, jadual kod yang terletak pada halaman CP866 standard pengekodan maklumat teks, yang digunakan dalam sistem pengendalian, juga digunakan MS DOS atau sesi MS DOS untuk pengekodan abjad Cyrillic (Rajah 3.3, A).
nasi. 3.3. Bahagian kebangsaan jadual kod, terletak pada halaman CP866 (a) dan pada halaman CP1251 (b) standard pengekodan maklumat teks
Pada masa ini, jadual kod yang paling banyak digunakan untuk pengekodan abjad Cyrillic terletak pada halaman CP1251 standard yang sepadan, yang digunakan dalam sistem pengendalian keluarga Windows syarikat Microsoft(Gamb. 3.2, b). Dalam semua jadual kod yang dibentangkan, kecuali jadual standard Unicode Untuk mengekod satu aksara, 8 digit binari (8 bit) diperuntukkan.
Pada penghujung abad yang lalu, satu piawaian antarabangsa baru muncul Unicode di mana satu aksara diwakili sebagai kod binari dua bait. Penggunaan piawaian ini adalah kesinambungan pembangunan piawaian antarabangsa sejagat untuk menyelesaikan masalah keserasian pengekodan aksara kebangsaan. Menggunakan standard ini, 2 16 = 65536 aksara berbeza boleh dikodkan. Dalam Rajah. 3.4 menunjukkan jadual kod 0400 (abjad Rusia) standard Unicode.
![](https://i1.wp.com/caspian72.ru/wp-content/uploads/2018/1567769-566x367.png)
nasi. 3.4. Jadual kod Unicode 0400
Mari kita terangkan apa yang telah diperkatakan mengenai pengekodan maklumat teks menggunakan contoh.
Contoh 3.1Kod perkataan "Komputer" sebagai jujukan nombor perpuluhan dan heksadesimal menggunakan pengekodan CP1251. Apakah aksara yang akan dipaparkan dalam jadual kod CP866 dan KOI8-R apabila menggunakan kod yang diterima.
Urutan kod perenambelasan dan binari perkataan "Komputer" berdasarkan jadual pengekodan CP1251 (lihat Rajah 3.3, b) akan kelihatan seperti ini:
Urutan kod dalam pengekodan SR866 dan KOI8-R ini akan menghasilkan paparan aksara berikut:
Untuk menukar dokumen teks bahasa Rusia dari satu standard pengekodan maklumat teks kepada yang lain, program khas digunakan - penukar. Penukar biasanya dibina ke dalam program lain. Contohnya ialah program penyemak imbas - Internet Explorer (IE), yang mempunyai penukar terbina dalam. Program pelayar ialah program khas untuk melihat kandungan. laman sesawang pada rangkaian komputer global Internet. Mari gunakan program ini untuk mengesahkan hasil pemetaan simbol yang diperolehi dalam contoh 3.1. Untuk melakukan ini, kami akan melakukan langkah-langkah berikut.
1. Lancarkan program Notepad (NotePad). Program Notepad dalam sistem pengendalian Windows XP dilancarkan menggunakan arahan: [Button Mulakan– Program – Standard – Notepad]. Dalam tetingkap program Notepad yang terbuka, taip perkataan "Komputer" menggunakan sintaks bahasa penanda dokumen hiperteks - HTML (Bahasa Penanda Teks Hiper). Bahasa ini digunakan untuk membuat dokumen di Internet. Teks sepatutnya kelihatan seperti ini:
Computerwater
, Di manaDan
tag (binaan khas) bahasa HTML untuk penanda pengepala. Dalam Rajah. Rajah 3.5 menunjukkan keputusan tindakan ini.![](https://i2.wp.com/caspian72.ru/wp-content/uploads/2018/0d0-i_056.png)
nasi. 3.5. Memaparkan teks dalam tetingkap Notepad
Mari kita simpan teks ini dengan melaksanakan arahan: [Fail - Simpan sebagai...] dalam folder yang sesuai pada komputer; apabila menyimpan teks, kami akan memberi nama fail - Nota, dengan sambungan fail. html.
2. Jom lancarkan program Internet Explorer, dengan melaksanakan arahan: [Button Mulakan- Program - Internet Explorer]. Apabila anda memulakan program, tetingkap yang ditunjukkan dalam Rajah. 3.6
![](https://i2.wp.com/caspian72.ru/wp-content/uploads/2018/dbscreen888d.png)
nasi. 3.6. Tetingkap akses luar talian
Pilih dan aktifkan butang Luar talian Dalam kes ini, komputer tidak akan bersambung ke Internet global. Tetingkap program utama akan muncul Microsoft Internet Explorer, ditunjukkan dalam Rajah. 3.7.
nasi. 3.7. Tetingkap utama Microsoft Internet Explorer
Mari laksanakan arahan berikut: [Fail – Buka], tetingkap akan muncul (Gamb. 3.8), di mana anda perlu menentukan nama fail dan klik butang okey atau tekan butang Semak… dan cari fail Prim.html.
![](https://i0.wp.com/caspian72.ru/wp-content/uploads/2018/fpic848fdfb2d.png)
nasi. 3.8. Buka tingkap
Tetingkap utama program Internet Explorer akan mengambil bentuk yang ditunjukkan dalam Rajah. 3.9. Perkataan "Komputer" akan muncul dalam tetingkap. Seterusnya, menggunakan menu atas program Internet Explorer, jalankan arahan berikut: [View – Encoding – Cyrillic (DOS)]. Selepas melaksanakan arahan ini dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah. akan dipaparkan. 3.10. Apabila melaksanakan arahan: [Lihat – Pengekodan – Cyrillic (KOI8-R) ] dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah. akan dipaparkan. 3.11.
nasi. 3.9. Aksara dipaparkan dengan pengekodan CP1251
nasi. 3.10. Aksara dipaparkan apabila pengekodan CP866 didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251
nasi. 3.11. Aksara dipaparkan apabila pengekodan KOI8-R didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251
Oleh itu, diperolehi menggunakan program internet Explorer jujukan aksara bertepatan dengan jujukan aksara yang diperoleh menggunakan jadual kod CP866 dan KOI8-R dalam contoh 3.1.
3.2. Pengekodan maklumat grafik
Maklumat grafik yang dipersembahkan dalam bentuk gambar, gambar, slaid, imej bergerak (animasi, video), gambar rajah, lukisan boleh dibuat dan disunting menggunakan komputer, dan ia dikodkan dengan sewajarnya. Pada masa ini, terdapat sejumlah besar program aplikasi untuk memproses maklumat grafik, tetapi semuanya melaksanakan tiga jenis grafik komputer: raster, vektor dan fraktal.
Jika anda melihat lebih dekat pada imej grafik pada skrin monitor komputer, anda boleh melihat sejumlah besar titik berbilang warna (piksel - dari bahasa Inggeris. piksel berpendidikan daripada elemen gambar - elemen imej), yang, apabila dikumpulkan bersama, membentuk imej grafik yang diberikan. Daripada ini kita boleh membuat kesimpulan: imej grafik pada komputer dikodkan dengan cara tertentu dan mesti dibentangkan dalam bentuk fail grafik. Fail ialah unit struktur asas untuk mengatur dan menyimpan data pada komputer dan, dalam kes ini, mesti mengandungi maklumat tentang cara membentangkan set mata ini pada skrin monitor.
Fail yang dibuat berdasarkan grafik vektor mengandungi maklumat dalam bentuk hubungan matematik (fungsi matematik yang menerangkan hubungan linear) dan data yang sepadan tentang cara membina imej objek menggunakan segmen garisan (vektor) apabila dipaparkan pada monitor komputer.
Fail yang dibuat berdasarkan grafik raster memerlukan penyimpanan data tentang setiap titik individu dalam imej. Untuk memaparkan grafik raster, pengiraan matematik yang kompleks tidak diperlukan; cukup untuk mendapatkan data mengenai setiap titik imej (koordinat dan warnanya) dan memaparkannya pada skrin monitor komputer.
Semasa proses pengekodan, imej didiskritkan secara spatial, iaitu, imej dibahagikan kepada titik individu dan setiap titik diberi kod warna (kuning, merah, biru, dll.). Untuk mengekod setiap titik imej grafik berwarna, prinsip penguraian warna sewenang-wenang ke dalam komponen utamanya digunakan, yang mana tiga warna utama digunakan: merah (perkataan Inggeris merah, dilambangkan dengan huruf KEPADA), hijau (Hijau, dilambangkan dengan huruf G), biru (Biru, dilambangkan dengan beech DALAM). Mana-mana warna titik yang dilihat oleh mata manusia boleh diperolehi dengan tambahan (berkadar) tambahan (pencampuran) tiga warna utama - merah, hijau dan biru. Sistem pengekodan ini dipanggil sistem warna RGB. Fail grafik yang menggunakan sistem warna RGB mewakili setiap titik imej sebagai triplet warna - tiga nilai berangka R, G Dan DALAM, keamatan sepadan warna merah, hijau dan biru. Proses pengekodan imej grafik dijalankan menggunakan pelbagai cara teknikal (pengimbas, kamera digital, kamera video digital, dll.); hasilnya ialah imej raster. Apabila menghasilkan semula imej grafik berwarna pada monitor komputer berwarna, warna setiap titik (piksel) imej sedemikian diperoleh dengan mencampurkan tiga warna utama R,G Dan B.
Kualiti imej raster ditentukan oleh dua parameter utama - resolusi (bilangan piksel secara mendatar dan menegak) dan palet warna yang digunakan (bilangan warna yang ditentukan untuk setiap piksel dalam imej). Resolusi ditentukan dengan menunjukkan bilangan piksel secara mendatar dan menegak, contohnya 800 x 600 piksel.
Terdapat hubungan antara bilangan warna yang diberikan kepada titik dalam imej raster dan jumlah maklumat yang mesti diperuntukkan untuk menyimpan warna titik, ditentukan oleh perhubungan (rumus R. Hartley):
di mana saya– jumlah maklumat; N – bilangan warna yang diberikan kepada titik.
Jumlah maklumat yang diperlukan untuk menyimpan warna titik juga dipanggil kedalaman warna, atau kualiti pemaparan warna.
Jadi, jika bilangan warna yang dinyatakan untuk titik imej ialah N= 256, maka jumlah maklumat yang diperlukan untuk penyimpanannya (kedalaman warna) mengikut formula (3.1) akan sama dengan saya= 8 bit.
Komputer menggunakan pelbagai mod grafik monitor untuk memaparkan maklumat grafik. Perlu diingatkan di sini bahawa sebagai tambahan kepada mod grafik monitor, terdapat juga mod teks, di mana skrin monitor secara konvensional dibahagikan kepada 25 baris 80 aksara setiap baris. Mod grafik ini dicirikan oleh resolusi skrin monitor dan kualiti warna (kedalaman warna). Untuk menetapkan mod grafik skrin monitor dalam sistem pengendalian MS Windows XP anda perlu melaksanakan arahan: [Button Mulakan– Tetapan – Panel Kawalan – Skrin]. Dalam kotak dialog "Properties: Skrin" yang muncul (Rajah 3.12), anda mesti memilih tab "Parameter" dan menggunakan peluncur "Resolusi Skrin" untuk memilih resolusi skrin yang sesuai (800 x 600 piksel, 1024 x 768 piksel, dan lain-lain.). Menggunakan senarai juntai bawah "Kualiti warna", anda boleh memilih kedalaman warna - "Tertinggi (32 bit)", "Sederhana (16 bit)", dsb., dan bilangan warna yang ditetapkan pada setiap titik dalam imej akan masing-masing menjadi 2 32 (4294967296), 2 16 (65536), dsb.
![](https://i2.wp.com/caspian72.ru/wp-content/uploads/2018/146126717.png)
nasi. 3.12. Kotak Dialog Sifat Paparan
Untuk melaksanakan setiap mod grafik skrin monitor, sejumlah memori video komputer diperlukan. Jumlah maklumat yang diperlukan memori video (V) ditentukan daripada perkaitan
di mana KEPADA - bilangan titik imej pada skrin monitor (K = A · B); A - bilangan titik mendatar pada skrin monitor; DALAM - bilangan titik menegak pada skrin monitor; saya– jumlah maklumat (kedalaman warna).
Jadi, jika skrin monitor mempunyai resolusi 1024 x 768 piksel dan palet yang terdiri daripada 65,536 warna, maka kedalaman warna mengikut formula (3.1) adalah I = log 2 65,538 = 16 bit, jumlah piksel imej akan sama dengan: K = 1024 x 768 = 786432, dan jumlah maklumat yang diperlukan bagi memori video mengikut (3.2) akan sama dengan
V= 786432 · 16 bit = 12582912 bit = 1572864 bait = 1536 KB = 1.5 MB.
Sebagai kesimpulan, perlu diingatkan bahawa sebagai tambahan kepada ciri yang disenaraikan, ciri yang paling penting bagi monitor ialah dimensi geometri skrin dan titik imejnya. Dimensi geometri skrin ditentukan oleh saiz pepenjuru monitor. Saiz pepenjuru monitor dinyatakan dalam inci (1 inci = 1" = 25.4 mm) dan boleh mengambil nilai yang sama dengan: 14", 15", 17", 21", dll. Teknologi pengeluaran monitor moden boleh memberikan imej saiz titik sama dengan 0.22 mm.
Oleh itu, bagi setiap monitor terdapat resolusi skrin maksimum yang mungkin secara fizikal, ditentukan oleh saiz pepenjurunya dan saiz titik imej.
Latihan untuk dilakukan sendiri
1. Menggunakan program MS Excel tukar jadual kod ASCII, SR866, SR1251, KOI8-R kepada jadual dalam bentuk: dalam sel lajur pertama jadual tulis dalam susunan abjad huruf besar dan kemudian huruf kecil abjad Latin dan Cyrillic, dalam sel lajur kedua - kod yang sepadan dengan huruf dalam sistem nombor perpuluhan, dalam sel lajur ketiga ialah kod yang sepadan dengan huruf dalam sistem nombor heksadesimal. Nilai kod mesti dipilih daripada jadual kod yang sepadan.
2. Kod dan tulis perkataan berikut sebagai urutan nombor dalam sistem nombor perpuluhan dan perenambelasan:
a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.
Pengekodan dijalankan menggunakan jadual pengekodan ASCII moden yang diperolehi dalam latihan sebelumnya.
3. Menggunakan jadual pengekodan KOI8-R yang dimodenkan, nyahkod jujukan nombor yang ditulis dalam sistem nombor heksadesimal:
a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;
b) EB CF CE C6 CF D2 CD C9 DA CD;
c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.
4. Bagaimanakah rupa perkataan "Cybernetics" yang ditulis dalam pengekodan SR1251 apabila menggunakan pengekodan SR866 dan KOI8-R? Semak keputusan menggunakan program Internet Explorer.
5. Menggunakan jadual kod yang ditunjukkan dalam Rajah. 3.1 A, menyahkod urutan kod berikut yang ditulis dalam sistem nombor binari:
a) 01010111 01101111 01110010 01100100;
b) 01000101 01111000 01100011 01100101 01101100;
c) 01000001 01100011 01100011 01100101 01110011 01110011.
6. Tentukan isipadu maklumat perkataan "Ekonomi", yang dikodkan menggunakan jadual kod SR866, SR1251, Unicode dan KOI8-R.
7. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna berukuran 12x12 cm Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 600 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 16 bit.
Resolusi pengimbas 600 dpi (inci titik - titik per inci) menentukan keupayaan pengimbas dengan resolusi ini untuk membezakan 600 titik pada segmen 1 inci.
8. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna bersaiz A4. Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 1200 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 24 bit.
9. Tentukan bilangan warna dalam palet pada kedalaman warna 8, 16, 24 dan 32 bit.
10. Tentukan jumlah memori video yang diperlukan untuk mod grafik skrin monitor 640 kali 480, 800 kali 600, 1024 kali 768 dan 1280 kali 1024 piksel dengan kedalaman warna piksel imej 8, 16, 24 dan 32 bit. Ringkaskan keputusan dalam jadual. Membangunkan dalam MS Excel program untuk mengautomasikan pengiraan.
11. Tentukan bilangan maksimum warna yang boleh digunakan untuk menyimpan imej berukuran 32 x 32 piksel, jika komputer mempunyai 2 KB memori yang diperuntukkan untuk imej.
12. Tentukan resolusi maksimum yang mungkin bagi skrin monitor dengan panjang pepenjuru 15" dan saiz titik imej 0.28 mm.
13. Apakah mod grafik monitor yang boleh disediakan oleh memori video 64 MB?
Kandungan
I. Sejarah pengekodan maklumat……………………………..3
II. Pengekodan maklumat……………………………………………………4
III. Pengekodan maklumat teks…………………………….4
IV. Jenis jadual pengekodan……………………………………………………...6
V. Pengiraan jumlah maklumat teks………………………………14
Senarai rujukan……………………………..16
saya . Sejarah pengekodan maklumat
Umat manusia telah menggunakan penyulitan teks (pengekodan) sejak saat maklumat rahsia pertama muncul. Berikut adalah beberapa teknik pengekodan teks yang dicipta pada pelbagai peringkat perkembangan pemikiran manusia:
Kriptografi ialah penulisan rahsia, sistem mengubah tulisan untuk membuat teks tidak dapat difahami oleh yang belum tahu;
Kod Morse atau kod telegraf tidak sekata, di mana setiap huruf atau tanda diwakili oleh gabungan sendiri letusan asas pendek arus elektrik (titik) dan letusan asas tempoh tiga kali ganda (sempang);
bahasa isyarat ialah bahasa isyarat yang digunakan oleh orang yang mempunyai masalah pendengaran.
Salah satu kaedah penyulitan yang paling awal diketahui dinamakan sempena nama maharaja Rom Julius Caesar (abad pertama SM). Kaedah ini berdasarkan menggantikan setiap huruf teks yang disulitkan dengan yang lain, dengan mengalihkan abjad daripada huruf asal dengan bilangan aksara tetap, dan abjad dibaca dalam bulatan, iaitu, selepas huruf i, a dianggap . Jadi perkataan "bait", apabila dialihkan dua aksara ke kanan, dikodkan sebagai perkataan "gwlf". Proses terbalik untuk mentafsir perkataan yang diberikan adalah perlu untuk menggantikan setiap huruf yang disulitkan dengan yang kedua di sebelah kirinya.
II. Pengekodan maklumat
Kod ialah satu set konvensyen (atau isyarat) untuk merekod (atau berkomunikasi) beberapa konsep yang telah ditetapkan.
Pengekodan maklumat ialah proses membentuk perwakilan maklumat tertentu. Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.
Biasanya, setiap imej semasa pengekodan (kadangkala dipanggil penyulitan) diwakili oleh tanda yang berasingan.
Tanda ialah unsur bagi satu set unsur terhingga yang berbeza antara satu sama lain.
Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.
Anda boleh memproses maklumat teks pada komputer. Apabila dimasukkan ke dalam komputer, setiap huruf dikodkan dengan nombor tertentu, dan apabila output ke peranti luaran (skrin atau cetakan), imej huruf dibina daripada nombor ini untuk persepsi manusia. Korespondensi antara satu set huruf dan nombor dipanggil pengekodan aksara.
Sebagai peraturan, semua nombor dalam komputer diwakili menggunakan sifar dan satu (bukan sepuluh digit, seperti biasa untuk orang). Dalam erti kata lain, komputer biasanya beroperasi dalam sistem nombor binari, kerana ini menjadikan peranti untuk memprosesnya lebih mudah. Memasukkan nombor ke dalam komputer dan mengeluarkannya untuk bacaan manusia boleh dilakukan dalam bentuk perpuluhan biasa, dan semua penukaran yang diperlukan dilakukan oleh program yang dijalankan pada komputer.
III. Pengekodan maklumat teks
Maklumat yang sama boleh dibentangkan (dikodkan) dalam beberapa bentuk. Dengan kemunculan komputer, timbul keperluan untuk mengekod semua jenis maklumat yang ditangani oleh individu dan manusia secara keseluruhan. Tetapi manusia mula menyelesaikan masalah pengekodan maklumat jauh sebelum kemunculan komputer. Pencapaian hebat umat manusia - menulis dan mengira - tidak lebih daripada sistem pengekodan pertuturan dan maklumat berangka. Maklumat tidak pernah muncul dalam bentuk tulennya, ia sentiasa dibentangkan entah bagaimana, dikodkan entah bagaimana.
Pengekodan binari adalah salah satu cara biasa untuk mewakili maklumat. Dalam komputer, robot dan mesin yang dikawal secara berangka, sebagai peraturan, semua maklumat yang dikendalikan oleh peranti dikodkan dalam bentuk perkataan abjad binari.
Sejak lewat 60-an, komputer semakin digunakan untuk memproses maklumat teks, dan pada masa ini sebahagian besar komputer peribadi di dunia (dan kebanyakan masa) sibuk dengan memproses maklumat teks. Semua jenis maklumat dalam komputer ini dibentangkan dalam kod binari, iaitu, abjad kuasa dua digunakan (hanya dua aksara 0 dan 1). Ini disebabkan oleh fakta bahawa ia adalah mudah untuk mewakili maklumat dalam bentuk urutan impuls elektrik: tidak ada impuls (0), terdapat impuls (1).
Pengekodan sedemikian biasanya dipanggil binari, dan urutan logik sifar dan satu sendiri dipanggil bahasa mesin.
Dari sudut pandangan komputer, teks terdiri daripada aksara individu. Simbol termasuk bukan sahaja huruf (huruf besar atau kecil, Latin atau Rusia), tetapi juga nombor, tanda baca, aksara khas seperti "=", "(", "&", dll., dan juga (beri perhatian khusus!) ruang antara perkataan.
Teks dimasukkan ke dalam memori komputer menggunakan papan kekunci. Huruf, nombor, tanda baca dan simbol lain yang kita kenali ditulis pada kekunci. Mereka memasukkan RAM dalam kod binari. Ini bermakna setiap aksara diwakili oleh kod binari 8-bit.
![](https://i1.wp.com/caspian72.ru/wp-content/uploads/2018/814-8612082-596x775.jpeg)
Bilangan aksara ini cukup memadai untuk mewakili maklumat teks, termasuk huruf besar dan huruf kecil abjad Rusia dan Latin, nombor, tanda, simbol grafik, dsb.
Pengekodan terdiri daripada memberikan setiap aksara kod perpuluhan unik dari 0 hingga 255 atau kod binari yang sepadan dari 00000000 hingga 11111111. Oleh itu, seseorang membezakan aksara dengan garis besarnya dan komputer dengan kodnya.
Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.
Dalam proses memaparkan simbol pada skrin komputer, proses terbalik dilakukan - penyahkodan, iaitu, menukar kod simbol ke dalam imejnya. Adalah penting bahawa memberikan kod khusus kepada simbol adalah perkara persetujuan, yang direkodkan dalam jadual kod.
Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara. Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.
Semua aksara abjad komputer dinomborkan dari 0 hingga 255. Setiap nombor sepadan dengan kod binari lapan bit dari 00000000 hingga 11111111. Kod ini hanyalah nombor siri aksara dalam sistem nombor binari.
IV . Jenis jadual pengekodan
Jadual di mana semua aksara abjad komputer diberikan nombor siri dipanggil jadual pengekodan.
Jenis komputer yang berbeza menggunakan jadual pengekodan yang berbeza.
Jadual kod ASCII (Kod Piawai Amerika untuk Pertukaran Maklumat) telah diterima pakai sebagai piawaian antarabangsa, mengekod separuh pertama aksara dengan kod angka dari 0 hingga 127 (kod dari 0 hingga 32 diberikan bukan kepada aksara, tetapi untuk kekunci berfungsi) .
Jadual kod ASCII dibahagikan kepada dua bahagian.
Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).
Struktur jadual pengekodan ASCII
Nombor siri | Kod | Simbol |
0 - 31 | 00000000 - 00011111 | Simbol dengan nombor dari 0 hingga 31 biasanya dipanggil simbol kawalan. Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb. |
32 - 127 | 0100000 - 01111111 | Bahagian standard jadual (Bahasa Inggeris). Ini termasuk huruf kecil dan huruf besar abjad Latin, nombor perpuluhan, tanda baca, semua jenis kurungan, simbol komersial dan lain-lain. Watak 32 ialah ruang, i.e. kedudukan kosong dalam teks. Semua yang lain dicerminkan oleh tanda-tanda tertentu. |
128 - 255 | 10000000 - 11111111 | Bahagian alternatif jadual (Rusia). Separuh kedua jadual kod ASCII, yang dipanggil halaman kod (128 kod, bermula dari 10000000 dan berakhir dengan 11111111), boleh mempunyai pilihan yang berbeza, setiap pilihan mempunyai nombor sendiri. Halaman kod digunakan terutamanya untuk menampung abjad kebangsaan selain daripada Latin. Dalam pengekodan kebangsaan Rusia, aksara daripada abjad Rusia diletakkan di bahagian jadual ini. |
Separuh pertama jadual kod ASCII
Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.
Untuk huruf abjad Rusia, prinsip pengekodan berurutan juga diperhatikan.
Separuh kedua jadual kod ASCII
Malangnya, pada masa ini terdapat lima pengekodan Cyrillic yang berbeza (KOI8-R, Windows. MS-DOS, Macintosh dan ISO). Oleh kerana itu, masalah sering timbul dengan memindahkan teks Rusia dari satu komputer ke komputer lain, dari satu sistem perisian ke yang lain.
Secara kronologi, salah satu piawaian pertama untuk pengekodan huruf Rusia pada komputer ialah KOI8 ("Kod Pertukaran Maklumat, 8-bit"). Pengekodan ini telah digunakan pada tahun 70-an pada komputer siri komputer ES, dan dari pertengahan 80-an ia mula digunakan dalam versi pertama sistem pengendalian UNIX yang telah dirussifikasikan.
Dari awal 90-an, masa penguasaan sistem pengendalian MS DOS, pengekodan CP866 kekal ("CP" bermaksud "Halaman Kod", "halaman kod").
Komputer Apple yang menjalankan sistem pengendalian Mac OS menggunakan pengekodan Mac mereka sendiri.
Selain itu, Pertubuhan Piawaian Antarabangsa (ISO) telah meluluskan pengekodan lain yang dipanggil ISO 8859-5 sebagai standard untuk bahasa Rusia.
Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251. Diperkenalkan oleh Microsoft; Dengan mengambil kira pengedaran luas sistem pengendalian (OS) dan produk perisian lain syarikat ini di Persekutuan Rusia, ia telah menemui pengedaran yang meluas.
Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode.
Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode merangkumi semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.
Perwakilan dalaman perkataan dalam ingatan komputer
menggunakan jadual ASCII
Kadang-kadang ia berlaku bahawa teks yang terdiri daripada huruf abjad Rusia yang diterima dari komputer lain tidak boleh dibaca - beberapa jenis "abracadabra" kelihatan pada skrin monitor. Ini berlaku kerana komputer menggunakan pengekodan aksara yang berbeza untuk bahasa Rusia.
Oleh itu, setiap pengekodan ditentukan oleh jadual kodnya sendiri. Seperti yang dapat dilihat daripada jadual, aksara yang berbeza diberikan kepada kod binari yang sama dalam pengekodan yang berbeza.
Sebagai contoh, jujukan kod angka 221, 194, 204 dalam pengekodan CP1251 membentuk perkataan "komputer", manakala dalam pengekodan lain ia akan menjadi set aksara yang tidak bermakna.
Nasib baik, dalam kebanyakan kes pengguna tidak perlu risau tentang transcoding dokumen teks, kerana ini dilakukan oleh program penukar khas yang terbina dalam aplikasi.
V . Pengiraan jumlah maklumat teks
Tugasan 1: Kod perkataan "Rom" menggunakan jadual pengekodan KOI8-R dan CP1251.
Penyelesaian:
Tugasan 2: Dengan mengandaikan bahawa setiap aksara dikodkan dalam satu bait, anggarkan isipadu maklumat ayat berikut:
"Paman saya mempunyai peraturan yang paling jujur,
Apabila saya jatuh sakit teruk,
Dia memaksa dirinya untuk menghormati
Dan saya tidak dapat memikirkan apa-apa yang lebih baik."
Penyelesaian: Frasa ini mempunyai 108 aksara, termasuk tanda baca, tanda petikan dan ruang. Kami mendarabkan nombor ini dengan 8 bit. Kami mendapat 108*8=864 bit.
Tugasan 3: Kedua-dua teks mengandungi bilangan aksara yang sama. Teks pertama ditulis dalam bahasa Rusia, dan yang kedua dalam bahasa suku Naguri, yang abjadnya terdiri daripada 16 aksara. Teks siapa yang mengandungi maklumat lanjut?
Penyelesaian:
1) I = K * a (isipadu maklumat teks adalah sama dengan hasil darab bilangan aksara dan berat maklumat satu aksara).
2) Kerana Kedua-dua teks mempunyai bilangan aksara (K) yang sama, maka perbezaannya bergantung pada kandungan maklumat satu aksara abjad (a).
3) 2 a1 = 32, i.e. a 1 = 5 bit, 2 a2 = 16, i.e. dan 2 = 4 bit.
4) I 1 = K * 5 bit, I 2 = K * 4 bit.
5) Ini bermakna bahawa teks yang ditulis dalam bahasa Rusia membawa 5/4 kali lebih banyak maklumat.
Tugasan 4: Saiz mesej, yang mengandungi 2048 aksara, ialah 1/512 MB. Tentukan kuasa abjad.
Penyelesaian:
1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - menukar isipadu maklumat mesej kepada bit.
2) a = I / K = 16384 /1024 = 16 bit - menyumbang satu aksara abjad.
3) 2*16*2048 = 65536 aksara – kuasa abjad yang digunakan.
Tugasan 5: Pencetak laser Canon LBP mencetak pada kelajuan purata 6.3 Kbps. Berapa lama masa yang diperlukan untuk mencetak dokumen 8 halaman, jika anda tahu bahawa satu halaman mempunyai purata 45 baris dan 70 aksara setiap baris (1 aksara - 1 bait)?
Penyelesaian:
1) Cari jumlah maklumat yang terkandung pada 1 halaman: 45 * 70 * 8 bit = 25200 bit
2) Cari jumlah maklumat pada 8 muka surat: 25200 * 8 = 201600 bit
3) Kami mengurangkan kepada unit ukuran biasa. Untuk melakukan ini, kami menukar Mbit kepada bit: 6.3*1024=6451.2 bit/saat.
4) Cari masa cetakan: 201600: 6451.2 =31 saat.
Bibliografi
1. Ageev V.M. Teori maklumat dan pengekodan: persampelan dan pengekodan maklumat pengukuran. - M.: MAI, 1977.
2. Kuzmin I.V., Kedrus V.A. Asas teori maklumat dan pengekodan. - Kyiv, sekolah Vishcha, 1986.
3. Kaedah penyulitan teks yang paling mudah / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 p.
4. Ugrinovich N.D. Sains komputer dan teknologi maklumat. Buku teks untuk gred 10-11 / N.D. Ugrinovich. – M.: BINOM. Makmal Pengetahuan, 2003. – 512 p.
5. http://school497.spb.edu.ru/uchint002/les10/les.html#n
Bahan pembelajaran kendiri pada tajuk Kuliah 2
Pengekodan ASCII
Jadual pengekodan ASCII (ASCII - Kod Standard Amerika untuk Pertukaran Maklumat - Kod Standard Amerika untuk Pertukaran Maklumat).
Secara keseluruhan, 256 aksara berbeza boleh dikodkan menggunakan jadual pengekodan ASCII (Rajah 1). Jadual ini dibahagikan kepada dua bahagian: yang utama (dengan kod dari OOh hingga 7Fh) dan yang tambahan (dari 80h hingga FFh, di mana huruf h menunjukkan bahawa kod itu tergolong dalam sistem nombor perenambelasan).
Gambar 1
Untuk mengekod satu aksara daripada jadual, 8 bit (1 bait) diperuntukkan. Semasa memproses maklumat teks, satu bait mungkin mengandungi kod aksara tertentu - huruf, nombor, tanda baca, tanda tindakan, dsb. Setiap aksara mempunyai kod sendiri dalam bentuk integer. Dalam kes ini, semua kod dikumpul dalam jadual khas yang dipanggil jadual pengekodan. Dengan bantuan mereka, kod simbol ditukar kepada perwakilan yang boleh dilihat pada skrin monitor. Akibatnya, sebarang teks dalam memori komputer diwakili sebagai urutan bait dengan kod aksara.
Contohnya, perkataan hello! akan dikodkan seperti berikut (Jadual 1).
Jadual 1
Kod binari | ||||||
kod perpuluhan |
Rajah 1 menunjukkan aksara yang disertakan dalam pengekodan ASCII standard (Bahasa Inggeris) dan lanjutan (Rusia).
Separuh pertama jadual ASCII diseragamkan. Ia mengandungi kod kawalan (dari 00j hingga 20j dan 77j). Kod ini telah dialih keluar daripada jadual kerana ia tidak digunakan pada elemen teks. Tanda baca dan simbol matematik juga diletakkan di sini: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., huruf Latin besar dan kecil: 41h - A, 61h – a.
Separuh kedua jadual mengandungi fon kebangsaan, simbol pseudografik dari mana jadual boleh dibina, dan simbol matematik khas. Bahagian bawah jadual pengekodan boleh diganti menggunakan pemacu yang sesuai - mengawal program tambahan. Teknik ini membolehkan anda menggunakan beberapa fon dan muka taipnya.
Paparan untuk setiap kod simbol harus memaparkan imej simbol - bukan hanya kod digital, tetapi gambar yang sepadan, kerana setiap simbol mempunyai bentuknya sendiri. Penerangan tentang bentuk setiap aksara disimpan dalam memori paparan khas - penjana aksara. Penonjolan watak pada skrin paparan PC IBM, sebagai contoh, dijalankan menggunakan titik-titik membentuk matriks aksara. Setiap piksel dalam matriks sedemikian adalah elemen imej dan boleh menjadi terang atau gelap. Titik gelap dikodkan sebagai 0, titik terang (terang) sebagai 1. Jika anda mewakili piksel gelap dalam medan matriks tanda sebagai titik dan piksel terang sebagai asterisk, anda boleh menggambarkan bentuk simbol secara grafik.
Orang di negara yang berbeza menggunakan simbol untuk menulis perkataan dalam bahasa ibunda mereka. Hari ini, kebanyakan aplikasi, termasuk sistem e-mel dan penyemak imbas web, adalah 8-bit tulen, bermakna ia hanya boleh memaparkan dan menerima aksara 8-bit dengan betul, mengikut piawaian ISO-8859-1.
Terdapat lebih daripada 256 aksara di dunia (jika anda mengambil kira Cyrillic, Arab, Cina, Jepun, Korea dan Thai), dan semakin banyak aksara baharu muncul. Dan ini mewujudkan jurang berikut untuk ramai pengguna:
Anda tidak boleh menggunakan aksara daripada set pengekodan yang berbeza dalam dokumen yang sama. Memandangkan setiap dokumen teks menggunakan set pengekodan sendiri, terdapat kesukaran besar dengan pengecaman teks automatik.
Simbol baharu muncul (contohnya: Euro), akibatnya ISO membangunkan piawaian baharu, ISO-8859-15, yang hampir serupa dengan piawaian ISO-8859-1. Perbezaannya ialah jadual pengekodan ISO-8859-1 lama telah mengalih keluar simbol untuk mata wang lama yang tidak digunakan pada masa ini untuk memberi ruang kepada simbol yang baru diperkenalkan (seperti Euro). Akibatnya, pengguna mungkin mempunyai dokumen yang sama pada cakera mereka, tetapi dalam pengekodan yang berbeza. Penyelesaian kepada masalah ini ialah penggunaan satu set pengekodan antarabangsa yang dipanggil Pengekodan Universal atau Unikod.
Pengekodan Unicode
Piawaian ini dicadangkan pada tahun 1991 oleh organisasi bukan untung Unicode Consortium (Unicode Inc.). Penggunaan standard ini membolehkan anda mengekod sejumlah besar aksara daripada skrip yang berbeza: Dokumen Unicode boleh mengandungi aksara Cina, simbol matematik, huruf abjad Yunani, abjad Latin dan Cyrillic, dan penukaran halaman kod menjadi tidak diperlukan.
Standard ini terdiri daripada dua bahagian utama: set aksara universal (UCS) dan keluarga pengekodan (UTF, format transformasi Unicode). Set aksara universal menentukan surat-menyurat satu dengan satu antara aksara dan kod - elemen ruang kod yang mewakili integer bukan negatif. Keluarga pengekodan mentakrifkan perwakilan mesin bagi urutan kod UCS.
Piawaian Unicode dibangunkan untuk mencipta pengekodan aksara tunggal untuk semua bahasa bertulis moden dan banyak bahasa purba. Setiap aksara dalam piawaian ini dikodkan dengan 16 bit, yang membolehkan ia meliputi bilangan aksara yang tidak dapat dibandingkan dengan pengekodan 8-bit yang diterima sebelum ini. Satu lagi perbezaan penting antara Unicode dan sistem pengekodan lain ialah ia bukan sahaja memberikan kod unik kepada setiap aksara, tetapi juga mentakrifkan pelbagai ciri watak itu, contohnya:
jenis aksara (huruf besar, huruf kecil, nombor, tanda baca, dsb.);
atribut aksara (paparan dari kiri ke kanan atau kanan ke kiri, ruang, pemisah baris, dsb.);
huruf besar atau huruf kecil yang sepadan (untuk huruf kecil dan huruf besar, masing-masing);
nilai angka yang sepadan (untuk aksara angka).
Keseluruhan julat kod dari 0 hingga FFFF dibahagikan kepada beberapa subset standard, setiap satunya sepadan dengan abjad sesuatu bahasa atau dengan sekumpulan aksara khas yang serupa dalam fungsinya. Rajah di bawah mengandungi senarai umum subset Unicode 3.0 (Rajah 2).
Rajah 2
Piawaian Unicode adalah asas untuk menyimpan teks dalam banyak sistem komputer moden. Walau bagaimanapun, ia tidak serasi dengan kebanyakan protokol Internet kerana kodnya boleh mengandungi sebarang nilai bait, dan protokol biasanya menggunakan bait 00 - 1F dan FE - FF sebagai bait perkhidmatan. Untuk mencapai keserasian, beberapa format transformasi Unicode (UTF, Format Transformasi Unicode) telah dibangunkan, yang mana UTF-8 adalah yang paling biasa hari ini. Format ini mentakrifkan peraturan berikut untuk menukar setiap kod Unicode kepada satu set bait (satu hingga tiga) yang sesuai untuk pengangkutan melalui protokol Internet.
Di sini x,y,z menandakan bit kod sumber yang harus diekstrak, bermula dengan kod yang paling tidak signifikan, dan dimasukkan ke dalam bait hasil dari kanan ke kiri sehingga semua kedudukan yang ditentukan diisi.
Perkembangan lanjut standard Unicode dikaitkan dengan penambahan satah bahasa baharu, i.e. aksara dalam julat 10000 - 1FFFF, 20000 - 2FFFF, dsb., di mana ia sepatutnya memasukkan pengekodan untuk skrip bahasa mati yang tidak disertakan dalam jadual di atas. Format baharu, UTF-16, telah dibangunkan untuk mengekod aksara tambahan ini.
Jadi terdapat 4 cara utama untuk mengekod bait Unicode:
UTF-8: 128 aksara yang dikodkan dalam satu bait (format ASCII), 1920 aksara yang dikodkan dalam 2 bait ((Romawi, Yunani, Cyrillic, Koptik, Armenia, Ibrani, aksara Arab), 63488 aksara yang dikodkan dalam 3 bait (Cina, Jepun dll .) Baki 2,147,418,112 aksara (belum digunakan) boleh dikodkan dengan 4, 5 atau 6 bait.
UCS-2: Setiap aksara diwakili oleh 2 bait. Pengekodan ini hanya merangkumi 65,535 aksara pertama daripada format Unicode.
UTF-16: Sambungan UCS-2, ia mengandungi 1,114,112 aksara format Unicode. 65,535 aksara pertama diwakili oleh 2 bait, selebihnya dengan 4 bait.
USC-4: Setiap aksara dikodkan dalam 4 bait.