Jadual kod binari Ascii. Pengekodan maklumat teks

Seperti yang anda ketahui, komputer menyimpan maklumat dalam bentuk binari, mewakilinya sebagai urutan satu dan sifar. Untuk menterjemah maklumat ke dalam bentuk yang sesuai untuk persepsi manusia, setiap urutan nombor unik digantikan dengan simbol yang sepadan apabila dipaparkan.

Salah satu sistem untuk mengaitkan kod binari dengan aksara bercetak dan kawalan ialah

Pada tahap perkembangan teknologi komputer semasa, pengguna tidak perlu mengetahui kod setiap watak tertentu. Walau bagaimanapun, pemahaman umum tentang cara pengekodan dijalankan amat berguna, dan untuk sesetengah kategori pakar, malah diperlukan.

Mencipta ASCII

Pengekodan pada asalnya dibangunkan pada tahun 1963 dan kemudian dikemas kini dua kali dalam tempoh 25 tahun.

Dalam versi asal, jadual aksara ASCII termasuk 128 aksara; kemudian versi lanjutan muncul, di mana 128 aksara pertama telah disimpan, dan aksara yang hilang sebelum ini diberikan kepada kod dengan bit kelapan terlibat.

Selama bertahun-tahun, pengekodan ini adalah yang paling popular di dunia. Pada tahun 2006, Latin 1252 mengambil kedudukan utama, dan dari penghujung tahun 2007 hingga kini, Unicode telah memegang kedudukan utama dengan kukuh.

Perwakilan komputer ASCII

Setiap aksara ASCII mempunyai kodnya sendiri, terdiri daripada 8 aksara yang mewakili sifar atau satu. Nombor minimum dalam perwakilan ini ialah sifar (lapan sifar dalam sistem binari), iaitu kod elemen pertama dalam jadual.

Dua kod dalam jadual telah dikhaskan untuk bertukar antara AS-ASCII standard dan varian nasionalnya.

Selepas ASCII mula memasukkan bukan 128, tetapi 256 aksara, varian pengekodan menjadi meluas, di mana versi asal jadual disimpan dalam 128 kod pertama dengan sifar bit ke-8. Aksara bertulis kebangsaan disimpan di bahagian atas jadual (kedudukan 128-255).

Pengguna tidak perlu mengetahui kod aksara ASCII secara langsung. Pembangun perisian biasanya hanya perlu mengetahui nombor elemen dalam jadual untuk mengira kodnya menggunakan sistem binari jika perlu.

Bahasa Rusia

Selepas pembangunan pengekodan untuk bahasa Scandinavia, Cina, Korea, Yunani, dll. pada awal 70-an, Kesatuan Soviet mula mencipta versinya sendiri. Tidak lama kemudian, versi pengekodan 8-bit yang dipanggil KOI8 telah dibangunkan, mengekalkan 128 kod aksara ASCII yang pertama dan memperuntukkan bilangan kedudukan yang sama untuk huruf abjad kebangsaan dan aksara tambahan.

Sebelum pengenalan Unicode, KOI8 menguasai segmen Internet Rusia. Terdapat pilihan pengekodan untuk kedua-dua abjad Rusia dan Ukraine.

masalah ASCII

Memandangkan bilangan elemen walaupun dalam jadual lanjutan tidak melebihi 256, tidak ada kemungkinan untuk menampung beberapa skrip berbeza dalam satu pengekodan. Pada tahun 90-an, masalah "crocozyabr" muncul di Runet, apabila teks yang ditaip dalam aksara ASCII Rusia dipaparkan dengan tidak betul.

Masalahnya ialah kod ASCII yang berbeza tidak sepadan antara satu sama lain. Mari kita ingat bahawa pelbagai aksara boleh ditempatkan di kedudukan 128-255, dan apabila menukar satu pengekodan Cyrillic kepada yang lain, semua huruf teks digantikan dengan yang lain yang mempunyai nombor yang sama dalam versi pengekodan yang berbeza.

Keadaan sekarang

Dengan kemunculan Unicode, populariti ASCII mula merosot dengan mendadak.

Sebabnya terletak pada hakikat bahawa pengekodan baharu memungkinkan untuk menampung aksara daripada hampir semua bahasa bertulis. Dalam kes ini, 128 aksara ASCII yang pertama sepadan dengan aksara yang sama dalam Unicode.

Pada tahun 2000, ASCII ialah pengekodan paling popular di Internet dan digunakan pada 60% halaman web yang diindeks oleh Google. Menjelang 2012, bahagian halaman sedemikian telah menurun kepada 17%, dan Unicode (UTF-8) menggantikan pengekodan yang paling popular.

Oleh itu, ASCII adalah bahagian penting dalam sejarah teknologi maklumat, tetapi penggunaannya pada masa hadapan nampaknya tidak menjanjikan.

DisHexSimbol DisHexSimbol
000 00 pakar. TIDAK 128 80 Ђ
001 01 pakar. SOH 129 81 Ѓ
002 02 pakar. STX 130 82
003 03 pakar. ETX 131 83 ѓ
004 04 pakar. EOT 132 84
005 05 pakar. ENQ 133 85
006 06 pakar. ACK 134 86
007 07 pakar. BEL 135 87
008 08 pakar. B.S. 136 88
009 09 pakar. TAB 137 89
010 0Apakar. LF 138 8AЉ
011 0Bpakar. VT 139 8B‹ ‹
012 0Cpakar. FF 140 8CЊ
013 0Dpakar. CR 141 8DЌ
014 0Epakar. JADI 142 8EЋ
015 0Fpakar. S.I. 143 8FЏ
016 10 pakar. DLE 144 90 ђ
017 11 pakar. DC1 145 91
018 12 pakar. DC2 146 92
019 13 pakar. DC3 147 93
020 14 pakar. DC4 148 94
021 15 pakar. N.A.K. 149 95
022 16 pakar. SYN 150 96
023 17 pakar. ETB 151 97
024 18 pakar. BOLEH 152 98
025 19 pakar. E.M. 153 99
026 1Apakar. SUB 154 9Aљ
027 1Bpakar. ESC 155 9B
028 1Cpakar. FS 156 9Cњ
029 1Dpakar. G.S. 157 9Dќ
030 1Epakar. R.S. 158 9Eћ
031 1Fpakar. AS 159 9Fџ
032 20 klac SP (Angkasa) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Yo
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 AD­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 B.C.ј
061 3D= 189 BDЅ
062 3E> 190 JADILAHѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 DALAM
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 DAN
071 47 G 199 C7 Z
072 48 H 200 C8 DAN
073 49 saya 201 C9 Y
074 4AJ 202 C.A. KEPADA
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. TENTANG
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 DENGAN
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 Sh
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF saya
096 60 ` 224 E0 A
097 61 a 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 dan
103 67 g 231 E7 h
104 68 h 232 E8 Dan
105 69 i 233 E9 ke
106 6Aj 234 E.A. Kepada
107 6Bk 235 E.B. l
108 6Cl 236 E.C. m
109 6Dm 237 ED n
110 6En 238 E.E. O
111 6Fo 239 E.F. P
112 70 hlm 240 F0 R
113 71 q 241 F1 Dengan
114 72 r 242 F2 T
115 73 s 243 F3 di
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 sch
122 7Az 250 F.A. ъ
123 7B{ 251 FB s
124 7C| 252 F.C. b
125 7D} 253 FD eh
126 7E~ 254 F.E. Yu
127 7FPakar. DEL 255 FF saya
Jadual kod aksara Windows ASCII.
Perihalan aksara khas (kawalan) Perlu diingat bahawa pada mulanya aksara kawalan jadual ASCII digunakan untuk memastikan pertukaran data melalui teletaip, kemasukan data daripada pita tebuk dan untuk kawalan mudah peranti luaran.
Pada masa ini, kebanyakan aksara kawalan jadual ASCII tidak lagi membawa beban ini dan boleh digunakan untuk tujuan lain. Penerangan Kod
NUL, 00Null, kosong
SOH, 01Permulaan Tajuk
STX, 02Permulaan TeXt, permulaan teks.
ETX, 03Tamat TeXt, akhir teks
EOT, 04Tamat Penghantaran, tamat penghantaran
ENQ, 05Tanya. Tolong sahkan
ACK, 06Pengakuan. Saya mengesahkan
BEL, 07Bell, panggil
BS, 08Ruang belakang, kembali satu aksara
TAB, 09Tab, tab mendatar
LF, 0ASuapan Baris, suapan baris.
Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \n
VT, 0BTab Menegak, penjadualan menegak.
FF, 0CSuapan Borang, suapan halaman, halaman baharu
CR, 0DPulang gerabak, pemulangan gerabak.
Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \r
JADI,0EShift Out, tukar warna reben dakwat dalam peranti pencetakan
SI, 0FShift In, kembalikan warna reben dakwat dalam peranti pencetakan semula
DLE, 10Data Link Escape, menukar saluran kepada penghantaran data
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Kawalan Peranti, simbol kawalan peranti
NAK, 15Pengakuan Negatif, saya tidak mengesahkan.
SYN, 16Penyegerakan. Simbol penyegerakan
ETB, 17Tamat Blok Teks, hujung blok teks
BOLEH, 18Batal, pembatalan yang dihantar sebelum ini
EM, 19Akhir Sederhana
SUB, 1APengganti, pengganti. Diletakkan di tempat simbol yang maknanya hilang atau rosak semasa penghantaran
ESC, 1BUrutan Kawalan Melarikan Diri
FS, 1CPemisah Fail, pemisah fail
GS, 1DPemisah Kumpulan
RS, 1EPemisah Rekod, pemisah rekod
AS, 1FPemisah Unit
DEL, 7FPadam, padam aksara terakhir.

Unicode (Unicode dalam bahasa Inggeris) ialah standard pengekodan aksara. Ringkasnya, ini ialah jadual surat-menyurat antara aksara teks (huruf, elemen tanda baca) dan kod binari. Komputer hanya memahami urutan sifar dan satu. Supaya ia tahu apa sebenarnya yang perlu dipaparkan pada skrin, adalah perlu untuk menetapkan setiap watak nombor uniknya sendiri. Pada tahun lapan puluhan, aksara telah dikodkan dalam satu bait, iaitu lapan bit (setiap bit ialah 0 atau 1). Oleh itu, ternyata satu jadual (aka pengekodan atau set) hanya boleh memuatkan 256 aksara. Ini mungkin tidak mencukupi walaupun untuk satu bahasa. Oleh itu, banyak pengekodan berbeza muncul, kekeliruan yang sering menyebabkan beberapa omong kosong aneh muncul pada skrin dan bukannya teks yang boleh dibaca. Satu standard diperlukan, iaitu Unicode menjadi. Pengekodan yang paling banyak digunakan ialah UTF-8 (Format Transformasi Unikod), yang menggunakan 1 hingga 4 bait untuk mewakili aksara.

Simbol

Aksara dalam jadual Unicode dinomborkan dengan nombor perenambelasan. Sebagai contoh, huruf besar Cyrillic M ditetapkan sebagai U+041C. Ini bermakna ia terletak di persimpangan baris 041 dan lajur C. Anda hanya boleh menyalinnya dan kemudian menampalnya di suatu tempat. Untuk tidak menyelongkar senarai berbilang kilometer, anda harus menggunakan carian. Apabila anda pergi ke halaman simbol, anda akan melihat nombor Unikodnya dan cara ia ditulis dalam fon yang berbeza. Anda boleh memasukkan tanda itu sendiri ke dalam bar carian, walaupun segi empat sama dilukis sebaliknya, sekurang-kurangnya untuk mengetahui perkara itu. Juga, di laman web ini terdapat set khas (dan rawak) daripada jenis ikon yang sama, dikumpulkan dari bahagian yang berbeza, untuk kemudahan penggunaan.

Piawaian Unicode adalah antarabangsa. Ia termasuk watak dari hampir semua skrip dunia. Termasuk yang tidak digunakan lagi. Hieroglif Mesir, rune Jerman, tulisan Maya, cuneiform dan abjad negeri purba. Penetapan berat dan sukatan, notasi muzik, dan konsep matematik juga dibentangkan.

Konsortium Unicode sendiri tidak mencipta aksara baharu. Ikon yang didapati digunakan dalam masyarakat ditambahkan pada jadual. Sebagai contoh, tanda ruble telah digunakan secara aktif selama enam tahun sebelum ia ditambahkan pada Unicode. Piktogram emoji (emotikon) juga pertama kali digunakan secara meluas di Jepun sebelum ia dimasukkan dalam pengekodan. Tetapi tanda dagangan dan logo syarikat tidak ditambah pada dasarnya. Malah yang biasa seperti epal Apple atau bendera Windows. Sehingga kini, kira-kira 120 ribu aksara dikodkan dalam versi 8.0.

Excel untuk Office 365 Word untuk Office 365 Outlook untuk Office 365 PowerPoint untuk Office 365 Publisher untuk Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2016 Outlook 2 PowerPoint 2019 Standard 2016 Word OneNote 2016 Publisher 013 Penerbit 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 1 Visio Excel 2010 Publisher 2010 Word 2010 Publisher 2010 7 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Kurang

Dalam artikel ini: Masukkan aksara ASCII atau Unicode ke dalam dokumen

Jika anda hanya perlu memasukkan beberapa aksara atau simbol khas, anda boleh menggunakan pintasan papan kekunci. Untuk senarai aksara ASCII, lihat jadual berikut atau artikel Memasukkan Abjad Kebangsaan Menggunakan Pintasan Papan Kekunci.

Nota:

Memasukkan aksara ASCII

Untuk memasukkan aksara ASCII, tekan dan tahan kekunci ALT semasa memasukkan kod aksara. Contohnya, untuk memasukkan simbol darjah (º), tekan dan tahan kekunci ALT, kemudian masukkan 0176 pada pad kekunci angka.

Untuk memasukkan nombor, gunakan pad kekunci angka dan bukannya nombor pada papan kekunci utama. Jika anda perlu memasukkan nombor pada papan kekunci angka, pastikan penunjuk NUM LOCK dihidupkan.

Memasukkan Aksara Unikod

Untuk memasukkan aksara Unicode, masukkan kod aksara, kemudian tekan ALT dan X. Contohnya, untuk memasukkan simbol dolar ($), masukkan 0024 dan tekan ALT dan X. Untuk semua kod aksara Unicode, lihat .

Penting: Sesetengah program Microsoft Office, seperti PowerPoint dan InfoPath, tidak menyokong penukaran kod Unicode kepada aksara. Jika anda perlu memasukkan aksara Unicode dalam salah satu program ini, gunakan .

Nota:

    Jika aksara Unicode yang salah muncul selepas anda menekan ALT+X, pilih kod yang betul, dan kemudian tekan ALT+X sekali lagi.

    Selain itu, anda mesti memasukkan "U+" sebelum kod. Contohnya, jika anda memasukkan "1U+B5" dan tekan ALT+X, teks "1µ" akan dipaparkan, dan jika anda memasukkan "1B5" dan tekan ALT+X, simbol "Ƶ" akan dipaparkan.

Menggunakan jadual simbol

Jadual aksara ialah program terbina dalam Microsoft Windows yang membolehkan anda melihat aksara yang tersedia untuk fon yang dipilih.

Menggunakan jadual simbol, anda boleh menyalin simbol individu atau sekumpulan simbol ke papan keratan dan menampalnya ke dalam mana-mana program yang menyokong paparan simbol tersebut. Membuka jadual simbol

    Dalam Windows 10, masukkan perkataan "simbol" dalam kotak carian pada bar tugas dan pilih jadual simbol daripada hasil carian.

    Dalam Windows 8, taip "simbol" pada skrin Mula dan pilih jadual simbol daripada hasil carian.

    Dalam Windows 7, klik butang Mula, pilih Semua Program, Aksesori, Alat Sistem, dan kemudian klik Peta Aksara.

Aksara dikumpulkan mengikut fon. Klik senarai fon untuk memilih set aksara yang sesuai. Untuk memilih simbol, klik padanya, kemudian klik butang Pilih. Untuk memasukkan simbol, klik kanan lokasi yang dikehendaki dalam dokumen dan pilih Tampal.

Kod aksara yang kerap digunakan

Untuk senarai lengkap aksara, lihat Komputer, Jadual Kod Aksara ASCII atau Jadual Aksara Unikod Disusun mengikut Set.

Glyph

Glyph

mata wang

Simbol undang-undang

Simbol matematik

Pecahan

Tanda baca dan simbol dialek

Simbol bentuk

Kod diakritik yang biasa digunakan

Untuk senarai lengkap glif dan kod yang sepadan, lihat.

Glyph

Glyph

Bukan mencetak aksara kawalan ASCII

Aksara yang digunakan untuk mengawal beberapa peranti persisian, seperti pencetak, bernombor 0–31 dalam jadual ASCII. Contohnya, suapan halaman/aksara halaman baharu ialah nombor 12. Aksara ini memberitahu pencetak untuk beralih ke permulaan halaman seterusnya.

Jadual aksara kawalan ASCII yang tidak mencetak

Nombor perpuluhan

Tanda

Nombor perpuluhan

Tanda

Membebaskan saluran data

Permulaan tajuk

Kod kawalan peranti pertama

Permulaan teks

Kod kawalan peranti kedua

Akhir teks

Kod kawalan peranti ketiga

Tamat penghantaran

Kod kawalan peranti keempat

berbucu lima

Pengesahan negatif

Pengesahan

Mod penghantaran segerak

Isyarat bunyi

Tamat blok data yang dihantar

Penjadualan mendatar

Tamat media

Suapan baris/baris baharu

Simbol penggantian

Tab menegak

melebihi

Terjemahan halaman/halaman baharu

Dua belas

Pemisah fail

Pulangan pengangkutan

Pemisah kumpulan

Beralih tanpa menyimpan bit

Pemisah rekod

Anjakan yang mengekalkan bit

lima belas

Pemisah data

[Pengekodan 8-bit: ASCII, KOI-8R dan CP1251] Jadual pengekodan pertama yang dibuat di AS tidak menggunakan bit kelapan dalam bait. Teks diwakili sebagai urutan bait, tetapi bit kelapan tidak diambil kira (ia digunakan untuk tujuan rasmi).

Jadual ASCII (American Standard Code for Information Interchange) telah menjadi standard yang diterima umum. 32 aksara pertama jadual ASCII (00 hingga 1F) telah digunakan untuk aksara bukan pencetakan. Mereka direka untuk mengawal peranti percetakan, dsb. Selebihnya - dari 20 hingga 7F - ialah aksara biasa (boleh dicetak).

Jadual 1 - pengekodan ASCII

Dec Hex Okt Char Penerangan
0 0 000 null
1 1 001 permulaan tajuk
2 2 002 permulaan teks
3 3 003 akhir teks
4 4 004 akhir penghantaran
5 5 005 siasatan
6 6 006 mengakui
7 7 007 loceng
8 8 010 ruang belakang
9 9 011 tab mendatar
10 A 012 baris baru
11 B 013 tab menegak
12 C 014 halaman baharu
13 D 015 pemulangan pengangkutan
14 E 016 beralih keluar
15 F 017 beralih masuk
16 10 020 melarikan diri pautan data
17 11 021 kawalan peranti 1
18 12 022 kawalan peranti 2
19 13 023 kawalan peranti 3
20 14 024 kawalan peranti 4
21 15 025 pengakuan negatif
22 16 026 terbiar segerak
23 17 027 akhir trans. blok
24 18 030 batalkan
25 19 031 akhir medium
26 1A 032 pengganti
27 1B 033 melarikan diri
28 1C 034 pemisah fail
29 1D 035 pemisah kumpulan
30 1E 036 pemisah rekod
31 1F 037 pemisah unit
32 20 040 angkasa lepas
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
Dis Hex Okt Char
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 saya
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 hlm
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Seperti yang anda boleh lihat dengan mudah, pengekodan ini hanya mengandungi huruf Latin dan yang digunakan dalam bahasa Inggeris. Terdapat juga simbol aritmetik dan perkhidmatan lain. Tetapi tidak ada huruf Rusia, mahupun huruf Latin khas untuk bahasa Jerman atau Perancis. Ini mudah dijelaskan - pengekodan telah dibangunkan secara khusus sebagai standard Amerika. Apabila komputer mula digunakan di seluruh dunia, aksara lain perlu dikodkan.

Untuk melakukan ini, ia telah memutuskan untuk menggunakan bit kelapan dalam setiap bait. Ini menjadikan 128 lagi nilai tersedia (dari 80 hingga FF) yang boleh digunakan untuk mengekod aksara. Yang pertama daripada jadual lapan-bit - "ASCII lanjutan" ( Extended ASCII) - termasuk pelbagai varian aksara Latin yang digunakan dalam beberapa bahasa di Eropah Barat. Ia juga mengandungi simbol tambahan lain, termasuk pseudografik.

Aksara pseudografik membolehkan anda menyediakan beberapa rupa grafik dengan hanya memaparkan aksara teks pada skrin. Sebagai contoh, program pengurusan fail FAR Manager berfungsi menggunakan pseudografik.

Tiada huruf Rusia dalam jadual ASCII Lanjutan. Rusia (dahulunya USSR) dan negara lain mencipta pengekodan mereka sendiri yang memungkinkan untuk mewakili aksara "kebangsaan" tertentu dalam fail teks 8-bit - huruf Latin bahasa Poland dan Czech, Cyrillic (termasuk huruf Rusia) dan abjad lain.

Dalam semua pengekodan yang telah tersebar luas, 127 aksara pertama (iaitu, nilai bait dengan bit kelapan bersamaan dengan 0) adalah sama dengan ASCII. Jadi fail ASCII berfungsi dalam salah satu pengekodan ini; Huruf-huruf bahasa Inggeris diwakili dengan cara yang sama.

Organisasi ISO (International Standardization Organization) telah menerima pakai kumpulan standard ISO 8859. Ia mentakrifkan pengekodan 8-bit untuk kumpulan bahasa yang berbeza. Jadi, ISO 8859-1 ialah jadual ASCII Lanjutan untuk Amerika Syarikat dan Eropah Barat. Dan ISO 8859-5 ialah jadual untuk abjad Cyrillic (termasuk Rusia).

Walau bagaimanapun, atas sebab sejarah, pengekodan ISO 8859-5 tidak berakar umbi. Pada hakikatnya, pengekodan berikut digunakan untuk bahasa Rusia:

Kod Halaman 866 (CP866), aka "DOS", aka "pengekodan GOST alternatif". Digunakan secara meluas sehingga pertengahan 90-an; kini digunakan pada tahap yang terhad. Hampir tidak digunakan untuk mengedarkan teks di Internet.
- KOI-8. Dibangunkan pada tahun 70-80an. Ia adalah piawaian yang diterima umum untuk menghantar mesej e-mel di Internet Rusia. Ia juga digunakan secara meluas dalam sistem pengendalian keluarga Unix, termasuk Linux. Versi bahasa Rusia KOI-8 dipanggil KOI-8R; Terdapat versi untuk bahasa Cyrillic lain (contohnya, KOI8-U ialah versi untuk bahasa Ukraine).
- Halaman Kod 1251, CP1251, Windows-1251. Dibangunkan oleh Microsoft untuk menyokong bahasa Rusia dalam Windows.

Kelebihan utama CP866 ialah pengekalan aksara pseudo-grafik di tempat yang sama seperti dalam Extended ASCII; oleh itu, program teks asing, sebagai contoh, Norton Commander yang terkenal, boleh berfungsi tanpa perubahan. CP866 kini digunakan untuk program Windows yang dijalankan dalam tetingkap teks atau mod teks skrin penuh, termasuk FAR Manager.

Teks dalam CP866 agak jarang berlaku sejak beberapa tahun kebelakangan ini (tetapi ia digunakan untuk mengekod nama fail Rusia dalam Windows). Oleh itu, kami akan membincangkan dengan lebih terperinci mengenai dua pengekodan lain - KOI-8R dan CP1251.



Seperti yang anda lihat, dalam jadual pengekodan CP1251, huruf Rusia disusun dalam susunan abjad (dengan pengecualian, bagaimanapun, huruf E). Susunan ini memudahkan atur cara komputer untuk mengisih mengikut abjad.

Tetapi dalam KOI-8R susunan huruf Rusia kelihatan rawak. Tetapi sebenarnya tidak.

Dalam banyak program lama, bit ke-8 telah hilang semasa memproses atau menghantar teks. (Kini program sedemikian boleh dikatakan "pupus", tetapi pada akhir 80-an - awal 90-an mereka tersebar luas). Untuk mendapatkan nilai 7-bit daripada nilai 8-bit, hanya tolak 8 daripada digit paling ketara; sebagai contoh, E1 menjadi 61.

Sekarang bandingkan KOI-8R dengan jadual ASCII (Jadual 1). Anda akan mendapati bahawa huruf Rusia diletakkan dalam surat-menyurat yang jelas dengan huruf Latin. Jika bit kelapan hilang, huruf kecil Rusia bertukar menjadi huruf Latin besar, dan huruf Rusia besar bertukar menjadi huruf Latin huruf kecil. Jadi, E1 dalam KOI-8 ialah "A" Rusia, manakala 61 dalam ASCII ialah "a" Latin.

Jadi, KOI-8 membolehkan anda mengekalkan kebolehbacaan teks Rusia apabila bit ke-8 hilang. "Hello semua" menjadi "WSEM pRIWET".

Baru-baru ini, kedua-dua susunan abjad aksara dalam jadual pengekodan dan kebolehbacaan dengan kehilangan bit ke-8 telah kehilangan kepentingannya yang menentukan. Bit kelapan dalam komputer moden tidak hilang semasa penghantaran atau pemprosesan. Dan pengisihan abjad dilakukan dengan mengambil kira pengekodan, dan bukan dengan hanya membandingkan kod. (Dengan cara ini, kod CP1251 tidak disusun sepenuhnya mengikut abjad - huruf E tidak berada di tempatnya).

Disebabkan fakta bahawa terdapat dua pengekodan biasa, apabila bekerja dengan Internet (mel, melayari laman web), anda kadang-kadang dapat melihat set huruf yang tidak bermakna dan bukannya teks Rusia. Contohnya, "SAYA SBYUFEMHEL." Ini hanyalah perkataan "dengan hormat"; tetapi ia telah dikodkan dalam pengekodan CP1251, dan komputer menyahkod teks menggunakan jadual KOI-8. Jika perkataan yang sama, sebaliknya, dikodkan dalam KOI-8, dan komputer menyahkod teks mengikut jadual CP1251, hasilnya akan menjadi "U HCHBTSEOYEN".

Kadang-kadang ia berlaku bahawa komputer mentafsir huruf bahasa Rusia menggunakan jadual yang tidak dimaksudkan untuk bahasa Rusia. Kemudian, bukannya huruf Rusia, satu set simbol yang tidak bermakna muncul (contohnya, huruf Latin bahasa Eropah Timur); mereka sering dipanggil "crocozybras".

Dalam kebanyakan kes, program moden mengatasi penentuan pengekodan dokumen Internet (e-mel dan halaman Web) secara bebas. Tetapi kadang-kadang mereka "misfire", dan kemudian anda dapat melihat urutan aneh huruf Rusia atau "krokozyabry". Sebagai peraturan, dalam keadaan sedemikian, untuk memaparkan teks sebenar pada skrin, sudah cukup untuk memilih pengekodan secara manual dalam menu program.

Maklumat daripada halaman http://open-office.edusite.ru/TextProcessor/p5aa1.html telah digunakan untuk artikel ini.

Bahan yang diambil dari tapak: