Seperti yang anda ketahui, komputer menyimpan maklumat dalam bentuk binari, mewakilinya sebagai urutan satu dan sifar. Untuk menterjemah maklumat ke dalam bentuk yang sesuai untuk persepsi manusia, setiap urutan nombor unik digantikan dengan simbol yang sepadan apabila dipaparkan.
Salah satu sistem untuk mengaitkan kod binari dengan aksara bercetak dan kawalan ialah
Pada tahap perkembangan teknologi komputer semasa, pengguna tidak perlu mengetahui kod setiap watak tertentu. Walau bagaimanapun, pemahaman umum tentang cara pengekodan dijalankan amat berguna, dan untuk sesetengah kategori pakar, malah diperlukan.
Mencipta ASCIIPengekodan pada asalnya dibangunkan pada tahun 1963 dan kemudian dikemas kini dua kali dalam tempoh 25 tahun.
Dalam versi asal, jadual aksara ASCII termasuk 128 aksara; kemudian versi lanjutan muncul, di mana 128 aksara pertama telah disimpan, dan aksara yang hilang sebelum ini diberikan kepada kod dengan bit kelapan terlibat.
Selama bertahun-tahun, pengekodan ini adalah yang paling popular di dunia. Pada tahun 2006, Latin 1252 mengambil kedudukan utama, dan dari penghujung tahun 2007 hingga kini, Unicode telah memegang kedudukan utama dengan kukuh.
Perwakilan komputer ASCIISetiap aksara ASCII mempunyai kodnya sendiri, terdiri daripada 8 aksara yang mewakili sifar atau satu. Nombor minimum dalam perwakilan ini ialah sifar (lapan sifar dalam sistem binari), iaitu kod elemen pertama dalam jadual.
Dua kod dalam jadual telah dikhaskan untuk bertukar antara AS-ASCII standard dan varian nasionalnya.
Selepas ASCII mula memasukkan bukan 128, tetapi 256 aksara, varian pengekodan menjadi meluas, di mana versi asal jadual disimpan dalam 128 kod pertama dengan sifar bit ke-8. Aksara bertulis kebangsaan disimpan di bahagian atas jadual (kedudukan 128-255).
Pengguna tidak perlu mengetahui kod aksara ASCII secara langsung. Pembangun perisian biasanya hanya perlu mengetahui nombor elemen dalam jadual untuk mengira kodnya menggunakan sistem binari jika perlu.
Bahasa RusiaSelepas pembangunan pengekodan untuk bahasa Scandinavia, Cina, Korea, Yunani, dll. pada awal 70-an, Kesatuan Soviet mula mencipta versinya sendiri. Tidak lama kemudian, versi pengekodan 8-bit yang dipanggil KOI8 telah dibangunkan, mengekalkan 128 kod aksara ASCII yang pertama dan memperuntukkan bilangan kedudukan yang sama untuk huruf abjad kebangsaan dan aksara tambahan.
Sebelum pengenalan Unicode, KOI8 menguasai segmen Internet Rusia. Terdapat pilihan pengekodan untuk kedua-dua abjad Rusia dan Ukraine.
masalah ASCIIMemandangkan bilangan elemen walaupun dalam jadual lanjutan tidak melebihi 256, tidak ada kemungkinan untuk menampung beberapa skrip berbeza dalam satu pengekodan. Pada tahun 90-an, masalah "crocozyabr" muncul di Runet, apabila teks yang ditaip dalam aksara ASCII Rusia dipaparkan dengan tidak betul.
Masalahnya ialah kod ASCII yang berbeza tidak sepadan antara satu sama lain. Mari kita ingat bahawa pelbagai aksara boleh ditempatkan di kedudukan 128-255, dan apabila menukar satu pengekodan Cyrillic kepada yang lain, semua huruf teks digantikan dengan yang lain yang mempunyai nombor yang sama dalam versi pengekodan yang berbeza.
Keadaan sekarangDengan kemunculan Unicode, populariti ASCII mula merosot dengan mendadak.
Sebabnya terletak pada hakikat bahawa pengekodan baharu memungkinkan untuk menampung aksara daripada hampir semua bahasa bertulis. Dalam kes ini, 128 aksara ASCII yang pertama sepadan dengan aksara yang sama dalam Unicode.
Pada tahun 2000, ASCII ialah pengekodan paling popular di Internet dan digunakan pada 60% halaman web yang diindeks oleh Google. Menjelang 2012, bahagian halaman sedemikian telah menurun kepada 17%, dan Unicode (UTF-8) menggantikan pengekodan yang paling popular.
Oleh itu, ASCII adalah bahagian penting dalam sejarah teknologi maklumat, tetapi penggunaannya pada masa hadapan nampaknya tidak menjanjikan.
Dis | Hex | Simbol | Dis | Hex | Simbol | |
000 | 00 | pakar. TIDAK | 128 | 80 | Ђ | |
001 | 01 | pakar. SOH | 129 | 81 | Ѓ | |
002 | 02 | pakar. STX | 130 | 82 | ‚ | |
003 | 03 | pakar. ETX | 131 | 83 | ѓ | |
004 | 04 | pakar. EOT | 132 | 84 | „ | |
005 | 05 | pakar. ENQ | 133 | 85 | … | |
006 | 06 | pakar. ACK | 134 | 86 | † | |
007 | 07 | pakar. BEL | 135 | 87 | ‡ | |
008 | 08 | pakar. B.S. | 136 | 88 | € | |
009 | 09 | pakar. TAB | 137 | 89 | ‰ | |
010 | 0A | pakar. LF | 138 | 8A | Љ | |
011 | 0B | pakar. VT | 139 | 8B | ‹ ‹ | |
012 | 0C | pakar. FF | 140 | 8C | Њ | |
013 | 0D | pakar. CR | 141 | 8D | Ќ | |
014 | 0E | pakar. JADI | 142 | 8E | Ћ | |
015 | 0F | pakar. S.I. | 143 | 8F | Џ | |
016 | 10 | pakar. DLE | 144 | 90 | ђ | |
017 | 11 | pakar. DC1 | 145 | 91 | ‘ | |
018 | 12 | pakar. DC2 | 146 | 92 | ’ | |
019 | 13 | pakar. DC3 | 147 | 93 | “ | |
020 | 14 | pakar. DC4 | 148 | 94 | ” | |
021 | 15 | pakar. N.A.K. | 149 | 95 | ||
022 | 16 | pakar. SYN | 150 | 96 | – | |
023 | 17 | pakar. ETB | 151 | 97 | — | |
024 | 18 | pakar. BOLEH | 152 | 98 | ||
025 | 19 | pakar. E.M. | 153 | 99 | ™ | |
026 | 1A | pakar. SUB | 154 | 9A | љ | |
027 | 1B | pakar. ESC | 155 | 9B | › | |
028 | 1C | pakar. FS | 156 | 9C | њ | |
029 | 1D | pakar. G.S. | 157 | 9D | ќ | |
030 | 1E | pakar. R.S. | 158 | 9E | ћ | |
031 | 1F | pakar. AS | 159 | 9F | џ | |
032 | 20 | klac SP (Angkasa) | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | " | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | " | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Yo | |
041 | 29 | ) | 169 | A9 | © | |
042 | 2A | * | 170 | A.A. | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | A.C. | ¬ | |
045 | 2D | - | 173 | AD | | |
046 | 2E | . | 174 | A.E. | ® | |
047 | 2F | / | 175 | A.F. | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | e | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | B.A. | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | B.C. | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | JADILAH | ѕ | |
063 | 3F | ? | 191 | B.F. | ї | |
064 | 40 | @ | 192 | C0 | A | |
065 | 41 | A | 193 | C1 | B | |
066 | 42 | B | 194 | C2 | DALAM | |
067 | 43 | C | 195 | C3 | G | |
068 | 44 | D | 196 | C4 | D | |
069 | 45 | E | 197 | C5 | E | |
070 | 46 | F | 198 | C6 | DAN | |
071 | 47 | G | 199 | C7 | Z | |
072 | 48 | H | 200 | C8 | DAN | |
073 | 49 | saya | 201 | C9 | Y | |
074 | 4A | J | 202 | C.A. | KEPADA | |
075 | 4B | K | 203 | C.B. | L | |
076 | 4C | L | 204 | CC | M | |
077 | 4D | M | 205 | CD | N | |
078 | 4E | N | 206 | C.E. | TENTANG | |
079 | 4F | O | 207 | CF | P | |
080 | 50 | P | 208 | D0 | R | |
081 | 51 | Q | 209 | D1 | DENGAN | |
082 | 52 | R | 210 | D2 | T | |
083 | 53 | S | 211 | D3 | U | |
084 | 54 | T | 212 | D4 | F | |
085 | 55 | U | 213 | D5 | X | |
086 | 56 | V | 214 | D6 | C | |
087 | 57 | W | 215 | D7 | H | |
088 | 58 | X | 216 | D8 | Sh | |
089 | 59 | Y | 217 | D9 | SCH | |
090 | 5A | Z | 218 | D.A. | Kommersant | |
091 | 5B | [ | 219 | D.B. | Y | |
092 | 5C | \ | 220 | DC | b | |
093 | 5D | ] | 221 | DD | E | |
094 | 5E | ^ | 222 | DE | YU | |
095 | 5F | _ | 223 | DF | saya | |
096 | 60 | ` | 224 | E0 | A | |
097 | 61 | a | 225 | E1 | b | |
098 | 62 | b | 226 | E2 | V | |
099 | 63 | c | 227 | E3 | G | |
100 | 64 | d | 228 | E4 | d | |
101 | 65 | e | 229 | E5 | e | |
102 | 66 | f | 230 | E6 | dan | |
103 | 67 | g | 231 | E7 | h | |
104 | 68 | h | 232 | E8 | Dan | |
105 | 69 | i | 233 | E9 | ke | |
106 | 6A | j | 234 | E.A. | Kepada | |
107 | 6B | k | 235 | E.B. | l | |
108 | 6C | l | 236 | E.C. | m | |
109 | 6D | m | 237 | ED | n | |
110 | 6E | n | 238 | E.E. | O | |
111 | 6F | o | 239 | E.F. | P | |
112 | 70 | hlm | 240 | F0 | R | |
113 | 71 | q | 241 | F1 | Dengan | |
114 | 72 | r | 242 | F2 | T | |
115 | 73 | s | 243 | F3 | di | |
116 | 74 | t | 244 | F4 | f | |
117 | 75 | u | 245 | F5 | X | |
118 | 76 | v | 246 | F6 | ts | |
119 | 77 | w | 247 | F7 | h | |
120 | 78 | x | 248 | F8 | w | |
121 | 79 | y | 249 | F9 | sch | |
122 | 7A | z | 250 | F.A. | ъ | |
123 | 7B | { | 251 | FB | s | |
124 | 7C | | | 252 | F.C. | b | |
125 | 7D | } | 253 | FD | eh | |
126 | 7E | ~ | 254 | F.E. | Yu | |
127 | 7F | Pakar. DEL | 255 | FF | saya |
Perihalan aksara khas (kawalan) Perlu diingat bahawa pada mulanya aksara kawalan jadual ASCII digunakan untuk memastikan pertukaran data melalui teletaip, kemasukan data daripada pita tebuk dan untuk kawalan mudah peranti luaran.
Pada masa ini, kebanyakan aksara kawalan jadual ASCII tidak lagi membawa beban ini dan boleh digunakan untuk tujuan lain.
NUL, 00 | Null, kosong |
SOH, 01 | Permulaan Tajuk |
STX, 02 | Permulaan TeXt, permulaan teks. |
ETX, 03 | Tamat TeXt, akhir teks |
EOT, 04 | Tamat Penghantaran, tamat penghantaran |
ENQ, 05 | Tanya. Tolong sahkan |
ACK, 06 | Pengakuan. Saya mengesahkan |
BEL, 07 | Bell, panggil |
BS, 08 | Ruang belakang, kembali satu aksara |
TAB, 09 | Tab, tab mendatar |
LF, 0A | Suapan Baris, suapan baris. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \n |
VT, 0B | Tab Menegak, penjadualan menegak. |
FF, 0C | Suapan Borang, suapan halaman, halaman baharu |
CR, 0D | Pulang gerabak, pemulangan gerabak. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \r |
JADI,0E | Shift Out, tukar warna reben dakwat dalam peranti pencetakan |
SI, 0F | Shift In, kembalikan warna reben dakwat dalam peranti pencetakan semula |
DLE, 10 | Data Link Escape, menukar saluran kepada penghantaran data |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Kawalan Peranti, simbol kawalan peranti |
NAK, 15 | Pengakuan Negatif, saya tidak mengesahkan. |
SYN, 16 | Penyegerakan. Simbol penyegerakan |
ETB, 17 | Tamat Blok Teks, hujung blok teks |
BOLEH, 18 | Batal, pembatalan yang dihantar sebelum ini |
EM, 19 | Akhir Sederhana |
SUB, 1A | Pengganti, pengganti. Diletakkan di tempat simbol yang maknanya hilang atau rosak semasa penghantaran |
ESC, 1B | Urutan Kawalan Melarikan Diri |
FS, 1C | Pemisah Fail, pemisah fail |
GS, 1D | Pemisah Kumpulan |
RS, 1E | Pemisah Rekod, pemisah rekod |
AS, 1F | Pemisah Unit |
DEL, 7F | Padam, padam aksara terakhir. |
Unicode (Unicode dalam bahasa Inggeris) ialah standard pengekodan aksara. Ringkasnya, ini ialah jadual surat-menyurat antara aksara teks (huruf, elemen tanda baca) dan kod binari. Komputer hanya memahami urutan sifar dan satu. Supaya ia tahu apa sebenarnya yang perlu dipaparkan pada skrin, adalah perlu untuk menetapkan setiap watak nombor uniknya sendiri. Pada tahun lapan puluhan, aksara telah dikodkan dalam satu bait, iaitu lapan bit (setiap bit ialah 0 atau 1). Oleh itu, ternyata satu jadual (aka pengekodan atau set) hanya boleh memuatkan 256 aksara. Ini mungkin tidak mencukupi walaupun untuk satu bahasa. Oleh itu, banyak pengekodan berbeza muncul, kekeliruan yang sering menyebabkan beberapa omong kosong aneh muncul pada skrin dan bukannya teks yang boleh dibaca. Satu standard diperlukan, iaitu Unicode menjadi. Pengekodan yang paling banyak digunakan ialah UTF-8 (Format Transformasi Unikod), yang menggunakan 1 hingga 4 bait untuk mewakili aksara.
SimbolAksara dalam jadual Unicode dinomborkan dengan nombor perenambelasan. Sebagai contoh, huruf besar Cyrillic M ditetapkan sebagai U+041C. Ini bermakna ia terletak di persimpangan baris 041 dan lajur C. Anda hanya boleh menyalinnya dan kemudian menampalnya di suatu tempat. Untuk tidak menyelongkar senarai berbilang kilometer, anda harus menggunakan carian. Apabila anda pergi ke halaman simbol, anda akan melihat nombor Unikodnya dan cara ia ditulis dalam fon yang berbeza. Anda boleh memasukkan tanda itu sendiri ke dalam bar carian, walaupun segi empat sama dilukis sebaliknya, sekurang-kurangnya untuk mengetahui perkara itu. Juga, di laman web ini terdapat set khas (dan rawak) daripada jenis ikon yang sama, dikumpulkan dari bahagian yang berbeza, untuk kemudahan penggunaan.
Piawaian Unicode adalah antarabangsa. Ia termasuk watak dari hampir semua skrip dunia. Termasuk yang tidak digunakan lagi. Hieroglif Mesir, rune Jerman, tulisan Maya, cuneiform dan abjad negeri purba. Penetapan berat dan sukatan, notasi muzik, dan konsep matematik juga dibentangkan.
Konsortium Unicode sendiri tidak mencipta aksara baharu. Ikon yang didapati digunakan dalam masyarakat ditambahkan pada jadual. Sebagai contoh, tanda ruble telah digunakan secara aktif selama enam tahun sebelum ia ditambahkan pada Unicode. Piktogram emoji (emotikon) juga pertama kali digunakan secara meluas di Jepun sebelum ia dimasukkan dalam pengekodan. Tetapi tanda dagangan dan logo syarikat tidak ditambah pada dasarnya. Malah yang biasa seperti epal Apple atau bendera Windows. Sehingga kini, kira-kira 120 ribu aksara dikodkan dalam versi 8.0.
Excel untuk Office 365 Word untuk Office 365 Outlook untuk Office 365 PowerPoint untuk Office 365 Publisher untuk Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2016 Outlook 2 PowerPoint 2019 Standard 2016 Word OneNote 2016 Publisher 013 Penerbit 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 1 Visio Excel 2010 Publisher 2010 Word 2010 Publisher 2010 7 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Kurang
Dalam artikel ini: Masukkan aksara ASCII atau Unicode ke dalam dokumenJika anda hanya perlu memasukkan beberapa aksara atau simbol khas, anda boleh menggunakan pintasan papan kekunci. Untuk senarai aksara ASCII, lihat jadual berikut atau artikel Memasukkan Abjad Kebangsaan Menggunakan Pintasan Papan Kekunci.
Nota:
Memasukkan aksara ASCIIUntuk memasukkan aksara ASCII, tekan dan tahan kekunci ALT semasa memasukkan kod aksara. Contohnya, untuk memasukkan simbol darjah (º), tekan dan tahan kekunci ALT, kemudian masukkan 0176 pada pad kekunci angka.
Untuk memasukkan nombor, gunakan pad kekunci angka dan bukannya nombor pada papan kekunci utama. Jika anda perlu memasukkan nombor pada papan kekunci angka, pastikan penunjuk NUM LOCK dihidupkan.
Memasukkan Aksara UnikodUntuk memasukkan aksara Unicode, masukkan kod aksara, kemudian tekan ALT dan X. Contohnya, untuk memasukkan simbol dolar ($), masukkan 0024 dan tekan ALT dan X. Untuk semua kod aksara Unicode, lihat .
Penting: Sesetengah program Microsoft Office, seperti PowerPoint dan InfoPath, tidak menyokong penukaran kod Unicode kepada aksara. Jika anda perlu memasukkan aksara Unicode dalam salah satu program ini, gunakan .
Nota:
Jika aksara Unicode yang salah muncul selepas anda menekan ALT+X, pilih kod yang betul, dan kemudian tekan ALT+X sekali lagi.
Selain itu, anda mesti memasukkan "U+" sebelum kod. Contohnya, jika anda memasukkan "1U+B5" dan tekan ALT+X, teks "1µ" akan dipaparkan, dan jika anda memasukkan "1B5" dan tekan ALT+X, simbol "Ƶ" akan dipaparkan.
Jadual aksara ialah program terbina dalam Microsoft Windows yang membolehkan anda melihat aksara yang tersedia untuk fon yang dipilih.
Menggunakan jadual simbol, anda boleh menyalin simbol individu atau sekumpulan simbol ke papan keratan dan menampalnya ke dalam mana-mana program yang menyokong paparan simbol tersebut. Membuka jadual simbol
Dalam Windows 10, masukkan perkataan "simbol" dalam kotak carian pada bar tugas dan pilih jadual simbol daripada hasil carian.
Dalam Windows 8, taip "simbol" pada skrin Mula dan pilih jadual simbol daripada hasil carian.
Dalam Windows 7, klik butang Mula, pilih Semua Program, Aksesori, Alat Sistem, dan kemudian klik Peta Aksara.
Aksara dikumpulkan mengikut fon. Klik senarai fon untuk memilih set aksara yang sesuai. Untuk memilih simbol, klik padanya, kemudian klik butang Pilih. Untuk memasukkan simbol, klik kanan lokasi yang dikehendaki dalam dokumen dan pilih Tampal.
Kod aksara yang kerap digunakanUntuk senarai lengkap aksara, lihat Komputer, Jadual Kod Aksara ASCII atau Jadual Aksara Unikod Disusun mengikut Set.
mata wang |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simbol undang-undang |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simbol matematik |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Pecahan |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tanda baca dan simbol dialek |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Simbol bentuk |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kod diakritik yang biasa digunakan Untuk senarai lengkap glif dan kod yang sepadan, lihat.
|
[Pengekodan 8-bit: ASCII, KOI-8R dan CP1251] Jadual pengekodan pertama yang dibuat di AS tidak menggunakan bit kelapan dalam bait. Teks diwakili sebagai urutan bait, tetapi bit kelapan tidak diambil kira (ia digunakan untuk tujuan rasmi).
Jadual ASCII (American Standard Code for Information Interchange) telah menjadi standard yang diterima umum. 32 aksara pertama jadual ASCII (00 hingga 1F) telah digunakan untuk aksara bukan pencetakan. Mereka direka untuk mengawal peranti percetakan, dsb. Selebihnya - dari 20 hingga 7F - ialah aksara biasa (boleh dicetak).
Jadual 1 - pengekodan ASCII
|
|
Seperti yang anda boleh lihat dengan mudah, pengekodan ini hanya mengandungi huruf Latin dan yang digunakan dalam bahasa Inggeris. Terdapat juga simbol aritmetik dan perkhidmatan lain. Tetapi tidak ada huruf Rusia, mahupun huruf Latin khas untuk bahasa Jerman atau Perancis. Ini mudah dijelaskan - pengekodan telah dibangunkan secara khusus sebagai standard Amerika. Apabila komputer mula digunakan di seluruh dunia, aksara lain perlu dikodkan.
Untuk melakukan ini, ia telah memutuskan untuk menggunakan bit kelapan dalam setiap bait. Ini menjadikan 128 lagi nilai tersedia (dari 80 hingga FF) yang boleh digunakan untuk mengekod aksara. Yang pertama daripada jadual lapan-bit - "ASCII lanjutan" ( Extended ASCII) - termasuk pelbagai varian aksara Latin yang digunakan dalam beberapa bahasa di Eropah Barat. Ia juga mengandungi simbol tambahan lain, termasuk pseudografik.
Aksara pseudografik membolehkan anda menyediakan beberapa rupa grafik dengan hanya memaparkan aksara teks pada skrin. Sebagai contoh, program pengurusan fail FAR Manager berfungsi menggunakan pseudografik.
Tiada huruf Rusia dalam jadual ASCII Lanjutan. Rusia (dahulunya USSR) dan negara lain mencipta pengekodan mereka sendiri yang memungkinkan untuk mewakili aksara "kebangsaan" tertentu dalam fail teks 8-bit - huruf Latin bahasa Poland dan Czech, Cyrillic (termasuk huruf Rusia) dan abjad lain.
Dalam semua pengekodan yang telah tersebar luas, 127 aksara pertama (iaitu, nilai bait dengan bit kelapan bersamaan dengan 0) adalah sama dengan ASCII. Jadi fail ASCII berfungsi dalam salah satu pengekodan ini; Huruf-huruf bahasa Inggeris diwakili dengan cara yang sama.
Organisasi ISO (International Standardization Organization) telah menerima pakai kumpulan standard ISO 8859. Ia mentakrifkan pengekodan 8-bit untuk kumpulan bahasa yang berbeza. Jadi, ISO 8859-1 ialah jadual ASCII Lanjutan untuk Amerika Syarikat dan Eropah Barat. Dan ISO 8859-5 ialah jadual untuk abjad Cyrillic (termasuk Rusia).
Walau bagaimanapun, atas sebab sejarah, pengekodan ISO 8859-5 tidak berakar umbi. Pada hakikatnya, pengekodan berikut digunakan untuk bahasa Rusia:
Kod Halaman 866 (CP866), aka "DOS", aka "pengekodan GOST alternatif". Digunakan secara meluas sehingga pertengahan 90-an; kini digunakan pada tahap yang terhad. Hampir tidak digunakan untuk mengedarkan teks di Internet.
- KOI-8. Dibangunkan pada tahun 70-80an. Ia adalah piawaian yang diterima umum untuk menghantar mesej e-mel di Internet Rusia. Ia juga digunakan secara meluas dalam sistem pengendalian keluarga Unix, termasuk Linux. Versi bahasa Rusia KOI-8 dipanggil KOI-8R; Terdapat versi untuk bahasa Cyrillic lain (contohnya, KOI8-U ialah versi untuk bahasa Ukraine).
- Halaman Kod 1251, CP1251, Windows-1251. Dibangunkan oleh Microsoft untuk menyokong bahasa Rusia dalam Windows.
Kelebihan utama CP866 ialah pengekalan aksara pseudo-grafik di tempat yang sama seperti dalam Extended ASCII; oleh itu, program teks asing, sebagai contoh, Norton Commander yang terkenal, boleh berfungsi tanpa perubahan. CP866 kini digunakan untuk program Windows yang dijalankan dalam tetingkap teks atau mod teks skrin penuh, termasuk FAR Manager.
Teks dalam CP866 agak jarang berlaku sejak beberapa tahun kebelakangan ini (tetapi ia digunakan untuk mengekod nama fail Rusia dalam Windows). Oleh itu, kami akan membincangkan dengan lebih terperinci mengenai dua pengekodan lain - KOI-8R dan CP1251.
Seperti yang anda lihat, dalam jadual pengekodan CP1251, huruf Rusia disusun dalam susunan abjad (dengan pengecualian, bagaimanapun, huruf E). Susunan ini memudahkan atur cara komputer untuk mengisih mengikut abjad.
Tetapi dalam KOI-8R susunan huruf Rusia kelihatan rawak. Tetapi sebenarnya tidak.
Dalam banyak program lama, bit ke-8 telah hilang semasa memproses atau menghantar teks. (Kini program sedemikian boleh dikatakan "pupus", tetapi pada akhir 80-an - awal 90-an mereka tersebar luas). Untuk mendapatkan nilai 7-bit daripada nilai 8-bit, hanya tolak 8 daripada digit paling ketara; sebagai contoh, E1 menjadi 61.
Sekarang bandingkan KOI-8R dengan jadual ASCII (Jadual 1). Anda akan mendapati bahawa huruf Rusia diletakkan dalam surat-menyurat yang jelas dengan huruf Latin. Jika bit kelapan hilang, huruf kecil Rusia bertukar menjadi huruf Latin besar, dan huruf Rusia besar bertukar menjadi huruf Latin huruf kecil. Jadi, E1 dalam KOI-8 ialah "A" Rusia, manakala 61 dalam ASCII ialah "a" Latin.
Jadi, KOI-8 membolehkan anda mengekalkan kebolehbacaan teks Rusia apabila bit ke-8 hilang. "Hello semua" menjadi "WSEM pRIWET".
Baru-baru ini, kedua-dua susunan abjad aksara dalam jadual pengekodan dan kebolehbacaan dengan kehilangan bit ke-8 telah kehilangan kepentingannya yang menentukan. Bit kelapan dalam komputer moden tidak hilang semasa penghantaran atau pemprosesan. Dan pengisihan abjad dilakukan dengan mengambil kira pengekodan, dan bukan dengan hanya membandingkan kod. (Dengan cara ini, kod CP1251 tidak disusun sepenuhnya mengikut abjad - huruf E tidak berada di tempatnya).
Disebabkan fakta bahawa terdapat dua pengekodan biasa, apabila bekerja dengan Internet (mel, melayari laman web), anda kadang-kadang dapat melihat set huruf yang tidak bermakna dan bukannya teks Rusia. Contohnya, "SAYA SBYUFEMHEL." Ini hanyalah perkataan "dengan hormat"; tetapi ia telah dikodkan dalam pengekodan CP1251, dan komputer menyahkod teks menggunakan jadual KOI-8. Jika perkataan yang sama, sebaliknya, dikodkan dalam KOI-8, dan komputer menyahkod teks mengikut jadual CP1251, hasilnya akan menjadi "U HCHBTSEOYEN".
Kadang-kadang ia berlaku bahawa komputer mentafsir huruf bahasa Rusia menggunakan jadual yang tidak dimaksudkan untuk bahasa Rusia. Kemudian, bukannya huruf Rusia, satu set simbol yang tidak bermakna muncul (contohnya, huruf Latin bahasa Eropah Timur); mereka sering dipanggil "crocozybras".
Dalam kebanyakan kes, program moden mengatasi penentuan pengekodan dokumen Internet (e-mel dan halaman Web) secara bebas. Tetapi kadang-kadang mereka "misfire", dan kemudian anda dapat melihat urutan aneh huruf Rusia atau "krokozyabry". Sebagai peraturan, dalam keadaan sedemikian, untuk memaparkan teks sebenar pada skrin, sudah cukup untuk memilih pengekodan secara manual dalam menu program.
Maklumat daripada halaman http://open-office.edusite.ru/TextProcessor/p5aa1.html telah digunakan untuk artikel ini.
Bahan yang diambil dari tapak: