Ascii binary code table. Pag-encode ng impormasyon ng teksto

Tulad ng alam mo, ang isang computer ay nag-iimbak ng impormasyon sa binary, na kumakatawan dito bilang isang pagkakasunud-sunod ng mga isa at mga zero. Upang isalin ang impormasyon sa isang form na maginhawa para sa pang-unawa ng tao, ang bawat natatanging pagkakasunud-sunod ng mga numero ay pinapalitan ng kaukulang simbolo nito kapag ipinakita.

Ang isa sa mga sistema para sa pag-uugnay ng mga binary code na may naka-print at kontrol na mga character ay

Sa antas ng pag-unlad ngayon teknolohiya ng kompyuter hindi kinakailangang malaman ng user ang code ng bawat partikular na character. Gayunpaman pangkalahatang pag-unawa kung paano isinasagawa ang coding ay lubhang kapaki-pakinabang, at para sa ilang mga kategorya ng mga espesyalista kahit na kinakailangan.

Paglikha ng ASCII

Ang pag-encode ay orihinal na binuo noong 1963 at pagkatapos ay na-update nang dalawang beses sa loob ng 25 taon.

Sa orihinal na bersyon, ang talahanayan Mga character na ASCII may kasamang 128 character, nang maglaon ay lumitaw ang isang pinahabang bersyon, kung saan na-save ang unang 128 character, at ang mga dating nawawalang character ay itinalaga sa mga code na may kasamang ikawalong bit.

Sa paglipas ng mga taon encoding na ito ay ang pinakasikat sa mundo. Noong 2006, kinuha ng Latin 1252 ang nangungunang posisyon, at mula sa katapusan ng 2007 hanggang sa kasalukuyan, matatag na hawak ng Unicode ang nangungunang posisyon.

Representasyon ng computer ng ASCII

Ang bawat karakter ng ASCII ay mayroon sariling code, na binubuo ng 8 character na kumakatawan sa isang zero o isang isa. Ang pinakamababang numero sa representasyong ito ay zero (walong zero in binary system), na siyang code ng unang elemento sa talahanayan.

Dalawang code sa talahanayan ang nakalaan para sa paglipat sa pagitan ng karaniwang US-ASCII at ng pambansang variant nito.

Matapos ang ASCII ay nagsimulang magsama ng hindi 128, ngunit 256 na mga character, isang variant ng pag-encode ang naging laganap, kung saan ang orihinal na bersyon ng talahanayan ay nakaimbak sa unang 128 na mga code na may 8th bit zero. Ang mga pambansang nakasulat na character ay naka-imbak sa itaas na kalahati ng talahanayan (posisyon 128-255).

Hindi kailangang malaman ng user ang mga ASCII character code nang direkta. Sa developer software Karaniwan ay sapat na upang malaman ang bilang ng elemento sa talahanayan upang, kung kinakailangan, upang kalkulahin ang code nito gamit ang binary system.

wikang Ruso

Pagkatapos bumuo ng mga encoding para sa mga wikang Scandinavian, Chinese, Korean, Greek, atbp. noong unang bahagi ng 70s, nagsimula siyang gumawa ng sarili niyang bersyon Unyong Sobyet. Di-nagtagal, nabuo ang isang bersyon ng 8-bit na encoding na tinatawag na KOI8, na pinapanatili ang unang 128 ASCII character code at naglalaan ng parehong bilang ng mga posisyon para sa mga titik ng pambansang alpabeto at karagdagang mga character.

Bago ang pagpapakilala ng Unicode, pinangungunahan ng KOI8 ang Russian segment ng Internet. Mayroong mga opsyon sa pag-encode para sa parehong alpabetong Ruso at Ukrainian.

Mga problema sa ASCII

Dahil ang bilang ng mga elemento kahit na sa pinalawig na talahanayan ay hindi lalampas sa 256, walang posibilidad na mapaunlakan ang ilang magkakaibang mga script sa isang pag-encode. Noong 90s, ang problemang "crocozyabr" ay lumitaw sa Runet, kapag ang mga tekstong nai-type sa mga character na Russian ASCII ay hindi ipinakita nang tama.

Ang problema ay ang iba't ibang ASCII code ay hindi tumugma sa isa't isa. Tandaan natin na ang iba't ibang mga character ay maaaring matatagpuan sa mga posisyon 128-255, at kapag binago ang isang Cyrillic encoding sa isa pa, ang lahat ng mga titik ng teksto ay pinalitan ng iba na may magkaparehong numero sa ibang bersyon ng encoding.

Kasalukuyang Katayuan

Sa pagdating ng Unicode, ang katanyagan ng ASCII ay nagsimulang bumaba nang husto.

Ang dahilan nito ay nakasalalay sa katotohanan na ang bagong pag-encode ay naging posible upang mapaunlakan ang mga character mula sa halos lahat ng nakasulat na wika. Sa kasong ito, ang unang 128 ASCII character ay tumutugma sa parehong mga character sa Unicode.

Noong 2000, ang ASCII ang pinakasikat na encoding sa Internet at ginamit sa 60% ng mga web page na na-index ng Google. Noong 2012, ang bahagi ng naturang mga pahina ay bumaba sa 17%, at ang Unicode (UTF-8) ay pumalit sa pinakasikat na encoding.

Kaya ang ASCII ay isang mahalagang bahagi ng kasaysayan teknolohiya ng impormasyon, gayunpaman, ang paggamit nito sa hinaharap ay tila hindi kapani-paniwala.

DecHexSimbolo DecHexSimbolo
000 00 espesyalista. HINDI 128 80 Ђ
001 01 espesyalista. SOH 129 81 Ѓ
002 02 espesyalista. STX 130 82
003 03 espesyalista. ETX 131 83 ѓ
004 04 espesyalista. EOT 132 84
005 05 espesyalista. ENQ 133 85
006 06 espesyalista. ACK 134 86
007 07 espesyalista. BEL 135 87
008 08 espesyalista. B.S. 136 88
009 09 espesyalista. TAB 137 89
010 0Aespesyalista. LF 138 8AЉ
011 0Bespesyalista. VT 139 8B‹ ‹
012 0Cespesyalista. FF 140 8CЊ
013 0Despesyalista. CR 141 8DЌ
014 0Eespesyalista. KAYA 142 8EЋ
015 0Fespesyalista. S.I. 143 8FЏ
016 10 espesyalista. DLE 144 90 ђ
017 11 espesyalista. DC1 145 91
018 12 espesyalista. DC2 146 92
019 13 espesyalista. DC3 147 93
020 14 espesyalista. DC4 148 94
021 15 espesyalista. N.A.K. 149 95
022 16 espesyalista. SYN 150 96
023 17 espesyalista. ETB 151 97
024 18 espesyalista. MAAARI 152 98
025 19 espesyalista. E.M. 153 99
026 1Aespesyalista. SUB 154 9Aљ
027 1Bespesyalista. ESC 155 9B
028 1Cespesyalista. FS 156 9Cњ
029 1Despesyalista. G.S. 157 9Dќ
030 1Eespesyalista. R.S. 158 9Eћ
031 1Fespesyalista. US 159 9Fџ
032 20 clutch SP (Space) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Yo
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 AD­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 B.C.ј
061 3D= 189 BDЅ
062 3E> 190 MAGINGѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 SA
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 AT
071 47 G 199 C7 Z
072 48 H 200 C8 AT
073 49 ako 201 C9 Y
074 4AJ 202 C.A. SA
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. TUNGKOL SA
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 SA
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 Sh
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE Yu
095 5F_ 223 DF ako
096 60 ` 224 E0 A
097 61 a 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 at
103 67 g 231 E7 h
104 68 h 232 E8 At
105 69 i 233 E9 ika
106 6Aj 234 E.A. Upang
107 6Bk 235 E.B. l
108 6Cl 236 E.C. m
109 6Dm 237 ED n
110 6En 238 E.E. O
111 6Fo 239 EF n
112 70 p 240 F0 r
113 71 q 241 F1 Sa
114 72 r 242 F2 T
115 73 s 243 F3 sa
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 sch
122 7Az 250 F.A. ъ
123 7B{ 251 FB s
124 7C| 252 F.C. b
125 7D} 253 FD eh
126 7E~ 254 F.E. yu
127 7FEspesyalista. DEL 255 FF ako
ASCII Windows character code table.
Paglalarawan ng mga espesyal na (kontrol) na mga character Dapat tandaan na sa simula ang mga control character ng ASCII table ay ginamit upang matiyak ang pagpapalitan ng data sa pamamagitan ng teletype, pagpasok ng data mula sa punched tape at para sa simpleng kontrol ng mga panlabas na device.
Sa kasalukuyan, karamihan sa mga ASCII table control character ay hindi na nagdadala ng load na ito at magagamit para sa iba pang layunin. Paglalarawan ng Code
NUL, 00Null, walang laman
SOH, 01Simula Ng Heading
STX, 02Simula ng TeXt, ang simula ng text.
ETX, 03Katapusan ng TeXt, pagtatapos ng teksto
EOT, 04End of Transmission, end of transmission
ENQ, 05Magtanong. Pakikumpirma
ACK, 06Pagkilala. Kinukumpirma ko
BEL, 07Bell, tumawag ka
BS, 08Backspace, bumalik ng isang character
TAB, 09Tab, pahalang na tab
LF, 0ALine Feed, line feed.
Sa ngayon, sa karamihan ng mga programming language ay tinukoy ito bilang \n
VT, 0BVertical Tab, patayong tabulation.
FF, 0CFeed ng Form, page feed, bagong page
CR, 0DPagbabalik ng karwahe, pagbabalik ng karwahe.
Sa ngayon, sa karamihan ng mga programming language, ito ay tinutukoy bilang \r
KAYA,0EShift Out, palitan ang kulay ng ink ribbon sa printing device
SI,0FShift In, ibalik ang kulay ng ink ribbon sa printing device pabalik
DLE, 10Data Link Escape, inililipat ang channel sa paghahatid ng data
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Kontrol ng Device, mga simbolo ng kontrol ng device
NAK, 15Negative Acknowledgement, hindi ko kinukumpirma.
SYN, 16Pag-synchronize. Simbolo ng pag-synchronize
ETB, 17Katapusan ng Text Block, dulo ng text block
PWEDE, 18Kanselahin, pagkansela ng isang naunang ipinadala
EM, 19Katapusan ng Medium
SUB, 1AKapalit, kapalit.
Inilagay sa lugar ng isang simbolo na ang kahulugan ay nawala o nasira sa panahon ng paghahatidESC, 1B
Escape Control SequenceFS, 1C
File Separator, file separatorGS, 1D
Group SeparatorRS, 1E
Record Separator, record separatorUS, 1F
Unit SeparatorDEL, 7F

Tanggalin, burahin ang huling character. Ang Unicode (Unicode sa Ingles) ay isang pamantayan sa pag-encode ng character. Sa madaling salita, ito ay isang talahanayan ng pagsusulatan sa pagitan ng mga text character (mga titik, mga elemento ng bantas) at mga binary code. Naiintindihan lamang ng computer ang pagkakasunud-sunod ng mga zero at isa. Upang malaman nito kung ano ang eksaktong dapat nitong ipakita sa screen, kinakailangan na magtalaga ng sarili nitong simbolo natatanging numero . Noong dekada otsenta, ang mga character ay na-encode sa isang byte, iyon ay, walong bits (bawat bit ay 0 o 1). Kaya, lumabas na ang isang talahanayan (aka encoding o set) ay maaari lamang tumanggap ng 256 na mga character. Maaaring hindi ito sapat kahit para sa isang wika. Samakatuwid, maraming iba't ibang mga pag-encode ang lumitaw, pagkalito kung saan madalas na humantong sa katotohanan na sa halip na nababasang teksto may lumitaw na kakaibang maliliit na nilalang. Kinakailangan iisang pamantayan

, na naging Unicode. Ang pinakaginagamit na encoding ay UTF-8 (Unicode Transformation Format), na gumagamit ng 1 hanggang 4 na byte upang kumatawan sa isang character.

Mga simbolo Ang mga character sa mga talahanayan ng Unicode ay binibilang mga numerong hexadecimal . Halimbawa, Cyrillic M ay itinalagang U+041C. Nangangahulugan ito na nakatayo ito sa intersection ng row 041 at column C. Maaari mo lamang itong kopyahin at pagkatapos ay i-paste ito sa isang lugar. Upang hindi maghalungkat sa isang listahan ng maraming kilometro, dapat mong gamitin ang paghahanap. Kapag pumunta ka sa pahina ng simbolo, makikita mo ang numero nito sa Unicode at kung paano ito nakasulat iba't ibang mga font. Maaari mong ipasok ang mismong sign sa search bar, kahit na isang parisukat ang iguguhit sa halip, kahit na para malaman kung ano iyon. Gayundin, sa site na ito mayroong mga espesyal (at random) na hanay ng parehong uri ng mga icon, na nakolekta mula sa iba't ibang mga seksyon, para sa kadalian ng paggamit.

Ang pamantayan ng Unicode ay internasyonal. Kabilang dito ang mga character mula sa halos lahat ng script ng mundo. Kasama na yung mga hindi na ginagamit. Mga hieroglyph ng Egypt, Germanic rune, pagsulat ng Mayan, cuneiform at mga alpabeto ng mga sinaunang estado. Ang mga pagtatalaga ng mga timbang at sukat, musikal na notasyon, at matematikal na mga konsepto ay ipinakita din.

Ang Unicode Consortium mismo ay hindi nag-iimbento ng mga bagong character. Ang mga icon na iyon na nakikita ang kanilang paggamit sa lipunan ay idinagdag sa mga talahanayan. Halimbawa, ang ruble sign ay aktibong ginamit sa loob ng anim na taon bago ito idinagdag sa Unicode. Ang mga emoji pictograms (emoticon) ay unang ginamit din sa Japan bago sila isama sa pag-encode. Pero mga trademark, at hindi naidagdag ang mga logo ng kumpanya. Kahit na ang mga karaniwang bilang mansanas Mansanas o Windows flag. Sa ngayon, humigit-kumulang 120 libong mga character ang na-encode sa bersyon 8.0.

Excel para sa Office 365 Word para sa Office 365 Outlook para sa Office 365 PowerPoint para sa Office 365 Publisher para sa Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Excel 2016 Outlook 2016 Word 2016 Word 2019 3 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 70 Excel 2010 Visio 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Mas Kaunti

Sa artikulong ito: Magpasok ng ASCII o Unicode na character sa isang dokumento

Kung kailangan mo lang maglagay ng ilang espesyal na character o simbolo, maaari mong gamitin ang mga keyboard shortcut. Para sa isang listahan ng mga ASCII na character, tingnan ang sumusunod na mga talahanayan o ang artikulong Paglalagay ng mga Pambansang Alpabeto Gamit ang Mga Shortcut sa Keyboard.

Mga Tala:

Paglalagay ng mga ASCII na character

Upang magpasok ng ASCII character, pindutin nang matagal ang ALT key habang ipinapasok ang character code. Halimbawa, upang magpasok ng simbolo ng degree (º), pindutin nang matagal ang ALT key, pagkatapos ay i-type ang 0176 sa numeric keypad.

Upang magpasok ng mga numero, gamitin ang numeric keypad sa halip na ang mga numero sa pangunahing keyboard. Kung kailangan mong maglagay ng mga numero sa numeric keypad, tiyaking naka-on ang indicator ng NUM LOCK.

Paglalagay ng mga Unicode Character

Upang magpasok ng isang Unicode na character, ipasok ang character code, pagkatapos ay pindutin ALT key at X. Halimbawa, upang magpasok ng simbolo ng dolyar ($), ipasok ang 0024 at pindutin ang ALT at X sa pagkakasunud-sunod Para sa lahat ng Unicode character code, tingnan ang .

Mahalaga: Ilan Mga programa sa Microsoft Hindi sinusuportahan ng Office, gaya ng PowerPoint at InfoPath, ang pag-convert ng mga Unicode code sa mga character. Kung kailangan mong magpasok ng Unicode character sa isa sa mga program na ito, gamitin ang .

Mga Tala:

    Kung lumitaw ang maling Unicode character pagkatapos mong pindutin ang ALT+X, piliin ang tamang code, at pagkatapos ay pindutin muli ang ALT+X.

    Bilang karagdagan, dapat mong ilagay ang "U+" bago ang code. Halimbawa, kung ilalagay mo ang "1U+B5" at pinindot ang ALT+X, ang tekstong "1µ" ay ipapakita, at kung ilalagay mo ang "1B5" at pinindot ang ALT+X, ang simbolo na "Ƶ" ay ipapakita.

Gamit ang talahanayan ng simbolo

Ang talahanayan ng simbolo ay isang programang nakapaloob sa Microsoft Windows, na nagbibigay-daan sa iyong tingnan ang mga character na magagamit para sa napiling font.

Gamit ang talahanayan ng simbolo na maaari mong kopyahin indibidwal na mga karakter o isang grupo ng mga character sa clipboard at i-paste ang mga ito sa anumang program na sumusuporta sa pagpapakita ng mga character na ito. Binuksan ang talahanayan ng simbolo

    Sa Windows 10, ipasok ang salitang "simbolo" sa box para sa paghahanap sa taskbar at piliin ang talahanayan ng simbolo mula sa mga resulta ng paghahanap.

    Sa Windows 8, ilagay ang salitang "character" sa home screen at piliin ang talahanayan ng simbolo mula sa mga resulta ng paghahanap.

    Sa Windows 7, i-click ang Start button, piliin ang All Programs, Accessories, System Tools, at pagkatapos ay i-click ang Character Map.

Ang mga character ay pinagsama ayon sa font. I-click ang listahan ng font para piliin ang naaangkop na set ng character. Upang pumili ng simbolo, i-click ito, pagkatapos ay i-click ang button na Piliin. Upang magpasok ng simbolo, i-click i-right click mga daga tamang lugar sa dokumento at piliin ang I-paste.

Mga code ng character na madalas gamitin

Buong listahan character, tingnan sa iyong computer, ASCII character code table, o Unicode character table na nakaayos ayon sa set.

Glyph

Glyph

Pera

Mga legal na simbolo

Mga simbolo ng matematika

Mga Fraction

Mga simbolo ng bantas at diyalekto

Mga simbolo ng hugis

Karaniwang ginagamit na mga diacritics code

Para sa kumpletong listahan ng mga glyph at kaukulang code, tingnan.

Glyph

Glyph

Hindi nagpi-print ng mga character na kontrol ng ASCII

Ang mga palatandaan na ginamit upang kontrolin ang ilan mga aparatong paligid, tulad ng mga printer, ay may bilang na 0–31 sa talahanayan ng ASCII. Halimbawa, ang page feed/bagong page character ay numero 12. Ang karakter na ito ay nagsasabi sa printer na lumipat sa simula ng susunod na page.

Talaan ng mga hindi nagpi-print na ASCII control character

Desimal na numero

Lagda

Desimal na numero

Lagda

Pagpapalaya sa channel ng data

Simula ng pamagat

Unang control code ng device

Simula ng text

Pangalawang control code ng device

Katapusan ng text

Pangatlong control code ng device

Pagtatapos ng transmission

Pang-apat na control code ng device

limang-pointed

Negatibong kumpirmasyon

Kumpirmasyon

Synchronous transmission mode

Beep

Pagtatapos ng ipinadalang bloke ng data

Pahalang na tabulasyon

Katapusan ng media

Line feed/bagong linya

Simbolo ng kapalit

Vertical na tab

lumampas

Pagsasalin ng pahina/bagong pahina

Labindalawa

File separator

Pagbabalik ng karwahe

Tagahiwalay ng grupo

Shift nang hindi nagse-save ng mga bit

Record separator

Bit-nagpepreserba shift

labinlima

Separator ng data

[8-bit encodings: ASCII, KOI-8R at CP1251] Ang mga unang encoding table na ginawa sa USA ay hindi gumamit ng ikawalong bit sa isang byte. Ang teksto ay kinakatawan bilang isang pagkakasunud-sunod ng mga byte, ngunit ang ikawalong bit ay hindi isinasaalang-alang (ito ay ginamit para sa mga opisyal na layunin).

Ang talahanayan ng ASCII ( American Standard Code for Information Interchange). Ang unang 32 character ng talahanayan ng ASCII (00 hanggang 1F) ay ginamit para sa mga hindi naka-print na character. Idinisenyo ang mga ito upang kontrolin ang isang aparato sa pag-print, atbp. Ang natitira - mula 20 hanggang 7F - ay regular (napi-print) na mga character.

Talahanayan 1 - ASCII encoding

Dis Hex Oct Char Paglalarawan
0 0 000 null
1 1 001 simula ng heading
2 2 002 simula ng text
3 3 003 pagtatapos ng teksto
4 4 004 pagtatapos ng transmission
5 5 005 pagtatanong
6 6 006 kilalanin
7 7 007 kampana
8 8 010 backspace
9 9 011 pahalang na tab
10 A 012 bagong linya
11 B 013 patayong tab
12 C 014 bagong pahina
13 D 015 pagbabalik ng karwahe
14 E 016 lumipat sa labas
15 F 017 lumipat sa
16 10 020 pagtakas ng link ng data
17 11 021 kontrol ng device 1
18 12 022 kontrol ng aparato 2
19 13 023 kontrol ng aparato 3
20 14 024 kontrol ng aparato 4
21 15 025 negatibong pagkilala
22 16 026 sabaysabay na idle
23 17 027 pagtatapos ng trans. harangan
24 18 030 kanselahin
25 19 031 dulo ng daluyan
26 1A 032 kapalit
27 1B 033 tumakas
28 1C 034 file separator
29 1D 035 pangkat separator
30 1E 036 record separator
31 1F 037 unit separator
32 20 040 espasyo
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
Dis Hex Okt Char
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 ako
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 p
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Tulad ng madaling makita, sa encoding na ito lamang mga letrang latin, at ang mga ginagamit sa Ingles. Mayroon ding mga aritmetika at iba pang mga simbolo ng serbisyo. Ngunit walang mga titik na Ruso, o kahit na mga espesyal na Latin para sa Aleman o Pranses. Ito ay madaling ipaliwanag - ang pag-encode ay ginawa nang eksakto tulad ng American standard. Habang nagsimulang gamitin ang mga computer sa buong mundo, kailangang ma-encode ang ibang mga character.

Upang gawin ito, napagpasyahan na gamitin ang ikawalong bit sa bawat byte. Dahil dito, 128 pang value ang available (mula 80 hanggang FF) na maaaring magamit para mag-encode ng mga character. Ang una sa walong-bit na mga talahanayan - "extended ASCII" ( Extended ASCII) - kasama iba't ibang mga pagpipilian Latin na mga character na ginagamit sa ilang mga wika ng Kanlurang Europa. Naglalaman din ito ng iba pang mga karagdagang simbolo, kabilang ang mga pseudographic.

Pinapayagan ng mga pseudographic na character, sa pamamagitan lamang ng pagpapakita mga character ng teksto, magbigay ng ilang pagkakahawig ng mga graphics. Gamit ang pseudographics, halimbawa, gumagana ang isang control program FAR files Manager.

Walang mga letrang Ruso sa talahanayan ng Extended ASCII. Ang Russia (dating USSR) at iba pang mga bansa ay lumikha ng kanilang sariling mga pag-encode na naging posible upang kumatawan sa mga partikular na "pambansang" character sa 8-bit na mga text file - mga Latin na titik ng Polish at Czech na mga wika, Cyrillic (kabilang ang mga letrang Ruso) at iba pang mga alpabeto.

Sa lahat ng mga pag-encode na naging laganap, ang unang 127 character (iyon ay, ang byte value na may ikawalong bit na katumbas ng 0) ay kapareho ng ASCII. Kaya gumagana ang isang ASCII file sa alinman sa mga encoding na ito; mga titik wikang Ingles pare-pareho silang ipinakita.

Tinanggap ng ISO (International Standardization Organization) ang grupo Mga pamantayan ng ISO 8859. Tinutukoy nito ang 8-bit na pag-encode para sa iba't ibang grupo mga wika. Kaya, ang ISO 8859-1 ay isang Extended ASCII table para sa USA at Western Europe. At ang ISO 8859-5 ay isang talahanayan para sa Cyrillic alphabet (kabilang ang Russian).

Gayunpaman, para sa makasaysayang mga kadahilanan, ang ISO 8859-5 encoding ay hindi nag-ugat. Sa katotohanan, ang mga sumusunod na pag-encode ay ginagamit para sa wikang Ruso:

Code Page 866 (CP866), aka “DOS”, aka “alternatibong GOST encoding”. Malawakang ginagamit hanggang sa kalagitnaan ng 90s; ngayon ginagamit sa isang limitadong lawak. Halos hindi ginagamit para sa pamamahagi ng mga teksto sa Internet.
- KOI-8. Binuo noong 70-80s. Ay isang karaniwang tinatanggap na pamantayan para sa pagpapadala ng mga mensaheng mail sa Russian Internet. Malawak ding ginagamit sa mga operating system Pamilya ng Unix, kabilang ang Linux. Ang bersyon ng KOI-8 sa wikang Ruso ay tinatawag na KOI-8R; Mayroong mga bersyon para sa iba pang mga wikang Cyrillic (halimbawa, ang KOI8-U ay isang bersyon para sa wikang Ukrainian).
- Pahina ng Code 1251, CP1251, Windows-1251. Binuo ng Microsoft upang suportahan ang wikang Ruso sa Windows.

Ang pangunahing bentahe ng CP866 ay ang pagpapanatili ng mga pseudo-graphics na character sa parehong mga lugar tulad ng sa Extended ASCII; samakatuwid, ang mga dayuhan ay maaaring magtrabaho nang walang pagbabago mga programa sa teksto, halimbawa, ang sikat na Norton Commander. Sa ngayon, ang CP866 ay ginagamit para sa mga programang Windows na tumatakbo mga text window o sa full screen text mode, kasama ang FAR Manager.

Mga text sa CP866 mga nakaraang taon ay medyo bihira (ngunit ginagamit ito upang i-encode ang mga pangalan ng file na Ruso sa Windows). Samakatuwid, tatalakayin natin nang mas detalyado ang dalawa pang pag-encode - KOI-8R at CP1251.



Tulad ng nakikita mo, sa talahanayan ng pag-encode ng CP1251, ang mga letrang Ruso ay nakaayos sa pagkakasunud-sunod ng alpabeto (kasama ang pagbubukod, gayunpaman, ng titik E). Salamat sa lokasyong ito mga programa sa kompyuter Napakadaling pagbukud-bukurin ayon sa alpabeto.

Ngunit sa KOI-8R ang pagkakasunud-sunod ng mga letrang Ruso ay tila random. Ngunit sa katotohanan ay hindi ito ang kaso.

Sa maraming mas lumang mga programa, nawala ang ika-8 bit kapag nagpoproseso o nagpapadala ng teksto. (Ngayon ang mga naturang programa ay halos "wala na", ngunit sa huling bahagi ng 80s - unang bahagi ng 90s ay laganap sila). Upang makakuha ng 7-bit na halaga mula sa isang 8-bit na halaga, ibawas lamang ang 8 mula sa pinaka makabuluhang digit; halimbawa, ang E1 ay nagiging 61.

Ngayon ihambing ang KOI-8R sa talahanayan ng ASCII(Talahanayan 1). Makikita mo na ang mga letrang Ruso ay inilalagay sa malinaw na mga sulat sa mga Latin. Kung mawala ang ikawalong bit, ang maliliit na letrang Ruso ay magiging malalaking letrang Latin, at ang malalaking letrang Ruso ay magiging maliliit na letrang Latin. Kaya, ang E1 sa KOI-8 ay ang Russian "A", habang ang 61 sa ASCII ay ang Latin na "a".

Kaya, pinapayagan ka ng KOI-8 na mapanatili ang pagiging madaling mabasa ng Russian text kapag nawala ang ika-8 bit. Ang “Kumusta sa lahat” ay nagiging “pRIWET WSEM”.

SA kani-kanina lang At pagkakasunud-sunod ng alpabeto Ang pag-aayos ng mga character sa talahanayan ng pag-encode, at pagiging madaling mabasa sa pagkawala ng ika-8 bit, ay nawala ang kanilang mapagpasyang kahalagahan. Ikawalong bit in mga modernong kompyuter ay hindi nawawala sa panahon ng paghahatid o pagproseso. At ang alpabetikong pag-uuri ay ginagawa nang isinasaalang-alang ang pag-encode, at hindi simpleng paghahambing mga code (Sa pamamagitan ng paraan, ang mga code ng CP1251 ay hindi ganap na nakaayos ayon sa alpabeto - ang titik E ay wala sa lugar nito).

Dahil sa katotohanan na mayroong dalawang karaniwang pag-encode, kapag nagtatrabaho sa Internet (mail, nagba-browse sa mga Web site), maaari mong makita kung minsan ang isang walang kahulugan na hanay ng mga titik sa halip na tekstong Ruso. Halimbawa, "AKO SI SBYUFEMHEL." Ito ay mga salitang "may paggalang" lamang; ngunit sila ay na-encode sa CP1251 encoding, at na-decode ng computer ang teksto gamit ang KOI-8 table. Kung ang parehong mga salita, sa kabaligtaran, ay na-encode sa KOI-8, at na-decode ng computer ang teksto ayon sa talahanayan ng CP1251, ang magiging resulta ay "U HCHBTSEOYEN".

Minsan nangyayari na ang computer ay nagde-decrypt Mga titik ng Ruso at ganap na ayon sa isang talahanayan na hindi inilaan para sa wikang Ruso. Pagkatapos, sa halip na mga letrang Ruso, lumilitaw ang isang walang kahulugan na hanay ng mga simbolo (halimbawa, mga letrang Latin ng mga wika sa Silangang Europa); madalas silang tinatawag na "crocozybras".

Sa karamihan ng mga kaso modernong mga programa makayanan ang pagtukoy sa mga pag-encode ng mga dokumento sa Internet ( mga email at mga Web page) nang nakapag-iisa. Ngunit kung minsan sila ay "misfire", at pagkatapos ay makikita mo ang mga kakaibang pagkakasunud-sunod ng mga letrang Ruso o "krokozyabry". Bilang isang patakaran, sa ganoong sitwasyon, upang ipakita ang totoong teksto sa screen, sapat na upang manu-manong piliin ang pag-encode sa menu ng programa.

Ang impormasyon mula sa pahinang http://open-office.edusite.ru/TextProcessor/p5aa1.html ay ginamit para sa artikulong ito.

Materyal na kinuha mula sa site: