Tulad ng alam mo, ang isang computer ay nag-iimbak ng impormasyon sa binary, na kumakatawan dito bilang isang pagkakasunud-sunod ng mga isa at mga zero. Upang isalin ang impormasyon sa isang form na maginhawa para sa pang-unawa ng tao, ang bawat natatanging pagkakasunud-sunod ng mga numero ay pinapalitan ng kaukulang simbolo nito kapag ipinakita.
Ang isa sa mga sistema para sa pag-uugnay ng mga binary code na may naka-print at kontrol na mga character ay
Sa antas ng pag-unlad ngayon teknolohiya ng kompyuter hindi kinakailangang malaman ng user ang code ng bawat partikular na character. Gayunpaman pangkalahatang pag-unawa kung paano isinasagawa ang coding ay lubhang kapaki-pakinabang, at para sa ilang mga kategorya ng mga espesyalista kahit na kinakailangan.
Paglikha ng ASCIIAng pag-encode ay orihinal na binuo noong 1963 at pagkatapos ay na-update nang dalawang beses sa loob ng 25 taon.
Sa orihinal na bersyon, ang talahanayan Mga character na ASCII may kasamang 128 character, nang maglaon ay lumitaw ang isang pinahabang bersyon, kung saan na-save ang unang 128 character, at ang mga dating nawawalang character ay itinalaga sa mga code na may kasamang ikawalong bit.
Sa paglipas ng mga taon encoding na ito ay ang pinakasikat sa mundo. Noong 2006, kinuha ng Latin 1252 ang nangungunang posisyon, at mula sa katapusan ng 2007 hanggang sa kasalukuyan, matatag na hawak ng Unicode ang nangungunang posisyon.
Representasyon ng computer ng ASCIIAng bawat karakter ng ASCII ay mayroon sariling code, na binubuo ng 8 character na kumakatawan sa isang zero o isang isa. Ang pinakamababang numero sa representasyong ito ay zero (walong zero in binary system), na siyang code ng unang elemento sa talahanayan.
Dalawang code sa talahanayan ang nakalaan para sa paglipat sa pagitan ng karaniwang US-ASCII at ng pambansang variant nito.
Matapos ang ASCII ay nagsimulang magsama ng hindi 128, ngunit 256 na mga character, isang variant ng pag-encode ang naging laganap, kung saan ang orihinal na bersyon ng talahanayan ay nakaimbak sa unang 128 na mga code na may 8th bit zero. Ang mga pambansang nakasulat na character ay naka-imbak sa itaas na kalahati ng talahanayan (posisyon 128-255).
Hindi kailangang malaman ng user ang mga ASCII character code nang direkta. Sa developer software Karaniwan ay sapat na upang malaman ang bilang ng elemento sa talahanayan upang, kung kinakailangan, upang kalkulahin ang code nito gamit ang binary system.
wikang RusoPagkatapos bumuo ng mga encoding para sa mga wikang Scandinavian, Chinese, Korean, Greek, atbp. noong unang bahagi ng 70s, nagsimula siyang gumawa ng sarili niyang bersyon Unyong Sobyet. Di-nagtagal, nabuo ang isang bersyon ng 8-bit na encoding na tinatawag na KOI8, na pinapanatili ang unang 128 ASCII character code at naglalaan ng parehong bilang ng mga posisyon para sa mga titik ng pambansang alpabeto at karagdagang mga character.
Bago ang pagpapakilala ng Unicode, pinangungunahan ng KOI8 ang Russian segment ng Internet. Mayroong mga opsyon sa pag-encode para sa parehong alpabetong Ruso at Ukrainian.
Mga problema sa ASCIIDahil ang bilang ng mga elemento kahit na sa pinalawig na talahanayan ay hindi lalampas sa 256, walang posibilidad na mapaunlakan ang ilang magkakaibang mga script sa isang pag-encode. Noong 90s, ang problemang "crocozyabr" ay lumitaw sa Runet, kapag ang mga tekstong nai-type sa mga character na Russian ASCII ay hindi ipinakita nang tama.
Ang problema ay ang iba't ibang ASCII code ay hindi tumugma sa isa't isa. Tandaan natin na ang iba't ibang mga character ay maaaring matatagpuan sa mga posisyon 128-255, at kapag binago ang isang Cyrillic encoding sa isa pa, ang lahat ng mga titik ng teksto ay pinalitan ng iba na may magkaparehong numero sa ibang bersyon ng encoding.
Kasalukuyang KatayuanSa pagdating ng Unicode, ang katanyagan ng ASCII ay nagsimulang bumaba nang husto.
Ang dahilan nito ay nakasalalay sa katotohanan na ang bagong pag-encode ay naging posible upang mapaunlakan ang mga character mula sa halos lahat ng nakasulat na wika. Sa kasong ito, ang unang 128 ASCII character ay tumutugma sa parehong mga character sa Unicode.
Noong 2000, ang ASCII ang pinakasikat na encoding sa Internet at ginamit sa 60% ng mga web page na na-index ng Google. Noong 2012, ang bahagi ng naturang mga pahina ay bumaba sa 17%, at ang Unicode (UTF-8) ay pumalit sa pinakasikat na encoding.
Kaya ang ASCII ay isang mahalagang bahagi ng kasaysayan teknolohiya ng impormasyon, gayunpaman, ang paggamit nito sa hinaharap ay tila hindi kapani-paniwala.
Dec | Hex | Simbolo | Dec | Hex | Simbolo | |
000 | 00 | espesyalista. HINDI | 128 | 80 | Ђ | |
001 | 01 | espesyalista. SOH | 129 | 81 | Ѓ | |
002 | 02 | espesyalista. STX | 130 | 82 | ‚ | |
003 | 03 | espesyalista. ETX | 131 | 83 | ѓ | |
004 | 04 | espesyalista. EOT | 132 | 84 | „ | |
005 | 05 | espesyalista. ENQ | 133 | 85 | … | |
006 | 06 | espesyalista. ACK | 134 | 86 | † | |
007 | 07 | espesyalista. BEL | 135 | 87 | ‡ | |
008 | 08 | espesyalista. B.S. | 136 | 88 | € | |
009 | 09 | espesyalista. TAB | 137 | 89 | ‰ | |
010 | 0A | espesyalista. LF | 138 | 8A | Љ | |
011 | 0B | espesyalista. VT | 139 | 8B | ‹ ‹ | |
012 | 0C | espesyalista. FF | 140 | 8C | Њ | |
013 | 0D | espesyalista. CR | 141 | 8D | Ќ | |
014 | 0E | espesyalista. KAYA | 142 | 8E | Ћ | |
015 | 0F | espesyalista. S.I. | 143 | 8F | Џ | |
016 | 10 | espesyalista. DLE | 144 | 90 | ђ | |
017 | 11 | espesyalista. DC1 | 145 | 91 | ‘ | |
018 | 12 | espesyalista. DC2 | 146 | 92 | ’ | |
019 | 13 | espesyalista. DC3 | 147 | 93 | “ | |
020 | 14 | espesyalista. DC4 | 148 | 94 | ” | |
021 | 15 | espesyalista. N.A.K. | 149 | 95 | ||
022 | 16 | espesyalista. SYN | 150 | 96 | – | |
023 | 17 | espesyalista. ETB | 151 | 97 | — | |
024 | 18 | espesyalista. MAAARI | 152 | 98 | ||
025 | 19 | espesyalista. E.M. | 153 | 99 | ™ | |
026 | 1A | espesyalista. SUB | 154 | 9A | љ | |
027 | 1B | espesyalista. ESC | 155 | 9B | › | |
028 | 1C | espesyalista. FS | 156 | 9C | њ | |
029 | 1D | espesyalista. G.S. | 157 | 9D | ќ | |
030 | 1E | espesyalista. R.S. | 158 | 9E | ћ | |
031 | 1F | espesyalista. US | 159 | 9F | џ | |
032 | 20 | clutch SP (Space) | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | " | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | " | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Yo | |
041 | 29 | ) | 169 | A9 | © | |
042 | 2A | * | 170 | A.A. | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | A.C. | ¬ | |
045 | 2D | - | 173 | AD | | |
046 | 2E | . | 174 | A.E. | ® | |
047 | 2F | / | 175 | A.F. | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | e | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | B.A. | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | B.C. | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | MAGING | ѕ | |
063 | 3F | ? | 191 | B.F. | ї | |
064 | 40 | @ | 192 | C0 | A | |
065 | 41 | A | 193 | C1 | B | |
066 | 42 | B | 194 | C2 | SA | |
067 | 43 | C | 195 | C3 | G | |
068 | 44 | D | 196 | C4 | D | |
069 | 45 | E | 197 | C5 | E | |
070 | 46 | F | 198 | C6 | AT | |
071 | 47 | G | 199 | C7 | Z | |
072 | 48 | H | 200 | C8 | AT | |
073 | 49 | ako | 201 | C9 | Y | |
074 | 4A | J | 202 | C.A. | SA | |
075 | 4B | K | 203 | C.B. | L | |
076 | 4C | L | 204 | CC | M | |
077 | 4D | M | 205 | CD | N | |
078 | 4E | N | 206 | C.E. | TUNGKOL SA | |
079 | 4F | O | 207 | CF | P | |
080 | 50 | P | 208 | D0 | R | |
081 | 51 | Q | 209 | D1 | SA | |
082 | 52 | R | 210 | D2 | T | |
083 | 53 | S | 211 | D3 | U | |
084 | 54 | T | 212 | D4 | F | |
085 | 55 | U | 213 | D5 | X | |
086 | 56 | V | 214 | D6 | C | |
087 | 57 | W | 215 | D7 | H | |
088 | 58 | X | 216 | D8 | Sh | |
089 | 59 | Y | 217 | D9 | SCH | |
090 | 5A | Z | 218 | D.A. | Kommersant | |
091 | 5B | [ | 219 | D.B. | Y | |
092 | 5C | \ | 220 | DC | b | |
093 | 5D | ] | 221 | DD | E | |
094 | 5E | ^ | 222 | DE | Yu | |
095 | 5F | _ | 223 | DF | ako | |
096 | 60 | ` | 224 | E0 | A | |
097 | 61 | a | 225 | E1 | b | |
098 | 62 | b | 226 | E2 | V | |
099 | 63 | c | 227 | E3 | G | |
100 | 64 | d | 228 | E4 | d | |
101 | 65 | e | 229 | E5 | e | |
102 | 66 | f | 230 | E6 | at | |
103 | 67 | g | 231 | E7 | h | |
104 | 68 | h | 232 | E8 | At | |
105 | 69 | i | 233 | E9 | ika | |
106 | 6A | j | 234 | E.A. | Upang | |
107 | 6B | k | 235 | E.B. | l | |
108 | 6C | l | 236 | E.C. | m | |
109 | 6D | m | 237 | ED | n | |
110 | 6E | n | 238 | E.E. | O | |
111 | 6F | o | 239 | EF | n | |
112 | 70 | p | 240 | F0 | r | |
113 | 71 | q | 241 | F1 | Sa | |
114 | 72 | r | 242 | F2 | T | |
115 | 73 | s | 243 | F3 | sa | |
116 | 74 | t | 244 | F4 | f | |
117 | 75 | u | 245 | F5 | X | |
118 | 76 | v | 246 | F6 | ts | |
119 | 77 | w | 247 | F7 | h | |
120 | 78 | x | 248 | F8 | w | |
121 | 79 | y | 249 | F9 | sch | |
122 | 7A | z | 250 | F.A. | ъ | |
123 | 7B | { | 251 | FB | s | |
124 | 7C | | | 252 | F.C. | b | |
125 | 7D | } | 253 | FD | eh | |
126 | 7E | ~ | 254 | F.E. | yu | |
127 | 7F | Espesyalista. DEL | 255 | FF | ako |
Paglalarawan ng mga espesyal na (kontrol) na mga character Dapat tandaan na sa simula ang mga control character ng ASCII table ay ginamit upang matiyak ang pagpapalitan ng data sa pamamagitan ng teletype, pagpasok ng data mula sa punched tape at para sa simpleng kontrol ng mga panlabas na device.
Sa kasalukuyan, karamihan sa mga ASCII table control character ay hindi na nagdadala ng load na ito at magagamit para sa iba pang layunin.
NUL, 00 | Null, walang laman |
SOH, 01 | Simula Ng Heading |
STX, 02 | Simula ng TeXt, ang simula ng text. |
ETX, 03 | Katapusan ng TeXt, pagtatapos ng teksto |
EOT, 04 | End of Transmission, end of transmission |
ENQ, 05 | Magtanong. Pakikumpirma |
ACK, 06 | Pagkilala. Kinukumpirma ko |
BEL, 07 | Bell, tumawag ka |
BS, 08 | Backspace, bumalik ng isang character |
TAB, 09 | Tab, pahalang na tab |
LF, 0A | Line Feed, line feed. Sa ngayon, sa karamihan ng mga programming language ay tinukoy ito bilang \n |
VT, 0B | Vertical Tab, patayong tabulation. |
FF, 0C | Feed ng Form, page feed, bagong page |
CR, 0D | Pagbabalik ng karwahe, pagbabalik ng karwahe. Sa ngayon, sa karamihan ng mga programming language, ito ay tinutukoy bilang \r |
KAYA,0E | Shift Out, palitan ang kulay ng ink ribbon sa printing device |
SI,0F | Shift In, ibalik ang kulay ng ink ribbon sa printing device pabalik |
DLE, 10 | Data Link Escape, inililipat ang channel sa paghahatid ng data |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Kontrol ng Device, mga simbolo ng kontrol ng device |
NAK, 15 | Negative Acknowledgement, hindi ko kinukumpirma. |
SYN, 16 | Pag-synchronize. Simbolo ng pag-synchronize |
ETB, 17 | Katapusan ng Text Block, dulo ng text block |
PWEDE, 18 | Kanselahin, pagkansela ng isang naunang ipinadala |
EM, 19 | Katapusan ng Medium |
SUB, 1A | Kapalit, kapalit. |
Inilagay sa lugar ng isang simbolo na ang kahulugan ay nawala o nasira sa panahon ng paghahatid | ESC, 1B |
Escape Control Sequence | FS, 1C |
File Separator, file separator | GS, 1D |
Group Separator | RS, 1E |
Record Separator, record separator | US, 1F |
Unit Separator | DEL, 7F |
Tanggalin, burahin ang huling character. Ang Unicode (Unicode sa Ingles) ay isang pamantayan sa pag-encode ng character. Sa madaling salita, ito ay isang talahanayan ng pagsusulatan sa pagitan ng mga text character (mga titik, mga elemento ng bantas) at mga binary code. Naiintindihan lamang ng computer ang pagkakasunud-sunod ng mga zero at isa. Upang malaman nito kung ano ang eksaktong dapat nitong ipakita sa screen, kinakailangan na magtalaga ng sarili nitong simbolo natatanging numero . Noong dekada otsenta, ang mga character ay na-encode sa isang byte, iyon ay, walong bits (bawat bit ay 0 o 1). Kaya, lumabas na ang isang talahanayan (aka encoding o set) ay maaari lamang tumanggap ng 256 na mga character. Maaaring hindi ito sapat kahit para sa isang wika. Samakatuwid, maraming iba't ibang mga pag-encode ang lumitaw, pagkalito kung saan madalas na humantong sa katotohanan na sa halip na nababasang teksto may lumitaw na kakaibang maliliit na nilalang. Kinakailangan iisang pamantayan
, na naging Unicode. Ang pinakaginagamit na encoding ay UTF-8 (Unicode Transformation Format), na gumagamit ng 1 hanggang 4 na byte upang kumatawan sa isang character.Mga simbolo Ang mga character sa mga talahanayan ng Unicode ay binibilang mga numerong hexadecimal . Halimbawa, Cyrillic M ay itinalagang U+041C. Nangangahulugan ito na nakatayo ito sa intersection ng row 041 at column C. Maaari mo lamang itong kopyahin at pagkatapos ay i-paste ito sa isang lugar. Upang hindi maghalungkat sa isang listahan ng maraming kilometro, dapat mong gamitin ang paghahanap. Kapag pumunta ka sa pahina ng simbolo, makikita mo ang numero nito sa Unicode at kung paano ito nakasulat iba't ibang mga font. Maaari mong ipasok ang mismong sign sa search bar, kahit na isang parisukat ang iguguhit sa halip, kahit na para malaman kung ano iyon. Gayundin, sa site na ito mayroong mga espesyal (at random) na hanay ng parehong uri ng mga icon, na nakolekta mula sa iba't ibang mga seksyon, para sa kadalian ng paggamit.
Ang pamantayan ng Unicode ay internasyonal. Kabilang dito ang mga character mula sa halos lahat ng script ng mundo. Kasama na yung mga hindi na ginagamit. Mga hieroglyph ng Egypt, Germanic rune, pagsulat ng Mayan, cuneiform at mga alpabeto ng mga sinaunang estado. Ang mga pagtatalaga ng mga timbang at sukat, musikal na notasyon, at matematikal na mga konsepto ay ipinakita din.
Ang Unicode Consortium mismo ay hindi nag-iimbento ng mga bagong character. Ang mga icon na iyon na nakikita ang kanilang paggamit sa lipunan ay idinagdag sa mga talahanayan. Halimbawa, ang ruble sign ay aktibong ginamit sa loob ng anim na taon bago ito idinagdag sa Unicode. Ang mga emoji pictograms (emoticon) ay unang ginamit din sa Japan bago sila isama sa pag-encode. Pero mga trademark, at hindi naidagdag ang mga logo ng kumpanya. Kahit na ang mga karaniwang bilang mansanas Mansanas o Windows flag. Sa ngayon, humigit-kumulang 120 libong mga character ang na-encode sa bersyon 8.0.
Excel para sa Office 365 Word para sa Office 365 Outlook para sa Office 365 PowerPoint para sa Office 365 Publisher para sa Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Excel 2016 Outlook 2016 Word 2016 Word 2019 3 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 70 Excel 2010 Visio 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Mas Kaunti
Sa artikulong ito: Magpasok ng ASCII o Unicode na character sa isang dokumentoKung kailangan mo lang maglagay ng ilang espesyal na character o simbolo, maaari mong gamitin ang mga keyboard shortcut. Para sa isang listahan ng mga ASCII na character, tingnan ang sumusunod na mga talahanayan o ang artikulong Paglalagay ng mga Pambansang Alpabeto Gamit ang Mga Shortcut sa Keyboard.
Mga Tala:
Paglalagay ng mga ASCII na characterUpang magpasok ng ASCII character, pindutin nang matagal ang ALT key habang ipinapasok ang character code. Halimbawa, upang magpasok ng simbolo ng degree (º), pindutin nang matagal ang ALT key, pagkatapos ay i-type ang 0176 sa numeric keypad.
Upang magpasok ng mga numero, gamitin ang numeric keypad sa halip na ang mga numero sa pangunahing keyboard. Kung kailangan mong maglagay ng mga numero sa numeric keypad, tiyaking naka-on ang indicator ng NUM LOCK.
Paglalagay ng mga Unicode CharacterUpang magpasok ng isang Unicode na character, ipasok ang character code, pagkatapos ay pindutin ALT key at X. Halimbawa, upang magpasok ng simbolo ng dolyar ($), ipasok ang 0024 at pindutin ang ALT at X sa pagkakasunud-sunod Para sa lahat ng Unicode character code, tingnan ang .
Mahalaga: Ilan Mga programa sa Microsoft Hindi sinusuportahan ng Office, gaya ng PowerPoint at InfoPath, ang pag-convert ng mga Unicode code sa mga character. Kung kailangan mong magpasok ng Unicode character sa isa sa mga program na ito, gamitin ang .
Mga Tala:
Kung lumitaw ang maling Unicode character pagkatapos mong pindutin ang ALT+X, piliin ang tamang code, at pagkatapos ay pindutin muli ang ALT+X.
Bilang karagdagan, dapat mong ilagay ang "U+" bago ang code. Halimbawa, kung ilalagay mo ang "1U+B5" at pinindot ang ALT+X, ang tekstong "1µ" ay ipapakita, at kung ilalagay mo ang "1B5" at pinindot ang ALT+X, ang simbolo na "Ƶ" ay ipapakita.
Ang talahanayan ng simbolo ay isang programang nakapaloob sa Microsoft Windows, na nagbibigay-daan sa iyong tingnan ang mga character na magagamit para sa napiling font.
Gamit ang talahanayan ng simbolo na maaari mong kopyahin indibidwal na mga karakter o isang grupo ng mga character sa clipboard at i-paste ang mga ito sa anumang program na sumusuporta sa pagpapakita ng mga character na ito. Binuksan ang talahanayan ng simbolo
Sa Windows 10, ipasok ang salitang "simbolo" sa box para sa paghahanap sa taskbar at piliin ang talahanayan ng simbolo mula sa mga resulta ng paghahanap.
Sa Windows 8, ilagay ang salitang "character" sa home screen at piliin ang talahanayan ng simbolo mula sa mga resulta ng paghahanap.
Sa Windows 7, i-click ang Start button, piliin ang All Programs, Accessories, System Tools, at pagkatapos ay i-click ang Character Map.
Ang mga character ay pinagsama ayon sa font. I-click ang listahan ng font para piliin ang naaangkop na set ng character. Upang pumili ng simbolo, i-click ito, pagkatapos ay i-click ang button na Piliin. Upang magpasok ng simbolo, i-click i-right click mga daga tamang lugar sa dokumento at piliin ang I-paste.
Mga code ng character na madalas gamitinBuong listahan character, tingnan sa iyong computer, ASCII character code table, o Unicode character table na nakaayos ayon sa set.
Pera |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Mga legal na simbolo |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Mga Fraction |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Mga simbolo ng bantas at diyalekto |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Mga simbolo ng hugis |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Karaniwang ginagamit na mga diacritics code Para sa kumpletong listahan ng mga glyph at kaukulang code, tingnan.
|
[8-bit encodings: ASCII, KOI-8R at CP1251] Ang mga unang encoding table na ginawa sa USA ay hindi gumamit ng ikawalong bit sa isang byte. Ang teksto ay kinakatawan bilang isang pagkakasunud-sunod ng mga byte, ngunit ang ikawalong bit ay hindi isinasaalang-alang (ito ay ginamit para sa mga opisyal na layunin).
Ang talahanayan ng ASCII ( American Standard Code for Information Interchange). Ang unang 32 character ng talahanayan ng ASCII (00 hanggang 1F) ay ginamit para sa mga hindi naka-print na character. Idinisenyo ang mga ito upang kontrolin ang isang aparato sa pag-print, atbp. Ang natitira - mula 20 hanggang 7F - ay regular (napi-print) na mga character.
Talahanayan 1 - ASCII encoding
|
|
Tulad ng madaling makita, sa encoding na ito lamang mga letrang latin, at ang mga ginagamit sa Ingles. Mayroon ding mga aritmetika at iba pang mga simbolo ng serbisyo. Ngunit walang mga titik na Ruso, o kahit na mga espesyal na Latin para sa Aleman o Pranses. Ito ay madaling ipaliwanag - ang pag-encode ay ginawa nang eksakto tulad ng American standard. Habang nagsimulang gamitin ang mga computer sa buong mundo, kailangang ma-encode ang ibang mga character.
Upang gawin ito, napagpasyahan na gamitin ang ikawalong bit sa bawat byte. Dahil dito, 128 pang value ang available (mula 80 hanggang FF) na maaaring magamit para mag-encode ng mga character. Ang una sa walong-bit na mga talahanayan - "extended ASCII" ( Extended ASCII) - kasama iba't ibang mga pagpipilian Latin na mga character na ginagamit sa ilang mga wika ng Kanlurang Europa. Naglalaman din ito ng iba pang mga karagdagang simbolo, kabilang ang mga pseudographic.
Pinapayagan ng mga pseudographic na character, sa pamamagitan lamang ng pagpapakita mga character ng teksto, magbigay ng ilang pagkakahawig ng mga graphics. Gamit ang pseudographics, halimbawa, gumagana ang isang control program FAR files Manager.
Walang mga letrang Ruso sa talahanayan ng Extended ASCII. Ang Russia (dating USSR) at iba pang mga bansa ay lumikha ng kanilang sariling mga pag-encode na naging posible upang kumatawan sa mga partikular na "pambansang" character sa 8-bit na mga text file - mga Latin na titik ng Polish at Czech na mga wika, Cyrillic (kabilang ang mga letrang Ruso) at iba pang mga alpabeto.
Sa lahat ng mga pag-encode na naging laganap, ang unang 127 character (iyon ay, ang byte value na may ikawalong bit na katumbas ng 0) ay kapareho ng ASCII. Kaya gumagana ang isang ASCII file sa alinman sa mga encoding na ito; mga titik wikang Ingles pare-pareho silang ipinakita.
Tinanggap ng ISO (International Standardization Organization) ang grupo Mga pamantayan ng ISO 8859. Tinutukoy nito ang 8-bit na pag-encode para sa iba't ibang grupo mga wika. Kaya, ang ISO 8859-1 ay isang Extended ASCII table para sa USA at Western Europe. At ang ISO 8859-5 ay isang talahanayan para sa Cyrillic alphabet (kabilang ang Russian).
Gayunpaman, para sa makasaysayang mga kadahilanan, ang ISO 8859-5 encoding ay hindi nag-ugat. Sa katotohanan, ang mga sumusunod na pag-encode ay ginagamit para sa wikang Ruso:
Code Page 866 (CP866), aka “DOS”, aka “alternatibong GOST encoding”. Malawakang ginagamit hanggang sa kalagitnaan ng 90s; ngayon ginagamit sa isang limitadong lawak. Halos hindi ginagamit para sa pamamahagi ng mga teksto sa Internet.
- KOI-8. Binuo noong 70-80s. Ay isang karaniwang tinatanggap na pamantayan para sa pagpapadala ng mga mensaheng mail sa Russian Internet. Malawak ding ginagamit sa mga operating system Pamilya ng Unix, kabilang ang Linux. Ang bersyon ng KOI-8 sa wikang Ruso ay tinatawag na KOI-8R; Mayroong mga bersyon para sa iba pang mga wikang Cyrillic (halimbawa, ang KOI8-U ay isang bersyon para sa wikang Ukrainian).
- Pahina ng Code 1251, CP1251, Windows-1251. Binuo ng Microsoft upang suportahan ang wikang Ruso sa Windows.
Ang pangunahing bentahe ng CP866 ay ang pagpapanatili ng mga pseudo-graphics na character sa parehong mga lugar tulad ng sa Extended ASCII; samakatuwid, ang mga dayuhan ay maaaring magtrabaho nang walang pagbabago mga programa sa teksto, halimbawa, ang sikat na Norton Commander. Sa ngayon, ang CP866 ay ginagamit para sa mga programang Windows na tumatakbo mga text window o sa full screen text mode, kasama ang FAR Manager.
Mga text sa CP866 mga nakaraang taon ay medyo bihira (ngunit ginagamit ito upang i-encode ang mga pangalan ng file na Ruso sa Windows). Samakatuwid, tatalakayin natin nang mas detalyado ang dalawa pang pag-encode - KOI-8R at CP1251.
Tulad ng nakikita mo, sa talahanayan ng pag-encode ng CP1251, ang mga letrang Ruso ay nakaayos sa pagkakasunud-sunod ng alpabeto (kasama ang pagbubukod, gayunpaman, ng titik E). Salamat sa lokasyong ito mga programa sa kompyuter Napakadaling pagbukud-bukurin ayon sa alpabeto.
Ngunit sa KOI-8R ang pagkakasunud-sunod ng mga letrang Ruso ay tila random. Ngunit sa katotohanan ay hindi ito ang kaso.
Sa maraming mas lumang mga programa, nawala ang ika-8 bit kapag nagpoproseso o nagpapadala ng teksto. (Ngayon ang mga naturang programa ay halos "wala na", ngunit sa huling bahagi ng 80s - unang bahagi ng 90s ay laganap sila). Upang makakuha ng 7-bit na halaga mula sa isang 8-bit na halaga, ibawas lamang ang 8 mula sa pinaka makabuluhang digit; halimbawa, ang E1 ay nagiging 61.
Ngayon ihambing ang KOI-8R sa talahanayan ng ASCII(Talahanayan 1). Makikita mo na ang mga letrang Ruso ay inilalagay sa malinaw na mga sulat sa mga Latin. Kung mawala ang ikawalong bit, ang maliliit na letrang Ruso ay magiging malalaking letrang Latin, at ang malalaking letrang Ruso ay magiging maliliit na letrang Latin. Kaya, ang E1 sa KOI-8 ay ang Russian "A", habang ang 61 sa ASCII ay ang Latin na "a".
Kaya, pinapayagan ka ng KOI-8 na mapanatili ang pagiging madaling mabasa ng Russian text kapag nawala ang ika-8 bit. Ang “Kumusta sa lahat” ay nagiging “pRIWET WSEM”.
SA kani-kanina lang At pagkakasunud-sunod ng alpabeto Ang pag-aayos ng mga character sa talahanayan ng pag-encode, at pagiging madaling mabasa sa pagkawala ng ika-8 bit, ay nawala ang kanilang mapagpasyang kahalagahan. Ikawalong bit in mga modernong kompyuter ay hindi nawawala sa panahon ng paghahatid o pagproseso. At ang alpabetikong pag-uuri ay ginagawa nang isinasaalang-alang ang pag-encode, at hindi simpleng paghahambing mga code (Sa pamamagitan ng paraan, ang mga code ng CP1251 ay hindi ganap na nakaayos ayon sa alpabeto - ang titik E ay wala sa lugar nito).
Dahil sa katotohanan na mayroong dalawang karaniwang pag-encode, kapag nagtatrabaho sa Internet (mail, nagba-browse sa mga Web site), maaari mong makita kung minsan ang isang walang kahulugan na hanay ng mga titik sa halip na tekstong Ruso. Halimbawa, "AKO SI SBYUFEMHEL." Ito ay mga salitang "may paggalang" lamang; ngunit sila ay na-encode sa CP1251 encoding, at na-decode ng computer ang teksto gamit ang KOI-8 table. Kung ang parehong mga salita, sa kabaligtaran, ay na-encode sa KOI-8, at na-decode ng computer ang teksto ayon sa talahanayan ng CP1251, ang magiging resulta ay "U HCHBTSEOYEN".
Minsan nangyayari na ang computer ay nagde-decrypt Mga titik ng Ruso at ganap na ayon sa isang talahanayan na hindi inilaan para sa wikang Ruso. Pagkatapos, sa halip na mga letrang Ruso, lumilitaw ang isang walang kahulugan na hanay ng mga simbolo (halimbawa, mga letrang Latin ng mga wika sa Silangang Europa); madalas silang tinatawag na "crocozybras".
Sa karamihan ng mga kaso modernong mga programa makayanan ang pagtukoy sa mga pag-encode ng mga dokumento sa Internet ( mga email at mga Web page) nang nakapag-iisa. Ngunit kung minsan sila ay "misfire", at pagkatapos ay makikita mo ang mga kakaibang pagkakasunud-sunod ng mga letrang Ruso o "krokozyabry". Bilang isang patakaran, sa ganoong sitwasyon, upang ipakita ang totoong teksto sa screen, sapat na upang manu-manong piliin ang pag-encode sa menu ng programa.
Ang impormasyon mula sa pahinang http://open-office.edusite.ru/TextProcessor/p5aa1.html ay ginamit para sa artikulong ito.
Materyal na kinuha mula sa site: