Ascii-binäärikooditaulukko. Tekstitietojen koodaus

Kuten tiedät, tietokone tallentaa tietoja binääri, joka edustaa sitä ykkösten ja nollien sarjana. Tietojen muuntamiseksi ihmiselle sopivaan muotoon jokainen yksilöllinen numerosarja korvataan sitä vastaavalla symbolilla, kun se näytetään.

Yksi järjestelmistä binäärikoodien korreloimiseksi painettujen ja ohjausmerkkien kanssa on

Tämän päivän kehitystasolla tietotekniikka käyttäjän ei tarvitse tietää kunkin merkin koodia. Kuitenkin yleistä ymmärrystä koodaus on erittäin hyödyllistä ja joillekin asiantuntijaryhmille jopa välttämätöntä.

Luodaan ASCII

Koodaus kehitettiin alun perin vuonna 1963 ja päivitettiin sitten kahdesti 25 vuoden aikana.

Alkuperäisessä versiossa taulukko ASCII-merkkejä sisälsi 128 merkkiä, myöhemmin ilmestyi laajennettu versio, jossa ensimmäiset 128 merkkiä tallennettiin ja aiemmin puuttuvat merkit määritettiin koodeihin, joissa oli mukana kahdeksas bitti.

Vuosien varrella tämä koodaus oli maailman suosituin. Vuonna 2006 Latin 1252 otti johtavan aseman, ja vuoden 2007 lopusta tähän päivään Unicode on pitänyt tiukasti johtoasemaa.

ASCII:n tietokoneesitys

Jokaisella ASCII-merkillä on oma koodi, joka koostuu kahdeksasta merkistä, jotka edustavat nollaa tai ykköstä. Pienin luku tässä esityksessä on nolla (kahdeksan nollaa tuumaa binäärijärjestelmä), joka on taulukon ensimmäisen elementin koodi.

Taulukon kaksi koodia on varattu vaihtamiseen standardin US-ASCII ja sen kansallisen muunnelman välillä.

Kun ASCII alkoi sisältää 128, vaan 256 merkkiä, yleistyi koodausmuunnos, jossa taulukon alkuperäinen versio tallennettiin ensimmäisiin 128 koodiin 8. bitin nollalla. Taulukon yläosaan (paikat 128-255) tallennettiin kansalliset kirjoitetut merkit.

Käyttäjän ei tarvitse tietää ASCII-merkkikoodeja suoraan. Kehittäjälle ohjelmisto Yleensä riittää, että tietää taulukon elementin numero, jotta sen koodi voidaan tarvittaessa laskea binäärijärjestelmän avulla.

venäjän kieli

Kehitettyään 70-luvun alussa koodauksia skandinaavisiin kieliin, kiinan, korean, kreikan jne., hän aloitti oman versionsa luomisen. Neuvostoliitto. Pian kehitettiin 8-bittisen koodauksen versio nimeltä KOI8, joka säilytti ensimmäiset 128 ASCII-merkkikoodia ja varasi saman määrän paikkoja kansallisten aakkosten kirjaimille ja lisämerkeille.

Ennen Unicoden käyttöönottoa KOI8 hallitsi Internetin venäläistä segmenttiä. Koodausvaihtoehtoja oli sekä venäjän että ukrainan aakkosille.

ASCII-ongelmia

Koska elementtien määrä ei edes laajennetussa taulukossa ylittänyt 256:ta, ei ollut mahdollista majoittaa useita eri skriptejä samaan koodaukseen. 90-luvulla "crocozyabr" -ongelma ilmeni Runetissa, kun venäläisillä ASCII-merkeillä kirjoitetut tekstit näytettiin väärin.

Ongelmana oli, että eri ASCII-koodit eivät vastanneet toisiaan. Muistakaamme, että paikoille 128-255 saattoi sijoittaa erilaisia ​​merkkejä, ja kun kyrillistä koodausta vaihdettiin toiseen, tekstin kaikki kirjaimet korvattiin muilla, joilla oli sama numero eri koodausversiossa.

Nykyinen tila

Unicoden myötä ASCII:n suosio alkoi laskea jyrkästi.

Syynä tähän on se, että uusi koodaus mahdollisti lähes kaikkien kirjoituskielten merkit. Tässä tapauksessa ensimmäiset 128 ASCII-merkkiä vastaavat samoja Unicode-merkkejä.

Vuonna 2000 ASCII oli Internetin suosituin koodaus, ja sitä käytettiin 60 prosentissa Googlen indeksoimista verkkosivuista. Vuoteen 2012 mennessä tällaisten sivujen osuus oli pudonnut 17 prosenttiin, ja Unicode (UTF-8) nousi suosituimman koodauksen tilalle.

Joten ASCII on tärkeä osa historiaa tietotekniikka sen käyttö tulevaisuudessa näyttää kuitenkin lupaamattomalta.

joulukuutaHexSymboli joulukuutaHexSymboli
000 00 asiantuntija. NOP 128 80 Ђ
001 01 asiantuntija. SOH 129 81 Ѓ
002 02 asiantuntija. STX 130 82
003 03 asiantuntija. ETX 131 83 ѓ
004 04 asiantuntija. EOT 132 84
005 05 asiantuntija. ENQ 133 85
006 06 asiantuntija. ACK 134 86
007 07 asiantuntija. BEL 135 87
008 08 asiantuntija. B.S. 136 88
009 09 asiantuntija. TAB 137 89
010 0Aasiantuntija. LF 138 8AЉ
011 0Basiantuntija. VT 139 8B‹ ‹
012 0Casiantuntija. FF 140 8CЊ
013 0Dasiantuntija. CR 141 8DЌ
014 0Easiantuntija. NIIN 142 8EЋ
015 0Fasiantuntija. SI. 143 8FЏ
016 10 asiantuntija. DLE 144 90 ђ
017 11 asiantuntija. DC1 145 91
018 12 asiantuntija. DC2 146 92
019 13 asiantuntija. DC3 147 93
020 14 asiantuntija. DC4 148 94
021 15 asiantuntija. N.A.K. 149 95
022 16 asiantuntija. SYN 150 96
023 17 asiantuntija. ETB 151 97
024 18 asiantuntija. VOI 152 98
025 19 asiantuntija. E.M. 153 99
026 1Aasiantuntija. SUB 154 9Aљ
027 1Basiantuntija. ESC 155 9B
028 1Casiantuntija. FS 156 9Cњ
029 1Dasiantuntija. G.S. 157 9Dќ
030 1Easiantuntija. R.S. 158 9Eћ
031 1Fasiantuntija. MEILLE 159 9Fџ
032 20 kytkin SP (avaruus) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Joo
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 ILMOITUS­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 B.C.ј
061 3D= 189 BDЅ
062 3E> 190 OLLAѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 IN
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 JA
071 47 G 199 C7 Z
072 48 H 200 C8 JA
073 49 minä 201 C9 Y
074 4AJ 202 C.A. TO
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. NOIN
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 K 209 D1 KANSSA
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 Sh
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE Yu
095 5F_ 223 DF minä
096 60 ` 224 E0 A
097 61 a 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 ja
103 67 g 231 E7 h
104 68 h 232 E8 Ja
105 69 i 233 E9 th
106 6Aj 234 E.A. Vastaanottaja
107 6Bk 235 E.B. l
108 6Cl 236 E.C. m
109 6Dm 237 ED n
110 6En 238 E.E. O
111 6Fo 239 E.F. n
112 70 s 240 F0 r
113 71 q 241 F1 Kanssa
114 72 r 242 F2 T
115 73 s 243 F3 klo
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 x 248 F8 w
121 79 y 249 F9 sch
122 7Az 250 FA. ъ
123 7B{ 251 FB s
124 7C| 252 F.C. b
125 7D} 253 FD uh
126 7E~ 254 F.E. yu
127 7Fasiantuntija. DEL 255 FF minä
ASCII Windowsin merkkikooditaulukko.
Erikois- (ohjaus)merkkien kuvaus On huomattava, että alun perin ASCII-taulukon ohjausmerkkejä käytettiin varmistamaan tiedonsiirto teletypen kautta, tietojen syöttäminen rei'itetyltä nauhalta ja yksinkertaiseen ulkoisten laitteiden ohjaukseen.
Tällä hetkellä useimmat ASCII-taulukon ohjausmerkit eivät enää kanna tätä kuormaa, ja niitä voidaan käyttää muihin tarkoituksiin. Koodi Kuvaus
NUL, 00Tyhjä, tyhjä
SOH, 01Otsikon alku
STX, 02Tekstin alku, tekstin alku.
ETX, 03Tekstin loppu, tekstin loppu
EOT, 04Lähetyksen loppu, lähetyksen loppu
ENQ, 05Tiedustella. Vahvista
AK, 06Tunnustus. Vahvistan
BEL, 07Bell, soita
BS, 08Askelpalautin, palaa yksi merkki taaksepäin
TAB, 09Välilehti, vaakasuora välilehti
LF, 0ARivinsyöttö, rivinvaihto.
Nykyään useimmissa ohjelmointikielissä se on merkitty \n
VT, 0BPysty välilehti, pystytaulukko.
FF, 0CLomakesyöte, sivusyöte, uusi sivu
CR, 0DVaunun paluu, vaunun paluu.
Nykyään useimmissa ohjelmointikielissä sitä merkitään \r
SO,0EShift Out, muuta tulostuslaitteen mustenauhan väriä
SI,0FShift In, palauta tulostuslaitteen mustenauhan väri takaisin
DLE, 10Data Link Escape, vaihtaa kanavan tiedonsiirtoon
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Device Control, laiteohjaussymbolit
NAK, 15Kielteinen tunnustus, en vahvista.
SYN, 16Synkronointi. Synkronointisymboli
ETB, 17Tekstilohkon loppu, tekstilohkon loppu
CAN, 18Peruuta, aiemmin lähetetyn peruutus
EM, 19Keskipitkän loppu
SUB, 1AKorvaava, sijainen.
Sijoitetaan symbolin tilalle, jonka merkitys on kadonnut tai vioittunut lähetyksen aikanaESC, 1B
PakoohjausjärjestysFS, 1C
Tiedostoerotin, tiedostoerotinGS, 1D
RyhmäerotinRS, 1E
Tietueen erotin, tietueen erotinUSA, 1F
Yksikön erotinDEL, 7F

Poista, poista viimeinen merkki. Unicode (englanniksi Unicode) on merkkien koodausstandardi. Yksinkertaisesti sanottuna tämä on vastaavuustaulukko tekstimerkkien (kirjaimet, välimerkit) ja binäärikoodien välillä. Tietokone ymmärtää vain nollien ja ykkösten sarjan. Jotta se tietää, mitä sen pitäisi tarkalleen näyttää näytöllä, on tarpeen määrittää jokaiselle symbolille oma ainutlaatuinen numero . 80-luvulla merkit koodattiin yhteen tavuun eli kahdeksaan bittiin (jokainen bitti on 0 tai 1). Siten kävi ilmi, että yhteen taulukkoon (alias koodaus tai joukko) mahtuu vain 256 merkkiä. Tämä ei välttämättä riitä edes yhdelle kielelle. Siksi ilmestyi monia erilaisia ​​koodauksia, joiden sekaannus johti usein siihen, että sen sijaan luettavaa tekstiä joitain outoja pieniä olentoja ilmestyi. Pakollinen yksi standardi

, josta Unicodesta tuli. Eniten käytetty koodaus on UTF-8 (Unicode Transformation Format), joka edustaa merkkiä 1-4 tavulla.

Symbolit Unicode-taulukoiden merkit on numeroitu heksadesimaaliluvut . Esimerkiksi kyrillinen M on merkitty U+041C:ksi. Tämä tarkoittaa, että se on rivin 041 ja sarakkeen C leikkauskohdassa. Voit yksinkertaisesti kopioida sen ja liittää sen jonnekin. Jotta et turhaisi usean kilometrin luettelossa, sinun tulee käyttää hakua. Kun siirryt symbolisivulle, näet sen numeron Unicodessa ja tavan, jolla se on kirjoitettu erilaisia ​​fontteja. Voit kirjoittaa itse merkin hakupalkkiin, vaikka sen sijaan piirrettäisiin neliö, ainakin selvittääksesi, mikä se oli. Lisäksi tällä sivustolla on erityisiä (ja satunnaisia) samantyyppisiä kuvakkeita, jotka on kerätty eri osioista käytön helpottamiseksi.

Unicode-standardi on kansainvälinen. Se sisältää hahmoja lähes kaikista maailman käsikirjoituksista. Mukaan lukien ne, joita ei enää käytetä. Egyptiläiset hieroglyfit, germaaniset riimut, mayojen kirjoitus, nuolenpääkirja ja muinaisten valtioiden aakkoset. Esitellään myös painojen ja mittojen nimitykset, nuotit ja matemaattiset käsitteet.

Unicode Consortium ei itse keksi uusia merkkejä. Taulukoihin on lisätty ne kuvakkeet, jotka löytävät käyttökelpoisuutensa yhteiskunnassa. Esimerkiksi ruplamerkkiä käytettiin aktiivisesti kuusi vuotta ennen kuin se lisättiin Unicodeen. Emoji-piktogrammeja (hymiöitä) käytettiin myös ensimmäisen kerran laajalti Japanissa ennen kuin ne sisällytettiin koodaukseen. Mutta tavaramerkkejä ja yrityksen logoja ei lisätä ollenkaan. Jopa sellaisia ​​yleisiä kuin omena Apple tai Windows-lippu. Tähän mennessä versiossa 8.0 on koodattu noin 120 tuhatta merkkiä.

Excel for Office 365 Word for Office 365 Outlook for Office 365 PowerPoint for Office 365 Publisher for Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Word 2019 Visio Standard 20619int 20619int 16 2013 Kustantaja 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 20 7 010 Word 20 20 2010 07 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Less

Tässä artikkelissa: ASCII- tai Unicode-merkin lisääminen asiakirjaan

Jos tarvitset vain muutaman erikoismerkin tai symbolin, voit käyttää pikanäppäimiä. Luettelo ASCII-merkeistä on seuraavissa taulukoissa tai artikkelissa Kansallisten aakkosten lisääminen pikanäppäinten avulla.

Huomautuksia:

ASCII-merkkien lisääminen

Voit lisätä ASCII-merkin pitämällä ALT-näppäintä painettuna syöttäessäsi merkkikoodia. Jos haluat esimerkiksi lisätä astemerkin (º), pidä ALT-näppäintä painettuna ja kirjoita sitten 0176 numeronäppäimistö.

Syötä numeroita käyttämällä numeronäppäimistöä päänäppäimistön numeroiden sijaan. Jos sinun on syötettävä numeroita numeronäppäimistöllä, varmista, että NUM LOCK-merkkivalo palaa.

Unicode-merkkien lisääminen

Voit lisätä Unicode-merkin kirjoittamalla merkkikoodin ja painamalla sitten ALT-näppäimet ja X. Jos haluat esimerkiksi lisätä dollarisymbolin ($), kirjoita 0024 ja paina peräkkäin ALT ja X Katso kaikki Unicode-merkkikoodit.

Tärkeää: Jotkut Microsoftin ohjelmat Office, kuten PowerPoint ja InfoPath, eivät tue Unicode-koodien muuntamista merkeiksi. Jos sinun on lisättävä Unicode-merkki johonkin näistä ohjelmista, käytä .

Huomautuksia:

    Jos väärä Unicode-merkki tulee näkyviin, kun olet painanut ALT+X, valitse oikea koodi ja paina sitten uudelleen ALT+X.

    Lisäksi sinun on syötettävä "U+" ennen koodia. Jos esimerkiksi syötät "1U+B5" ja painat ALT+X, teksti "1µ" tulee näkyviin, ja jos syötät "1B5" ja painat ALT+X, symboli "Ƶ" tulee näkyviin.

Symbolitaulukon käyttö

Symbolitaulukko on sisäänrakennettu ohjelma Microsoft Windows, jonka avulla voit tarkastella valitun fontin käytettävissä olevia merkkejä.

Symbolitaulukon avulla voit kopioida yksittäisiä hahmoja tai ryhmä merkkejä leikepöydälle ja liitä ne mihin tahansa ohjelmaan, joka tukee näiden merkkien näyttämistä. Symbolitaulukon avaaminen

    Kirjoita Windows 10:ssä sana "symboli" tehtäväpalkin hakukenttään ja valitse symbolitaulukko hakutuloksista.

    Kirjoita Windows 8:ssa sana "merkki" osoitteessa aloitusnäyttö ja valitse symbolitaulukko hakutuloksista.

    Napsauta Windows 7:ssä Käynnistä-painiketta, valitse Kaikki ohjelmat, Apuohjelmat, Järjestelmätyökalut ja napsauta sitten Merkkikartta.

Merkit on ryhmitelty fontin mukaan. Napsauta fonttiluetteloa valitaksesi sopiva merkistö. Valitse symboli napsauttamalla sitä ja napsauttamalla sitten Valitse-painiketta. Lisää symboli napsauttamalla hiiren oikealla napsautuksella hiiret oikea paikka asiakirjassa ja valitse Liitä.

Usein käytetyt merkkikoodit

Täysi lista merkkejä, katso tietokoneeltasi, ASCII-merkkikooditaulukot tai Unicode-merkkitaulukot, jotka on järjestetty joukon mukaan.

Glyph

Glyph

Valuutta

Oikeudelliset symbolit

Matemaattiset symbolit

Murtoluvut

Välimerkit ja murresymbolit

Muotosymbolit

Yleisesti käytetyt diakriittiset koodit

Katso täydellinen luettelo kuvioista ja vastaavista koodeista.

Glyph

Glyph

Tulostumattomat ASCII-ohjausmerkit

Kyltit hallitsivat joitain oheislaitteet, kuten tulostimet, on numeroitu ASCII-taulukossa 0–31. Esimerkiksi sivunsyöttö/uuden sivun merkki on numero 12. Tämä merkki kertoo tulostimen siirtymään seuraavan sivun alkuun.

Taulukko ei-tulostuvista ASCII-ohjausmerkeistä

Desimaaliluku

Merkki

Desimaaliluku

Merkki

Datakanavan vapauttaminen

Otsikon alku

Ensimmäinen laitteen ohjauskoodi

Tekstin alku

Toinen laitteen ohjauskoodi

Tekstin loppu

Kolmannen laitteen ohjauskoodi

Lähetyksen loppu

Neljäs laitteen ohjauskoodi

viisikärkinen

Negatiivinen vahvistus

Vahvistus

Synkroninen lähetystila

Piippaus

Lähetetyn datalohkon loppu

Vaakataulukko

Median loppu

Rivinvaihto/uusi rivi

Korvaussymboli

Pysty välilehti

ylittää

Sivusyöte/uusi sivu

Kaksitoista

Tiedoston erotin

Vaunun palautus

Ryhmäerotin

Vaihto tallentamatta bittejä

Tietueen erotin

Bittiä säilyttävä muutos

viisitoista

Tietojen erotin

[8-bittiset koodaukset: ASCII, KOI-8R ja CP1251] Ensimmäiset Yhdysvalloissa luodut koodaustaulukot eivät käyttäneet kahdeksatta bittiä tavussa. Teksti esitettiin tavujonona, mutta kahdeksatta bittiä ei otettu huomioon (se käytettiin virallisiin tarkoituksiin).

ASCII-taulukko ( Amerikkalainen standardi Tietojenvaihdon koodi). ASCII-taulukon 32 ensimmäistä merkkiä (00 - 1F) käytettiin ei-tulostuville merkeille. Ne on suunniteltu ohjaamaan tulostuslaitetta jne. Loput - 20 - 7F - ovat tavallisia (tulostettavia) merkkejä.

Taulukko 1 - ASCII-koodaus

Joulukuu Hex Loka Char Kuvaus
0 0 000 tyhjä
1 1 001 suunnan alku
2 2 002 tekstin alku
3 3 003 tekstin loppu
4 4 004 lähetyksen loppu
5 5 005 tiedustelu
6 6 006 tunnustaa
7 7 007 kello
8 8 010 askelpalautin
9 9 011 vaakasuora välilehti
10 A 012 uusi rivi
11 B 013 pystysuora välilehti
12 C 014 uusi sivu
13 D 015 vaunun paluu
14 E 016 vaihtaa pois
15 F 017 siirtyä sisään
16 10 020 datalinkin pakoon
17 11 021 laitteen ohjaus 1
18 12 022 laitteen ohjaus 2
19 13 023 laitteen ohjaus 3
20 14 024 laitteen ohjaus 4
21 15 025 negatiivinen tunnustus
22 16 026 synkroninen tyhjäkäynti
23 17 027 transin loppu. lohko
24 18 030 peruuttaa
25 19 031 mediumin loppu
26 1A 032 korvike
27 1B 033 paeta
28 1C 034 tiedostojen erotin
29 1D 035 ryhmän erotin
30 1E 036 tietueen erotin
31 1F 037 yksikön erotin
32 20 040 tilaa
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
Joulukuu Hex Loka Char
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 minä
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 K
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 s
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Kuten on helppo nähdä, vain tässä koodauksessa latinalaiset kirjaimet, ja ne, joita käytetään englanniksi. Siellä on myös aritmeettisia ja muita palvelusymboleja. Mutta ei ole venäläisiä kirjaimia eikä edes erityisiä latinalaisia ​​kirjaimia saksalle tai ranskalle. Tämä on helppo selittää - koodaus on kehitetty täsmälleen sellaisena Amerikkalainen standardi. Kun tietokoneita alettiin käyttää kaikkialla maailmassa, muut merkit piti koodata.

Tätä varten päätettiin käyttää kahdeksatta bittiä jokaisessa tavussa. Tämä toi käyttöön 128 muuta arvoa (80:stä FF:iin), joita voitiin käyttää merkkien koodaamiseen. Ensimmäinen kahdeksanbittisistä taulukoista - "laajennettu ASCII" (Extended ASCII) - sisältyy erilaisia ​​vaihtoehtoja Latinalaiset kirjaimet, joita käytetään joissakin Länsi-Euroopan kielissä. Se sisälsi myös muita lisäsymboleja, mukaan lukien pseudografia.

Pseudografiset merkit sallivat, vain näyttämällä tekstin merkkejä, tarjoavat jonkinlaisen grafiikan vaikutelman. Esimerkiksi pseudografiaa käyttämällä ohjausohjelma toimii FAR-tiedostot Manager.

Laajennetussa ASCII-taulukossa ei ollut venäläisiä kirjaimia. Venäjä (entinen Neuvostoliitto) ja muut maat loivat omat koodauksensa, jotka mahdollistivat tiettyjen "kansallisten" merkkien esittämisen 8-bittisissä tekstitiedostoissa - Puolan ja Tšekin kielten latinalaiset kirjaimet, kyrilliset (mukaan lukien venäläiset kirjaimet) ja muut aakkoset.

Kaikissa laajalle levinneissä koodauksissa ensimmäiset 127 merkkiä (eli tavun arvo, jonka kahdeksas bitti on yhtä suuri kuin 0) ovat samat kuin ASCII. Joten ASCII-tiedosto toimii jommassakummassa näistä koodauksista; kirjaimet Englannin kieli ne esitetään tasapuolisesti.

ISO (International Standardization Organisation) hyväksyi ryhmän ISO-standardit 8859. Se määrittelee 8-bittiset koodaukset eri ryhmiä kieliä. Joten ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Eurooppaan. Ja ISO 8859-5 on taulukko kyrillisille aakkosille (mukaan lukien venäjä).

Historiallisista syistä ISO 8859-5 -koodaus ei kuitenkaan juurtunut. Todellisuudessa venäjän kielelle käytetään seuraavia koodauksia:

Koodisivu 866 (CP866), eli "DOS", eli "vaihtoehtoinen GOST-koodaus". Käytettiin laajasti 90-luvun puoliväliin asti; nyt käytössä rajoitetusti. Käytännössä ei käytetä tekstien jakamiseen Internetissä.
- KOI-8. Kehitetty 70-80-luvuilla. On yleisesti hyväksytty standardi sähköpostiviestien lähettämiseen Venäjän Internet. Käytetään myös laajasti käyttöjärjestelmät Unix-perhe, mukaan lukien Linux. KOI-8:n venäjänkielisen version nimi on KOI-8R; Muille kyrillisille kielille on versioita (esimerkiksi KOI8-U on ukrainan kielen versio).
- Koodisivu 1251, CP1251, Windows-1251. Kehitetty Microsoftilta Venäjän kielen tukemiseen Windowsissa.

CP866:n tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa; siksi ulkomaiset voisivat toimia ilman muutoksia tekstiohjelmat esimerkiksi kuuluisa Norton Commander. Nykyään CP866 on käytössä Windows-ohjelmissa teksti-ikkunat tai koko näytön tekstitilassa, mukaan lukien FAR Manager.

Tekstit CP866:ssa viime vuosina ovat melko harvinaisia ​​(mutta sitä käytetään koodaamaan venäläisiä tiedostonimiä Windowsissa). Siksi viivyttelemme tarkemmin kahdessa muussa koodauksessa - KOI-8R ja CP1251.



Kuten näette, CP1251-koodaustaulukossa venäläiset kirjaimet on järjestetty aakkosjärjestykseen (poikkeuksena kuitenkin E-kirjain). Tämän sijainnin ansiosta tietokoneohjelmia Se on erittäin helppo lajitella aakkosjärjestykseen.

Mutta KOI-8R:ssä venäläisten kirjainten järjestys näyttää sattumanvaraiselta. Mutta todellisuudessa näin ei ole.

Monissa vanhemmissa ohjelmissa 8. bitti katosi tekstiä käsiteltäessä tai lähetettäessä. (Nyt tällaiset ohjelmat ovat käytännössä "kuonneet sukupuuttoon", mutta 80-luvun lopulla - 90-luvun alussa ne olivat yleisiä). Jos haluat saada 7-bittisen arvon 8-bittisestä arvosta, vähennä vain 8 merkittävimmästä numerosta; esimerkiksi E1:stä tulee 61.

Vertaa nyt KOI-8R:ää ASCII-taulukko(Taulukko 1). Tulet huomaamaan, että venäläiset kirjaimet on sijoitettu selkeään vastaavuuteen latinalaisten kanssa. Jos kahdeksas bitti katoaa, pienet venäläiset kirjaimet muuttuvat isoiksi latinalaisiksi kirjaimille ja isot venäläiset kirjaimet pieniksi latinalaisiksi kirjaimille. Joten KOI-8:ssa E1 on venäläinen "A", kun taas 61 ASCII:ssa on latinalainen "a".

Joten KOI-8 antaa sinun säilyttää venäjän tekstin luettavuuden, kun 8. bitti katoaa. "Hei kaikille" muuttuu "pRIWET WSEM".

IN viime aikoina Ja aakkosjärjestyksessä Merkkien järjestely koodaustaulukossa ja luettavuus 8. bitin häviämisen myötä ovat menettäneet ratkaisevan merkityksensä. Kahdeksas bitti sisään nykyaikaiset tietokoneet ei katoa lähetyksen tai käsittelyn aikana. Ja aakkosellinen lajittelu tehdään ottaen huomioon koodaus, eikä yksinkertainen vertailu koodit (Muuten, CP1251-koodit eivät ole täysin aakkosjärjestyksessä - E-kirjain ei ole paikallaan).

Koska on olemassa kaksi yleistä koodausta, Internetin kanssa työskennellessäsi (posti, Web-sivustoja selatessasi) voit joskus nähdä merkityksettömän joukon kirjaimia venäjän tekstin sijaan. Esimerkiksi "MINÄ OLEN SBYUFEMHEL." Nämä ovat vain sanoja "kunnioituksella"; mutta ne koodattiin CP1251-koodauksella, ja tietokone pursi tekstin KOI-8-taulukon avulla. Jos samat sanat päinvastoin koodattaisiin KOI-8:aan ja tietokone purkisi tekstin CP1251-taulukon avulla, tulos olisi "U KHBTSEOYEN".

Joskus käy niin, että tietokone purkaa salauksen Venäjän kirjaimet ja täysin sellaisen taulukon mukaan, jota ei ole tarkoitettu venäjän kielelle. Sitten venäläisten kirjainten sijasta ilmestyy merkityksetön symbolijoukko (esimerkiksi Itä-Euroopan kielten latinalaiset kirjaimet); niitä kutsutaan usein "crocozybriksi".

Useimmissa tapauksissa nykyaikaiset ohjelmat selviytyä Internet-asiakirjojen koodausten määrittämisestä ( sähköpostit ja Web-sivut) itsenäisesti. Mutta joskus ne "sytytyshäiriö", ja sitten voit nähdä outoja venäläisiä kirjaimia tai "krokozyabry" -sarjoja. Yleensä tällaisessa tilanteessa oikean tekstin näyttämiseksi näytöllä riittää, että valitset koodauksen manuaalisesti ohjelmavalikosta.

Tässä artikkelissa käytettiin tietoja sivulta http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Sivustolta otettu materiaali: