Vakiokooditaulukko. Tekstitietojen koodaus

[8-bittiset koodaukset: ASCII, KOI-8R ja CP1251] Ensimmäiset Yhdysvalloissa luodut koodaustaulukot eivät käyttäneet tavun kahdeksatta bittiä. Teksti esitettiin tavujonona, mutta kahdeksatta bittiä ei otettu huomioon (se käytettiin virallisiin tarkoituksiin).

Taulukosta on tullut yleisesti hyväksytty standardi ASCII(American Standard Code for Information Interchange). ASCII-taulukon 32 ensimmäistä merkkiä (00 - 1F) käytettiin ei-tulostuville merkeille. Ne on suunniteltu ohjaamaan tulostuslaitetta jne. Loput - 20 - 7F - ovat tavallisia (tulostettavia) merkkejä.

Taulukko 1 - ASCII-koodaus

joulukuutaHexlokakuuHiiltyäKuvaus
0 0 000 tyhjä
1 1 001 suunnan alku
2 2 002 tekstin alku
3 3 003 tekstin loppu
4 4 004 lähetyksen loppu
5 5 005 tiedustelu
6 6 006 tunnustaa
7 7 007 kello
8 8 010 askelpalautin
9 9 011 vaakasuora välilehti
10 A 012 uusi rivi
11 B 013 pystysuora välilehti
12 C 014 uusi sivu
13 D 015 vaunun paluu
14 E 016 vaihtaa pois
15 F 017 siirtyä sisään
16 10 020 datalinkin pakoon
17 11 021 laitteen ohjaus 1
18 12 022 laitteen ohjaus 2
19 13 023 laitteen ohjaus 3
20 14 024 laitteen ohjaus 4
21 15 025 negatiivinen tunnustus
22 16 026 synkroninen tyhjäkäynti
23 17 027 transin loppu. lohko
24 18 030 peruuttaa
25 19 031 mediumin loppu
26 1A 032 korvike
27 1B 033 paeta
28 1C 034 tiedostojen erotin
29 1D 035 ryhmän erotin
30 1E 036 tietueen erotin
31 1F 037 yksikön erotin
32 20 040 tilaa
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
joulukuutaHexlokakuuHiiltyä
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 minä
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 K
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 s
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Kuten näet helposti, tämä koodaus sisältää vain latinalaisia ​​kirjaimia ja niitä, joita käytetään englannin kielellä. Siellä on myös aritmeettisia ja muita palvelusymboleja. Mutta ei ole venäjän kirjaimia eikä edes erityisiä latinalaisia ​​kirjaimia saksalle tai ranskalle. Tämä on helppo selittää - koodaus on kehitetty nimenomaan amerikkalaiseksi standardiksi. Kun tietokoneita alettiin käyttää kaikkialla maailmassa, muut merkit piti koodata.

Tätä varten päätettiin käyttää kahdeksatta bittiä jokaisessa tavussa. Tämä teki 128 lisäarvoa saataville (80:stä FF:iin), joita voitiin käyttää merkkien koodaamiseen. Ensimmäinen kahdeksanbittisistä taulukoista on "laajennettu ASCII" ( Laajennettu ASCII) - sisälsi useita muunnelmia latinalaisista kirjaimista, joita käytetään joissakin Länsi-Euroopan kielissä. Se sisälsi myös muita lisäsymboleja, mukaan lukien pseudografia.

Pseudografisten merkkien avulla voit luoda jonkin verran grafiikkaa näyttämällä vain tekstimerkkejä näytöllä. Esimerkiksi tiedostonhallintaohjelma FAR Manager toimii pseudografian avulla.

Laajennetussa ASCII-taulukossa ei ollut venäläisiä kirjaimia. Venäjä (entinen Neuvostoliitto) ja muut maat loivat omat koodauksensa, jotka mahdollistivat tiettyjen "kansallisten" merkkien esittämisen 8-bittisissä tekstitiedostoissa - Puolan ja Tšekin kielten latinalaiset kirjaimet, kyrilliset (mukaan lukien venäläiset kirjaimet) ja muut aakkoset.

Kaikissa laajalle levinneissä koodauksissa ensimmäiset 127 merkkiä (eli tavun arvo, jonka kahdeksas bitti on yhtä suuri kuin 0) ovat samat kuin ASCII. Joten ASCII-tiedosto toimii jommassakummassa näistä koodauksista; Englannin kielen kirjaimet esitetään samalla tavalla.

Organisaatio ISO(International Standardization Organisation) hyväksyi ryhmän standardeja ISO 8859. Se määrittelee 8-bittiset koodaukset eri kieliryhmille. Joten ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Eurooppaan. Ja ISO 8859-5 on taulukko kyrillisille aakkosille (mukaan lukien venäjä).

Historiallisista syistä ISO 8859-5 -koodaus ei kuitenkaan juurtunut. Todellisuudessa venäjän kielelle käytetään seuraavia koodauksia:

Koodisivu 866 ( CP866), eli "DOS", eli "vaihtoehtoinen GOST-koodaus". Käytettiin laajasti 90-luvun puoliväliin asti; nyt käytössä rajoitetusti. Käytännössä ei käytetä tekstien jakamiseen Internetissä.
- KOI-8. Kehitetty 70-80-luvulla. Se on yleisesti hyväksytty standardi sähköpostiviestien lähettämiseen Venäjän Internetissä. Sitä käytetään myös laajasti Unix-perheen käyttöjärjestelmissä, mukaan lukien Linux. Venäjälle suunniteltu KOI-8-versio on ns KOI-8R; Muille kyrillisille kielille on versioita (esimerkiksi KOI8-U on ukrainan kielen versio).
- Koodisivu 1251, CP1251,Windows-1251. Microsoftin kehittämä tukemaan venäjän kieltä Windowsissa.

CP866:n tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa; siksi ulkomaiset tekstiohjelmat, esimerkiksi kuuluisa Norton Commander, voisivat toimia ilman muutoksia. CP866:ta käytetään nyt Windows-ohjelmissa, jotka toimivat tekstiikkunoissa tai koko näytön tekstitilassa, mukaan lukien FAR Manager.

CP866:n tekstit ovat olleet melko harvinaisia ​​viime vuosina (mutta sitä käytetään koodaamaan venäläisiä tiedostonimiä Windowsissa). Siksi viivyttelemme tarkemmin kahdessa muussa koodauksessa - KOI-8R ja CP1251.



Kuten näette, CP1251-koodaustaulukossa venäläiset kirjaimet on järjestetty aakkosjärjestykseen (poikkeuksena kuitenkin E-kirjain). Tämän järjestelyn ansiosta tietokoneohjelmien on erittäin helppo lajitella aakkosjärjestykseen.

Mutta KOI-8R:ssä venäläisten kirjainten järjestys näyttää sattumanvaraiselta. Mutta todellisuudessa näin ei ole.

Monissa vanhemmissa ohjelmissa 8. bitti katosi tekstiä käsiteltäessä tai lähetettäessä. (Nyt tällaiset ohjelmat ovat käytännössä "kuonneet sukupuuttoon", mutta 80-luvun lopulla - 90-luvun alussa ne olivat yleisiä). Jos haluat saada 7-bittisen arvon 8-bittisestä arvosta, vähennä vain 8 merkittävimmästä numerosta. esimerkiksi E1:stä tulee 61.

Vertaa nyt KOI-8R:ää ASCII-taulukkoon (taulukko 1). Tulet huomaamaan, että venäläiset kirjaimet on sijoitettu selkeään vastaavuuteen latinalaisten kanssa. Jos kahdeksas bitti katoaa, pienet venäläiset kirjaimet muuttuvat isoiksi latinalaisiksi kirjaimille ja isot venäläiset kirjaimet pieniksi latinalaisiksi kirjaimille. Joten KOI-8:ssa E1 on venäläinen "A", kun taas 61 ASCII:ssa on latinalainen "a".

Joten KOI-8 antaa sinun säilyttää venäjän tekstin luettavuuden, kun 8. bitti katoaa. "Hei kaikille" muuttuu "pRIWET WSEM".

Viime aikoina sekä koodaustaulukon merkkien aakkosjärjestys että luettavuus 8. bitin häviämisen myötä ovat menettäneet ratkaisevan merkityksensä. Nykyaikaisten tietokoneiden kahdeksas bitti ei häviä lähetyksen tai käsittelyn aikana. Ja aakkosellinen lajittelu tehdään koodaus huomioon ottaen, ei pelkästään koodeja vertaamalla. (Muuten, CP1251-koodit eivät ole täysin aakkosjärjestyksessä - E-kirjain ei ole paikallaan).

Koska on olemassa kaksi yleistä koodausta, Internetin kanssa työskennellessäsi (posti, Web-sivustoja selatessasi) voit joskus nähdä merkityksettömän joukon kirjaimia venäjän tekstin sijaan. Esimerkiksi "MINÄ OLEN SBYUFEMHEL." Nämä ovat vain sanoja "kunnioituksella"; mutta ne koodattiin CP1251-koodauksella, ja tietokone pursi tekstin KOI-8-taulukon avulla. Jos samat sanat päinvastoin koodattaisiin KOI-8:aan ja tietokone purkisi tekstin CP1251-taulukon avulla, tulos olisi "U KHBTSEOYEN".

Joskus käy niin, että tietokone purkaa venäjänkieliset kirjaimet taulukolla, jota ei ole tarkoitettu venäjän kielelle. Sitten venäläisten kirjainten sijasta ilmestyy merkityksetön symbolijoukko (esimerkiksi Itä-Euroopan kielten latinalaiset kirjaimet); niitä kutsutaan usein "crocozybriksi".

Useimmissa tapauksissa nykyaikaiset ohjelmat selviävät Internet-asiakirjojen (sähköpostien ja Web-sivujen) koodausten määrittämisestä itsenäisesti. Mutta joskus ne "sytytyshäiriö", ja sitten voit nähdä outoja venäläisiä kirjaimia tai "krokozyabry". Yleensä tällaisessa tilanteessa oikean tekstin näyttämiseksi näytöllä riittää, että valitset koodauksen manuaalisesti ohjelmavalikosta.

Tässä artikkelissa käytettiin tietoja sivulta http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Sivustolta otettu materiaali:

Kuten tiedät, tietokone tallentaa tiedot binäärimuodossa esittäen sen ykkösten ja nollien sarjana. Tietojen muuntamiseksi ihmiselle sopivaan muotoon jokainen yksilöllinen numerosarja korvataan sitä vastaavalla symbolilla, kun se näytetään.

Yksi järjestelmistä binäärikoodien korreloimiseksi painettujen ja ohjausmerkkien kanssa on

Tietotekniikan nykyisellä kehitystasolla käyttäjän ei tarvitse tietää jokaisen tietyn merkin koodia. Yleinen ymmärrys koodauksen suorittamisesta on kuitenkin erittäin hyödyllistä ja joillekin asiantuntijaryhmille jopa välttämätöntä.

Luodaan ASCII

Koodaus kehitettiin alun perin vuonna 1963 ja päivitettiin sitten kahdesti 25 vuoden aikana.

Alkuperäisessä versiossa ASCII-merkkitaulukko sisälsi 128 merkkiä. Myöhemmin ilmestyi laajennettu versio, jossa ensimmäiset 128 merkkiä tallennettiin ja aiemmin puuttuvat merkit määritettiin koodeihin, joissa oli mukana kahdeksas bitti.

Tämä koodaus oli useiden vuosien ajan suosituin maailmassa. Vuonna 2006 Latin 1252 otti johtavan aseman, ja vuoden 2007 lopusta tähän päivään Unicode on pitänyt johtoasemaa vakaasti.

ASCII:n tietokoneesitys

Jokaisella ASCII-merkillä on oma koodinsa, joka koostuu kahdeksasta merkistä, jotka edustavat nollaa tai ykköstä. Pienin luku tässä esityksessä on nolla (kahdeksan nollaa binäärijärjestelmässä), joka on taulukon ensimmäisen elementin koodi.

Taulukon kaksi koodia on varattu vaihtamiseen standardin US-ASCII ja sen kansallisen muunnelman välillä.

Kun ASCII alkoi sisältää 128, vaan 256 merkkiä, yleistyi koodausmuunnos, jossa taulukon alkuperäinen versio tallennettiin ensimmäisiin 128 koodiin 8. bitin nollalla. Taulukon yläosaan (paikat 128-255) tallennettiin kansalliset kirjoitetut merkit.

Käyttäjän ei tarvitse tietää ASCII-merkkikoodeja suoraan. Ohjelmistokehittäjän tarvitsee yleensä tietää vain taulukon elementtinumero laskeakseen koodinsa tarvittaessa binäärijärjestelmän avulla.

venäjän kieli

Skandinaavisten kielten, kiinan, korean, kreikan jne. koodausten kehittämisen jälkeen 70-luvun alussa Neuvostoliitto aloitti oman versionsa luomisen. Pian kehitettiin 8-bittisen koodauksen versio nimeltä KOI8, joka säilytti ensimmäiset 128 ASCII-merkkikoodia ja varasi saman määrän paikkoja kansallisten aakkosten kirjaimille ja lisämerkeille.

Ennen Unicoden käyttöönottoa KOI8 hallitsi Internetin venäläistä segmenttiä. Koodausvaihtoehtoja oli sekä venäjän että ukrainan aakkosille.

ASCII-ongelmia

Koska elementtien määrä ei edes laajennetussa taulukossa ylittänyt 256:ta, ei ollut mahdollista majoittaa useita eri skriptejä samaan koodaukseen. 90-luvulla "crocozyabr" -ongelma ilmeni Runetissa, kun venäläisillä ASCII-merkeillä kirjoitetut tekstit näytettiin väärin.

Ongelmana oli, että eri ASCII-koodit eivät vastanneet toisiaan. Muistakaamme, että paikoille 128-255 saattoi sijoittaa erilaisia ​​merkkejä, ja kun kyrillistä koodausta vaihdettiin toiseen, tekstin kaikki kirjaimet korvattiin muilla, joilla oli sama numero eri koodausversiossa.

Nykyinen tila

Unicoden myötä ASCII:n suosio alkoi laskea jyrkästi.

Syynä tähän on se, että uusi koodaus mahdollisti lähes kaikkien kirjoituskielten merkit. Tässä tapauksessa ensimmäiset 128 ASCII-merkkiä vastaavat samoja Unicode-merkkejä.

Vuonna 2000 ASCII oli Internetin suosituin koodaus, ja sitä käytettiin 60 prosentissa Googlen indeksoimista verkkosivuista. Vuoteen 2012 mennessä tällaisten sivujen osuus oli pudonnut 17 prosenttiin, ja Unicode (UTF-8) nousi suosituimman koodauksen tilalle.

ASCII on siis tärkeä osa tietotekniikan historiaa, mutta sen käyttö tulevaisuudessa näyttää lupaamattomalta.

Kansainvälisen televiestintäliiton mukaan vuonna 2016 kolme ja puoli miljardia ihmistä käytti Internetiä jonkin verran säännöllisesti. Useimmat heistä eivät edes ajattele sitä tosiasiaa, että kaikki viestit, jotka he lähettävät PC:n tai mobiililaitteiden kautta, sekä tekstit, jotka näkyvät kaikenlaisissa näytöissä, ovat itse asiassa 0:n ja 1:n yhdistelmiä. Tätä tiedon esitystapaa kutsutaan koodaukseksi. . Se varmistaa ja helpottaa suuresti sen varastointia, käsittelyä ja siirtoa. Vuonna 1963 kehitettiin amerikkalainen ASCII-koodaus, joka on tämän artikkelin aihe.

Tietojen esittäminen tietokoneella

Minkä tahansa elektronisen tietokoneen näkökulmasta teksti on joukko yksittäisiä merkkejä. Nämä eivät sisällä vain kirjaimia, mukaan lukien isot kirjaimet, vaan myös välimerkit ja numerot. Lisäksi käytetään erikoismerkkejä "=", "&", "(" ja välilyöntejä.

Tekstin muodostavaa merkkijoukkoa kutsutaan aakkosiksi, ja niiden lukumäärää kutsutaan kardinaaliudeksi (merkitty numerolla N). Sen määrittämiseksi käytetään lauseketta N = 2^b, jossa b on tietyn symbolin bittien lukumäärä tai informaation paino.

On todistettu, että aakkoset, joiden kapasiteetti on 256 merkkiä, voivat edustaa kaikkia tarvittavia merkkejä.

Koska 256 edustaa kahden kahdeksatta potenssia, kunkin merkin paino on 8 bittiä.

8 bitin mittayksikköä kutsutaan 1 tavuksi, joten on tapana sanoa, että mikä tahansa tietokoneelle tallennetun tekstin merkki vie yhden tavun muistia.

Miten koodaus tehdään?

Kaikki tekstit syötetään henkilökohtaisen tietokoneen muistiin näppäimistön näppäimillä, joihin kirjoitetaan numerot, kirjaimet, välimerkit ja muut symbolit. Ne siirretään RAM:iin binäärikoodina, eli jokainen merkki liittyy ihmisille tuttuihin desimaalikoodiin 0-255, joka vastaa binaarikoodia - 00000000 - 11111111.

Tavutavuinen merkkikoodaus mahdollistaa tekstinkäsittelyä suorittavan prosessorin pääsyn jokaiseen merkkiin erikseen. Samaan aikaan 256 merkkiä riittää edustamaan mitä tahansa symbolista tietoa.

ASCII-merkkikoodaus

Tämä lyhenne englanniksi tarkoittaa koodia tiedonvaihdolle.

Jo tietokoneistumisen kynnyksellä kävi selväksi, että oli mahdollista keksiä monia erilaisia ​​tapoja koodata tietoa. Tietojen siirtämiseksi tietokoneesta toiseen oli kuitenkin tarpeen kehittää yhtenäinen standardi. Joten vuonna 1963 ASCII-koodaustaulukko ilmestyi Yhdysvalloissa. Siinä mikä tahansa tietokoneen aakkosten symboli liittyy sen sarjanumeroon binäärimuodossa. ASCII:ta käytettiin alun perin vain Yhdysvalloissa, ja siitä tuli myöhemmin kansainvälinen PC-standardi.

ASCII-koodit on jaettu kahteen osaan. Vain tämän taulukon ensimmäistä puoliskoa pidetään kansainvälisenä standardina. Se sisältää merkkejä, joiden sarjanumerot ovat 0 (koodattu 00000000) - 127 (koodattu 01111111).

Sarjanumero

ASCII-tekstin koodaus

Symboli

0000 0000 - 0001 1111

Merkkejä, joiden N on 0-31, kutsutaan ohjausmerkeiksi. Niiden tehtävänä on "hallita" tekstin näyttämistä näytössä tai tulostuslaitteessa, äänimerkin antamista jne.

0010 0000 - 0111 1111

Merkit N 32 - 127 (taulukon vakioosa) - latinalaisten aakkosten isot ja pienet kirjaimet, 10. numerot, välimerkit sekä erilaiset sulut, kaupalliset ja muut symbolit. Merkki 32 edustaa välilyöntiä.

1000 0000 - 1111 1111

Merkkeillä, joiden N on 128-255 (taulukon tai koodisivun vaihtoehtoinen osa), voi olla erilaisia ​​muunnelmia, joista jokaisella on oma numeronsa. Koodisivulla määritellään latinalaisista poikkeavat kansalliset aakkoset. Erityisesti sen avulla suoritetaan venäläisten merkkien ASCII-koodaus.

Taulukossa koodaukset on kirjoitettu isoilla kirjaimilla ja seuraavat toisiaan aakkosjärjestyksessä, ja numerot ovat nousevassa järjestyksessä. Tämä periaate pysyy samana venäjän aakkosissa.

Ohjaushahmot

ASCII-koodaustaulukko luotiin alun perin tiedon vastaanottamiseen ja lähettämiseen pitkään käyttämättömän laitteen, kuten teletypen, kautta. Tältä osin merkistössä on mukana ei-tulostettavia merkkejä, joita käytettiin komentoina tämän laitteen ohjaamiseen. Samanlaisia ​​komentoja käytettiin sellaisissa tietokonetta edeltävissä viestintämenetelmissä kuin morsekoodi jne.

Yleisin teletyyppimerkki on NUL (00). Sitä käytetään edelleen useimmissa ohjelmointikielissä osoittamaan rivin loppua.

Missä ASCII-koodausta käytetään?

Amerikkalaista standardikoodia tarvitaan paitsi tekstitietojen syöttämiseen näppäimistöllä. Sitä käytetään myös grafiikassa. Erityisesti ASCII Art Makerissa eri laajennusten kuvat edustavat ASCII-merkkien kirjoa.

Tällaisia ​​tuotteita on kahta tyyppiä: ne, jotka suorittavat graafisten muokkausohjelmien tehtävää muuntamalla kuvat tekstiksi, ja ne, jotka muuntavat "piirustukset" ASCII-grafiikaksi. Esimerkiksi kuuluisa hymiö on erinomainen esimerkki koodaussymbolista.

ASCII:ta voidaan käyttää myös luotaessa HTML-dokumenttia. Tässä tapauksessa voit syöttää tietyn merkkijoukon, ja sivua katseltaessa näytölle tulee tätä koodia vastaava symboli.

ASCII on tarpeen myös monikielisten verkkosivustojen luomiseen, koska merkit, jotka eivät sisälly tiettyyn kansalliseen taulukkoon, korvataan ASCII-koodeilla.

Jotkut ominaisuudet

ASCII:ta käytettiin alun perin tekstitietojen koodaamiseen 7 bitin avulla (yksi jätettiin tyhjäksi), mutta nykyään se toimii 8 bittinä.

Ylä- ja alapuolella olevissa sarakkeissa sijaitsevat kirjaimet eroavat toisistaan ​​vain yhdellä bitillä. Tämä vähentää merkittävästi tarkastuksen monimutkaisuutta.

ASCII:n käyttö Microsoft Officessa

Tarvittaessa tämän tyyppistä tekstitietojen koodausta voidaan käyttää Microsoftin tekstieditoreissa, kuten Muistiossa ja Office Wordissa. Et kuitenkaan ehkä voi käyttää kaikkia toimintoja kirjoittaessasi tässä tapauksessa. Et esimerkiksi voi käyttää lihavoitua tekstiä, koska ASCII-koodaus säilyttää vain tiedon merkityksen jättäen huomioimatta sen yleisen ulkoasun ja muodon.

Standardointi

ISO-organisaatio on ottanut käyttöön ISO 8859 -standardit. Tämä ryhmä määrittelee kahdeksanbittiset koodaukset eri kieliryhmille. Erityisesti ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Euroopan maihin. Ja ISO 8859-5 on taulukko, jota käytetään kyrillisille aakkosille, mukaan lukien venäjän kieli.

Useista historiallisista syistä ISO 8859-5 -standardia käytettiin hyvin lyhyen aikaa.

Venäjän kielellä käytetään tällä hetkellä itse asiassa seuraavia koodauksia:

  • CP866 (koodisivu 866) tai DOS, jota usein kutsutaan vaihtoehtoiseksi GOST-koodaukseksi. Sitä käytettiin aktiivisesti viime vuosisadan 90-luvun puoliväliin asti. Tällä hetkellä sitä ei käytännössä käytetä.
  • KOI-8. Koodaus kehitettiin 1970- ja 80-luvuilla, ja se on tällä hetkellä yleisesti hyväksytty standardi sähköpostiviesteille RuNetissä. Sitä käytetään laajalti Unix-käyttöjärjestelmissä, mukaan lukien Linux. KOI-8:n "venäläinen" versio on nimeltään KOI-8R. Lisäksi on olemassa versioita muille kyrillisille kielille, kuten ukraina.
  • Koodisivu 1251 (CP 1251, Windows - 1251). Microsoftin kehittämä tukemaan venäjän kieltä Windows-ympäristössä.

Ensimmäisen CP866-standardin tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa. Tämä mahdollisti ulkomaisten tekstiohjelmien, kuten kuuluisan Norton Commanderin, suorittamisen ilman muutoksia. Tällä hetkellä CP866:ta käytetään Windowsille kehitetyissä ohjelmissa, jotka toimivat koko näytön tekstitilassa tai tekstiikkunoissa, mukaan lukien FAR Manager.

CP866-koodauksella kirjoitetut tietokonetekstit ovat nykyään melko harvinaisia, mutta sitä käytetään Windowsissa venäläisten tiedostonimien kohdalla.

"Unicode"

Tällä hetkellä tämä koodaus on laajimmin käytetty. Unicode-koodit on jaettu alueisiin. Ensimmäinen (U+0000 - U+007F) sisältää ASCII-merkkejä koodeineen. Tämän jälkeen tulevat eri kansallisten kirjoitusten merkkialueet sekä välimerkit ja tekniset symbolit. Lisäksi joitain Unicode-koodeja on varattu siltä varalta, että tulevaisuudessa tarvitaan uusia merkkejä.

Nyt tiedät, että ASCII:ssä jokainen merkki esitetään 8 nollan ja ykkösen yhdistelmänä. Ei-asiantuntijoille nämä tiedot voivat tuntua tarpeettomilta ja epäkiinnostavilta, mutta etkö halua tietää, mitä tietokoneesi "aivoissa" tapahtuu?!

Muuten, verkkosivustollamme voit muuntaa minkä tahansa tekstin desimaali-, heksadesimaali- tai binäärikoodiksi käyttämällä online-koodilaskinta.

ASCII-taulukko

ASCII (American Standard Code for Information Interchange)

ASCII-koodien yhteenvetotaulukko

ASCII Windows -merkkikooditaulukko (Win-1251)

Symboli

asiantuntija. Taulukko

asiantuntija. LF (vaunun paluu)

asiantuntija. CR (uusi rivi)

kytkin SP (avaruus)

Symboli

Laajennettu ASCII-kooditaulukko

Symbolien muotoilu.

Askelpalautin (Palauta yksi merkki). Osoittaa, että tulostusmekanismi tai näytön kohdistin liikkuu yhden kohdan taaksepäin.

Vaakataulukko. Osoittaa tulostuskoneen tai näytön kohdistimen liikkeen seuraavaan määrättyyn "sarkaimeen".

Rivin syöttö. Osoittaa tulostusmekanismin tai näyttökohdistimen liikkeen seuraavan rivin alkuun (yksi rivi alas).

Pystysuora taulukko. Osoittaa tulostuskoneen tai näytön kohdistimen siirtymisen seuraavaan riviryhmään.

Lomakesyöte. Osoittaa tulostuskoneen tai näyttökohdistimen liikkeen seuraavan sivun, lomakkeen tai näytön aloituskohtaan.

Vaunun palautus. Osoittaa tulostusmekanismin tai näyttökohdistimen liikkeen nykyisen rivin kotiasemaan (vasemmalle).

Tiedonsiirto.

Otsikon alku. Käytetään määrittämään otsikon alku, joka voi sisältää reititystietoja tai osoitteen.

Tekstin alku. Näyttää tekstin alun ja samalla otsikon lopun.

Tekstin loppu. Koskee STX-merkillä alkavan tekstin lopettamista.

Tiedustelu. Pyydä tunnistetietoja (kuten "Kuka olet?") etäasemalta.

Tunnusta. Vastaanottava laite lähettää tämän merkin lähettäjälle vahvistuksena tiedon onnistuneesta vastaanotosta.

Negatiivinen tunnustus. Vastaanottava laite lähettää tämän merkin lähettäjälle, jos tiedon vastaanotto evätään (epäonnistuu).

Synkroninen/tyhjäkäynti. Käytetään synkronoiduissa siirtojärjestelmissä. Kun tiedonsiirtoa ei ole, järjestelmä lähettää jatkuvasti SYN-symboleja synkronoinnin varmistamiseksi.

Lähetyslohkon loppu. Osoittaa tietolohkon loppua viestintätarkoituksiin. Käytetään suurten tietomäärien jakamiseen erillisiin lohkoihin.

Jakomerkit tiedon siirron aikana.

Muut symbolit.

Null. (Ei merkkiä - ei tietoja). Käytetään siirtoon, kun dataa ei ole.

Bell (soita). Käytetään hälytyslaitteiden ohjaamiseen.

Shift Out. Ilmaisee, että kaikki seuraavat koodisanat on tulkittava ulkoisen merkistön mukaan ennen SI-merkin saapumista.

Vaihto sisään. Ilmaisee, että seuraavat koodiyhdistelmät on tulkittava vakiomerkkisarjan mukaisesti.

Data Link Escape. Seuraavien merkkien merkityksen muuttaminen. Käytetään lisäohjaukseen tai mielivaltaisen bittiyhdistelmän lähettämiseen.

DC1, DC2, DC3, DC4

Laitteen ohjaimet. Apulaitteiden käytön symbolit (erikoistoiminnot).

Peruuttaa. Ilmaisee, että tätä merkkiä edeltävät tiedot viestissä tai lohkossa tulee jättää huomiotta (yleensä jos havaitaan virhe).

Keskipitkän loppu. Osoittaa nauhan tai muun tallennusvälineen fyysisen pään

Korvaava. Käytetään virheellisen tai virheellisen merkin korvaamiseen.

Paeta (laajennus). Käytetään koodin laajentamiseen osoittamalla, että seuraavalla merkillä on vaihtoehtoinen merkitys.

Avaruus. Ei-tulostuva merkki, joka erottaa sanoja tai siirtää tulostuskonetta tai näytön kohdistinta yhden kohdan eteenpäin.

Poistaa. Käytetään viestin edellisen merkin poistamiseen

Jokaisella tietokoneella on omat merkit, jotka se toteuttaa. Tämä sarja sisältää 26 isoa ja pientä kirjainta, numeroa ja erikoismerkkejä (piste, välilyönti jne.). Kun symboleja muunnetaan kokonaisluvuiksi, niitä kutsutaan koodeiksi. Standardit kehitettiin niin, että tietokoneilla olisi samat koodisarjat.

ASCII-standardi

ASCII (American Standard Code for Information Interchange) on amerikkalainen standardikoodi tiedonvaihtoon. Jokaisessa ASCII-merkissä on 7 bittiä, joten merkkien enimmäismäärä on 128 (taulukko 1). Koodit 0–1F ovat ohjausmerkkejä, joita ei tulosteta. Tiedon siirtämiseen tarvitaan monia ei-tulostettavia ASCII-merkkejä. Viesti voi koostua esimerkiksi otsikon alkumerkistä SOH, itse otsikosta ja tekstin alun merkistä STX, itse tekstistä ja tekstin lopun merkistä ETX sekä lähetyksen lopusta. hahmo EOT. Tieto verkon yli kuitenkin välitetään paketteina, jotka itse vastaavat lähetyksen alkamisesta ja lopusta. Joten ei-tulostettavia merkkejä ei käytetä melkein koskaan.

Taulukko 1 - ASCII-kooditaulukko

Määrä Joukkue Merkitys Määrä Joukkue Merkitys
0 NUL Nolla-osoitin 10 DLE Poistu siirtojärjestelmästä
1 SOH otsikon alku 11 DC1 Laitehallinta
2 STX Tekstin alku 12 DC2 Laitehallinta
3 ETX Tekstin loppu 13 DC3 Laitehallinta
4 EOT Lähetyksen loppu 14 DC4 Laitehallinta
5 ACK Pyytää 15 N.A.K. Vastaanoton vahvistamatta jättäminen
6 BEL Hyväksymisen vahvistus 16 SYN Yksinkertainen
7 B.S. Kellon symboli 17 ETB Lähetyslohkon loppu
8 HT Astu taaksepäin 18 VOI Mark
9 LF Vaakataulukko 19 E.M. Median loppu
A VT Rivinsyöttö 1A SUB Alaindeksi
B FF Pysty välilehti 1B ESC Poistu
C CR Sivun käännös 1C FS Tiedoston erotin
D NIIN Vaunun palautus 1D G.S. Ryhmäerotin
E SI. Vaihda lisärekisteriin 1E R.S. Tietueen erotin
SI. Vaihda vakiokoteloon 1F MEILLE Moduulien erotin
Määrä Symboli Määrä Symboli Määrä Symboli Määrä Symboli Määrä Symboli Määrä Symboli
20 tilaa 30 0 40 @ 50 P 60 . 70 s
21 ! 31 1 41 A 51 K 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 JA 65 e 75 Ja
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 minä 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Unicode standardi

Edellinen koodaus on hyvä englannin kielelle, mutta se ei ole kätevä muille kielille. Esimerkiksi saksassa on umlautit ja ranskassa yläindeksit. Joillakin kielillä on täysin erilaiset aakkoset. Ensimmäinen yritys laajentaa ASCII:ta oli IS646, joka laajensi aiempaa koodausta 128 lisämerkillä. Lisättiin latinalaisia ​​kirjaimia viivoineen ja diakriittisinä ja sai nimen - Latin 1. Seuraava yritys oli IS 8859 - joka sisälsi koodisivun. Myös pidennysyrityksiä yritettiin, mutta tämä ei ollut yleistä. UNICODE-koodaus luotiin (on 10646). Koodauksen ideana on antaa jokaiselle merkille yksi vakio 16-bittinen arvo, jota kutsutaan - koodi osoitin. Kaikkiaan osoittimia on 65536. Tilan säästämiseksi käytimme Latin-1-koodeja 0 -255, jolloin ASII vaihdettiin helposti UNICODE:ksi. Tämä standardi ratkaisi monia ongelmia, mutta ei kaikkia. Uusien sanojen saapumisen vuoksi esimerkiksi japanin kielelle on tarpeen lisätä termien määrää noin 20 tuhannella. Myös pistekirjoitus on tarpeen.