Kuten tiedät, tietokone tallentaa tietoja binääri, joka edustaa sitä ykkösten ja nollien sarjana. Tietojen muuntamiseksi ihmiselle sopivaan muotoon jokainen yksilöllinen numerosarja korvataan sitä vastaavalla symbolilla, kun se näytetään.
Yksi järjestelmistä binäärikoodien korreloimiseksi painettujen ja ohjausmerkkien kanssa on
Tämän päivän kehitystasolla tietotekniikka käyttäjän ei tarvitse tietää kunkin merkin koodia. Kuitenkin yleistä ymmärrystä koodaus on erittäin hyödyllistä ja joillekin asiantuntijaryhmille jopa välttämätöntä.
Luodaan ASCIIKoodaus kehitettiin alun perin vuonna 1963 ja päivitettiin sitten kahdesti 25 vuoden aikana.
Alkuperäisessä versiossa taulukko ASCII-merkkejä sisälsi 128 merkkiä, myöhemmin ilmestyi laajennettu versio, jossa ensimmäiset 128 merkkiä tallennettiin ja aiemmin puuttuvat merkit määritettiin koodeihin, joissa oli mukana kahdeksas bitti.
Vuosien varrella tämä koodaus oli maailman suosituin. Vuonna 2006 Latin 1252 otti johtavan aseman, ja vuoden 2007 lopusta tähän päivään Unicode on pitänyt tiukasti johtoasemaa.
ASCII:n tietokoneesitysJokaisella ASCII-merkillä on oma koodi, joka koostuu kahdeksasta merkistä, jotka edustavat nollaa tai ykköstä. Pienin luku tässä esityksessä on nolla (kahdeksan nollaa tuumaa binäärijärjestelmä), joka on taulukon ensimmäisen elementin koodi.
Taulukon kaksi koodia on varattu vaihtamiseen standardin US-ASCII ja sen kansallisen muunnelman välillä.
Kun ASCII alkoi sisältää 128, vaan 256 merkkiä, yleistyi koodausmuunnos, jossa taulukon alkuperäinen versio tallennettiin ensimmäisiin 128 koodiin 8. bitin nollalla. Taulukon yläosaan (paikat 128-255) tallennettiin kansalliset kirjoitetut merkit.
Käyttäjän ei tarvitse tietää ASCII-merkkikoodeja suoraan. Kehittäjälle ohjelmisto Yleensä riittää, että tietää taulukon elementin numero, jotta sen koodi voidaan tarvittaessa laskea binäärijärjestelmän avulla.
venäjän kieliKehitettyään 70-luvun alussa koodauksia skandinaavisiin kieliin, kiinan, korean, kreikan jne., hän aloitti oman versionsa luomisen. Neuvostoliitto. Pian kehitettiin 8-bittisen koodauksen versio nimeltä KOI8, joka säilytti ensimmäiset 128 ASCII-merkkikoodia ja varasi saman määrän paikkoja kansallisten aakkosten kirjaimille ja lisämerkeille.
Ennen Unicoden käyttöönottoa KOI8 hallitsi Internetin venäläistä segmenttiä. Koodausvaihtoehtoja oli sekä venäjän että ukrainan aakkosille.
ASCII-ongelmiaKoska elementtien määrä ei edes laajennetussa taulukossa ylittänyt 256:ta, ei ollut mahdollista majoittaa useita eri skriptejä samaan koodaukseen. 90-luvulla "crocozyabr" -ongelma ilmeni Runetissa, kun venäläisillä ASCII-merkeillä kirjoitetut tekstit näytettiin väärin.
Ongelmana oli, että eri ASCII-koodit eivät vastanneet toisiaan. Muistakaamme, että paikoille 128-255 saattoi sijoittaa erilaisia merkkejä, ja kun kyrillistä koodausta vaihdettiin toiseen, tekstin kaikki kirjaimet korvattiin muilla, joilla oli sama numero eri koodausversiossa.
Nykyinen tilaUnicoden myötä ASCII:n suosio alkoi laskea jyrkästi.
Syynä tähän on se, että uusi koodaus mahdollisti lähes kaikkien kirjoituskielten merkit. Tässä tapauksessa ensimmäiset 128 ASCII-merkkiä vastaavat samoja Unicode-merkkejä.
Vuonna 2000 ASCII oli Internetin suosituin koodaus, ja sitä käytettiin 60 prosentissa Googlen indeksoimista verkkosivuista. Vuoteen 2012 mennessä tällaisten sivujen osuus oli pudonnut 17 prosenttiin, ja Unicode (UTF-8) nousi suosituimman koodauksen tilalle.
Joten ASCII on tärkeä osa historiaa tietotekniikka sen käyttö tulevaisuudessa näyttää kuitenkin lupaamattomalta.
joulukuuta | Hex | Symboli | joulukuuta | Hex | Symboli | |
000 | 00 | asiantuntija. NOP | 128 | 80 | Ђ | |
001 | 01 | asiantuntija. SOH | 129 | 81 | Ѓ | |
002 | 02 | asiantuntija. STX | 130 | 82 | ‚ | |
003 | 03 | asiantuntija. ETX | 131 | 83 | ѓ | |
004 | 04 | asiantuntija. EOT | 132 | 84 | „ | |
005 | 05 | asiantuntija. ENQ | 133 | 85 | … | |
006 | 06 | asiantuntija. ACK | 134 | 86 | † | |
007 | 07 | asiantuntija. BEL | 135 | 87 | ‡ | |
008 | 08 | asiantuntija. B.S. | 136 | 88 | € | |
009 | 09 | asiantuntija. TAB | 137 | 89 | ‰ | |
010 | 0A | asiantuntija. LF | 138 | 8A | Љ | |
011 | 0B | asiantuntija. VT | 139 | 8B | ‹ ‹ | |
012 | 0C | asiantuntija. FF | 140 | 8C | Њ | |
013 | 0D | asiantuntija. CR | 141 | 8D | Ќ | |
014 | 0E | asiantuntija. NIIN | 142 | 8E | Ћ | |
015 | 0F | asiantuntija. SI. | 143 | 8F | Џ | |
016 | 10 | asiantuntija. DLE | 144 | 90 | ђ | |
017 | 11 | asiantuntija. DC1 | 145 | 91 | ‘ | |
018 | 12 | asiantuntija. DC2 | 146 | 92 | ’ | |
019 | 13 | asiantuntija. DC3 | 147 | 93 | “ | |
020 | 14 | asiantuntija. DC4 | 148 | 94 | ” | |
021 | 15 | asiantuntija. N.A.K. | 149 | 95 | ||
022 | 16 | asiantuntija. SYN | 150 | 96 | – | |
023 | 17 | asiantuntija. ETB | 151 | 97 | — | |
024 | 18 | asiantuntija. VOI | 152 | 98 | ||
025 | 19 | asiantuntija. E.M. | 153 | 99 | ™ | |
026 | 1A | asiantuntija. SUB | 154 | 9A | љ | |
027 | 1B | asiantuntija. ESC | 155 | 9B | › | |
028 | 1C | asiantuntija. FS | 156 | 9C | њ | |
029 | 1D | asiantuntija. G.S. | 157 | 9D | ќ | |
030 | 1E | asiantuntija. R.S. | 158 | 9E | ћ | |
031 | 1F | asiantuntija. MEILLE | 159 | 9F | џ | |
032 | 20 | kytkin SP (avaruus) | 160 | A0 | ||
033 | 21 | ! | 161 | A1 | Ў | |
034 | 22 | " | 162 | A2 | ў | |
035 | 23 | # | 163 | A3 | Ћ | |
036 | 24 | $ | 164 | A4 | ¤ | |
037 | 25 | % | 165 | A5 | Ґ | |
038 | 26 | & | 166 | A6 | ¦ | |
039 | 27 | " | 167 | A7 | § | |
040 | 28 | ( | 168 | A8 | Joo | |
041 | 29 | ) | 169 | A9 | © | |
042 | 2A | * | 170 | A.A. | Є | |
043 | 2B | + | 171 | AB | « | |
044 | 2C | , | 172 | A.C. | ¬ | |
045 | 2D | - | 173 | ILMOITUS | | |
046 | 2E | . | 174 | A.E. | ® | |
047 | 2F | / | 175 | A.F. | Ї | |
048 | 30 | 0 | 176 | B0 | ° | |
049 | 31 | 1 | 177 | B1 | ± | |
050 | 32 | 2 | 178 | B2 | І | |
051 | 33 | 3 | 179 | B3 | і | |
052 | 34 | 4 | 180 | B4 | ґ | |
053 | 35 | 5 | 181 | B5 | µ | |
054 | 36 | 6 | 182 | B6 | ¶ | |
055 | 37 | 7 | 183 | B7 | · | |
056 | 38 | 8 | 184 | B8 | e | |
057 | 39 | 9 | 185 | B9 | № | |
058 | 3A | : | 186 | B.A. | є | |
059 | 3B | ; | 187 | BB | » | |
060 | 3C | < | 188 | B.C. | ј | |
061 | 3D | = | 189 | BD | Ѕ | |
062 | 3E | > | 190 | OLLA | ѕ | |
063 | 3F | ? | 191 | B.F. | ї | |
064 | 40 | @ | 192 | C0 | A | |
065 | 41 | A | 193 | C1 | B | |
066 | 42 | B | 194 | C2 | IN | |
067 | 43 | C | 195 | C3 | G | |
068 | 44 | D | 196 | C4 | D | |
069 | 45 | E | 197 | C5 | E | |
070 | 46 | F | 198 | C6 | JA | |
071 | 47 | G | 199 | C7 | Z | |
072 | 48 | H | 200 | C8 | JA | |
073 | 49 | minä | 201 | C9 | Y | |
074 | 4A | J | 202 | C.A. | TO | |
075 | 4B | K | 203 | C.B. | L | |
076 | 4C | L | 204 | CC | M | |
077 | 4D | M | 205 | CD | N | |
078 | 4E | N | 206 | C.E. | NOIN | |
079 | 4F | O | 207 | CF | P | |
080 | 50 | P | 208 | D0 | R | |
081 | 51 | K | 209 | D1 | KANSSA | |
082 | 52 | R | 210 | D2 | T | |
083 | 53 | S | 211 | D3 | U | |
084 | 54 | T | 212 | D4 | F | |
085 | 55 | U | 213 | D5 | X | |
086 | 56 | V | 214 | D6 | C | |
087 | 57 | W | 215 | D7 | H | |
088 | 58 | X | 216 | D8 | Sh | |
089 | 59 | Y | 217 | D9 | SCH | |
090 | 5A | Z | 218 | D.A. | Kommersant | |
091 | 5B | [ | 219 | D.B. | Y | |
092 | 5C | \ | 220 | DC | b | |
093 | 5D | ] | 221 | DD | E | |
094 | 5E | ^ | 222 | DE | Yu | |
095 | 5F | _ | 223 | DF | minä | |
096 | 60 | ` | 224 | E0 | A | |
097 | 61 | a | 225 | E1 | b | |
098 | 62 | b | 226 | E2 | V | |
099 | 63 | c | 227 | E3 | G | |
100 | 64 | d | 228 | E4 | d | |
101 | 65 | e | 229 | E5 | e | |
102 | 66 | f | 230 | E6 | ja | |
103 | 67 | g | 231 | E7 | h | |
104 | 68 | h | 232 | E8 | Ja | |
105 | 69 | i | 233 | E9 | th | |
106 | 6A | j | 234 | E.A. | Vastaanottaja | |
107 | 6B | k | 235 | E.B. | l | |
108 | 6C | l | 236 | E.C. | m | |
109 | 6D | m | 237 | ED | n | |
110 | 6E | n | 238 | E.E. | O | |
111 | 6F | o | 239 | E.F. | n | |
112 | 70 | s | 240 | F0 | r | |
113 | 71 | q | 241 | F1 | Kanssa | |
114 | 72 | r | 242 | F2 | T | |
115 | 73 | s | 243 | F3 | klo | |
116 | 74 | t | 244 | F4 | f | |
117 | 75 | u | 245 | F5 | X | |
118 | 76 | v | 246 | F6 | ts | |
119 | 77 | w | 247 | F7 | h | |
120 | 78 | x | 248 | F8 | w | |
121 | 79 | y | 249 | F9 | sch | |
122 | 7A | z | 250 | FA. | ъ | |
123 | 7B | { | 251 | FB | s | |
124 | 7C | | | 252 | F.C. | b | |
125 | 7D | } | 253 | FD | uh | |
126 | 7E | ~ | 254 | F.E. | yu | |
127 | 7F | asiantuntija. DEL | 255 | FF | minä |
Erikois- (ohjaus)merkkien kuvaus On huomattava, että alun perin ASCII-taulukon ohjausmerkkejä käytettiin varmistamaan tiedonsiirto teletypen kautta, tietojen syöttäminen rei'itetyltä nauhalta ja yksinkertaiseen ulkoisten laitteiden ohjaukseen.
Tällä hetkellä useimmat ASCII-taulukon ohjausmerkit eivät enää kanna tätä kuormaa, ja niitä voidaan käyttää muihin tarkoituksiin.
NUL, 00 | Tyhjä, tyhjä |
SOH, 01 | Otsikon alku |
STX, 02 | Tekstin alku, tekstin alku. |
ETX, 03 | Tekstin loppu, tekstin loppu |
EOT, 04 | Lähetyksen loppu, lähetyksen loppu |
ENQ, 05 | Tiedustella. Vahvista |
AK, 06 | Tunnustus. Vahvistan |
BEL, 07 | Bell, soita |
BS, 08 | Askelpalautin, palaa yksi merkki taaksepäin |
TAB, 09 | Välilehti, vaakasuora välilehti |
LF, 0A | Rivinsyöttö, rivinvaihto. Nykyään useimmissa ohjelmointikielissä se on merkitty \n |
VT, 0B | Pysty välilehti, pystytaulukko. |
FF, 0C | Lomakesyöte, sivusyöte, uusi sivu |
CR, 0D | Vaunun paluu, vaunun paluu. Nykyään useimmissa ohjelmointikielissä sitä merkitään \r |
SO,0E | Shift Out, muuta tulostuslaitteen mustenauhan väriä |
SI,0F | Shift In, palauta tulostuslaitteen mustenauhan väri takaisin |
DLE, 10 | Data Link Escape, vaihtaa kanavan tiedonsiirtoon |
DC1, 11 DC2, 12 DC3, 13 DC4, 14 | Device Control, laiteohjaussymbolit |
NAK, 15 | Kielteinen tunnustus, en vahvista. |
SYN, 16 | Synkronointi. Synkronointisymboli |
ETB, 17 | Tekstilohkon loppu, tekstilohkon loppu |
CAN, 18 | Peruuta, aiemmin lähetetyn peruutus |
EM, 19 | Keskipitkän loppu |
SUB, 1A | Korvaava, sijainen. |
Sijoitetaan symbolin tilalle, jonka merkitys on kadonnut tai vioittunut lähetyksen aikana | ESC, 1B |
Pakoohjausjärjestys | FS, 1C |
Tiedostoerotin, tiedostoerotin | GS, 1D |
Ryhmäerotin | RS, 1E |
Tietueen erotin, tietueen erotin | USA, 1F |
Yksikön erotin | DEL, 7F |
Poista, poista viimeinen merkki. Unicode (englanniksi Unicode) on merkkien koodausstandardi. Yksinkertaisesti sanottuna tämä on vastaavuustaulukko tekstimerkkien (kirjaimet, välimerkit) ja binäärikoodien välillä. Tietokone ymmärtää vain nollien ja ykkösten sarjan. Jotta se tietää, mitä sen pitäisi tarkalleen näyttää näytöllä, on tarpeen määrittää jokaiselle symbolille oma ainutlaatuinen numero . 80-luvulla merkit koodattiin yhteen tavuun eli kahdeksaan bittiin (jokainen bitti on 0 tai 1). Siten kävi ilmi, että yhteen taulukkoon (alias koodaus tai joukko) mahtuu vain 256 merkkiä. Tämä ei välttämättä riitä edes yhdelle kielelle. Siksi ilmestyi monia erilaisia koodauksia, joiden sekaannus johti usein siihen, että sen sijaan luettavaa tekstiä joitain outoja pieniä olentoja ilmestyi. Pakollinen yksi standardi
, josta Unicodesta tuli. Eniten käytetty koodaus on UTF-8 (Unicode Transformation Format), joka edustaa merkkiä 1-4 tavulla.Symbolit Unicode-taulukoiden merkit on numeroitu heksadesimaaliluvut . Esimerkiksi kyrillinen M on merkitty U+041C:ksi. Tämä tarkoittaa, että se on rivin 041 ja sarakkeen C leikkauskohdassa. Voit yksinkertaisesti kopioida sen ja liittää sen jonnekin. Jotta et turhaisi usean kilometrin luettelossa, sinun tulee käyttää hakua. Kun siirryt symbolisivulle, näet sen numeron Unicodessa ja tavan, jolla se on kirjoitettu erilaisia fontteja. Voit kirjoittaa itse merkin hakupalkkiin, vaikka sen sijaan piirrettäisiin neliö, ainakin selvittääksesi, mikä se oli. Lisäksi tällä sivustolla on erityisiä (ja satunnaisia) samantyyppisiä kuvakkeita, jotka on kerätty eri osioista käytön helpottamiseksi.
Unicode-standardi on kansainvälinen. Se sisältää hahmoja lähes kaikista maailman käsikirjoituksista. Mukaan lukien ne, joita ei enää käytetä. Egyptiläiset hieroglyfit, germaaniset riimut, mayojen kirjoitus, nuolenpääkirja ja muinaisten valtioiden aakkoset. Esitellään myös painojen ja mittojen nimitykset, nuotit ja matemaattiset käsitteet.
Unicode Consortium ei itse keksi uusia merkkejä. Taulukoihin on lisätty ne kuvakkeet, jotka löytävät käyttökelpoisuutensa yhteiskunnassa. Esimerkiksi ruplamerkkiä käytettiin aktiivisesti kuusi vuotta ennen kuin se lisättiin Unicodeen. Emoji-piktogrammeja (hymiöitä) käytettiin myös ensimmäisen kerran laajalti Japanissa ennen kuin ne sisällytettiin koodaukseen. Mutta tavaramerkkejä ja yrityksen logoja ei lisätä ollenkaan. Jopa sellaisia yleisiä kuin omena Apple tai Windows-lippu. Tähän mennessä versiossa 8.0 on koodattu noin 120 tuhatta merkkiä.
Excel for Office 365 Word for Office 365 Outlook for Office 365 PowerPoint for Office 365 Publisher for Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Word 2019 Visio Standard 20619int 20619int 16 2013 Kustantaja 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 20 7 010 Word 20 20 2010 07 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Less
Tässä artikkelissa: ASCII- tai Unicode-merkin lisääminen asiakirjaanJos tarvitset vain muutaman erikoismerkin tai symbolin, voit käyttää pikanäppäimiä. Luettelo ASCII-merkeistä on seuraavissa taulukoissa tai artikkelissa Kansallisten aakkosten lisääminen pikanäppäinten avulla.
Huomautuksia:
ASCII-merkkien lisääminenVoit lisätä ASCII-merkin pitämällä ALT-näppäintä painettuna syöttäessäsi merkkikoodia. Jos haluat esimerkiksi lisätä astemerkin (º), pidä ALT-näppäintä painettuna ja kirjoita sitten 0176 numeronäppäimistö.
Syötä numeroita käyttämällä numeronäppäimistöä päänäppäimistön numeroiden sijaan. Jos sinun on syötettävä numeroita numeronäppäimistöllä, varmista, että NUM LOCK-merkkivalo palaa.
Unicode-merkkien lisääminenVoit lisätä Unicode-merkin kirjoittamalla merkkikoodin ja painamalla sitten ALT-näppäimet ja X. Jos haluat esimerkiksi lisätä dollarisymbolin ($), kirjoita 0024 ja paina peräkkäin ALT ja X Katso kaikki Unicode-merkkikoodit.
Tärkeää: Jotkut Microsoftin ohjelmat Office, kuten PowerPoint ja InfoPath, eivät tue Unicode-koodien muuntamista merkeiksi. Jos sinun on lisättävä Unicode-merkki johonkin näistä ohjelmista, käytä .
Huomautuksia:
Jos väärä Unicode-merkki tulee näkyviin, kun olet painanut ALT+X, valitse oikea koodi ja paina sitten uudelleen ALT+X.
Lisäksi sinun on syötettävä "U+" ennen koodia. Jos esimerkiksi syötät "1U+B5" ja painat ALT+X, teksti "1µ" tulee näkyviin, ja jos syötät "1B5" ja painat ALT+X, symboli "Ƶ" tulee näkyviin.
Symbolitaulukko on sisäänrakennettu ohjelma Microsoft Windows, jonka avulla voit tarkastella valitun fontin käytettävissä olevia merkkejä.
Symbolitaulukon avulla voit kopioida yksittäisiä hahmoja tai ryhmä merkkejä leikepöydälle ja liitä ne mihin tahansa ohjelmaan, joka tukee näiden merkkien näyttämistä. Symbolitaulukon avaaminen
Kirjoita Windows 10:ssä sana "symboli" tehtäväpalkin hakukenttään ja valitse symbolitaulukko hakutuloksista.
Kirjoita Windows 8:ssa sana "merkki" osoitteessa aloitusnäyttö ja valitse symbolitaulukko hakutuloksista.
Napsauta Windows 7:ssä Käynnistä-painiketta, valitse Kaikki ohjelmat, Apuohjelmat, Järjestelmätyökalut ja napsauta sitten Merkkikartta.
Merkit on ryhmitelty fontin mukaan. Napsauta fonttiluetteloa valitaksesi sopiva merkistö. Valitse symboli napsauttamalla sitä ja napsauttamalla sitten Valitse-painiketta. Lisää symboli napsauttamalla hiiren oikealla napsautuksella hiiret oikea paikka asiakirjassa ja valitse Liitä.
Usein käytetyt merkkikooditTäysi lista merkkejä, katso tietokoneeltasi, ASCII-merkkikooditaulukot tai Unicode-merkkitaulukot, jotka on järjestetty joukon mukaan.
Valuutta |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Oikeudelliset symbolit |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Murtoluvut |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Välimerkit ja murresymbolit |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Muotosymbolit |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Yleisesti käytetyt diakriittiset koodit Katso täydellinen luettelo kuvioista ja vastaavista koodeista.
|
[8-bittiset koodaukset: ASCII, KOI-8R ja CP1251] Ensimmäiset Yhdysvalloissa luodut koodaustaulukot eivät käyttäneet kahdeksatta bittiä tavussa. Teksti esitettiin tavujonona, mutta kahdeksatta bittiä ei otettu huomioon (se käytettiin virallisiin tarkoituksiin).
ASCII-taulukko ( Amerikkalainen standardi Tietojenvaihdon koodi). ASCII-taulukon 32 ensimmäistä merkkiä (00 - 1F) käytettiin ei-tulostuville merkeille. Ne on suunniteltu ohjaamaan tulostuslaitetta jne. Loput - 20 - 7F - ovat tavallisia (tulostettavia) merkkejä.
Taulukko 1 - ASCII-koodaus
|
|
Kuten on helppo nähdä, vain tässä koodauksessa latinalaiset kirjaimet, ja ne, joita käytetään englanniksi. Siellä on myös aritmeettisia ja muita palvelusymboleja. Mutta ei ole venäläisiä kirjaimia eikä edes erityisiä latinalaisia kirjaimia saksalle tai ranskalle. Tämä on helppo selittää - koodaus on kehitetty täsmälleen sellaisena Amerikkalainen standardi. Kun tietokoneita alettiin käyttää kaikkialla maailmassa, muut merkit piti koodata.
Tätä varten päätettiin käyttää kahdeksatta bittiä jokaisessa tavussa. Tämä toi käyttöön 128 muuta arvoa (80:stä FF:iin), joita voitiin käyttää merkkien koodaamiseen. Ensimmäinen kahdeksanbittisistä taulukoista - "laajennettu ASCII" (Extended ASCII) - sisältyy erilaisia vaihtoehtoja Latinalaiset kirjaimet, joita käytetään joissakin Länsi-Euroopan kielissä. Se sisälsi myös muita lisäsymboleja, mukaan lukien pseudografia.
Pseudografiset merkit sallivat, vain näyttämällä tekstin merkkejä, tarjoavat jonkinlaisen grafiikan vaikutelman. Esimerkiksi pseudografiaa käyttämällä ohjausohjelma toimii FAR-tiedostot Manager.
Laajennetussa ASCII-taulukossa ei ollut venäläisiä kirjaimia. Venäjä (entinen Neuvostoliitto) ja muut maat loivat omat koodauksensa, jotka mahdollistivat tiettyjen "kansallisten" merkkien esittämisen 8-bittisissä tekstitiedostoissa - Puolan ja Tšekin kielten latinalaiset kirjaimet, kyrilliset (mukaan lukien venäläiset kirjaimet) ja muut aakkoset.
Kaikissa laajalle levinneissä koodauksissa ensimmäiset 127 merkkiä (eli tavun arvo, jonka kahdeksas bitti on yhtä suuri kuin 0) ovat samat kuin ASCII. Joten ASCII-tiedosto toimii jommassakummassa näistä koodauksista; kirjaimet Englannin kieli ne esitetään tasapuolisesti.
ISO (International Standardization Organisation) hyväksyi ryhmän ISO-standardit 8859. Se määrittelee 8-bittiset koodaukset eri ryhmiä kieliä. Joten ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Eurooppaan. Ja ISO 8859-5 on taulukko kyrillisille aakkosille (mukaan lukien venäjä).
Historiallisista syistä ISO 8859-5 -koodaus ei kuitenkaan juurtunut. Todellisuudessa venäjän kielelle käytetään seuraavia koodauksia:
Koodisivu 866 (CP866), eli "DOS", eli "vaihtoehtoinen GOST-koodaus". Käytettiin laajasti 90-luvun puoliväliin asti; nyt käytössä rajoitetusti. Käytännössä ei käytetä tekstien jakamiseen Internetissä.
- KOI-8. Kehitetty 70-80-luvuilla. On yleisesti hyväksytty standardi sähköpostiviestien lähettämiseen Venäjän Internet. Käytetään myös laajasti käyttöjärjestelmät Unix-perhe, mukaan lukien Linux. KOI-8:n venäjänkielisen version nimi on KOI-8R; Muille kyrillisille kielille on versioita (esimerkiksi KOI8-U on ukrainan kielen versio).
- Koodisivu 1251, CP1251, Windows-1251. Kehitetty Microsoftilta Venäjän kielen tukemiseen Windowsissa.
CP866:n tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa; siksi ulkomaiset voisivat toimia ilman muutoksia tekstiohjelmat esimerkiksi kuuluisa Norton Commander. Nykyään CP866 on käytössä Windows-ohjelmissa teksti-ikkunat tai koko näytön tekstitilassa, mukaan lukien FAR Manager.
Tekstit CP866:ssa viime vuosina ovat melko harvinaisia (mutta sitä käytetään koodaamaan venäläisiä tiedostonimiä Windowsissa). Siksi viivyttelemme tarkemmin kahdessa muussa koodauksessa - KOI-8R ja CP1251.
Kuten näette, CP1251-koodaustaulukossa venäläiset kirjaimet on järjestetty aakkosjärjestykseen (poikkeuksena kuitenkin E-kirjain). Tämän sijainnin ansiosta tietokoneohjelmia Se on erittäin helppo lajitella aakkosjärjestykseen.
Mutta KOI-8R:ssä venäläisten kirjainten järjestys näyttää sattumanvaraiselta. Mutta todellisuudessa näin ei ole.
Monissa vanhemmissa ohjelmissa 8. bitti katosi tekstiä käsiteltäessä tai lähetettäessä. (Nyt tällaiset ohjelmat ovat käytännössä "kuonneet sukupuuttoon", mutta 80-luvun lopulla - 90-luvun alussa ne olivat yleisiä). Jos haluat saada 7-bittisen arvon 8-bittisestä arvosta, vähennä vain 8 merkittävimmästä numerosta; esimerkiksi E1:stä tulee 61.
Vertaa nyt KOI-8R:ää ASCII-taulukko(Taulukko 1). Tulet huomaamaan, että venäläiset kirjaimet on sijoitettu selkeään vastaavuuteen latinalaisten kanssa. Jos kahdeksas bitti katoaa, pienet venäläiset kirjaimet muuttuvat isoiksi latinalaisiksi kirjaimille ja isot venäläiset kirjaimet pieniksi latinalaisiksi kirjaimille. Joten KOI-8:ssa E1 on venäläinen "A", kun taas 61 ASCII:ssa on latinalainen "a".
Joten KOI-8 antaa sinun säilyttää venäjän tekstin luettavuuden, kun 8. bitti katoaa. "Hei kaikille" muuttuu "pRIWET WSEM".
IN viime aikoina Ja aakkosjärjestyksessä Merkkien järjestely koodaustaulukossa ja luettavuus 8. bitin häviämisen myötä ovat menettäneet ratkaisevan merkityksensä. Kahdeksas bitti sisään nykyaikaiset tietokoneet ei katoa lähetyksen tai käsittelyn aikana. Ja aakkosellinen lajittelu tehdään ottaen huomioon koodaus, eikä yksinkertainen vertailu koodit (Muuten, CP1251-koodit eivät ole täysin aakkosjärjestyksessä - E-kirjain ei ole paikallaan).
Koska on olemassa kaksi yleistä koodausta, Internetin kanssa työskennellessäsi (posti, Web-sivustoja selatessasi) voit joskus nähdä merkityksettömän joukon kirjaimia venäjän tekstin sijaan. Esimerkiksi "MINÄ OLEN SBYUFEMHEL." Nämä ovat vain sanoja "kunnioituksella"; mutta ne koodattiin CP1251-koodauksella, ja tietokone pursi tekstin KOI-8-taulukon avulla. Jos samat sanat päinvastoin koodattaisiin KOI-8:aan ja tietokone purkisi tekstin CP1251-taulukon avulla, tulos olisi "U KHBTSEOYEN".
Joskus käy niin, että tietokone purkaa salauksen Venäjän kirjaimet ja täysin sellaisen taulukon mukaan, jota ei ole tarkoitettu venäjän kielelle. Sitten venäläisten kirjainten sijasta ilmestyy merkityksetön symbolijoukko (esimerkiksi Itä-Euroopan kielten latinalaiset kirjaimet); niitä kutsutaan usein "crocozybriksi".
Useimmissa tapauksissa nykyaikaiset ohjelmat selviytyä Internet-asiakirjojen koodausten määrittämisestä ( sähköpostit ja Web-sivut) itsenäisesti. Mutta joskus ne "sytytyshäiriö", ja sitten voit nähdä outoja venäläisiä kirjaimia tai "krokozyabry" -sarjoja. Yleensä tällaisessa tilanteessa oikean tekstin näyttämiseksi näytöllä riittää, että valitset koodauksen manuaalisesti ohjelmavalikosta.
Tässä artikkelissa käytettiin tietoja sivulta http://open-office.edusite.ru/TextProcessor/p5aa1.html.
Sivustolta otettu materiaali: