Ascii-binäärikooditaulukko. Tekstitietojen koodaus

Kuten tiedät, tietokone tallentaa tietoja binääri, joka edustaa sitä ykkösten ja nollien sarjana. Tietojen muuntamiseksi ihmiselle sopivaan muotoon jokainen yksilöllinen numerosarja korvataan sitä vastaavalla symbolilla, kun se näytetään.

Yksi järjestelmistä binäärikoodien korreloimiseksi painettujen ja ohjausmerkkien kanssa on

Tämän päivän kehitystasolla tietotekniikka käyttäjän ei tarvitse tietää kunkin merkin koodia. Kuitenkin yleistä ymmärrystä koodaus on erittäin hyödyllistä ja joillekin asiantuntijaryhmille jopa välttämätöntä.

Luodaan ASCII

Koodaus kehitettiin alun perin vuonna 1963 ja päivitettiin sitten kahdesti 25 vuoden aikana.

Alkuperäisessä versiossa taulukko ASCII-merkkejä sisälsi 128 merkkiä, myöhemmin ilmestyi laajennettu versio, jossa ensimmäiset 128 merkkiä tallennettiin ja aiemmin puuttuvat merkit määritettiin koodeihin, joissa oli mukana kahdeksas bitti.

Vuosien varrella tämä koodaus oli maailman suosituin. Vuonna 2006 Latin 1252 otti johtavan aseman, ja vuoden 2007 lopusta tähän päivään Unicode on pitänyt tiukasti johtoasemaa.

ASCII:n tietokoneesitys

Jokaisella ASCII-merkillä on oma koodi, joka koostuu kahdeksasta merkistä, jotka edustavat nollaa tai ykköstä. Pienin luku tässä esityksessä on nolla (kahdeksan nollaa tuumaa binäärijärjestelmä), joka on taulukon ensimmäisen elementin koodi.

Taulukon kaksi koodia on varattu vaihtamiseen standardin US-ASCII ja sen kansallisen muunnelman välillä.

Kun ASCII alkoi sisältää 128, vaan 256 merkkiä, yleistyi koodausmuunnos, jossa taulukon alkuperäinen versio tallennettiin ensimmäisiin 128 koodiin 8. bitin nollalla. Taulukon yläosaan (paikat 128-255) tallennettiin kansalliset kirjoitetut merkit.

Käyttäjän ei tarvitse tietää ASCII-merkkikoodeja suoraan. Kehittäjälle ohjelmisto Yleensä riittää, että tietää taulukon elementin numero, jotta sen koodi voidaan tarvittaessa laskea binäärijärjestelmän avulla.

venäjän kieli

Kehitettyään 70-luvun alussa koodauksia skandinaavisiin kieliin, kiinan, korean, kreikan jne., hän aloitti oman versionsa luomisen. Neuvostoliitto. Pian kehitettiin 8-bittisen koodauksen versio nimeltä KOI8, joka säilytti ensimmäiset 128 ASCII-merkkikoodia ja varasi saman määrän paikkoja kansallisten aakkosten kirjaimille ja lisämerkeille.

Ennen Unicoden käyttöönottoa KOI8 hallitsi Internetin venäläistä segmenttiä. Koodausvaihtoehtoja oli sekä venäjän että ukrainan aakkosille.

ASCII-ongelmia

Koska elementtien määrä ei edes laajennetussa taulukossa ylittänyt 256:ta, ei ollut mahdollista majoittaa useita eri skriptejä samaan koodaukseen. 90-luvulla "crocozyabr" -ongelma ilmeni Runetissa, kun venäläisillä ASCII-merkeillä kirjoitetut tekstit näytettiin väärin.

Ongelmana oli, että eri ASCII-koodit eivät vastanneet toisiaan. Muistakaamme, että paikoille 128-255 saattoi sijoittaa erilaisia merkkejä, ja kun kyrillistä koodausta vaihdettiin toiseen, tekstin kaikki kirjaimet korvattiin muilla, joilla oli sama numero eri koodausversiossa.

Nykyinen tila

Unicoden myötä ASCII:n suosio alkoi laskea jyrkästi.

Syynä tähän on se, että uusi koodaus mahdollisti lähes kaikkien kirjoituskielten merkit. Tässä tapauksessa ensimmäiset 128 ASCII-merkkiä vastaavat samoja Unicode-merkkejä.

Vuonna 2000 ASCII oli Internetin suosituin koodaus, ja sitä käytettiin 60 prosentissa Googlen indeksoimista verkkosivuista. Vuoteen 2012 mennessä tällaisten sivujen osuus oli pudonnut 17 prosenttiin, ja Unicode (UTF-8) nousi suosituimman koodauksen tilalle.

Joten ASCII on tärkeä osa historiaa tietotekniikka sen käyttö tulevaisuudessa näyttää kuitenkin lupaamattomalta.

joulukuuta	Hex	Symboli	joulukuuta	Hex	Symboli
000	00	asiantuntija. NOP	128	80	Ђ
001	01	asiantuntija. SOH	129	81	Ѓ
002	02	asiantuntija. STX	130	82	‚
003	03	asiantuntija. ETX	131	83	ѓ
004	04	asiantuntija. EOT	132	84	„
005	05	asiantuntija. ENQ	133	85	…
006	06	asiantuntija. ACK	134	86	†
007	07	asiantuntija. BEL	135	87	‡
008	08	asiantuntija. B.S.	136	88	€
009	09	asiantuntija. TAB	137	89	‰
010	0A	asiantuntija. LF	138	8A	Љ
011	0B	asiantuntija. VT	139	8B	‹ ‹
012	0C	asiantuntija. FF	140	8C	Њ
013	0D	asiantuntija. CR	141	8D	Ќ
014	0E	asiantuntija. NIIN	142	8E	Ћ
015	0F	asiantuntija. SI.	143	8F	Џ
016	10	asiantuntija. DLE	144	90	ђ
017	11	asiantuntija. DC1	145	91	‘
018	12	asiantuntija. DC2	146	92	’
019	13	asiantuntija. DC3	147	93	“
020	14	asiantuntija. DC4	148	94	”
021	15	asiantuntija. N.A.K.	149	95
022	16	asiantuntija. SYN	150	96	–
023	17	asiantuntija. ETB	151	97	—
024	18	asiantuntija. VOI	152	98
025	19	asiantuntija. E.M.	153	99	™
026	1A	asiantuntija. SUB	154	9A	љ
027	1B	asiantuntija. ESC	155	9B	›
028	1C	asiantuntija. FS	156	9C	њ
029	1D	asiantuntija. G.S.	157	9D	ќ
030	1E	asiantuntija. R.S.	158	9E	ћ
031	1F	asiantuntija. MEILLE	159	9F	џ
032	20	kytkin SP (avaruus)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Joo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	ILMOITUS
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	OLLA	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	IN
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	JA
071	47	G	199	C7	Z
072	48	H	200	C8	JA
073	49	minä	201	C9	Y
074	4A	J	202	C.A.	TO
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	NOIN
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	K	209	D1	KANSSA
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	Yu
095	5F	_	223	DF	minä
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	ja
103	67	g	231	E7	h
104	68	h	232	E8	Ja
105	69	i	233	E9	th
106	6A	j	234	E.A.	Vastaanottaja
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	E.F.	n
112	70	s	240	F0	r
113	71	q	241	F1	Kanssa
114	72	r	242	F2	T
115	73	s	243	F3	klo
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	FA.	ъ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	yu
127	7F	asiantuntija. DEL	255	FF	minä

ASCII Windowsin merkkikooditaulukko.
Erikois- (ohjaus)merkkien kuvaus On huomattava, että alun perin ASCII-taulukon ohjausmerkkejä käytettiin varmistamaan tiedonsiirto teletypen kautta, tietojen syöttäminen rei'itetyltä nauhalta ja yksinkertaiseen ulkoisten laitteiden ohjaukseen.
Tällä hetkellä useimmat ASCII-taulukon ohjausmerkit eivät enää kanna tätä kuormaa, ja niitä voidaan käyttää muihin tarkoituksiin. Koodi Kuvaus

NUL, 00	Tyhjä, tyhjä
SOH, 01	Otsikon alku
STX, 02	Tekstin alku, tekstin alku.
ETX, 03	Tekstin loppu, tekstin loppu
EOT, 04	Lähetyksen loppu, lähetyksen loppu
ENQ, 05	Tiedustella. Vahvista
AK, 06	Tunnustus. Vahvistan
BEL, 07	Bell, soita
BS, 08	Askelpalautin, palaa yksi merkki taaksepäin
TAB, 09	Välilehti, vaakasuora välilehti
LF, 0A	Rivinsyöttö, rivinvaihto. Nykyään useimmissa ohjelmointikielissä se on merkitty \n
VT, 0B	Pysty välilehti, pystytaulukko.
FF, 0C	Lomakesyöte, sivusyöte, uusi sivu
CR, 0D	Vaunun paluu, vaunun paluu. Nykyään useimmissa ohjelmointikielissä sitä merkitään \r
SO,0E	Shift Out, muuta tulostuslaitteen mustenauhan väriä
SI,0F	Shift In, palauta tulostuslaitteen mustenauhan väri takaisin
DLE, 10	Data Link Escape, vaihtaa kanavan tiedonsiirtoon
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Device Control, laiteohjaussymbolit
NAK, 15	Kielteinen tunnustus, en vahvista.
SYN, 16	Synkronointi. Synkronointisymboli
ETB, 17	Tekstilohkon loppu, tekstilohkon loppu
CAN, 18	Peruuta, aiemmin lähetetyn peruutus
EM, 19	Keskipitkän loppu
SUB, 1A	Korvaava, sijainen.
Sijoitetaan symbolin tilalle, jonka merkitys on kadonnut tai vioittunut lähetyksen aikana	ESC, 1B
Pakoohjausjärjestys	FS, 1C
Tiedostoerotin, tiedostoerotin	GS, 1D
Ryhmäerotin	RS, 1E
Tietueen erotin, tietueen erotin	USA, 1F
Yksikön erotin	DEL, 7F

Poista, poista viimeinen merkki. Unicode (englanniksi Unicode) on merkkien koodausstandardi. Yksinkertaisesti sanottuna tämä on vastaavuustaulukko tekstimerkkien (kirjaimet, välimerkit) ja binäärikoodien välillä. Tietokone ymmärtää vain nollien ja ykkösten sarjan. Jotta se tietää, mitä sen pitäisi tarkalleen näyttää näytöllä, on tarpeen määrittää jokaiselle symbolille oma ainutlaatuinen numero . 80-luvulla merkit koodattiin yhteen tavuun eli kahdeksaan bittiin (jokainen bitti on 0 tai 1). Siten kävi ilmi, että yhteen taulukkoon (alias koodaus tai joukko) mahtuu vain 256 merkkiä. Tämä ei välttämättä riitä edes yhdelle kielelle. Siksi ilmestyi monia erilaisia koodauksia, joiden sekaannus johti usein siihen, että sen sijaan luettavaa tekstiä joitain outoja pieniä olentoja ilmestyi. Pakollinen yksi standardi

, josta Unicodesta tuli. Eniten käytetty koodaus on UTF-8 (Unicode Transformation Format), joka edustaa merkkiä 1-4 tavulla.

Symbolit Unicode-taulukoiden merkit on numeroitu heksadesimaaliluvut . Esimerkiksi kyrillinen M on merkitty U+041C:ksi. Tämä tarkoittaa, että se on rivin 041 ja sarakkeen C leikkauskohdassa. Voit yksinkertaisesti kopioida sen ja liittää sen jonnekin. Jotta et turhaisi usean kilometrin luettelossa, sinun tulee käyttää hakua. Kun siirryt symbolisivulle, näet sen numeron Unicodessa ja tavan, jolla se on kirjoitettu erilaisia fontteja. Voit kirjoittaa itse merkin hakupalkkiin, vaikka sen sijaan piirrettäisiin neliö, ainakin selvittääksesi, mikä se oli. Lisäksi tällä sivustolla on erityisiä (ja satunnaisia) samantyyppisiä kuvakkeita, jotka on kerätty eri osioista käytön helpottamiseksi.

Unicode-standardi on kansainvälinen. Se sisältää hahmoja lähes kaikista maailman käsikirjoituksista. Mukaan lukien ne, joita ei enää käytetä. Egyptiläiset hieroglyfit, germaaniset riimut, mayojen kirjoitus, nuolenpääkirja ja muinaisten valtioiden aakkoset. Esitellään myös painojen ja mittojen nimitykset, nuotit ja matemaattiset käsitteet.

Unicode Consortium ei itse keksi uusia merkkejä. Taulukoihin on lisätty ne kuvakkeet, jotka löytävät käyttökelpoisuutensa yhteiskunnassa. Esimerkiksi ruplamerkkiä käytettiin aktiivisesti kuusi vuotta ennen kuin se lisättiin Unicodeen. Emoji-piktogrammeja (hymiöitä) käytettiin myös ensimmäisen kerran laajalti Japanissa ennen kuin ne sisällytettiin koodaukseen. Mutta tavaramerkkejä ja yrityksen logoja ei lisätä ollenkaan. Jopa sellaisia yleisiä kuin omena Apple tai Windows-lippu. Tähän mennessä versiossa 8.0 on koodattu noin 120 tuhatta merkkiä.

Excel for Office 365 Word for Office 365 Outlook for Office 365 PowerPoint for Office 365 Publisher for Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Word 2019 Visio Standard 20619int 20619int 16 2013 Kustantaja 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 20 7 010 Word 20 20 2010 07 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Less

Tässä artikkelissa: ASCII- tai Unicode-merkin lisääminen asiakirjaan

Jos tarvitset vain muutaman erikoismerkin tai symbolin, voit käyttää pikanäppäimiä. Luettelo ASCII-merkeistä on seuraavissa taulukoissa tai artikkelissa Kansallisten aakkosten lisääminen pikanäppäinten avulla.

Huomautuksia:

ASCII-merkkien lisääminen

Voit lisätä ASCII-merkin pitämällä ALT-näppäintä painettuna syöttäessäsi merkkikoodia. Jos haluat esimerkiksi lisätä astemerkin (º), pidä ALT-näppäintä painettuna ja kirjoita sitten 0176 numeronäppäimistö.

Syötä numeroita käyttämällä numeronäppäimistöä päänäppäimistön numeroiden sijaan. Jos sinun on syötettävä numeroita numeronäppäimistöllä, varmista, että NUM LOCK-merkkivalo palaa.

Unicode-merkkien lisääminen

Voit lisätä Unicode-merkin kirjoittamalla merkkikoodin ja painamalla sitten ALT-näppäimet ja X. Jos haluat esimerkiksi lisätä dollarisymbolin ($), kirjoita 0024 ja paina peräkkäin ALT ja X Katso kaikki Unicode-merkkikoodit.

Tärkeää: Jotkut Microsoftin ohjelmat Office, kuten PowerPoint ja InfoPath, eivät tue Unicode-koodien muuntamista merkeiksi. Jos sinun on lisättävä Unicode-merkki johonkin näistä ohjelmista, käytä .

Huomautuksia:

Jos väärä Unicode-merkki tulee näkyviin, kun olet painanut ALT+X, valitse oikea koodi ja paina sitten uudelleen ALT+X.

Lisäksi sinun on syötettävä "U+" ennen koodia. Jos esimerkiksi syötät "1U+B5" ja painat ALT+X, teksti "1µ" tulee näkyviin, ja jos syötät "1B5" ja painat ALT+X, symboli "Ƶ" tulee näkyviin.

Symbolitaulukon käyttö

Symbolitaulukko on sisäänrakennettu ohjelma Microsoft Windows, jonka avulla voit tarkastella valitun fontin käytettävissä olevia merkkejä.

Symbolitaulukon avulla voit kopioida yksittäisiä hahmoja tai ryhmä merkkejä leikepöydälle ja liitä ne mihin tahansa ohjelmaan, joka tukee näiden merkkien näyttämistä. Symbolitaulukon avaaminen

Kirjoita Windows 10:ssä sana "symboli" tehtäväpalkin hakukenttään ja valitse symbolitaulukko hakutuloksista.

Kirjoita Windows 8:ssa sana "merkki" osoitteessa aloitusnäyttö ja valitse symbolitaulukko hakutuloksista.

Napsauta Windows 7:ssä Käynnistä-painiketta, valitse Kaikki ohjelmat, Apuohjelmat, Järjestelmätyökalut ja napsauta sitten Merkkikartta.

Merkit on ryhmitelty fontin mukaan. Napsauta fonttiluetteloa valitaksesi sopiva merkistö. Valitse symboli napsauttamalla sitä ja napsauttamalla sitten Valitse-painiketta. Lisää symboli napsauttamalla hiiren oikealla napsautuksella hiiret oikea paikka asiakirjassa ja valitse Liitä.

Usein käytetyt merkkikoodit

Täysi lista merkkejä, katso tietokoneeltasi, ASCII-merkkikooditaulukot tai Unicode-merkkitaulukot, jotka on järjestetty joukon mukaan.

Glyph

Valuutta

Oikeudelliset symbolit

Matemaattiset symbolit

Murtoluvut

Välimerkit ja murresymbolit

Muotosymbolit

Yleisesti käytetyt diakriittiset koodit

Katso täydellinen luettelo kuvioista ja vastaavista koodeista.

Glyph

Tulostumattomat ASCII-ohjausmerkit

Kyltit hallitsivat joitain oheislaitteet, kuten tulostimet, on numeroitu ASCII-taulukossa 0–31. Esimerkiksi sivunsyöttö/uuden sivun merkki on numero 12. Tämä merkki kertoo tulostimen siirtymään seuraavan sivun alkuun.

Taulukko ei-tulostuvista ASCII-ohjausmerkeistä

Desimaaliluku	Merkki	Desimaaliluku	Merkki
		Datakanavan vapauttaminen
Otsikon alku		Ensimmäinen laitteen ohjauskoodi
Tekstin alku		Toinen laitteen ohjauskoodi
Tekstin loppu		Kolmannen laitteen ohjauskoodi
Lähetyksen loppu		Neljäs laitteen ohjauskoodi
	viisikärkinen	Negatiivinen vahvistus
Vahvistus		Synkroninen lähetystila
Piippaus		Lähetetyn datalohkon loppu

Vaakataulukko		Median loppu
Rivinvaihto/uusi rivi		Korvaussymboli
Pysty välilehti			ylittää
Sivusyöte/uusi sivu	Kaksitoista	Tiedoston erotin
Vaunun palautus		Ryhmäerotin
Vaihto tallentamatta bittejä		Tietueen erotin
Bittiä säilyttävä muutos	viisitoista	Tietojen erotin

[8-bittiset koodaukset: ASCII, KOI-8R ja CP1251] Ensimmäiset Yhdysvalloissa luodut koodaustaulukot eivät käyttäneet kahdeksatta bittiä tavussa. Teksti esitettiin tavujonona, mutta kahdeksatta bittiä ei otettu huomioon (se käytettiin virallisiin tarkoituksiin).

ASCII-taulukko ( Amerikkalainen standardi Tietojenvaihdon koodi). ASCII-taulukon 32 ensimmäistä merkkiä (00 - 1F) käytettiin ei-tulostuville merkeille. Ne on suunniteltu ohjaamaan tulostuslaitetta jne. Loput - 20 - 7F - ovat tavallisia (tulostettavia) merkkejä.

Taulukko 1 - ASCII-koodaus

Joulukuu Hex Loka Char Kuvaus

0	0	000		tyhjä
1	1	001		suunnan alku
2	2	002		tekstin alku
3	3	003		tekstin loppu
4	4	004		lähetyksen loppu
5	5	005		tiedustelu
6	6	006		tunnustaa
7	7	007		kello
8	8	010		askelpalautin
9	9	011		vaakasuora välilehti
10	A	012		uusi rivi
11	B	013		pystysuora välilehti
12	C	014		uusi sivu
13	D	015		vaunun paluu
14	E	016		vaihtaa pois
15	F	017		siirtyä sisään
16	10	020		datalinkin pakoon
17	11	021		laitteen ohjaus 1
18	12	022		laitteen ohjaus 2
19	13	023		laitteen ohjaus 3
20	14	024		laitteen ohjaus 4
21	15	025		negatiivinen tunnustus
22	16	026		synkroninen tyhjäkäynti
23	17	027		transin loppu. lohko
24	18	030		peruuttaa
25	19	031		mediumin loppu
26	1A	032		korvike
27	1B	033		paeta
28	1C	034		tiedostojen erotin
29	1D	035		ryhmän erotin
30	1E	036		tietueen erotin
31	1F	037		yksikön erotin
32	20	040		tilaa
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

Joulukuu Hex Loka Char

64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	minä
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	K
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	s
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Kuten on helppo nähdä, vain tässä koodauksessa latinalaiset kirjaimet, ja ne, joita käytetään englanniksi. Siellä on myös aritmeettisia ja muita palvelusymboleja. Mutta ei ole venäläisiä kirjaimia eikä edes erityisiä latinalaisia kirjaimia saksalle tai ranskalle. Tämä on helppo selittää - koodaus on kehitetty täsmälleen sellaisena Amerikkalainen standardi. Kun tietokoneita alettiin käyttää kaikkialla maailmassa, muut merkit piti koodata.

Tätä varten päätettiin käyttää kahdeksatta bittiä jokaisessa tavussa. Tämä toi käyttöön 128 muuta arvoa (80:stä FF:iin), joita voitiin käyttää merkkien koodaamiseen. Ensimmäinen kahdeksanbittisistä taulukoista - "laajennettu ASCII" (Extended ASCII) - sisältyy erilaisia vaihtoehtoja Latinalaiset kirjaimet, joita käytetään joissakin Länsi-Euroopan kielissä. Se sisälsi myös muita lisäsymboleja, mukaan lukien pseudografia.

Pseudografiset merkit sallivat, vain näyttämällä tekstin merkkejä, tarjoavat jonkinlaisen grafiikan vaikutelman. Esimerkiksi pseudografiaa käyttämällä ohjausohjelma toimii FAR-tiedostot Manager.

Laajennetussa ASCII-taulukossa ei ollut venäläisiä kirjaimia. Venäjä (entinen Neuvostoliitto) ja muut maat loivat omat koodauksensa, jotka mahdollistivat tiettyjen "kansallisten" merkkien esittämisen 8-bittisissä tekstitiedostoissa - Puolan ja Tšekin kielten latinalaiset kirjaimet, kyrilliset (mukaan lukien venäläiset kirjaimet) ja muut aakkoset.

Kaikissa laajalle levinneissä koodauksissa ensimmäiset 127 merkkiä (eli tavun arvo, jonka kahdeksas bitti on yhtä suuri kuin 0) ovat samat kuin ASCII. Joten ASCII-tiedosto toimii jommassakummassa näistä koodauksista; kirjaimet Englannin kieli ne esitetään tasapuolisesti.

ISO (International Standardization Organisation) hyväksyi ryhmän ISO-standardit 8859. Se määrittelee 8-bittiset koodaukset eri ryhmiä kieliä. Joten ISO 8859-1 on laajennettu ASCII-taulukko Yhdysvaltoihin ja Länsi-Eurooppaan. Ja ISO 8859-5 on taulukko kyrillisille aakkosille (mukaan lukien venäjä).

Historiallisista syistä ISO 8859-5 -koodaus ei kuitenkaan juurtunut. Todellisuudessa venäjän kielelle käytetään seuraavia koodauksia:

Koodisivu 866 (CP866), eli "DOS", eli "vaihtoehtoinen GOST-koodaus". Käytettiin laajasti 90-luvun puoliväliin asti; nyt käytössä rajoitetusti. Käytännössä ei käytetä tekstien jakamiseen Internetissä.
- KOI-8. Kehitetty 70-80-luvuilla. On yleisesti hyväksytty standardi sähköpostiviestien lähettämiseen Venäjän Internet. Käytetään myös laajasti käyttöjärjestelmät Unix-perhe, mukaan lukien Linux. KOI-8:n venäjänkielisen version nimi on KOI-8R; Muille kyrillisille kielille on versioita (esimerkiksi KOI8-U on ukrainan kielen versio).
- Koodisivu 1251, CP1251, Windows-1251. Kehitetty Microsoftilta Venäjän kielen tukemiseen Windowsissa.

CP866:n tärkein etu oli pseudografisten merkkien säilyminen samoissa paikoissa kuin Extended ASCII:ssa; siksi ulkomaiset voisivat toimia ilman muutoksia tekstiohjelmat esimerkiksi kuuluisa Norton Commander. Nykyään CP866 on käytössä Windows-ohjelmissa teksti-ikkunat tai koko näytön tekstitilassa, mukaan lukien FAR Manager.

Tekstit CP866:ssa viime vuosina ovat melko harvinaisia (mutta sitä käytetään koodaamaan venäläisiä tiedostonimiä Windowsissa). Siksi viivyttelemme tarkemmin kahdessa muussa koodauksessa - KOI-8R ja CP1251.

Kuten näette, CP1251-koodaustaulukossa venäläiset kirjaimet on järjestetty aakkosjärjestykseen (poikkeuksena kuitenkin E-kirjain). Tämän sijainnin ansiosta tietokoneohjelmia Se on erittäin helppo lajitella aakkosjärjestykseen.

Mutta KOI-8R:ssä venäläisten kirjainten järjestys näyttää sattumanvaraiselta. Mutta todellisuudessa näin ei ole.

Monissa vanhemmissa ohjelmissa 8. bitti katosi tekstiä käsiteltäessä tai lähetettäessä. (Nyt tällaiset ohjelmat ovat käytännössä "kuonneet sukupuuttoon", mutta 80-luvun lopulla - 90-luvun alussa ne olivat yleisiä). Jos haluat saada 7-bittisen arvon 8-bittisestä arvosta, vähennä vain 8 merkittävimmästä numerosta; esimerkiksi E1:stä tulee 61.

Vertaa nyt KOI-8R:ää ASCII-taulukko(Taulukko 1). Tulet huomaamaan, että venäläiset kirjaimet on sijoitettu selkeään vastaavuuteen latinalaisten kanssa. Jos kahdeksas bitti katoaa, pienet venäläiset kirjaimet muuttuvat isoiksi latinalaisiksi kirjaimille ja isot venäläiset kirjaimet pieniksi latinalaisiksi kirjaimille. Joten KOI-8:ssa E1 on venäläinen "A", kun taas 61 ASCII:ssa on latinalainen "a".

Joten KOI-8 antaa sinun säilyttää venäjän tekstin luettavuuden, kun 8. bitti katoaa. "Hei kaikille" muuttuu "pRIWET WSEM".

IN viime aikoina Ja aakkosjärjestyksessä Merkkien järjestely koodaustaulukossa ja luettavuus 8. bitin häviämisen myötä ovat menettäneet ratkaisevan merkityksensä. Kahdeksas bitti sisään nykyaikaiset tietokoneet ei katoa lähetyksen tai käsittelyn aikana. Ja aakkosellinen lajittelu tehdään ottaen huomioon koodaus, eikä yksinkertainen vertailu koodit (Muuten, CP1251-koodit eivät ole täysin aakkosjärjestyksessä - E-kirjain ei ole paikallaan).

Koska on olemassa kaksi yleistä koodausta, Internetin kanssa työskennellessäsi (posti, Web-sivustoja selatessasi) voit joskus nähdä merkityksettömän joukon kirjaimia venäjän tekstin sijaan. Esimerkiksi "MINÄ OLEN SBYUFEMHEL." Nämä ovat vain sanoja "kunnioituksella"; mutta ne koodattiin CP1251-koodauksella, ja tietokone pursi tekstin KOI-8-taulukon avulla. Jos samat sanat päinvastoin koodattaisiin KOI-8:aan ja tietokone purkisi tekstin CP1251-taulukon avulla, tulos olisi "U KHBTSEOYEN".

Joskus käy niin, että tietokone purkaa salauksen Venäjän kirjaimet ja täysin sellaisen taulukon mukaan, jota ei ole tarkoitettu venäjän kielelle. Sitten venäläisten kirjainten sijasta ilmestyy merkityksetön symbolijoukko (esimerkiksi Itä-Euroopan kielten latinalaiset kirjaimet); niitä kutsutaan usein "crocozybriksi".

Useimmissa tapauksissa nykyaikaiset ohjelmat selviytyä Internet-asiakirjojen koodausten määrittämisestä ( sähköpostit ja Web-sivut) itsenäisesti. Mutta joskus ne "sytytyshäiriö", ja sitten voit nähdä outoja venäläisiä kirjaimia tai "krokozyabry" -sarjoja. Yleensä tällaisessa tilanteessa oikean tekstin näyttämiseksi näytöllä riittää, että valitset koodauksen manuaalisesti ohjelmavalikosta.

Tässä artikkelissa käytettiin tietoja sivulta http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Sivustolta otettu materiaali: