Ascii binary code table. Pag-encode ng impormasyon ng teksto

Tulad ng alam mo, ang isang computer ay nag-iimbak ng impormasyon sa binary, na kumakatawan dito bilang isang pagkakasunud-sunod ng mga isa at mga zero. Upang isalin ang impormasyon sa isang form na maginhawa para sa pang-unawa ng tao, ang bawat natatanging pagkakasunud-sunod ng mga numero ay pinapalitan ng kaukulang simbolo nito kapag ipinakita.

Ang isa sa mga sistema para sa pag-uugnay ng mga binary code na may naka-print at kontrol na mga character ay

Sa antas ng pag-unlad ngayon teknolohiya ng kompyuter hindi kinakailangang malaman ng user ang code ng bawat partikular na character. Gayunpaman pangkalahatang pag-unawa kung paano isinasagawa ang coding ay lubhang kapaki-pakinabang, at para sa ilang mga kategorya ng mga espesyalista kahit na kinakailangan.

Paglikha ng ASCII

Ang pag-encode ay orihinal na binuo noong 1963 at pagkatapos ay na-update nang dalawang beses sa loob ng 25 taon.

Sa orihinal na bersyon, ang talahanayan Mga character na ASCII may kasamang 128 character, nang maglaon ay lumitaw ang isang pinahabang bersyon, kung saan na-save ang unang 128 character, at ang mga dating nawawalang character ay itinalaga sa mga code na may kasamang ikawalong bit.

Sa paglipas ng mga taon encoding na ito ay ang pinakasikat sa mundo. Noong 2006, kinuha ng Latin 1252 ang nangungunang posisyon, at mula sa katapusan ng 2007 hanggang sa kasalukuyan, matatag na hawak ng Unicode ang nangungunang posisyon.

Representasyon ng computer ng ASCII

Ang bawat karakter ng ASCII ay mayroon sariling code, na binubuo ng 8 character na kumakatawan sa isang zero o isang isa. Ang pinakamababang numero sa representasyong ito ay zero (walong zero in binary system), na siyang code ng unang elemento sa talahanayan.

Dalawang code sa talahanayan ang nakalaan para sa paglipat sa pagitan ng karaniwang US-ASCII at ng pambansang variant nito.

Matapos ang ASCII ay nagsimulang magsama ng hindi 128, ngunit 256 na mga character, isang variant ng pag-encode ang naging laganap, kung saan ang orihinal na bersyon ng talahanayan ay nakaimbak sa unang 128 na mga code na may 8th bit zero. Ang mga pambansang nakasulat na character ay naka-imbak sa itaas na kalahati ng talahanayan (posisyon 128-255).

Hindi kailangang malaman ng user ang mga ASCII character code nang direkta. Sa developer software Karaniwan ay sapat na upang malaman ang bilang ng elemento sa talahanayan upang, kung kinakailangan, upang kalkulahin ang code nito gamit ang binary system.

wikang Ruso

Pagkatapos bumuo ng mga encoding para sa mga wikang Scandinavian, Chinese, Korean, Greek, atbp. noong unang bahagi ng 70s, nagsimula siyang gumawa ng sarili niyang bersyon Unyong Sobyet. Di-nagtagal, nabuo ang isang bersyon ng 8-bit na encoding na tinatawag na KOI8, na pinapanatili ang unang 128 ASCII character code at naglalaan ng parehong bilang ng mga posisyon para sa mga titik ng pambansang alpabeto at karagdagang mga character.

Bago ang pagpapakilala ng Unicode, pinangungunahan ng KOI8 ang Russian segment ng Internet. Mayroong mga opsyon sa pag-encode para sa parehong alpabetong Ruso at Ukrainian.

Mga problema sa ASCII

Dahil ang bilang ng mga elemento kahit na sa pinalawig na talahanayan ay hindi lalampas sa 256, walang posibilidad na mapaunlakan ang ilang magkakaibang mga script sa isang pag-encode. Noong 90s, ang problemang "crocozyabr" ay lumitaw sa Runet, kapag ang mga tekstong nai-type sa mga character na Russian ASCII ay hindi ipinakita nang tama.

Ang problema ay ang iba't ibang ASCII code ay hindi tumugma sa isa't isa. Tandaan natin na ang iba't ibang mga character ay maaaring matatagpuan sa mga posisyon 128-255, at kapag binago ang isang Cyrillic encoding sa isa pa, ang lahat ng mga titik ng teksto ay pinalitan ng iba na may magkaparehong numero sa ibang bersyon ng encoding.

Kasalukuyang Katayuan

Sa pagdating ng Unicode, ang katanyagan ng ASCII ay nagsimulang bumaba nang husto.

Ang dahilan nito ay nakasalalay sa katotohanan na ang bagong pag-encode ay naging posible upang mapaunlakan ang mga character mula sa halos lahat ng nakasulat na wika. Sa kasong ito, ang unang 128 ASCII character ay tumutugma sa parehong mga character sa Unicode.

Noong 2000, ang ASCII ang pinakasikat na encoding sa Internet at ginamit sa 60% ng mga web page na na-index ng Google. Noong 2012, ang bahagi ng naturang mga pahina ay bumaba sa 17%, at ang Unicode (UTF-8) ay pumalit sa pinakasikat na encoding.

Kaya ang ASCII ay isang mahalagang bahagi ng kasaysayan teknolohiya ng impormasyon, gayunpaman, ang paggamit nito sa hinaharap ay tila hindi kapani-paniwala.

Dec	Hex	Simbolo	Dec	Hex	Simbolo
000	00	espesyalista. HINDI	128	80	Ђ
001	01	espesyalista. SOH	129	81	Ѓ
002	02	espesyalista. STX	130	82	‚
003	03	espesyalista. ETX	131	83	ѓ
004	04	espesyalista. EOT	132	84	„
005	05	espesyalista. ENQ	133	85	…
006	06	espesyalista. ACK	134	86	†
007	07	espesyalista. BEL	135	87	‡
008	08	espesyalista. B.S.	136	88	€
009	09	espesyalista. TAB	137	89	‰
010	0A	espesyalista. LF	138	8A	Љ
011	0B	espesyalista. VT	139	8B	‹ ‹
012	0C	espesyalista. FF	140	8C	Њ
013	0D	espesyalista. CR	141	8D	Ќ
014	0E	espesyalista. KAYA	142	8E	Ћ
015	0F	espesyalista. S.I.	143	8F	Џ
016	10	espesyalista. DLE	144	90	ђ
017	11	espesyalista. DC1	145	91	‘
018	12	espesyalista. DC2	146	92	’
019	13	espesyalista. DC3	147	93	“
020	14	espesyalista. DC4	148	94	”
021	15	espesyalista. N.A.K.	149	95
022	16	espesyalista. SYN	150	96	–
023	17	espesyalista. ETB	151	97	—
024	18	espesyalista. MAAARI	152	98
025	19	espesyalista. E.M.	153	99	™
026	1A	espesyalista. SUB	154	9A	љ
027	1B	espesyalista. ESC	155	9B	›
028	1C	espesyalista. FS	156	9C	њ
029	1D	espesyalista. G.S.	157	9D	ќ
030	1E	espesyalista. R.S.	158	9E	ћ
031	1F	espesyalista. US	159	9F	џ
032	20	clutch SP (Space)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	AD
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	MAGING	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	SA
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	AT
071	47	G	199	C7	Z
072	48	H	200	C8	AT
073	49	ako	201	C9	Y
074	4A	J	202	C.A.	SA
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	TUNGKOL SA
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	SA
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	Yu
095	5F	_	223	DF	ako
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	at
103	67	g	231	E7	h
104	68	h	232	E8	At
105	69	i	233	E9	ika
106	6A	j	234	E.A.	Upang
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	EF	n
112	70	p	240	F0	r
113	71	q	241	F1	Sa
114	72	r	242	F2	T
115	73	s	243	F3	sa
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	F.A.	ъ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	eh
126	7E	~	254	F.E.	yu
127	7F	Espesyalista. DEL	255	FF	ako

ASCII Windows character code table.
Paglalarawan ng mga espesyal na (kontrol) na mga character Dapat tandaan na sa simula ang mga control character ng ASCII table ay ginamit upang matiyak ang pagpapalitan ng data sa pamamagitan ng teletype, pagpasok ng data mula sa punched tape at para sa simpleng kontrol ng mga panlabas na device.
Sa kasalukuyan, karamihan sa mga ASCII table control character ay hindi na nagdadala ng load na ito at magagamit para sa iba pang layunin. Paglalarawan ng Code

NUL, 00	Null, walang laman
SOH, 01	Simula Ng Heading
STX, 02	Simula ng TeXt, ang simula ng text.
ETX, 03	Katapusan ng TeXt, pagtatapos ng teksto
EOT, 04	End of Transmission, end of transmission
ENQ, 05	Magtanong. Pakikumpirma
ACK, 06	Pagkilala. Kinukumpirma ko
BEL, 07	Bell, tumawag ka
BS, 08	Backspace, bumalik ng isang character
TAB, 09	Tab, pahalang na tab
LF, 0A	Line Feed, line feed. Sa ngayon, sa karamihan ng mga programming language ay tinukoy ito bilang \n
VT, 0B	Vertical Tab, patayong tabulation.
FF, 0C	Feed ng Form, page feed, bagong page
CR, 0D	Pagbabalik ng karwahe, pagbabalik ng karwahe. Sa ngayon, sa karamihan ng mga programming language, ito ay tinutukoy bilang \r
KAYA,0E	Shift Out, palitan ang kulay ng ink ribbon sa printing device
SI,0F	Shift In, ibalik ang kulay ng ink ribbon sa printing device pabalik
DLE, 10	Data Link Escape, inililipat ang channel sa paghahatid ng data
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kontrol ng Device, mga simbolo ng kontrol ng device
NAK, 15	Negative Acknowledgement, hindi ko kinukumpirma.
SYN, 16	Pag-synchronize. Simbolo ng pag-synchronize
ETB, 17	Katapusan ng Text Block, dulo ng text block
PWEDE, 18	Kanselahin, pagkansela ng isang naunang ipinadala
EM, 19	Katapusan ng Medium
SUB, 1A	Kapalit, kapalit.
Inilagay sa lugar ng isang simbolo na ang kahulugan ay nawala o nasira sa panahon ng paghahatid	ESC, 1B
Escape Control Sequence	FS, 1C
File Separator, file separator	GS, 1D
Group Separator	RS, 1E
Record Separator, record separator	US, 1F
Unit Separator	DEL, 7F

Tanggalin, burahin ang huling character. Ang Unicode (Unicode sa Ingles) ay isang pamantayan sa pag-encode ng character. Sa madaling salita, ito ay isang talahanayan ng pagsusulatan sa pagitan ng mga text character (mga titik, mga elemento ng bantas) at mga binary code. Naiintindihan lamang ng computer ang pagkakasunud-sunod ng mga zero at isa. Upang malaman nito kung ano ang eksaktong dapat nitong ipakita sa screen, kinakailangan na magtalaga ng sarili nitong simbolo natatanging numero . Noong dekada otsenta, ang mga character ay na-encode sa isang byte, iyon ay, walong bits (bawat bit ay 0 o 1). Kaya, lumabas na ang isang talahanayan (aka encoding o set) ay maaari lamang tumanggap ng 256 na mga character. Maaaring hindi ito sapat kahit para sa isang wika. Samakatuwid, maraming iba't ibang mga pag-encode ang lumitaw, pagkalito kung saan madalas na humantong sa katotohanan na sa halip na nababasang teksto may lumitaw na kakaibang maliliit na nilalang. Kinakailangan iisang pamantayan

, na naging Unicode. Ang pinakaginagamit na encoding ay UTF-8 (Unicode Transformation Format), na gumagamit ng 1 hanggang 4 na byte upang kumatawan sa isang character.

Mga simbolo Ang mga character sa mga talahanayan ng Unicode ay binibilang mga numerong hexadecimal . Halimbawa, Cyrillic M ay itinalagang U+041C. Nangangahulugan ito na nakatayo ito sa intersection ng row 041 at column C. Maaari mo lamang itong kopyahin at pagkatapos ay i-paste ito sa isang lugar. Upang hindi maghalungkat sa isang listahan ng maraming kilometro, dapat mong gamitin ang paghahanap. Kapag pumunta ka sa pahina ng simbolo, makikita mo ang numero nito sa Unicode at kung paano ito nakasulat iba't ibang mga font. Maaari mong ipasok ang mismong sign sa search bar, kahit na isang parisukat ang iguguhit sa halip, kahit na para malaman kung ano iyon. Gayundin, sa site na ito mayroong mga espesyal (at random) na hanay ng parehong uri ng mga icon, na nakolekta mula sa iba't ibang mga seksyon, para sa kadalian ng paggamit.

Ang pamantayan ng Unicode ay internasyonal. Kabilang dito ang mga character mula sa halos lahat ng script ng mundo. Kasama na yung mga hindi na ginagamit. Mga hieroglyph ng Egypt, Germanic rune, pagsulat ng Mayan, cuneiform at mga alpabeto ng mga sinaunang estado. Ang mga pagtatalaga ng mga timbang at sukat, musikal na notasyon, at matematikal na mga konsepto ay ipinakita din.

Ang Unicode Consortium mismo ay hindi nag-iimbento ng mga bagong character. Ang mga icon na iyon na nakikita ang kanilang paggamit sa lipunan ay idinagdag sa mga talahanayan. Halimbawa, ang ruble sign ay aktibong ginamit sa loob ng anim na taon bago ito idinagdag sa Unicode. Ang mga emoji pictograms (emoticon) ay unang ginamit din sa Japan bago sila isama sa pag-encode. Pero mga trademark, at hindi naidagdag ang mga logo ng kumpanya. Kahit na ang mga karaniwang bilang mansanas Mansanas o Windows flag. Sa ngayon, humigit-kumulang 120 libong mga character ang na-encode sa bersyon 8.0.

Excel para sa Office 365 Word para sa Office 365 Outlook para sa Office 365 PowerPoint para sa Office 365 Publisher para sa Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Excel 2016 Outlook 2016 Word 2016 Word 2019 3 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 70 Excel 2010 Visio 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Mas Kaunti

Sa artikulong ito: Magpasok ng ASCII o Unicode na character sa isang dokumento

Kung kailangan mo lang maglagay ng ilang espesyal na character o simbolo, maaari mong gamitin ang mga keyboard shortcut. Para sa isang listahan ng mga ASCII na character, tingnan ang sumusunod na mga talahanayan o ang artikulong Paglalagay ng mga Pambansang Alpabeto Gamit ang Mga Shortcut sa Keyboard.

Mga Tala:

Paglalagay ng mga ASCII na character

Upang magpasok ng ASCII character, pindutin nang matagal ang ALT key habang ipinapasok ang character code. Halimbawa, upang magpasok ng simbolo ng degree (º), pindutin nang matagal ang ALT key, pagkatapos ay i-type ang 0176 sa numeric keypad.

Upang magpasok ng mga numero, gamitin ang numeric keypad sa halip na ang mga numero sa pangunahing keyboard. Kung kailangan mong maglagay ng mga numero sa numeric keypad, tiyaking naka-on ang indicator ng NUM LOCK.

Paglalagay ng mga Unicode Character

Upang magpasok ng isang Unicode na character, ipasok ang character code, pagkatapos ay pindutin ALT key at X. Halimbawa, upang magpasok ng simbolo ng dolyar ($), ipasok ang 0024 at pindutin ang ALT at X sa pagkakasunud-sunod Para sa lahat ng Unicode character code, tingnan ang .

Mahalaga: Ilan Mga programa sa Microsoft Hindi sinusuportahan ng Office, gaya ng PowerPoint at InfoPath, ang pag-convert ng mga Unicode code sa mga character. Kung kailangan mong magpasok ng Unicode character sa isa sa mga program na ito, gamitin ang .

Mga Tala:

Kung lumitaw ang maling Unicode character pagkatapos mong pindutin ang ALT+X, piliin ang tamang code, at pagkatapos ay pindutin muli ang ALT+X.

Bilang karagdagan, dapat mong ilagay ang "U+" bago ang code. Halimbawa, kung ilalagay mo ang "1U+B5" at pinindot ang ALT+X, ang tekstong "1µ" ay ipapakita, at kung ilalagay mo ang "1B5" at pinindot ang ALT+X, ang simbolo na "Ƶ" ay ipapakita.

Gamit ang talahanayan ng simbolo

Ang talahanayan ng simbolo ay isang programang nakapaloob sa Microsoft Windows, na nagbibigay-daan sa iyong tingnan ang mga character na magagamit para sa napiling font.

Gamit ang talahanayan ng simbolo na maaari mong kopyahin indibidwal na mga karakter o isang grupo ng mga character sa clipboard at i-paste ang mga ito sa anumang program na sumusuporta sa pagpapakita ng mga character na ito. Binuksan ang talahanayan ng simbolo

Sa Windows 10, ipasok ang salitang "simbolo" sa box para sa paghahanap sa taskbar at piliin ang talahanayan ng simbolo mula sa mga resulta ng paghahanap.

Sa Windows 8, ilagay ang salitang "character" sa home screen at piliin ang talahanayan ng simbolo mula sa mga resulta ng paghahanap.

Sa Windows 7, i-click ang Start button, piliin ang All Programs, Accessories, System Tools, at pagkatapos ay i-click ang Character Map.

Ang mga character ay pinagsama ayon sa font. I-click ang listahan ng font para piliin ang naaangkop na set ng character. Upang pumili ng simbolo, i-click ito, pagkatapos ay i-click ang button na Piliin. Upang magpasok ng simbolo, i-click i-right click mga daga tamang lugar sa dokumento at piliin ang I-paste.

Mga code ng character na madalas gamitin

Buong listahan character, tingnan sa iyong computer, ASCII character code table, o Unicode character table na nakaayos ayon sa set.

Glyph

Pera

Mga legal na simbolo

Mga simbolo ng matematika

Mga Fraction

Mga simbolo ng bantas at diyalekto

Mga simbolo ng hugis

Karaniwang ginagamit na mga diacritics code

Para sa kumpletong listahan ng mga glyph at kaukulang code, tingnan.

Glyph

Hindi nagpi-print ng mga character na kontrol ng ASCII

Ang mga palatandaan na ginamit upang kontrolin ang ilan mga aparatong paligid, tulad ng mga printer, ay may bilang na 0–31 sa talahanayan ng ASCII. Halimbawa, ang page feed/bagong page character ay numero 12. Ang karakter na ito ay nagsasabi sa printer na lumipat sa simula ng susunod na page.

Talaan ng mga hindi nagpi-print na ASCII control character

Desimal na numero	Lagda	Desimal na numero	Lagda
		Pagpapalaya sa channel ng data
Simula ng pamagat		Unang control code ng device
Simula ng text		Pangalawang control code ng device
Katapusan ng text		Pangatlong control code ng device
Pagtatapos ng transmission		Pang-apat na control code ng device
	limang-pointed	Negatibong kumpirmasyon
Kumpirmasyon		Synchronous transmission mode
Beep		Pagtatapos ng ipinadalang bloke ng data

Pahalang na tabulasyon		Katapusan ng media
Line feed/bagong linya		Simbolo ng kapalit
Vertical na tab			lumampas
Pagsasalin ng pahina/bagong pahina	Labindalawa	File separator
Pagbabalik ng karwahe		Tagahiwalay ng grupo
Shift nang hindi nagse-save ng mga bit		Record separator
Bit-nagpepreserba shift	labinlima	Separator ng data

[8-bit encodings: ASCII, KOI-8R at CP1251] Ang mga unang encoding table na ginawa sa USA ay hindi gumamit ng ikawalong bit sa isang byte. Ang teksto ay kinakatawan bilang isang pagkakasunud-sunod ng mga byte, ngunit ang ikawalong bit ay hindi isinasaalang-alang (ito ay ginamit para sa mga opisyal na layunin).

Ang talahanayan ng ASCII ( American Standard Code for Information Interchange). Ang unang 32 character ng talahanayan ng ASCII (00 hanggang 1F) ay ginamit para sa mga hindi naka-print na character. Idinisenyo ang mga ito upang kontrolin ang isang aparato sa pag-print, atbp. Ang natitira - mula 20 hanggang 7F - ay regular (napi-print) na mga character.

Talahanayan 1 - ASCII encoding

Dis Hex Oct Char Paglalarawan

0	0	000		null
1	1	001		simula ng heading
2	2	002		simula ng text
3	3	003		pagtatapos ng teksto
4	4	004		pagtatapos ng transmission
5	5	005		pagtatanong
6	6	006		kilalanin
7	7	007		kampana
8	8	010		backspace
9	9	011		pahalang na tab
10	A	012		bagong linya
11	B	013		patayong tab
12	C	014		bagong pahina
13	D	015		pagbabalik ng karwahe
14	E	016		lumipat sa labas
15	F	017		lumipat sa
16	10	020		pagtakas ng link ng data
17	11	021		kontrol ng device 1
18	12	022		kontrol ng aparato 2
19	13	023		kontrol ng aparato 3
20	14	024		kontrol ng aparato 4
21	15	025		negatibong pagkilala
22	16	026		sabaysabay na idle
23	17	027		pagtatapos ng trans. harangan
24	18	030		kanselahin
25	19	031		dulo ng daluyan
26	1A	032		kapalit
27	1B	033		tumakas
28	1C	034		file separator
29	1D	035		pangkat separator
30	1E	036		record separator
31	1F	037		unit separator
32	20	040		espasyo
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

Dis Hex Okt Char

64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	ako
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	p
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Tulad ng madaling makita, sa encoding na ito lamang mga letrang latin, at ang mga ginagamit sa Ingles. Mayroon ding mga aritmetika at iba pang mga simbolo ng serbisyo. Ngunit walang mga titik na Ruso, o kahit na mga espesyal na Latin para sa Aleman o Pranses. Ito ay madaling ipaliwanag - ang pag-encode ay ginawa nang eksakto tulad ng American standard. Habang nagsimulang gamitin ang mga computer sa buong mundo, kailangang ma-encode ang ibang mga character.

Upang gawin ito, napagpasyahan na gamitin ang ikawalong bit sa bawat byte. Dahil dito, 128 pang value ang available (mula 80 hanggang FF) na maaaring magamit para mag-encode ng mga character. Ang una sa walong-bit na mga talahanayan - "extended ASCII" ( Extended ASCII) - kasama iba't ibang mga pagpipilian Latin na mga character na ginagamit sa ilang mga wika ng Kanlurang Europa. Naglalaman din ito ng iba pang mga karagdagang simbolo, kabilang ang mga pseudographic.

Pinapayagan ng mga pseudographic na character, sa pamamagitan lamang ng pagpapakita mga character ng teksto, magbigay ng ilang pagkakahawig ng mga graphics. Gamit ang pseudographics, halimbawa, gumagana ang isang control program FAR files Manager.

Walang mga letrang Ruso sa talahanayan ng Extended ASCII. Ang Russia (dating USSR) at iba pang mga bansa ay lumikha ng kanilang sariling mga pag-encode na naging posible upang kumatawan sa mga partikular na "pambansang" character sa 8-bit na mga text file - mga Latin na titik ng Polish at Czech na mga wika, Cyrillic (kabilang ang mga letrang Ruso) at iba pang mga alpabeto.

Sa lahat ng mga pag-encode na naging laganap, ang unang 127 character (iyon ay, ang byte value na may ikawalong bit na katumbas ng 0) ay kapareho ng ASCII. Kaya gumagana ang isang ASCII file sa alinman sa mga encoding na ito; mga titik wikang Ingles pare-pareho silang ipinakita.

Tinanggap ng ISO (International Standardization Organization) ang grupo Mga pamantayan ng ISO 8859. Tinutukoy nito ang 8-bit na pag-encode para sa iba't ibang grupo mga wika. Kaya, ang ISO 8859-1 ay isang Extended ASCII table para sa USA at Western Europe. At ang ISO 8859-5 ay isang talahanayan para sa Cyrillic alphabet (kabilang ang Russian).

Gayunpaman, para sa makasaysayang mga kadahilanan, ang ISO 8859-5 encoding ay hindi nag-ugat. Sa katotohanan, ang mga sumusunod na pag-encode ay ginagamit para sa wikang Ruso:

Code Page 866 (CP866), aka “DOS”, aka “alternatibong GOST encoding”. Malawakang ginagamit hanggang sa kalagitnaan ng 90s; ngayon ginagamit sa isang limitadong lawak. Halos hindi ginagamit para sa pamamahagi ng mga teksto sa Internet.
- KOI-8. Binuo noong 70-80s. Ay isang karaniwang tinatanggap na pamantayan para sa pagpapadala ng mga mensaheng mail sa Russian Internet. Malawak ding ginagamit sa mga operating system Pamilya ng Unix, kabilang ang Linux. Ang bersyon ng KOI-8 sa wikang Ruso ay tinatawag na KOI-8R; Mayroong mga bersyon para sa iba pang mga wikang Cyrillic (halimbawa, ang KOI8-U ay isang bersyon para sa wikang Ukrainian).
- Pahina ng Code 1251, CP1251, Windows-1251. Binuo ng Microsoft upang suportahan ang wikang Ruso sa Windows.

Ang pangunahing bentahe ng CP866 ay ang pagpapanatili ng mga pseudo-graphics na character sa parehong mga lugar tulad ng sa Extended ASCII; samakatuwid, ang mga dayuhan ay maaaring magtrabaho nang walang pagbabago mga programa sa teksto, halimbawa, ang sikat na Norton Commander. Sa ngayon, ang CP866 ay ginagamit para sa mga programang Windows na tumatakbo mga text window o sa full screen text mode, kasama ang FAR Manager.

Mga text sa CP866 mga nakaraang taon ay medyo bihira (ngunit ginagamit ito upang i-encode ang mga pangalan ng file na Ruso sa Windows). Samakatuwid, tatalakayin natin nang mas detalyado ang dalawa pang pag-encode - KOI-8R at CP1251.

Tulad ng nakikita mo, sa talahanayan ng pag-encode ng CP1251, ang mga letrang Ruso ay nakaayos sa pagkakasunud-sunod ng alpabeto (kasama ang pagbubukod, gayunpaman, ng titik E). Salamat sa lokasyong ito mga programa sa kompyuter Napakadaling pagbukud-bukurin ayon sa alpabeto.

Ngunit sa KOI-8R ang pagkakasunud-sunod ng mga letrang Ruso ay tila random. Ngunit sa katotohanan ay hindi ito ang kaso.

Sa maraming mas lumang mga programa, nawala ang ika-8 bit kapag nagpoproseso o nagpapadala ng teksto. (Ngayon ang mga naturang programa ay halos "wala na", ngunit sa huling bahagi ng 80s - unang bahagi ng 90s ay laganap sila). Upang makakuha ng 7-bit na halaga mula sa isang 8-bit na halaga, ibawas lamang ang 8 mula sa pinaka makabuluhang digit; halimbawa, ang E1 ay nagiging 61.

Ngayon ihambing ang KOI-8R sa talahanayan ng ASCII(Talahanayan 1). Makikita mo na ang mga letrang Ruso ay inilalagay sa malinaw na mga sulat sa mga Latin. Kung mawala ang ikawalong bit, ang maliliit na letrang Ruso ay magiging malalaking letrang Latin, at ang malalaking letrang Ruso ay magiging maliliit na letrang Latin. Kaya, ang E1 sa KOI-8 ay ang Russian "A", habang ang 61 sa ASCII ay ang Latin na "a".

Kaya, pinapayagan ka ng KOI-8 na mapanatili ang pagiging madaling mabasa ng Russian text kapag nawala ang ika-8 bit. Ang “Kumusta sa lahat” ay nagiging “pRIWET WSEM”.

SA kani-kanina lang At pagkakasunud-sunod ng alpabeto Ang pag-aayos ng mga character sa talahanayan ng pag-encode, at pagiging madaling mabasa sa pagkawala ng ika-8 bit, ay nawala ang kanilang mapagpasyang kahalagahan. Ikawalong bit in mga modernong kompyuter ay hindi nawawala sa panahon ng paghahatid o pagproseso. At ang alpabetikong pag-uuri ay ginagawa nang isinasaalang-alang ang pag-encode, at hindi simpleng paghahambing mga code (Sa pamamagitan ng paraan, ang mga code ng CP1251 ay hindi ganap na nakaayos ayon sa alpabeto - ang titik E ay wala sa lugar nito).

Dahil sa katotohanan na mayroong dalawang karaniwang pag-encode, kapag nagtatrabaho sa Internet (mail, nagba-browse sa mga Web site), maaari mong makita kung minsan ang isang walang kahulugan na hanay ng mga titik sa halip na tekstong Ruso. Halimbawa, "AKO SI SBYUFEMHEL." Ito ay mga salitang "may paggalang" lamang; ngunit sila ay na-encode sa CP1251 encoding, at na-decode ng computer ang teksto gamit ang KOI-8 table. Kung ang parehong mga salita, sa kabaligtaran, ay na-encode sa KOI-8, at na-decode ng computer ang teksto ayon sa talahanayan ng CP1251, ang magiging resulta ay "U HCHBTSEOYEN".

Minsan nangyayari na ang computer ay nagde-decrypt Mga titik ng Ruso at ganap na ayon sa isang talahanayan na hindi inilaan para sa wikang Ruso. Pagkatapos, sa halip na mga letrang Ruso, lumilitaw ang isang walang kahulugan na hanay ng mga simbolo (halimbawa, mga letrang Latin ng mga wika sa Silangang Europa); madalas silang tinatawag na "crocozybras".

Sa karamihan ng mga kaso modernong mga programa makayanan ang pagtukoy sa mga pag-encode ng mga dokumento sa Internet ( mga email at mga Web page) nang nakapag-iisa. Ngunit kung minsan sila ay "misfire", at pagkatapos ay makikita mo ang mga kakaibang pagkakasunud-sunod ng mga letrang Ruso o "krokozyabry". Bilang isang patakaran, sa ganoong sitwasyon, upang ipakita ang totoong teksto sa screen, sapat na upang manu-manong piliin ang pag-encode sa menu ng programa.

Ang impormasyon mula sa pahinang http://open-office.edusite.ru/TextProcessor/p5aa1.html ay ginamit para sa artikulong ito.

Materyal na kinuha mula sa site: