Jadual kod binari Ascii. Pengekodan maklumat teks

Seperti yang anda ketahui, komputer menyimpan maklumat dalam bentuk binari, mewakilinya sebagai urutan satu dan sifar. Untuk menterjemah maklumat ke dalam bentuk yang sesuai untuk persepsi manusia, setiap urutan nombor unik digantikan dengan simbol yang sepadan apabila dipaparkan.

Salah satu sistem untuk mengaitkan kod binari dengan aksara bercetak dan kawalan ialah

Pada tahap perkembangan teknologi komputer semasa, pengguna tidak perlu mengetahui kod setiap watak tertentu. Walau bagaimanapun, pemahaman umum tentang cara pengekodan dijalankan amat berguna, dan untuk sesetengah kategori pakar, malah diperlukan.

Mencipta ASCII

Pengekodan pada asalnya dibangunkan pada tahun 1963 dan kemudian dikemas kini dua kali dalam tempoh 25 tahun.

Dalam versi asal, jadual aksara ASCII termasuk 128 aksara; kemudian versi lanjutan muncul, di mana 128 aksara pertama telah disimpan, dan aksara yang hilang sebelum ini diberikan kepada kod dengan bit kelapan terlibat.

Selama bertahun-tahun, pengekodan ini adalah yang paling popular di dunia. Pada tahun 2006, Latin 1252 mengambil kedudukan utama, dan dari penghujung tahun 2007 hingga kini, Unicode telah memegang kedudukan utama dengan kukuh.

Perwakilan komputer ASCII

Setiap aksara ASCII mempunyai kodnya sendiri, terdiri daripada 8 aksara yang mewakili sifar atau satu. Nombor minimum dalam perwakilan ini ialah sifar (lapan sifar dalam sistem binari), iaitu kod elemen pertama dalam jadual.

Dua kod dalam jadual telah dikhaskan untuk bertukar antara AS-ASCII standard dan varian nasionalnya.

Selepas ASCII mula memasukkan bukan 128, tetapi 256 aksara, varian pengekodan menjadi meluas, di mana versi asal jadual disimpan dalam 128 kod pertama dengan sifar bit ke-8. Aksara bertulis kebangsaan disimpan di bahagian atas jadual (kedudukan 128-255).

Pengguna tidak perlu mengetahui kod aksara ASCII secara langsung. Pembangun perisian biasanya hanya perlu mengetahui nombor elemen dalam jadual untuk mengira kodnya menggunakan sistem binari jika perlu.

Bahasa Rusia

Selepas pembangunan pengekodan untuk bahasa Scandinavia, Cina, Korea, Yunani, dll. pada awal 70-an, Kesatuan Soviet mula mencipta versinya sendiri. Tidak lama kemudian, versi pengekodan 8-bit yang dipanggil KOI8 telah dibangunkan, mengekalkan 128 kod aksara ASCII yang pertama dan memperuntukkan bilangan kedudukan yang sama untuk huruf abjad kebangsaan dan aksara tambahan.

Sebelum pengenalan Unicode, KOI8 menguasai segmen Internet Rusia. Terdapat pilihan pengekodan untuk kedua-dua abjad Rusia dan Ukraine.

masalah ASCII

Memandangkan bilangan elemen walaupun dalam jadual lanjutan tidak melebihi 256, tidak ada kemungkinan untuk menampung beberapa skrip berbeza dalam satu pengekodan. Pada tahun 90-an, masalah "crocozyabr" muncul di Runet, apabila teks yang ditaip dalam aksara ASCII Rusia dipaparkan dengan tidak betul.

Masalahnya ialah kod ASCII yang berbeza tidak sepadan antara satu sama lain. Mari kita ingat bahawa pelbagai aksara boleh ditempatkan di kedudukan 128-255, dan apabila menukar satu pengekodan Cyrillic kepada yang lain, semua huruf teks digantikan dengan yang lain yang mempunyai nombor yang sama dalam versi pengekodan yang berbeza.

Keadaan sekarang

Dengan kemunculan Unicode, populariti ASCII mula merosot dengan mendadak.

Sebabnya terletak pada hakikat bahawa pengekodan baharu memungkinkan untuk menampung aksara daripada hampir semua bahasa bertulis. Dalam kes ini, 128 aksara ASCII yang pertama sepadan dengan aksara yang sama dalam Unicode.

Pada tahun 2000, ASCII ialah pengekodan paling popular di Internet dan digunakan pada 60% halaman web yang diindeks oleh Google. Menjelang 2012, bahagian halaman sedemikian telah menurun kepada 17%, dan Unicode (UTF-8) menggantikan pengekodan yang paling popular.

Oleh itu, ASCII adalah bahagian penting dalam sejarah teknologi maklumat, tetapi penggunaannya pada masa hadapan nampaknya tidak menjanjikan.

Dis	Hex	Simbol	Dis	Hex	Simbol
000	00	pakar. TIDAK	128	80	Ђ
001	01	pakar. SOH	129	81	Ѓ
002	02	pakar. STX	130	82	‚
003	03	pakar. ETX	131	83	ѓ
004	04	pakar. EOT	132	84	„
005	05	pakar. ENQ	133	85	…
006	06	pakar. ACK	134	86	†
007	07	pakar. BEL	135	87	‡
008	08	pakar. B.S.	136	88	€
009	09	pakar. TAB	137	89	‰
010	0A	pakar. LF	138	8A	Љ
011	0B	pakar. VT	139	8B	‹ ‹
012	0C	pakar. FF	140	8C	Њ
013	0D	pakar. CR	141	8D	Ќ
014	0E	pakar. JADI	142	8E	Ћ
015	0F	pakar. S.I.	143	8F	Џ
016	10	pakar. DLE	144	90	ђ
017	11	pakar. DC1	145	91	‘
018	12	pakar. DC2	146	92	’
019	13	pakar. DC3	147	93	“
020	14	pakar. DC4	148	94	”
021	15	pakar. N.A.K.	149	95
022	16	pakar. SYN	150	96	–
023	17	pakar. ETB	151	97	—
024	18	pakar. BOLEH	152	98
025	19	pakar. E.M.	153	99	™
026	1A	pakar. SUB	154	9A	љ
027	1B	pakar. ESC	155	9B	›
028	1C	pakar. FS	156	9C	њ
029	1D	pakar. G.S.	157	9D	ќ
030	1E	pakar. R.S.	158	9E	ћ
031	1F	pakar. AS	159	9F	џ
032	20	klac SP (Angkasa)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	AD
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	JADILAH	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	DALAM
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	DAN
071	47	G	199	C7	Z
072	48	H	200	C8	DAN
073	49	saya	201	C9	Y
074	4A	J	202	C.A.	KEPADA
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	TENTANG
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	DENGAN
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	saya
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	dan
103	67	g	231	E7	h
104	68	h	232	E8	Dan
105	69	i	233	E9	ke
106	6A	j	234	E.A.	Kepada
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	E.F.	P
112	70	hlm	240	F0	R
113	71	q	241	F1	Dengan
114	72	r	242	F2	T
115	73	s	243	F3	di
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	F.A.	ъ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	eh
126	7E	~	254	F.E.	Yu
127	7F	Pakar. DEL	255	FF	saya

Jadual kod aksara Windows ASCII.
Perihalan aksara khas (kawalan) Perlu diingat bahawa pada mulanya aksara kawalan jadual ASCII digunakan untuk memastikan pertukaran data melalui teletaip, kemasukan data daripada pita tebuk dan untuk kawalan mudah peranti luaran.
Pada masa ini, kebanyakan aksara kawalan jadual ASCII tidak lagi membawa beban ini dan boleh digunakan untuk tujuan lain. Penerangan Kod

NUL, 00	Null, kosong
SOH, 01	Permulaan Tajuk
STX, 02	Permulaan TeXt, permulaan teks.
ETX, 03	Tamat TeXt, akhir teks
EOT, 04	Tamat Penghantaran, tamat penghantaran
ENQ, 05	Tanya. Tolong sahkan
ACK, 06	Pengakuan. Saya mengesahkan
BEL, 07	Bell, panggil
BS, 08	Ruang belakang, kembali satu aksara
TAB, 09	Tab, tab mendatar
LF, 0A	Suapan Baris, suapan baris. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \n
VT, 0B	Tab Menegak, penjadualan menegak.
FF, 0C	Suapan Borang, suapan halaman, halaman baharu
CR, 0D	Pulang gerabak, pemulangan gerabak. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \r
JADI,0E	Shift Out, tukar warna reben dakwat dalam peranti pencetakan
SI, 0F	Shift In, kembalikan warna reben dakwat dalam peranti pencetakan semula
DLE, 10	Data Link Escape, menukar saluran kepada penghantaran data
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kawalan Peranti, simbol kawalan peranti
NAK, 15	Pengakuan Negatif, saya tidak mengesahkan.
SYN, 16	Penyegerakan. Simbol penyegerakan
ETB, 17	Tamat Blok Teks, hujung blok teks
BOLEH, 18	Batal, pembatalan yang dihantar sebelum ini
EM, 19	Akhir Sederhana
SUB, 1A	Pengganti, pengganti. Diletakkan di tempat simbol yang maknanya hilang atau rosak semasa penghantaran
ESC, 1B	Urutan Kawalan Melarikan Diri
FS, 1C	Pemisah Fail, pemisah fail
GS, 1D	Pemisah Kumpulan
RS, 1E	Pemisah Rekod, pemisah rekod
AS, 1F	Pemisah Unit
DEL, 7F	Padam, padam aksara terakhir.

Unicode (Unicode dalam bahasa Inggeris) ialah standard pengekodan aksara. Ringkasnya, ini ialah jadual surat-menyurat antara aksara teks (huruf, elemen tanda baca) dan kod binari. Komputer hanya memahami urutan sifar dan satu. Supaya ia tahu apa sebenarnya yang perlu dipaparkan pada skrin, adalah perlu untuk menetapkan setiap watak nombor uniknya sendiri. Pada tahun lapan puluhan, aksara telah dikodkan dalam satu bait, iaitu lapan bit (setiap bit ialah 0 atau 1). Oleh itu, ternyata satu jadual (aka pengekodan atau set) hanya boleh memuatkan 256 aksara. Ini mungkin tidak mencukupi walaupun untuk satu bahasa. Oleh itu, banyak pengekodan berbeza muncul, kekeliruan yang sering menyebabkan beberapa omong kosong aneh muncul pada skrin dan bukannya teks yang boleh dibaca. Satu standard diperlukan, iaitu Unicode menjadi. Pengekodan yang paling banyak digunakan ialah UTF-8 (Format Transformasi Unikod), yang menggunakan 1 hingga 4 bait untuk mewakili aksara.

Simbol

Aksara dalam jadual Unicode dinomborkan dengan nombor perenambelasan. Sebagai contoh, huruf besar Cyrillic M ditetapkan sebagai U+041C. Ini bermakna ia terletak di persimpangan baris 041 dan lajur C. Anda hanya boleh menyalinnya dan kemudian menampalnya di suatu tempat. Untuk tidak menyelongkar senarai berbilang kilometer, anda harus menggunakan carian. Apabila anda pergi ke halaman simbol, anda akan melihat nombor Unikodnya dan cara ia ditulis dalam fon yang berbeza. Anda boleh memasukkan tanda itu sendiri ke dalam bar carian, walaupun segi empat sama dilukis sebaliknya, sekurang-kurangnya untuk mengetahui perkara itu. Juga, di laman web ini terdapat set khas (dan rawak) daripada jenis ikon yang sama, dikumpulkan dari bahagian yang berbeza, untuk kemudahan penggunaan.

Piawaian Unicode adalah antarabangsa. Ia termasuk watak dari hampir semua skrip dunia. Termasuk yang tidak digunakan lagi. Hieroglif Mesir, rune Jerman, tulisan Maya, cuneiform dan abjad negeri purba. Penetapan berat dan sukatan, notasi muzik, dan konsep matematik juga dibentangkan.

Konsortium Unicode sendiri tidak mencipta aksara baharu. Ikon yang didapati digunakan dalam masyarakat ditambahkan pada jadual. Sebagai contoh, tanda ruble telah digunakan secara aktif selama enam tahun sebelum ia ditambahkan pada Unicode. Piktogram emoji (emotikon) juga pertama kali digunakan secara meluas di Jepun sebelum ia dimasukkan dalam pengekodan. Tetapi tanda dagangan dan logo syarikat tidak ditambah pada dasarnya. Malah yang biasa seperti epal Apple atau bendera Windows. Sehingga kini, kira-kira 120 ribu aksara dikodkan dalam versi 8.0.

Excel untuk Office 365 Word untuk Office 365 Outlook untuk Office 365 PowerPoint untuk Office 365 Publisher untuk Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2016 Outlook 2 PowerPoint 2019 Standard 2016 Word OneNote 2016 Publisher 013 Penerbit 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 1 Visio Excel 2010 Publisher 2010 Word 2010 Publisher 2010 7 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Standard 2007 Visio Standard 2010 Kurang

Dalam artikel ini: Masukkan aksara ASCII atau Unicode ke dalam dokumen

Jika anda hanya perlu memasukkan beberapa aksara atau simbol khas, anda boleh menggunakan pintasan papan kekunci. Untuk senarai aksara ASCII, lihat jadual berikut atau artikel Memasukkan Abjad Kebangsaan Menggunakan Pintasan Papan Kekunci.

Nota:

Memasukkan aksara ASCII

Untuk memasukkan aksara ASCII, tekan dan tahan kekunci ALT semasa memasukkan kod aksara. Contohnya, untuk memasukkan simbol darjah (º), tekan dan tahan kekunci ALT, kemudian masukkan 0176 pada pad kekunci angka.

Untuk memasukkan nombor, gunakan pad kekunci angka dan bukannya nombor pada papan kekunci utama. Jika anda perlu memasukkan nombor pada papan kekunci angka, pastikan penunjuk NUM LOCK dihidupkan.

Memasukkan Aksara Unikod

Untuk memasukkan aksara Unicode, masukkan kod aksara, kemudian tekan ALT dan X. Contohnya, untuk memasukkan simbol dolar ($), masukkan 0024 dan tekan ALT dan X. Untuk semua kod aksara Unicode, lihat .

Penting: Sesetengah program Microsoft Office, seperti PowerPoint dan InfoPath, tidak menyokong penukaran kod Unicode kepada aksara. Jika anda perlu memasukkan aksara Unicode dalam salah satu program ini, gunakan .

Nota:

Jika aksara Unicode yang salah muncul selepas anda menekan ALT+X, pilih kod yang betul, dan kemudian tekan ALT+X sekali lagi.

Selain itu, anda mesti memasukkan "U+" sebelum kod. Contohnya, jika anda memasukkan "1U+B5" dan tekan ALT+X, teks "1µ" akan dipaparkan, dan jika anda memasukkan "1B5" dan tekan ALT+X, simbol "Ƶ" akan dipaparkan.

Menggunakan jadual simbol

Jadual aksara ialah program terbina dalam Microsoft Windows yang membolehkan anda melihat aksara yang tersedia untuk fon yang dipilih.

Menggunakan jadual simbol, anda boleh menyalin simbol individu atau sekumpulan simbol ke papan keratan dan menampalnya ke dalam mana-mana program yang menyokong paparan simbol tersebut. Membuka jadual simbol

Dalam Windows 10, masukkan perkataan "simbol" dalam kotak carian pada bar tugas dan pilih jadual simbol daripada hasil carian.

Dalam Windows 8, taip "simbol" pada skrin Mula dan pilih jadual simbol daripada hasil carian.

Dalam Windows 7, klik butang Mula, pilih Semua Program, Aksesori, Alat Sistem, dan kemudian klik Peta Aksara.

Aksara dikumpulkan mengikut fon. Klik senarai fon untuk memilih set aksara yang sesuai. Untuk memilih simbol, klik padanya, kemudian klik butang Pilih. Untuk memasukkan simbol, klik kanan lokasi yang dikehendaki dalam dokumen dan pilih Tampal.

Kod aksara yang kerap digunakan

Untuk senarai lengkap aksara, lihat Komputer, Jadual Kod Aksara ASCII atau Jadual Aksara Unikod Disusun mengikut Set.

Glyph

mata wang

Simbol undang-undang

Simbol matematik

Pecahan

Tanda baca dan simbol dialek

Simbol bentuk

Kod diakritik yang biasa digunakan

Untuk senarai lengkap glif dan kod yang sepadan, lihat.

Glyph

Bukan mencetak aksara kawalan ASCII

Aksara yang digunakan untuk mengawal beberapa peranti persisian, seperti pencetak, bernombor 0–31 dalam jadual ASCII. Contohnya, suapan halaman/aksara halaman baharu ialah nombor 12. Aksara ini memberitahu pencetak untuk beralih ke permulaan halaman seterusnya.

Jadual aksara kawalan ASCII yang tidak mencetak

Nombor perpuluhan	Tanda	Nombor perpuluhan	Tanda
		Membebaskan saluran data
Permulaan tajuk		Kod kawalan peranti pertama
Permulaan teks		Kod kawalan peranti kedua
Akhir teks		Kod kawalan peranti ketiga
Tamat penghantaran		Kod kawalan peranti keempat
	berbucu lima	Pengesahan negatif
Pengesahan		Mod penghantaran segerak
Isyarat bunyi		Tamat blok data yang dihantar

Penjadualan mendatar		Tamat media
Suapan baris/baris baharu		Simbol penggantian
Tab menegak			melebihi
Terjemahan halaman/halaman baharu	Dua belas	Pemisah fail
Pulangan pengangkutan		Pemisah kumpulan
Beralih tanpa menyimpan bit		Pemisah rekod
Anjakan yang mengekalkan bit	lima belas	Pemisah data

[Pengekodan 8-bit: ASCII, KOI-8R dan CP1251] Jadual pengekodan pertama yang dibuat di AS tidak menggunakan bit kelapan dalam bait. Teks diwakili sebagai urutan bait, tetapi bit kelapan tidak diambil kira (ia digunakan untuk tujuan rasmi).

Jadual ASCII (American Standard Code for Information Interchange) telah menjadi standard yang diterima umum. 32 aksara pertama jadual ASCII (00 hingga 1F) telah digunakan untuk aksara bukan pencetakan. Mereka direka untuk mengawal peranti percetakan, dsb. Selebihnya - dari 20 hingga 7F - ialah aksara biasa (boleh dicetak).

Jadual 1 - pengekodan ASCII

Dec Hex Okt Char Penerangan

0	0	000		null
1	1	001		permulaan tajuk
2	2	002		permulaan teks
3	3	003		akhir teks
4	4	004		akhir penghantaran
5	5	005		siasatan
6	6	006		mengakui
7	7	007		loceng
8	8	010		ruang belakang
9	9	011		tab mendatar
10	A	012		baris baru
11	B	013		tab menegak
12	C	014		halaman baharu
13	D	015		pemulangan pengangkutan
14	E	016		beralih keluar
15	F	017		beralih masuk
16	10	020		melarikan diri pautan data
17	11	021		kawalan peranti 1
18	12	022		kawalan peranti 2
19	13	023		kawalan peranti 3
20	14	024		kawalan peranti 4
21	15	025		pengakuan negatif
22	16	026		terbiar segerak
23	17	027		akhir trans. blok
24	18	030		batalkan
25	19	031		akhir medium
26	1A	032		pengganti
27	1B	033		melarikan diri
28	1C	034		pemisah fail
29	1D	035		pemisah kumpulan
30	1E	036		pemisah rekod
31	1F	037		pemisah unit
32	20	040		angkasa lepas
33	21	041	!
34	22	042	"
35	23	043	#
36	24	044	$
37	25	045	%
38	26	046	&
39	27	047	"
40	28	050	(
41	29	051	)
42	2A	052	*
43	2B	053	+
44	2C	054	,
45	2D	055	-
46	2E	056	.
47	2F	057	/
48	30	060	0
49	31	061	1
50	32	062	2
51	33	063	3
52	34	064	4
53	35	065	5
54	36	066	6
55	37	067	7
56	38	070	8
57	39	071	9
58	3A	072	:
59	3B	073	;
60	3C	074	<
61	3D	075	=
62	3E	076	>
63	3F	077	?

Dis Hex Okt Char

64	40	100	@
65	41	101	A
66	42	102	B
67	43	103	C
68	44	104	D
69	45	105	E
70	46	106	F
71	47	107	G
72	48	110	H
73	49	111	saya
74	4A	112	J
75	4B	113	K
76	4C	114	L
77	4D	115	M
78	4E	116	N
79	4F	117	O
80	50	120	P
81	51	121	Q
82	52	122	R
83	53	123	S
84	54	124	T
85	55	125	U
86	56	126	V
87	57	127	W
88	58	130	X
89	59	131	Y
90	5A	132	Z
91	5B	133	[
92	5C	134	\
93	5D	135	]
94	5E	136	^
95	5F	137	_
96	60	140	`
97	61	141	a
98	62	142	b
99	63	143	c
100	64	144	d
101	65	145	e
102	66	146	f
103	67	147	g
104	68	150	h
105	69	151	i
106	6A	152	j
107	6B	153	k
108	6C	154	l
109	6D	155	m
110	6E	156	n
111	6F	157	o
112	70	160	hlm
113	71	161	q
114	72	162	r
115	73	163	s
116	74	164	t
117	75	165	u
118	76	166	v
119	77	167	w
120	78	170	x
121	79	171	y
122	7A	172	z
123	7B	173	{
124	7C	174	\|
125	7D	175	}
126	7E	176	~
127	7F	177	DEL

Seperti yang anda boleh lihat dengan mudah, pengekodan ini hanya mengandungi huruf Latin dan yang digunakan dalam bahasa Inggeris. Terdapat juga simbol aritmetik dan perkhidmatan lain. Tetapi tidak ada huruf Rusia, mahupun huruf Latin khas untuk bahasa Jerman atau Perancis. Ini mudah dijelaskan - pengekodan telah dibangunkan secara khusus sebagai standard Amerika. Apabila komputer mula digunakan di seluruh dunia, aksara lain perlu dikodkan.

Untuk melakukan ini, ia telah memutuskan untuk menggunakan bit kelapan dalam setiap bait. Ini menjadikan 128 lagi nilai tersedia (dari 80 hingga FF) yang boleh digunakan untuk mengekod aksara. Yang pertama daripada jadual lapan-bit - "ASCII lanjutan" ( Extended ASCII) - termasuk pelbagai varian aksara Latin yang digunakan dalam beberapa bahasa di Eropah Barat. Ia juga mengandungi simbol tambahan lain, termasuk pseudografik.

Aksara pseudografik membolehkan anda menyediakan beberapa rupa grafik dengan hanya memaparkan aksara teks pada skrin. Sebagai contoh, program pengurusan fail FAR Manager berfungsi menggunakan pseudografik.

Tiada huruf Rusia dalam jadual ASCII Lanjutan. Rusia (dahulunya USSR) dan negara lain mencipta pengekodan mereka sendiri yang memungkinkan untuk mewakili aksara "kebangsaan" tertentu dalam fail teks 8-bit - huruf Latin bahasa Poland dan Czech, Cyrillic (termasuk huruf Rusia) dan abjad lain.

Dalam semua pengekodan yang telah tersebar luas, 127 aksara pertama (iaitu, nilai bait dengan bit kelapan bersamaan dengan 0) adalah sama dengan ASCII. Jadi fail ASCII berfungsi dalam salah satu pengekodan ini; Huruf-huruf bahasa Inggeris diwakili dengan cara yang sama.

Organisasi ISO (International Standardization Organization) telah menerima pakai kumpulan standard ISO 8859. Ia mentakrifkan pengekodan 8-bit untuk kumpulan bahasa yang berbeza. Jadi, ISO 8859-1 ialah jadual ASCII Lanjutan untuk Amerika Syarikat dan Eropah Barat. Dan ISO 8859-5 ialah jadual untuk abjad Cyrillic (termasuk Rusia).

Walau bagaimanapun, atas sebab sejarah, pengekodan ISO 8859-5 tidak berakar umbi. Pada hakikatnya, pengekodan berikut digunakan untuk bahasa Rusia:

Kod Halaman 866 (CP866), aka "DOS", aka "pengekodan GOST alternatif". Digunakan secara meluas sehingga pertengahan 90-an; kini digunakan pada tahap yang terhad. Hampir tidak digunakan untuk mengedarkan teks di Internet.
- KOI-8. Dibangunkan pada tahun 70-80an. Ia adalah piawaian yang diterima umum untuk menghantar mesej e-mel di Internet Rusia. Ia juga digunakan secara meluas dalam sistem pengendalian keluarga Unix, termasuk Linux. Versi bahasa Rusia KOI-8 dipanggil KOI-8R; Terdapat versi untuk bahasa Cyrillic lain (contohnya, KOI8-U ialah versi untuk bahasa Ukraine).
- Halaman Kod 1251, CP1251, Windows-1251. Dibangunkan oleh Microsoft untuk menyokong bahasa Rusia dalam Windows.

Kelebihan utama CP866 ialah pengekalan aksara pseudo-grafik di tempat yang sama seperti dalam Extended ASCII; oleh itu, program teks asing, sebagai contoh, Norton Commander yang terkenal, boleh berfungsi tanpa perubahan. CP866 kini digunakan untuk program Windows yang dijalankan dalam tetingkap teks atau mod teks skrin penuh, termasuk FAR Manager.

Teks dalam CP866 agak jarang berlaku sejak beberapa tahun kebelakangan ini (tetapi ia digunakan untuk mengekod nama fail Rusia dalam Windows). Oleh itu, kami akan membincangkan dengan lebih terperinci mengenai dua pengekodan lain - KOI-8R dan CP1251.

Seperti yang anda lihat, dalam jadual pengekodan CP1251, huruf Rusia disusun dalam susunan abjad (dengan pengecualian, bagaimanapun, huruf E). Susunan ini memudahkan atur cara komputer untuk mengisih mengikut abjad.

Tetapi dalam KOI-8R susunan huruf Rusia kelihatan rawak. Tetapi sebenarnya tidak.

Dalam banyak program lama, bit ke-8 telah hilang semasa memproses atau menghantar teks. (Kini program sedemikian boleh dikatakan "pupus", tetapi pada akhir 80-an - awal 90-an mereka tersebar luas). Untuk mendapatkan nilai 7-bit daripada nilai 8-bit, hanya tolak 8 daripada digit paling ketara; sebagai contoh, E1 menjadi 61.

Sekarang bandingkan KOI-8R dengan jadual ASCII (Jadual 1). Anda akan mendapati bahawa huruf Rusia diletakkan dalam surat-menyurat yang jelas dengan huruf Latin. Jika bit kelapan hilang, huruf kecil Rusia bertukar menjadi huruf Latin besar, dan huruf Rusia besar bertukar menjadi huruf Latin huruf kecil. Jadi, E1 dalam KOI-8 ialah "A" Rusia, manakala 61 dalam ASCII ialah "a" Latin.

Jadi, KOI-8 membolehkan anda mengekalkan kebolehbacaan teks Rusia apabila bit ke-8 hilang. "Hello semua" menjadi "WSEM pRIWET".

Baru-baru ini, kedua-dua susunan abjad aksara dalam jadual pengekodan dan kebolehbacaan dengan kehilangan bit ke-8 telah kehilangan kepentingannya yang menentukan. Bit kelapan dalam komputer moden tidak hilang semasa penghantaran atau pemprosesan. Dan pengisihan abjad dilakukan dengan mengambil kira pengekodan, dan bukan dengan hanya membandingkan kod. (Dengan cara ini, kod CP1251 tidak disusun sepenuhnya mengikut abjad - huruf E tidak berada di tempatnya).

Disebabkan fakta bahawa terdapat dua pengekodan biasa, apabila bekerja dengan Internet (mel, melayari laman web), anda kadang-kadang dapat melihat set huruf yang tidak bermakna dan bukannya teks Rusia. Contohnya, "SAYA SBYUFEMHEL." Ini hanyalah perkataan "dengan hormat"; tetapi ia telah dikodkan dalam pengekodan CP1251, dan komputer menyahkod teks menggunakan jadual KOI-8. Jika perkataan yang sama, sebaliknya, dikodkan dalam KOI-8, dan komputer menyahkod teks mengikut jadual CP1251, hasilnya akan menjadi "U HCHBTSEOYEN".

Kadang-kadang ia berlaku bahawa komputer mentafsir huruf bahasa Rusia menggunakan jadual yang tidak dimaksudkan untuk bahasa Rusia. Kemudian, bukannya huruf Rusia, satu set simbol yang tidak bermakna muncul (contohnya, huruf Latin bahasa Eropah Timur); mereka sering dipanggil "crocozybras".

Dalam kebanyakan kes, program moden mengatasi penentuan pengekodan dokumen Internet (e-mel dan halaman Web) secara bebas. Tetapi kadang-kadang mereka "misfire", dan kemudian anda dapat melihat urutan aneh huruf Rusia atau "krokozyabry". Sebagai peraturan, dalam keadaan sedemikian, untuk memaparkan teks sebenar pada skrin, sudah cukup untuk memilih pengekodan secara manual dalam menu program.

Maklumat daripada halaman http://open-office.edusite.ru/TextProcessor/p5aa1.html telah digunakan untuk artikel ini.

Bahan yang diambil dari tapak:

Rahsia saya

Jadual kod binari Ascii. Pengekodan maklumat teks

Kami mengesyorkan

Pembolehubah Pembolehubah dalam sql

Mendayakan pengesahan automatik pertukaran pada Steam

Pengekalan item di Steam Mengapakah terdapat kelewatan 15 hari dalam pertukaran di Steam?

Apa yang perlu dilakukan jika kad pengangkutan Strelka tidak berfungsi

program pembangunan diri ty-step

Tema untuk Android Pek ikon yang lebih baik untuk Android

Litar suis input audio

Kemas kini Kv ke windows 10

Bagaimana untuk memadamkan rakan dalam kenalan

Tetapan semula kilang Alcatel, tetapan semula kata laluan Mengemas kini perisian anda

Resolusi, perlindungan paparan

Pemacu teXet X telefon pintar luar jalan: berenang dengan timun, memandu "Boomer" ketujuh dan banyak lagi Komunikasi dan penderia

Urus senarai kenalan anda yang disekat dalam Viber

Jam tangan elektronik USSR Daripada jam tangan "secara umum" kepada jam tangan "khususnya"

Bagaimana untuk memasukkan akaun peribadi megafon anda daripada komputer, telefon dan tablet Gabungan untuk memasukkan akaun peribadi megafon anda

Menetapkan semula Kata Laluan Pentadbir Mac OS

Bagaimana untuk menghasilkan kata laluan yang kuat dan menjadikannya mudah diingati

YouTube Creative Studio: apakah itu, cara masuk dan cara bekerja

Menambah emotikon pada blog WordPress tanpa pemalam

Program percuma untuk muat turun Windows secara percuma Kemas kini win 10 kepada versi terkini

Pembolehubah Pembolehubah dalam sql

Mendayakan pengesahan automatik pertukaran pada Steam

Pengekalan item di Steam Mengapakah terdapat kelewatan 15 hari dalam pertukaran di Steam?

Apa yang perlu dilakukan jika kad pengangkutan Strelka tidak berfungsi

program pembangunan diri ty-step