Jadual kod ascii dalam sistem binari. Pengekodan ASCII (kod standard Amerika untuk pertukaran maklumat) - pengekodan teks asas untuk abjad Latin

Unicode (Unicode dalam bahasa Inggeris) ialah standard pengekodan aksara. Ringkasnya, ini ialah jadual surat-menyurat antara aksara teks ( , huruf, elemen tanda baca) kod binari. Komputer hanya memahami urutan sifar dan satu. Supaya ia tahu apa sebenarnya yang perlu dipaparkan pada skrin, adalah perlu untuk menetapkan setiap watak nombor uniknya sendiri. Pada tahun lapan puluhan, aksara telah dikodkan dalam satu bait, iaitu lapan bit (setiap bit ialah 0 atau 1). Oleh itu, ternyata satu jadual (aka pengekodan atau set) hanya boleh memuatkan 256 aksara. Ini mungkin tidak mencukupi walaupun untuk satu bahasa. Oleh itu, banyak pengekodan berbeza muncul, kekeliruan yang sering menyebabkan beberapa omong kosong aneh muncul pada skrin dan bukannya teks yang boleh dibaca. Satu standard diperlukan, iaitu Unicode menjadi. Pengekodan yang paling banyak digunakan ialah UTF-8 (Format Transformasi Unikod), yang menggunakan 1 hingga 4 bait untuk mewakili aksara.

Simbol

Aksara dalam jadual Unicode dinomborkan dengan nombor perenambelasan. Sebagai contoh, huruf besar Cyrillic M ditetapkan sebagai U+041C. Ini bermakna ia terletak di persimpangan baris 041 dan lajur C. Anda hanya boleh menyalinnya dan kemudian menampalnya di suatu tempat. Untuk tidak menyelongkar senarai berbilang kilometer, anda harus menggunakan carian. Apabila anda pergi ke halaman simbol, anda akan melihat nombor Unikodnya dan cara ia ditulis dalam fon yang berbeza. Anda boleh memasukkan tanda itu sendiri ke dalam bar carian, walaupun segi empat sama dilukis sebaliknya, sekurang-kurangnya untuk mengetahui perkara itu. Juga, di laman web ini terdapat set khas (dan rawak) daripada jenis ikon yang sama, dikumpulkan dari bahagian yang berbeza, untuk kemudahan penggunaan.

Piawaian Unicode adalah antarabangsa. Ia termasuk watak dari hampir semua skrip dunia. Termasuk yang tidak digunakan lagi. Hieroglif Mesir, rune Jerman, tulisan Maya, cuneiform dan abjad negeri purba. Penetapan berat dan sukatan, notasi muzik, dan konsep matematik juga dibentangkan.

Konsortium Unicode sendiri tidak mencipta aksara baharu. Ikon yang didapati digunakan dalam masyarakat ditambahkan pada jadual. Sebagai contoh, tanda ruble telah digunakan secara aktif selama enam tahun sebelum ia ditambahkan pada Unicode. Piktogram emoji (emotikon) juga pertama kali digunakan secara meluas di Jepun sebelum ia dimasukkan dalam pengekodan. Tetapi tanda dagangan dan logo syarikat tidak ditambah pada dasarnya. Malah yang biasa seperti epal Apple atau bendera Windows. Sehingga kini, kira-kira 120 ribu aksara dikodkan dalam versi 8.0.

Dis	Hex	Simbol	Dis	Hex	Simbol
000	00	pakar. TIDAK	128	80	Ђ
001	01	pakar. SOH	129	81	Ѓ
002	02	pakar. STX	130	82	‚
003	03	pakar. ETX	131	83	ѓ
004	04	pakar. EOT	132	84	„
005	05	pakar. ENQ	133	85	…
006	06	pakar. ACK	134	86	†
007	07	pakar. BEL	135	87	‡
008	08	pakar. B.S.	136	88	€
009	09	pakar. TAB	137	89	‰
010	0A	pakar. LF	138	8A	Љ
011	0B	pakar. VT	139	8B	‹ ‹
012	0C	pakar. FF	140	8C	Њ
013	0D	pakar. CR	141	8D	Ќ
014	0E	pakar. JADI	142	8E	Ћ
015	0F	pakar. S.I.	143	8F	Џ
016	10	pakar. DLE	144	90	ђ
017	11	pakar. DC1	145	91	‘
018	12	pakar. DC2	146	92	’
019	13	pakar. DC3	147	93	“
020	14	pakar. DC4	148	94	”
021	15	pakar. N.A.K.	149	95
022	16	pakar. SYN	150	96	–
023	17	pakar. ETB	151	97	—
024	18	pakar. BOLEH	152	98
025	19	pakar. E.M.	153	99	™
026	1A	pakar. SUB	154	9A	љ
027	1B	pakar. ESC	155	9B	›
028	1C	pakar. FS	156	9C	њ
029	1D	pakar. G.S.	157	9D	ќ
030	1E	pakar. R.S.	158	9E	ћ
031	1F	pakar. AS	159	9F	џ
032	20	klac SP (Angkasa)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Yo
041	29	)	169	A9	©
042	2A	*	170	A.A.	Є
043	2B	+	171	AB	«
044	2C	,	172	A.C.	¬
045	2D	-	173	AD
046	2E	.	174	A.E.	®
047	2F	/	175	A.F.	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	e
057	39	9	185	B9	№
058	3A	:	186	B.A.	є
059	3B	;	187	BB	»
060	3C	<	188	B.C.	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	JADILAH	ѕ
063	3F	?	191	B.F.	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	DALAM
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	DAN
071	47	G	199	C7	Z
072	48	H	200	C8	DAN
073	49	saya	201	C9	Y
074	4A	J	202	C.A.	KEPADA
075	4B	K	203	C.B.	L
076	4C	L	204	CC	M
077	4D	M	205	CD	N
078	4E	N	206	C.E.	TENTANG
079	4F	O	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	DENGAN
082	52	R	210	D2	T
083	53	S	211	D3	U
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	V	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	Sh
089	59	Y	217	D9	SCH
090	5A	Z	218	D.A.	Kommersant
091	5B	[	219	D.B.	Y
092	5C	\	220	DC	b
093	5D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	DF	saya
096	60	`	224	E0	A
097	61	a	225	E1	b
098	62	b	226	E2	V
099	63	c	227	E3	G
100	64	d	228	E4	d
101	65	e	229	E5	e
102	66	f	230	E6	dan
103	67	g	231	E7	h
104	68	h	232	E8	Dan
105	69	i	233	E9	ke
106	6A	j	234	E.A.	Kepada
107	6B	k	235	E.B.	l
108	6C	l	236	E.C.	m
109	6D	m	237	ED	n
110	6E	n	238	E.E.	O
111	6F	o	239	E.F.	P
112	70	hlm	240	F0	R
113	71	q	241	F1	Dengan
114	72	r	242	F2	T
115	73	s	243	F3	di
116	74	t	244	F4	f
117	75	u	245	F5	X
118	76	v	246	F6	ts
119	77	w	247	F7	h
120	78	x	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	F.A.	ъ
123	7B	{	251	FB	s
124	7C	\|	252	F.C.	b
125	7D	}	253	FD	eh
126	7E	~	254	F.E.	Yu
127	7F	Pakar. DEL	255	FF	saya

Jadual kod aksara Windows ASCII.
Perihalan watak khas (kawalan).

Perlu diingatkan bahawa aksara kawalan jadual ASCII pada asalnya digunakan untuk memastikan pertukaran data melalui teletypewriter, kemasukan data daripada pita tebuk, dan untuk kawalan mudah peranti luaran.
Pada masa ini, kebanyakan aksara kawalan jadual ASCII tidak lagi membawa beban ini dan boleh digunakan untuk tujuan lain.

Kod	Penerangan
NUL, 00	Null, kosong
SOH, 01	Permulaan Tajuk
STX, 02	Permulaan TeXt, permulaan teks.
ETX, 03	Tamat TeXt, akhir teks
EOT, 04	Tamat Penghantaran, tamat penghantaran
ENQ, 05	Tanya. Tolong sahkan
ACK, 06	Pengakuan. Saya mengesahkan
BEL, 07	Bell, panggil
BS, 08	Ruang belakang, kembali satu aksara
TAB, 09	Tab, tab mendatar
LF, 0A	Suapan Baris, suapan baris. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \n
VT, 0B	Tab Menegak, penjadualan menegak.
FF, 0C	Suapan Borang, suapan halaman, halaman baharu
CR, 0D	Pulang gerabak, pemulangan gerabak. Pada masa kini dalam kebanyakan bahasa pengaturcaraan ia dilambangkan sebagai \r
JADI,0E	Shift Out, tukar warna reben dakwat dalam peranti pencetakan
SI, 0F	Shift In, kembalikan warna reben dakwat dalam peranti pencetakan semula
DLE, 10	Data Link Escape, menukar saluran kepada penghantaran data
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Kawalan Peranti, simbol kawalan peranti
NAK, 15	Pengakuan Negatif, saya tidak mengesahkan.
SYN, 16	Penyegerakan. Simbol penyegerakan
ETB, 17	Tamat Blok Teks, hujung blok teks
BOLEH, 18	Batal, pembatalan yang dihantar sebelum ini
EM, 19	Akhir Sederhana
SUB, 1A	Pengganti, pengganti. Diletakkan di tempat simbol yang maknanya hilang atau rosak semasa penghantaran
ESC, 1B	Urutan Kawalan Melarikan Diri
FS, 1C	Pemisah Fail, pemisah fail
GS, 1D	Pemisah Kumpulan
RS, 1E	Pemisah Rekod, pemisah rekod
AS, 1F	Pemisah Unit
DEL, 7F	Padam, padam aksara terakhir.

Setiap komputer mempunyai set aksara sendiri yang dilaksanakannya. Set ini mengandungi 26 huruf besar dan kecil, nombor dan aksara khas (titik, ruang, dsb.). Apabila ditukar kepada integer, simbol dipanggil kod. Piawaian telah dibangunkan supaya komputer mempunyai set kod yang sama.

Piawaian ASCII

ASCII (American Standard Code for Information Interchange) ialah kod standard Amerika untuk pertukaran maklumat. Setiap aksara ASCII mempunyai 7 bit, jadi bilangan maksimum aksara ialah 128 (Jadual 1). Kod 0 hingga 1F ialah aksara kawalan yang tidak dicetak. Banyak aksara ASCII yang tidak boleh dicetak diperlukan untuk menghantar data. Sebagai contoh, mesej mungkin terdiri daripada aksara permulaan pengepala SOH, pengepala itu sendiri dan aksara permulaan teks STX, teks itu sendiri dan aksara akhir teks ETX, dan akhir penghantaran. watak EOT. Walau bagaimanapun, data melalui rangkaian dihantar dalam paket, yang bertanggungjawab untuk permulaan dan akhir penghantaran. Jadi aksara yang tidak boleh dicetak hampir tidak pernah digunakan.

Jadual 1 - Jadual kod ASCII

Nombor	Pasukan	Maknanya	Nombor	Pasukan	Maknanya
0	NUL	Penunjuk nol	10	DLE	Keluar dari sistem penghantaran
1	SOH	permulaan tajuk	11	DC1	Pengurusan peranti
2	STX	Permulaan teks	12	DC2	Pengurusan peranti
3	ETX	Akhir teks	13	DC3	Pengurusan peranti
4	EOT	Tamat penghantaran	14	DC4	Pengurusan peranti
5	ACK	Permintaan	15	N.A.K.	Tidak pengesahan penerimaan
6	BEL	Pengesahan penerimaan	16	SYN	Mudah
7	B.S.	Simbol loceng	17	ETB	Tamat blok penghantaran
8	HT	Berundur	18	BOLEH	Tandakan
9	LF	Penjadualan mendatar	19	E.M.	Tamat media
A	VT	Terjemahan baris	1A	SUB	Subskrip
B	FF	Tab menegak	1B	ESC	Keluar
C	CR	Terjemahan halaman	1C	FS	Pemisah fail
D	JADI	Pulangan pengangkutan	1D	G.S.	Pemisah kumpulan
E	S.I.	Beralih ke daftar tambahan	1E	R.S.	Pemisah rekod
	S.I.	Tukar kepada kes standard	1F	AS	Pemisah modul

Nombor	Simbol	Nombor	Simbol	Nombor	Simbol	Nombor	Simbol	Nombor	Simbol	Nombor	Simbol
20	angkasa lepas	30	0	40	@	50	P	60	.	70	hlm
21	!	31	1	41	A	51	Q	61	a	71	q
22	‘	32	2	42	B	52	R	62	b	72	r
23	#	33	3	43	C	53	S	63	c	73	s
24	φ	34	4	44	D	54	T	64	d	74	t
25	%	35	5	45	E	55	DAN	65	e	75	Dan
26	&	36	6	46	F	56	V	66	f	76	v
27	‘	37	7	47	G	57	W	67	g	77	w
28	(	38	8	48	H	58	X	68	h	78	x
29	)	39	9	49	saya	59	Y	69	i	70	y
2A	‘	3A	;	4A	J	5A	Z	6A	j	7A	z
2B	+	3B	;	4B	K	5B	[	6B	k	7B	{
2C	‘	3C	<	4C	L	5C	\	6C	l	7C	\|
2D	—	3D	=	4D	M	5D	]	6D	m	7D	}
2E		3E	>	4E	N	5E	—	6E	n	7E	~
2F	/	3F	g	4F	O	5F	_	6F	o	7F	DEL

Piawaian Unicode

Pengekodan sebelumnya bagus untuk bahasa Inggeris, tetapi ia tidak sesuai untuk bahasa lain. Contohnya, bahasa Jerman mempunyai umlaut, dan bahasa Perancis mempunyai superskrip. Sesetengah bahasa mempunyai abjad yang sama sekali berbeza. Percubaan pertama untuk melanjutkan ASCII ialah IS646, yang melanjutkan pengekodan sebelumnya dengan tambahan 128 aksara. Huruf Latin dengan sebatan dan diakritik telah ditambah, dan menerima nama - Latin 1. Percubaan seterusnya ialah IS 8859 - yang mengandungi halaman kod. Terdapat juga percubaan pada sambungan, tetapi ini tidak universal. Pengekodan UNICODE telah dibuat (ialah 10646). Idea di sebalik pengekodan adalah untuk memberikan setiap aksara nilai 16-bit malar tunggal, yang dipanggil - penunjuk kod. Secara keseluruhan terdapat 65536 petunjuk. Untuk menjimatkan ruang, kami menggunakan Latin-1 untuk kod 0 -255, menukar ASII kepada UNICODE dengan mudah. Piawaian ini menyelesaikan banyak masalah, tetapi bukan semua. Disebabkan oleh kedatangan perkataan baru, contohnya, untuk bahasa Jepun, jumlah istilah perlu ditambah kira-kira 20 ribu. Ia juga perlu memasukkan braille.

Seperti yang anda ketahui, komputer menyimpan maklumat dalam bentuk binari, mewakilinya sebagai urutan satu dan sifar. Untuk menterjemah maklumat ke dalam bentuk yang sesuai untuk persepsi manusia, setiap urutan nombor unik digantikan dengan simbol yang sepadan apabila dipaparkan.

Salah satu sistem untuk mengaitkan kod binari dengan aksara bercetak dan kawalan ialah

Pada tahap perkembangan teknologi komputer semasa, pengguna tidak perlu mengetahui kod setiap watak tertentu. Walau bagaimanapun, pemahaman umum tentang cara pengekodan dijalankan amat berguna, dan untuk sesetengah kategori pakar, malah diperlukan.

Mencipta ASCII

Pengekodan pada asalnya dibangunkan pada tahun 1963 dan kemudian dikemas kini dua kali dalam tempoh 25 tahun.

Dalam versi asal, jadual aksara ASCII termasuk 128 aksara; kemudian versi lanjutan muncul, di mana 128 aksara pertama telah disimpan, dan aksara yang hilang sebelum ini diberikan kepada kod dengan bit kelapan terlibat.

Selama bertahun-tahun, pengekodan ini adalah yang paling popular di dunia. Pada tahun 2006, Latin 1252 mengambil kedudukan utama, dan dari penghujung tahun 2007 hingga kini, Unicode telah memegang kedudukan utama dengan kukuh.

Perwakilan komputer ASCII

Setiap aksara ASCII mempunyai kodnya sendiri, terdiri daripada 8 aksara yang mewakili sifar atau satu. Nombor minimum dalam perwakilan ini ialah sifar (lapan sifar dalam sistem binari), iaitu kod elemen pertama dalam jadual.

Dua kod dalam jadual telah dikhaskan untuk bertukar antara AS-ASCII standard dan varian nasionalnya.

Selepas ASCII mula memasukkan bukan 128, tetapi 256 aksara, varian pengekodan menjadi meluas, di mana versi asal jadual disimpan dalam 128 kod pertama dengan sifar bit ke-8. Aksara bertulis kebangsaan disimpan di bahagian atas jadual (kedudukan 128-255).

Pengguna tidak perlu mengetahui kod aksara ASCII secara langsung. Pembangun perisian biasanya hanya perlu mengetahui nombor elemen dalam jadual untuk mengira kodnya menggunakan sistem binari jika perlu.

Bahasa Rusia

Selepas pembangunan pengekodan untuk bahasa Scandinavia, Cina, Korea, Yunani, dll. pada awal 70-an, Kesatuan Soviet mula mencipta versinya sendiri. Tidak lama kemudian, versi pengekodan 8-bit yang dipanggil KOI8 telah dibangunkan, mengekalkan 128 kod aksara ASCII yang pertama dan memperuntukkan bilangan kedudukan yang sama untuk huruf abjad kebangsaan dan aksara tambahan.

Sebelum pengenalan Unicode, KOI8 menguasai segmen Internet Rusia. Terdapat pilihan pengekodan untuk kedua-dua abjad Rusia dan Ukraine.

masalah ASCII

Memandangkan bilangan elemen walaupun dalam jadual lanjutan tidak melebihi 256, tidak ada kemungkinan untuk menampung beberapa skrip berbeza dalam satu pengekodan. Pada tahun 90-an, masalah "crocozyabr" muncul di Runet, apabila teks yang ditaip dalam aksara ASCII Rusia dipaparkan dengan tidak betul.

Masalahnya ialah kod ASCII yang berbeza tidak sepadan antara satu sama lain. Mari kita ingat bahawa pelbagai aksara boleh ditempatkan di kedudukan 128-255, dan apabila menukar satu pengekodan Cyrillic kepada yang lain, semua huruf teks digantikan dengan yang lain yang mempunyai nombor yang sama dalam versi pengekodan yang berbeza.

Keadaan sekarang

Dengan kemunculan Unicode, populariti ASCII mula merosot dengan mendadak.

Sebabnya terletak pada hakikat bahawa pengekodan baharu memungkinkan untuk menampung aksara daripada hampir semua bahasa bertulis. Dalam kes ini, 128 aksara ASCII yang pertama sepadan dengan aksara yang sama dalam Unicode.

Pada tahun 2000, ASCII ialah pengekodan paling popular di Internet dan digunakan pada 60% halaman web yang diindeks oleh Google. Menjelang 2012, bahagian halaman sedemikian telah menurun kepada 17%, dan Unicode (UTF-8) menggantikan pengekodan yang paling popular.

Oleh itu, ASCII adalah bahagian penting dalam sejarah teknologi maklumat, tetapi penggunaannya pada masa hadapan nampaknya tidak menjanjikan.

Mari kita ingat beberapa fakta yang kita tahu:

Set simbol yang digunakan untuk menulis teks dipanggil abjad.

Bilangan aksara dalam abjad ialah kardinalitinya.

Formula untuk menentukan jumlah maklumat: N = 2 b,

di mana N ialah kuasa abjad (bilangan aksara),

b - bilangan bit (berat maklumat simbol).

Abjad, dengan kapasiti 256 aksara, boleh memuatkan hampir semua aksara yang diperlukan. Abjad sedemikian dipanggil mencukupi.

Kerana 256 = 2 8 , maka berat 1 aksara ialah 8 bit.

Unit ukuran 8 bit diberi nama 1 bait:

1 bait = 8 bit.

Kod binari setiap aksara dalam teks komputer mengambil 1 bait memori.

Bagaimanakah maklumat teks diwakili dalam ingatan komputer?

Pengekodan terdiri daripada memberikan setiap aksara kod perpuluhan unik dari 0 hingga 255 atau kod binari yang sepadan dari 00000000 hingga 11111111. Oleh itu, seseorang membezakan aksara dengan garis besarnya dan komputer dengan kodnya.

Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.

Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara.

Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.

Jadual ASCII telah menjadi piawaian antarabangsa untuk PC (baca tanya) (Kod Standard Amerika untuk Pertukaran Maklumat).

Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).

Nombor siri		Simbol
	00000000 - 00011111	Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Separuh kedua jadual kod ASCII, dipanggil halaman kod (128 kod, bermula dengan 10000000 dan berakhir dengan 11111111), boleh mempunyai varian yang berbeza, setiap varian mempunyai nombor sendiri.

Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.

Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251.

Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode . Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode merangkumi semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.

Mari cuba gunakan jadual ASCII untuk bayangkan rupa perkataan dalam ingatan komputer.

Kata-kata

Ingatan

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Apabila memasukkan maklumat teks ke dalam komputer, aksara (huruf, nombor, tanda) dikodkan menggunakan pelbagai sistem kod, yang terdiri daripada satu set jadual kod yang terletak pada halaman piawaian yang sepadan untuk pengekodan maklumat teks. Dalam jadual sedemikian, setiap aksara diberikan kod berangka tertentu dalam sistem nombor perenambelasan atau perpuluhan, iaitu, jadual kod menggambarkan kesesuaian antara imej simbol dan kod angka dan bertujuan untuk pengekodan dan penyahkodan maklumat teks. Apabila memasukkan maklumat teks menggunakan papan kekunci komputer, setiap aksara yang dimasukkan dikodkan, iaitu, ditukar kepada kod angka; apabila maklumat teks dikeluarkan kepada peranti output komputer (paparan, pencetak atau plotter), imejnya dibina menggunakan kod angka watak. Penyerahan kod berangka tertentu kepada simbol adalah hasil perjanjian antara organisasi berkaitan di negara yang berbeza. Pada masa ini, tiada satu jadual kod universal yang sepadan dengan huruf abjad kebangsaan negara yang berbeza.

Jadual kod moden termasuk bahagian antarabangsa dan kebangsaan, iaitu ia mengandungi huruf Latin dan abjad kebangsaan, nombor, operasi aritmetik dan tanda baca, simbol matematik dan kawalan, dan simbol pseudografik. Bahagian antarabangsa jadual kod berdasarkan standard ASCII (Kod Standard Amerika untuk Pertukaran Maklumat), mengekod separuh pertama aksara dalam jadual kod dengan kod angka dari 0 hingga 7 F 16, atau dalam sistem nombor perpuluhan dari 0 hingga 127. Dalam kes ini, kod dari 0 hingga 20 16 (0 ? 32 10) diberikan kepada kekunci fungsi (F1, F2, F3, dsb.) papan kekunci komputer peribadi. Dalam Rajah. 3.1 menunjukkan bahagian antarabangsa jadual kod berdasarkan standard ASCII. Sel jadual dinomborkan dalam sistem nombor perpuluhan dan heksadesimal, masing-masing.

Rajah 3.1. Bahagian antarabangsa jadual kod (standard ASCII) dengan nombor sel dipersembahkan dalam sistem nombor perpuluhan (a) dan heksadesimal (b).

Bahagian kebangsaan jadual kod mengandungi kod abjad kebangsaan, yang juga dipanggil jadual set aksara (set aksara).

Pada masa ini, untuk menyokong huruf abjad Rusia (Cyrillic), terdapat beberapa jadual kod (pengekodan) yang digunakan oleh pelbagai sistem pengendalian, yang merupakan kelemahan yang ketara dan dalam beberapa kes membawa kepada masalah yang berkaitan dengan operasi penyahkodan nilai aksara angka. Dalam jadual 3.1 menunjukkan nama halaman kod (standard) di mana jadual kod Cyrillic (pengekodan) terletak.

Jadual 3.1

Salah satu piawaian pertama untuk pengekodan abjad Cyrillic pada komputer ialah standard KOI8-R. Bahagian kebangsaan jadual kod piawaian ini ditunjukkan dalam Rajah. 3.2.

nasi. 3.2. Bahagian kebangsaan jadual kod standard KOI8-R

Pada masa ini, jadual kod yang terletak pada halaman CP866 standard pengekodan maklumat teks, yang digunakan dalam sistem pengendalian, juga digunakan MS DOS atau sesi MS DOS untuk pengekodan abjad Cyrillic (Rajah 3.3, A).

nasi. 3.3. Bahagian kebangsaan jadual kod, terletak pada halaman CP866 (a) dan pada halaman CP1251 (b) standard pengekodan maklumat teks

Pada masa ini, jadual kod yang paling banyak digunakan untuk pengekodan abjad Cyrillic terletak pada halaman CP1251 standard yang sepadan, yang digunakan dalam sistem pengendalian keluarga Windows syarikat Microsoft(Gamb. 3.2, b). Dalam semua jadual kod yang dibentangkan, kecuali jadual standard Unicode Untuk mengekod satu aksara, 8 digit binari (8 bit) diperuntukkan.

Pada penghujung abad yang lalu, satu piawaian antarabangsa baru muncul Unicode di mana satu aksara diwakili sebagai kod binari dua bait. Penggunaan piawaian ini adalah kesinambungan pembangunan piawaian antarabangsa sejagat untuk menyelesaikan masalah keserasian pengekodan aksara kebangsaan. Menggunakan standard ini, 2 16 = 65536 aksara berbeza boleh dikodkan. Dalam Rajah. 3.4 menunjukkan jadual kod 0400 (abjad Rusia) standard Unicode.

nasi. 3.4. Jadual kod Unicode 0400

Mari kita terangkan apa yang telah diperkatakan mengenai pengekodan maklumat teks menggunakan contoh.

Contoh 3.1

Kod perkataan "Komputer" sebagai jujukan nombor perpuluhan dan heksadesimal menggunakan pengekodan CP1251. Apakah aksara yang akan dipaparkan dalam jadual kod CP866 dan KOI8-R apabila menggunakan kod yang diterima.

Urutan kod perenambelasan dan binari perkataan "Komputer" berdasarkan jadual pengekodan CP1251 (lihat Rajah 3.3, b) akan kelihatan seperti ini:

Urutan kod dalam pengekodan SR866 dan KOI8-R ini akan menghasilkan paparan aksara berikut:

Untuk menukar dokumen teks bahasa Rusia dari satu standard pengekodan maklumat teks kepada yang lain, program khas digunakan - penukar. Penukar biasanya dibina ke dalam program lain. Contohnya ialah program penyemak imbas - Internet Explorer (IE), yang mempunyai penukar terbina dalam. Program pelayar ialah program khas untuk melihat kandungan. laman sesawang pada rangkaian komputer global Internet. Mari gunakan program ini untuk mengesahkan hasil pemetaan simbol yang diperolehi dalam contoh 3.1. Untuk melakukan ini, kami akan melakukan langkah-langkah berikut.

1. Lancarkan program Notepad (NotePad). Program Notepad dalam sistem pengendalian Windows XP dilancarkan menggunakan arahan: [Button Mulakan– Program – Standard – Notepad]. Dalam tetingkap program Notepad yang terbuka, taip perkataan "Komputer" menggunakan sintaks bahasa penanda dokumen hiperteks - HTML (Bahasa Penanda Teks Hiper). Bahasa ini digunakan untuk membuat dokumen di Internet. Teks sepatutnya kelihatan seperti ini:

Computerwater

, Di mana

Dan

tag (binaan khas) bahasa HTML untuk penanda pengepala. Dalam Rajah. Rajah 3.5 menunjukkan keputusan tindakan ini.

nasi. 3.5. Memaparkan teks dalam tetingkap Notepad

Mari kita simpan teks ini dengan melaksanakan arahan: [Fail - Simpan sebagai...] dalam folder yang sesuai pada komputer; apabila menyimpan teks, kami akan memberi nama fail - Nota, dengan sambungan fail. html.

2. Jom lancarkan program Internet Explorer, dengan melaksanakan arahan: [Button Mulakan- Program - Internet Explorer]. Apabila anda memulakan program, tetingkap yang ditunjukkan dalam Rajah. 3.6

nasi. 3.6. Tetingkap akses luar talian

Pilih dan aktifkan butang Luar talian Dalam kes ini, komputer tidak akan bersambung ke Internet global. Tetingkap program utama akan muncul Microsoft Internet Explorer, ditunjukkan dalam Rajah. 3.7.

nasi. 3.7. Tetingkap utama Microsoft Internet Explorer

Mari laksanakan arahan berikut: [Fail – Buka], tetingkap akan muncul (Gamb. 3.8), di mana anda perlu menentukan nama fail dan klik butang okey atau tekan butang Semak… dan cari fail Prim.html.

nasi. 3.8. Buka tingkap

Tetingkap utama program Internet Explorer akan mengambil bentuk yang ditunjukkan dalam Rajah. 3.9. Perkataan "Komputer" akan muncul dalam tetingkap. Seterusnya, menggunakan menu atas program Internet Explorer, jalankan arahan berikut: [View – Encoding – Cyrillic (DOS)]. Selepas melaksanakan arahan ini dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah. akan dipaparkan. 3.10. Apabila melaksanakan arahan: [Lihat – Pengekodan – Cyrillic (KOI8-R) ] dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah. akan dipaparkan. 3.11.

nasi. 3.9. Aksara dipaparkan dengan pengekodan CP1251

nasi. 3.10. Aksara dipaparkan apabila pengekodan CP866 didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251

nasi. 3.11. Aksara dipaparkan apabila pengekodan KOI8-R didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251

Oleh itu, diperolehi menggunakan program internet Explorer jujukan aksara bertepatan dengan jujukan aksara yang diperoleh menggunakan jadual kod CP866 dan KOI8-R dalam contoh 3.1.

3.2. Pengekodan maklumat grafik

Maklumat grafik yang dipersembahkan dalam bentuk gambar, gambar, slaid, imej bergerak (animasi, video), gambar rajah, lukisan boleh dibuat dan disunting menggunakan komputer, dan ia dikodkan dengan sewajarnya. Pada masa ini, terdapat sejumlah besar program aplikasi untuk memproses maklumat grafik, tetapi semuanya melaksanakan tiga jenis grafik komputer: raster, vektor dan fraktal.

Jika anda melihat lebih dekat pada imej grafik pada skrin monitor komputer, anda boleh melihat sejumlah besar titik berbilang warna (piksel - dari bahasa Inggeris. piksel berpendidikan daripada elemen gambar - elemen imej), yang, apabila dikumpulkan bersama, membentuk imej grafik yang diberikan. Daripada ini kita boleh membuat kesimpulan: imej grafik pada komputer dikodkan dengan cara tertentu dan mesti dibentangkan dalam bentuk fail grafik. Fail ialah unit struktur asas untuk mengatur dan menyimpan data pada komputer dan, dalam kes ini, mesti mengandungi maklumat tentang cara membentangkan set mata ini pada skrin monitor.

Fail yang dibuat berdasarkan grafik vektor mengandungi maklumat dalam bentuk hubungan matematik (fungsi matematik yang menerangkan hubungan linear) dan data yang sepadan tentang cara membina imej objek menggunakan segmen garisan (vektor) apabila dipaparkan pada monitor komputer.

Fail yang dibuat berdasarkan grafik raster memerlukan penyimpanan data tentang setiap titik individu dalam imej. Untuk memaparkan grafik raster, pengiraan matematik yang kompleks tidak diperlukan; cukup untuk mendapatkan data mengenai setiap titik imej (koordinat dan warnanya) dan memaparkannya pada skrin monitor komputer.

Semasa proses pengekodan, imej didiskritkan secara spatial, iaitu, imej dibahagikan kepada titik individu dan setiap titik diberi kod warna (kuning, merah, biru, dll.). Untuk mengekod setiap titik imej grafik berwarna, prinsip penguraian warna sewenang-wenang ke dalam komponen utamanya digunakan, yang mana tiga warna utama digunakan: merah (perkataan Inggeris merah, dilambangkan dengan huruf KEPADA), hijau (Hijau, dilambangkan dengan huruf G), biru (Biru, dilambangkan dengan beech DALAM). Mana-mana warna titik yang dilihat oleh mata manusia boleh diperolehi dengan tambahan (berkadar) tambahan (pencampuran) tiga warna utama - merah, hijau dan biru. Sistem pengekodan ini dipanggil sistem warna RGB. Fail grafik yang menggunakan sistem warna RGB mewakili setiap titik imej sebagai triplet warna - tiga nilai berangka R, G Dan DALAM, keamatan sepadan warna merah, hijau dan biru. Proses pengekodan imej grafik dijalankan menggunakan pelbagai cara teknikal (pengimbas, kamera digital, kamera video digital, dll.); hasilnya ialah imej raster. Apabila menghasilkan semula imej grafik berwarna pada monitor komputer berwarna, warna setiap titik (piksel) imej sedemikian diperoleh dengan mencampurkan tiga warna utama R,G Dan B.

Kualiti imej raster ditentukan oleh dua parameter utama - resolusi (bilangan piksel secara mendatar dan menegak) dan palet warna yang digunakan (bilangan warna yang ditentukan untuk setiap piksel dalam imej). Resolusi ditentukan dengan menunjukkan bilangan piksel secara mendatar dan menegak, contohnya 800 x 600 piksel.

Terdapat hubungan antara bilangan warna yang diberikan kepada titik dalam imej raster dan jumlah maklumat yang mesti diperuntukkan untuk menyimpan warna titik, ditentukan oleh perhubungan (rumus R. Hartley):

di mana saya– jumlah maklumat; N – bilangan warna yang diberikan kepada titik.

Jumlah maklumat yang diperlukan untuk menyimpan warna titik juga dipanggil kedalaman warna, atau kualiti pemaparan warna.

Jadi, jika bilangan warna yang dinyatakan untuk titik imej ialah N= 256, maka jumlah maklumat yang diperlukan untuk penyimpanannya (kedalaman warna) mengikut formula (3.1) akan sama dengan saya= 8 bit.

Komputer menggunakan pelbagai mod grafik monitor untuk memaparkan maklumat grafik. Perlu diingatkan di sini bahawa sebagai tambahan kepada mod grafik monitor, terdapat juga mod teks, di mana skrin monitor secara konvensional dibahagikan kepada 25 baris 80 aksara setiap baris. Mod grafik ini dicirikan oleh resolusi skrin monitor dan kualiti warna (kedalaman warna). Untuk menetapkan mod grafik skrin monitor dalam sistem pengendalian MS Windows XP anda perlu melaksanakan arahan: [Button Mulakan– Tetapan – Panel Kawalan – Skrin]. Dalam kotak dialog "Properties: Skrin" yang muncul (Rajah 3.12), anda mesti memilih tab "Parameter" dan menggunakan peluncur "Resolusi Skrin" untuk memilih resolusi skrin yang sesuai (800 x 600 piksel, 1024 x 768 piksel, dan lain-lain.). Menggunakan senarai juntai bawah "Kualiti warna", anda boleh memilih kedalaman warna - "Tertinggi (32 bit)", "Sederhana (16 bit)", dsb., dan bilangan warna yang ditetapkan pada setiap titik dalam imej akan masing-masing menjadi 2 32 (4294967296), 2 16 (65536), dsb.

nasi. 3.12. Kotak Dialog Sifat Paparan

Untuk melaksanakan setiap mod grafik skrin monitor, sejumlah memori video komputer diperlukan. Jumlah maklumat yang diperlukan memori video (V) ditentukan daripada perkaitan

di mana KEPADA - bilangan titik imej pada skrin monitor (K = A · B); A - bilangan titik mendatar pada skrin monitor; DALAM - bilangan titik menegak pada skrin monitor; saya– jumlah maklumat (kedalaman warna).

Jadi, jika skrin monitor mempunyai resolusi 1024 x 768 piksel dan palet yang terdiri daripada 65,536 warna, maka kedalaman warna mengikut formula (3.1) adalah I = log 2 65,538 = 16 bit, jumlah piksel imej akan sama dengan: K = 1024 x 768 = 786432, dan jumlah maklumat yang diperlukan bagi memori video mengikut (3.2) akan sama dengan

V= 786432 · 16 bit = 12582912 bit = 1572864 bait = 1536 KB = 1.5 MB.

Sebagai kesimpulan, perlu diingatkan bahawa sebagai tambahan kepada ciri yang disenaraikan, ciri yang paling penting bagi monitor ialah dimensi geometri skrin dan titik imejnya. Dimensi geometri skrin ditentukan oleh saiz pepenjuru monitor. Saiz pepenjuru monitor dinyatakan dalam inci (1 inci = 1" = 25.4 mm) dan boleh mengambil nilai yang sama dengan: 14", 15", 17", 21", dll. Teknologi pengeluaran monitor moden boleh memberikan imej saiz titik sama dengan 0.22 mm.

Oleh itu, bagi setiap monitor terdapat resolusi skrin maksimum yang mungkin secara fizikal, ditentukan oleh saiz pepenjurunya dan saiz titik imej.

Latihan untuk dilakukan sendiri

1. Menggunakan program MS Excel tukar jadual kod ASCII, SR866, SR1251, KOI8-R kepada jadual dalam bentuk: dalam sel lajur pertama jadual tulis dalam susunan abjad huruf besar dan kemudian huruf kecil abjad Latin dan Cyrillic, dalam sel lajur kedua - kod yang sepadan dengan huruf dalam sistem nombor perpuluhan, dalam sel lajur ketiga ialah kod yang sepadan dengan huruf dalam sistem nombor heksadesimal. Nilai kod mesti dipilih daripada jadual kod yang sepadan.

2. Kod dan tulis perkataan berikut sebagai urutan nombor dalam sistem nombor perpuluhan dan perenambelasan:

a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Pengekodan dijalankan menggunakan jadual pengekodan ASCII moden yang diperolehi dalam latihan sebelumnya.

3. Menggunakan jadual pengekodan KOI8-R yang dimodenkan, nyahkod jujukan nombor yang ditulis dalam sistem nombor heksadesimal:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Bagaimanakah rupa perkataan "Cybernetics" yang ditulis dalam pengekodan SR1251 apabila menggunakan pengekodan SR866 dan KOI8-R? Semak keputusan menggunakan program Internet Explorer.

5. Menggunakan jadual kod yang ditunjukkan dalam Rajah. 3.1 A, menyahkod urutan kod berikut yang ditulis dalam sistem nombor binari:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Tentukan isipadu maklumat perkataan "Ekonomi", yang dikodkan menggunakan jadual kod SR866, SR1251, Unicode dan KOI8-R.

7. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna berukuran 12x12 cm Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 600 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 16 bit.

Resolusi pengimbas 600 dpi (inci titik - titik per inci) menentukan keupayaan pengimbas dengan resolusi ini untuk membezakan 600 titik pada segmen 1 inci.

8. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna bersaiz A4. Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 1200 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 24 bit.

9. Tentukan bilangan warna dalam palet pada kedalaman warna 8, 16, 24 dan 32 bit.

10. Tentukan jumlah memori video yang diperlukan untuk mod grafik skrin monitor 640 kali 480, 800 kali 600, 1024 kali 768 dan 1280 kali 1024 piksel dengan kedalaman warna piksel imej 8, 16, 24 dan 32 bit. Ringkaskan keputusan dalam jadual. Membangunkan dalam MS Excel program untuk mengautomasikan pengiraan.

11. Tentukan bilangan maksimum warna yang boleh digunakan untuk menyimpan imej berukuran 32 x 32 piksel, jika komputer mempunyai 2 KB memori yang diperuntukkan untuk imej.

12. Tentukan resolusi maksimum yang mungkin bagi skrin monitor dengan panjang pepenjuru 15" dan saiz titik imej 0.28 mm.

13. Apakah mod grafik monitor yang boleh disediakan oleh memori video 64 MB?

Kandungan

I. Sejarah pengekodan maklumat……………………………..3

II. Pengekodan maklumat……………………………………………………4

III. Pengekodan maklumat teks…………………………….4

IV. Jenis jadual pengekodan……………………………………………………...6

V. Pengiraan jumlah maklumat teks………………………………14

Senarai rujukan……………………………..16

saya . Sejarah pengekodan maklumat

Umat manusia telah menggunakan penyulitan teks (pengekodan) sejak saat maklumat rahsia pertama muncul. Berikut adalah beberapa teknik pengekodan teks yang dicipta pada pelbagai peringkat perkembangan pemikiran manusia:

Kriptografi ialah penulisan rahsia, sistem mengubah tulisan untuk membuat teks tidak dapat difahami oleh yang belum tahu;

Kod Morse atau kod telegraf tidak sekata, di mana setiap huruf atau tanda diwakili oleh gabungan sendiri letusan asas pendek arus elektrik (titik) dan letusan asas tempoh tiga kali ganda (sempang);

bahasa isyarat ialah bahasa isyarat yang digunakan oleh orang yang mempunyai masalah pendengaran.

Salah satu kaedah penyulitan yang paling awal diketahui dinamakan sempena nama maharaja Rom Julius Caesar (abad pertama SM). Kaedah ini berdasarkan menggantikan setiap huruf teks yang disulitkan dengan yang lain, dengan mengalihkan abjad daripada huruf asal dengan bilangan aksara tetap, dan abjad dibaca dalam bulatan, iaitu, selepas huruf i, a dianggap . Jadi perkataan "bait", apabila dialihkan dua aksara ke kanan, dikodkan sebagai perkataan "gwlf". Proses terbalik untuk mentafsir perkataan yang diberikan adalah perlu untuk menggantikan setiap huruf yang disulitkan dengan yang kedua di sebelah kirinya.

II. Pengekodan maklumat

Kod ialah satu set konvensyen (atau isyarat) untuk merekod (atau berkomunikasi) beberapa konsep yang telah ditetapkan.

Pengekodan maklumat ialah proses membentuk perwakilan maklumat tertentu. Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.

Biasanya, setiap imej semasa pengekodan (kadangkala dipanggil penyulitan) diwakili oleh tanda yang berasingan.

Tanda ialah unsur bagi satu set unsur terhingga yang berbeza antara satu sama lain.

Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.

Anda boleh memproses maklumat teks pada komputer. Apabila dimasukkan ke dalam komputer, setiap huruf dikodkan dengan nombor tertentu, dan apabila output ke peranti luaran (skrin atau cetakan), imej huruf dibina daripada nombor ini untuk persepsi manusia. Korespondensi antara satu set huruf dan nombor dipanggil pengekodan aksara.

Sebagai peraturan, semua nombor dalam komputer diwakili menggunakan sifar dan satu (bukan sepuluh digit, seperti biasa untuk orang). Dalam erti kata lain, komputer biasanya beroperasi dalam sistem nombor binari, kerana ini menjadikan peranti untuk memprosesnya lebih mudah. Memasukkan nombor ke dalam komputer dan mengeluarkannya untuk bacaan manusia boleh dilakukan dalam bentuk perpuluhan biasa, dan semua penukaran yang diperlukan dilakukan oleh program yang dijalankan pada komputer.

III. Pengekodan maklumat teks

Maklumat yang sama boleh dibentangkan (dikodkan) dalam beberapa bentuk. Dengan kemunculan komputer, timbul keperluan untuk mengekod semua jenis maklumat yang ditangani oleh individu dan manusia secara keseluruhan. Tetapi manusia mula menyelesaikan masalah pengekodan maklumat jauh sebelum kemunculan komputer. Pencapaian hebat umat manusia - menulis dan mengira - tidak lebih daripada sistem pengekodan pertuturan dan maklumat berangka. Maklumat tidak pernah muncul dalam bentuk tulennya, ia sentiasa dibentangkan entah bagaimana, dikodkan entah bagaimana.

Pengekodan binari adalah salah satu cara biasa untuk mewakili maklumat. Dalam komputer, robot dan mesin yang dikawal secara berangka, sebagai peraturan, semua maklumat yang dikendalikan oleh peranti dikodkan dalam bentuk perkataan abjad binari.

Sejak lewat 60-an, komputer semakin digunakan untuk memproses maklumat teks, dan pada masa ini sebahagian besar komputer peribadi di dunia (dan kebanyakan masa) sibuk dengan memproses maklumat teks. Semua jenis maklumat dalam komputer ini dibentangkan dalam kod binari, iaitu, abjad kuasa dua digunakan (hanya dua aksara 0 dan 1). Ini disebabkan oleh fakta bahawa ia adalah mudah untuk mewakili maklumat dalam bentuk urutan impuls elektrik: tidak ada impuls (0), terdapat impuls (1).

Pengekodan sedemikian biasanya dipanggil binari, dan urutan logik sifar dan satu sendiri dipanggil bahasa mesin.

Dari sudut pandangan komputer, teks terdiri daripada aksara individu. Simbol termasuk bukan sahaja huruf (huruf besar atau kecil, Latin atau Rusia), tetapi juga nombor, tanda baca, aksara khas seperti "=", "(", "&", dll., dan juga (beri perhatian khusus!) ruang antara perkataan.

Teks dimasukkan ke dalam memori komputer menggunakan papan kekunci. Huruf, nombor, tanda baca dan simbol lain yang kita kenali ditulis pada kekunci. Mereka memasukkan RAM dalam kod binari. Ini bermakna setiap aksara diwakili oleh kod binari 8-bit.

Secara tradisinya, untuk mengekod satu aksara, jumlah maklumat yang sama dengan 1 bait digunakan, iaitu I = 1 bait = 8 bit. Menggunakan formula yang menghubungkan bilangan kemungkinan peristiwa K dan jumlah maklumat I, anda boleh mengira berapa banyak simbol berbeza boleh dikodkan (dengan mengandaikan bahawa simbol adalah peristiwa yang mungkin): K = 2 I = 2 8 = 256, iaitu untuk Untuk mewakili maklumat teks, anda boleh menggunakan abjad dengan kapasiti 256 aksara.

Bilangan aksara ini cukup memadai untuk mewakili maklumat teks, termasuk huruf besar dan huruf kecil abjad Rusia dan Latin, nombor, tanda, simbol grafik, dsb.

Dalam proses memaparkan simbol pada skrin komputer, proses terbalik dilakukan - penyahkodan, iaitu, menukar kod simbol ke dalam imejnya. Adalah penting bahawa memberikan kod khusus kepada simbol adalah perkara persetujuan, yang direkodkan dalam jadual kod.

Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara. Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.

Semua aksara abjad komputer dinomborkan dari 0 hingga 255. Setiap nombor sepadan dengan kod binari lapan bit dari 00000000 hingga 11111111. Kod ini hanyalah nombor siri aksara dalam sistem nombor binari.

IV . Jenis jadual pengekodan

Jadual di mana semua aksara abjad komputer diberikan nombor siri dipanggil jadual pengekodan.

Jenis komputer yang berbeza menggunakan jadual pengekodan yang berbeza.

Jadual kod ASCII (Kod Piawai Amerika untuk Pertukaran Maklumat) telah diterima pakai sebagai piawaian antarabangsa, mengekod separuh pertama aksara dengan kod angka dari 0 hingga 127 (kod dari 0 hingga 32 diberikan bukan kepada aksara, tetapi untuk kekunci berfungsi) .

Jadual kod ASCII dibahagikan kepada dua bahagian.

Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).

Struktur jadual pengekodan ASCII

Nombor siri	Kod	Simbol
0 - 31	00000000 - 00011111	Simbol dengan nombor dari 0 hingga 31 biasanya dipanggil simbol kawalan. Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb.
32 - 127	0100000 - 01111111	Bahagian standard jadual (Bahasa Inggeris). Ini termasuk huruf kecil dan huruf besar abjad Latin, nombor perpuluhan, tanda baca, semua jenis kurungan, simbol komersial dan lain-lain. Watak 32 ialah ruang, i.e. kedudukan kosong dalam teks. Semua yang lain dicerminkan oleh tanda-tanda tertentu.
128 - 255	10000000 - 11111111	Bahagian alternatif jadual (Rusia). Separuh kedua jadual kod ASCII, yang dipanggil halaman kod (128 kod, bermula dari 10000000 dan berakhir dengan 11111111), boleh mempunyai pilihan yang berbeza, setiap pilihan mempunyai nombor sendiri. Halaman kod digunakan terutamanya untuk menampung abjad kebangsaan selain daripada Latin. Dalam pengekodan kebangsaan Rusia, aksara daripada abjad Rusia diletakkan di bahagian jadual ini.

Separuh pertama jadual kod ASCII

Untuk huruf abjad Rusia, prinsip pengekodan berurutan juga diperhatikan.

Separuh kedua jadual kod ASCII

Malangnya, pada masa ini terdapat lima pengekodan Cyrillic yang berbeza (KOI8-R, Windows. MS-DOS, Macintosh dan ISO). Oleh kerana itu, masalah sering timbul dengan memindahkan teks Rusia dari satu komputer ke komputer lain, dari satu sistem perisian ke yang lain.

Secara kronologi, salah satu piawaian pertama untuk pengekodan huruf Rusia pada komputer ialah KOI8 ("Kod Pertukaran Maklumat, 8-bit"). Pengekodan ini telah digunakan pada tahun 70-an pada komputer siri komputer ES, dan dari pertengahan 80-an ia mula digunakan dalam versi pertama sistem pengendalian UNIX yang telah dirussifikasikan.

Dari awal 90-an, masa penguasaan sistem pengendalian MS DOS, pengekodan CP866 kekal ("CP" bermaksud "Halaman Kod", "halaman kod").

Komputer Apple yang menjalankan sistem pengendalian Mac OS menggunakan pengekodan Mac mereka sendiri.

Selain itu, Pertubuhan Piawaian Antarabangsa (ISO) telah meluluskan pengekodan lain yang dipanggil ISO 8859-5 sebagai standard untuk bahasa Rusia.

Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251. Diperkenalkan oleh Microsoft; Dengan mengambil kira pengedaran luas sistem pengendalian (OS) dan produk perisian lain syarikat ini di Persekutuan Rusia, ia telah menemui pengedaran yang meluas.

Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode.

Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode merangkumi semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.

Perwakilan dalaman perkataan dalam ingatan komputer

menggunakan jadual ASCII

Kadang-kadang ia berlaku bahawa teks yang terdiri daripada huruf abjad Rusia yang diterima dari komputer lain tidak boleh dibaca - beberapa jenis "abracadabra" kelihatan pada skrin monitor. Ini berlaku kerana komputer menggunakan pengekodan aksara yang berbeza untuk bahasa Rusia.

Oleh itu, setiap pengekodan ditentukan oleh jadual kodnya sendiri. Seperti yang dapat dilihat daripada jadual, aksara yang berbeza diberikan kepada kod binari yang sama dalam pengekodan yang berbeza.

Sebagai contoh, jujukan kod angka 221, 194, 204 dalam pengekodan CP1251 membentuk perkataan "komputer", manakala dalam pengekodan lain ia akan menjadi set aksara yang tidak bermakna.

Nasib baik, dalam kebanyakan kes pengguna tidak perlu risau tentang transcoding dokumen teks, kerana ini dilakukan oleh program penukar khas yang terbina dalam aplikasi.

V . Pengiraan jumlah maklumat teks

Tugasan 1: Kod perkataan "Rom" menggunakan jadual pengekodan KOI8-R dan CP1251.

Penyelesaian:

Tugasan 2: Dengan mengandaikan bahawa setiap aksara dikodkan dalam satu bait, anggarkan isipadu maklumat ayat berikut:

"Paman saya mempunyai peraturan yang paling jujur,

Apabila saya jatuh sakit teruk,

Dia memaksa dirinya untuk menghormati

Dan saya tidak dapat memikirkan apa-apa yang lebih baik."

Penyelesaian: Frasa ini mempunyai 108 aksara, termasuk tanda baca, tanda petikan dan ruang. Kami mendarabkan nombor ini dengan 8 bit. Kami mendapat 108*8=864 bit.

Tugasan 3: Kedua-dua teks mengandungi bilangan aksara yang sama. Teks pertama ditulis dalam bahasa Rusia, dan yang kedua dalam bahasa suku Naguri, yang abjadnya terdiri daripada 16 aksara. Teks siapa yang mengandungi maklumat lanjut?

Penyelesaian:

1) I = K * a (isipadu maklumat teks adalah sama dengan hasil darab bilangan aksara dan berat maklumat satu aksara).

2) Kerana Kedua-dua teks mempunyai bilangan aksara (K) yang sama, maka perbezaannya bergantung pada kandungan maklumat satu aksara abjad (a).

3) 2 a1 = 32, i.e. a 1 = 5 bit, 2 a2 = 16, i.e. dan 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Ini bermakna bahawa teks yang ditulis dalam bahasa Rusia membawa 5/4 kali lebih banyak maklumat.

Tugasan 4: Saiz mesej, yang mengandungi 2048 aksara, ialah 1/512 MB. Tentukan kuasa abjad.

Penyelesaian:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - menukar isipadu maklumat mesej kepada bit.

2) a = I / K = 16384 /1024 = 16 bit - menyumbang satu aksara abjad.

3) 2*16*2048 = 65536 aksara – kuasa abjad yang digunakan.

Tugasan 5: Pencetak laser Canon LBP mencetak pada kelajuan purata 6.3 Kbps. Berapa lama masa yang diperlukan untuk mencetak dokumen 8 halaman, jika anda tahu bahawa satu halaman mempunyai purata 45 baris dan 70 aksara setiap baris (1 aksara - 1 bait)?

Penyelesaian:

1) Cari jumlah maklumat yang terkandung pada 1 halaman: 45 * 70 * 8 bit = 25200 bit

2) Cari jumlah maklumat pada 8 muka surat: 25200 * 8 = 201600 bit

3) Kami mengurangkan kepada unit ukuran biasa. Untuk melakukan ini, kami menukar Mbit kepada bit: 6.3*1024=6451.2 bit/saat.

4) Cari masa cetakan: 201600: 6451.2 =31 saat.

Bibliografi

1. Ageev V.M. Teori maklumat dan pengekodan: persampelan dan pengekodan maklumat pengukuran. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Asas teori maklumat dan pengekodan. - Kyiv, sekolah Vishcha, 1986.

3. Kaedah penyulitan teks yang paling mudah / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 p.

4. Ugrinovich N.D. Sains komputer dan teknologi maklumat. Buku teks untuk gred 10-11 / N.D. Ugrinovich. – M.: BINOM. Makmal Pengetahuan, 2003. – 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Bahan pembelajaran kendiri pada tajuk Kuliah 2

Pengekodan ASCII

Jadual pengekodan ASCII (ASCII - Kod Standard Amerika untuk Pertukaran Maklumat - Kod Standard Amerika untuk Pertukaran Maklumat).

Secara keseluruhan, 256 aksara berbeza boleh dikodkan menggunakan jadual pengekodan ASCII (Rajah 1). Jadual ini dibahagikan kepada dua bahagian: yang utama (dengan kod dari OOh hingga 7Fh) dan yang tambahan (dari 80h hingga FFh, di mana huruf h menunjukkan bahawa kod itu tergolong dalam sistem nombor perenambelasan).

Gambar 1

Untuk mengekod satu aksara daripada jadual, 8 bit (1 bait) diperuntukkan. Semasa memproses maklumat teks, satu bait mungkin mengandungi kod aksara tertentu - huruf, nombor, tanda baca, tanda tindakan, dsb. Setiap aksara mempunyai kod sendiri dalam bentuk integer. Dalam kes ini, semua kod dikumpul dalam jadual khas yang dipanggil jadual pengekodan. Dengan bantuan mereka, kod simbol ditukar kepada perwakilan yang boleh dilihat pada skrin monitor. Akibatnya, sebarang teks dalam memori komputer diwakili sebagai urutan bait dengan kod aksara.

Contohnya, perkataan hello! akan dikodkan seperti berikut (Jadual 1).

Jadual 1


Kod binari
kod perpuluhan

Rajah 1 menunjukkan aksara yang disertakan dalam pengekodan ASCII standard (Bahasa Inggeris) dan lanjutan (Rusia).

Separuh pertama jadual ASCII diseragamkan. Ia mengandungi kod kawalan (dari 00j hingga 20j dan 77j). Kod ini telah dialih keluar daripada jadual kerana ia tidak digunakan pada elemen teks. Tanda baca dan simbol matematik juga diletakkan di sini: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., huruf Latin besar dan kecil: 41h - A, 61h – a.

Separuh kedua jadual mengandungi fon kebangsaan, simbol pseudografik dari mana jadual boleh dibina, dan simbol matematik khas. Bahagian bawah jadual pengekodan boleh diganti menggunakan pemacu yang sesuai - mengawal program tambahan. Teknik ini membolehkan anda menggunakan beberapa fon dan muka taipnya.

Paparan untuk setiap kod simbol harus memaparkan imej simbol - bukan hanya kod digital, tetapi gambar yang sepadan, kerana setiap simbol mempunyai bentuknya sendiri. Penerangan tentang bentuk setiap aksara disimpan dalam memori paparan khas - penjana aksara. Penonjolan watak pada skrin paparan PC IBM, sebagai contoh, dijalankan menggunakan titik-titik membentuk matriks aksara. Setiap piksel dalam matriks sedemikian adalah elemen imej dan boleh menjadi terang atau gelap. Titik gelap dikodkan sebagai 0, titik terang (terang) sebagai 1. Jika anda mewakili piksel gelap dalam medan matriks tanda sebagai titik dan piksel terang sebagai asterisk, anda boleh menggambarkan bentuk simbol secara grafik.

Orang di negara yang berbeza menggunakan simbol untuk menulis perkataan dalam bahasa ibunda mereka. Hari ini, kebanyakan aplikasi, termasuk sistem e-mel dan penyemak imbas web, adalah 8-bit tulen, bermakna ia hanya boleh memaparkan dan menerima aksara 8-bit dengan betul, mengikut piawaian ISO-8859-1.

Terdapat lebih daripada 256 aksara di dunia (jika anda mengambil kira Cyrillic, Arab, Cina, Jepun, Korea dan Thai), dan semakin banyak aksara baharu muncul. Dan ini mewujudkan jurang berikut untuk ramai pengguna:

Anda tidak boleh menggunakan aksara daripada set pengekodan yang berbeza dalam dokumen yang sama. Memandangkan setiap dokumen teks menggunakan set pengekodan sendiri, terdapat kesukaran besar dengan pengecaman teks automatik.

Simbol baharu muncul (contohnya: Euro), akibatnya ISO membangunkan piawaian baharu, ISO-8859-15, yang hampir serupa dengan piawaian ISO-8859-1. Perbezaannya ialah jadual pengekodan ISO-8859-1 lama telah mengalih keluar simbol untuk mata wang lama yang tidak digunakan pada masa ini untuk memberi ruang kepada simbol yang baru diperkenalkan (seperti Euro). Akibatnya, pengguna mungkin mempunyai dokumen yang sama pada cakera mereka, tetapi dalam pengekodan yang berbeza. Penyelesaian kepada masalah ini ialah penggunaan satu set pengekodan antarabangsa yang dipanggil Pengekodan Universal atau Unikod.

Pengekodan Unicode

Piawaian ini dicadangkan pada tahun 1991 oleh organisasi bukan untung Unicode Consortium (Unicode Inc.). Penggunaan standard ini membolehkan anda mengekod sejumlah besar aksara daripada skrip yang berbeza: Dokumen Unicode boleh mengandungi aksara Cina, simbol matematik, huruf abjad Yunani, abjad Latin dan Cyrillic, dan penukaran halaman kod menjadi tidak diperlukan.

Standard ini terdiri daripada dua bahagian utama: set aksara universal (UCS) dan keluarga pengekodan (UTF, format transformasi Unicode). Set aksara universal menentukan surat-menyurat satu dengan satu antara aksara dan kod - elemen ruang kod yang mewakili integer bukan negatif. Keluarga pengekodan mentakrifkan perwakilan mesin bagi urutan kod UCS.

Piawaian Unicode dibangunkan untuk mencipta pengekodan aksara tunggal untuk semua bahasa bertulis moden dan banyak bahasa purba. Setiap aksara dalam piawaian ini dikodkan dengan 16 bit, yang membolehkan ia meliputi bilangan aksara yang tidak dapat dibandingkan dengan pengekodan 8-bit yang diterima sebelum ini. Satu lagi perbezaan penting antara Unicode dan sistem pengekodan lain ialah ia bukan sahaja memberikan kod unik kepada setiap aksara, tetapi juga mentakrifkan pelbagai ciri watak itu, contohnya:

jenis aksara (huruf besar, huruf kecil, nombor, tanda baca, dsb.);

atribut aksara (paparan dari kiri ke kanan atau kanan ke kiri, ruang, pemisah baris, dsb.);

huruf besar atau huruf kecil yang sepadan (untuk huruf kecil dan huruf besar, masing-masing);

nilai angka yang sepadan (untuk aksara angka).

Keseluruhan julat kod dari 0 hingga FFFF dibahagikan kepada beberapa subset standard, setiap satunya sepadan dengan abjad sesuatu bahasa atau dengan sekumpulan aksara khas yang serupa dalam fungsinya. Rajah di bawah mengandungi senarai umum subset Unicode 3.0 (Rajah 2).

Rajah 2

Piawaian Unicode adalah asas untuk menyimpan teks dalam banyak sistem komputer moden. Walau bagaimanapun, ia tidak serasi dengan kebanyakan protokol Internet kerana kodnya boleh mengandungi sebarang nilai bait, dan protokol biasanya menggunakan bait 00 - 1F dan FE - FF sebagai bait perkhidmatan. Untuk mencapai keserasian, beberapa format transformasi Unicode (UTF, Format Transformasi Unicode) telah dibangunkan, yang mana UTF-8 adalah yang paling biasa hari ini. Format ini mentakrifkan peraturan berikut untuk menukar setiap kod Unicode kepada satu set bait (satu hingga tiga) yang sesuai untuk pengangkutan melalui protokol Internet.

Di sini x,y,z menandakan bit kod sumber yang harus diekstrak, bermula dengan kod yang paling tidak signifikan, dan dimasukkan ke dalam bait hasil dari kanan ke kiri sehingga semua kedudukan yang ditentukan diisi.

Perkembangan lanjut standard Unicode dikaitkan dengan penambahan satah bahasa baharu, i.e. aksara dalam julat 10000 - 1FFFF, 20000 - 2FFFF, dsb., di mana ia sepatutnya memasukkan pengekodan untuk skrip bahasa mati yang tidak disertakan dalam jadual di atas. Format baharu, UTF-16, telah dibangunkan untuk mengekod aksara tambahan ini.

Jadi terdapat 4 cara utama untuk mengekod bait Unicode:

UTF-8: 128 aksara yang dikodkan dalam satu bait (format ASCII), 1920 aksara yang dikodkan dalam 2 bait ((Romawi, Yunani, Cyrillic, Koptik, Armenia, Ibrani, aksara Arab), 63488 aksara yang dikodkan dalam 3 bait (Cina, Jepun dll .) Baki 2,147,418,112 aksara (belum digunakan) boleh dikodkan dengan 4, 5 atau 6 bait.

UCS-2: Setiap aksara diwakili oleh 2 bait. Pengekodan ini hanya merangkumi 65,535 aksara pertama daripada format Unicode.

UTF-16: Sambungan UCS-2, ia mengandungi 1,114,112 aksara format Unicode. 65,535 aksara pertama diwakili oleh 2 bait, selebihnya dengan 4 bait.

USC-4: Setiap aksara dikodkan dalam 4 bait.