Jadual kod aksara Ascii. Pengekodan ASCII (kod standard Amerika untuk pertukaran maklumat) - pengekodan teks asas untuk abjad Latin

Untuk menggunakan ASCII dengan betul, adalah perlu untuk mengembangkan pengetahuan anda dalam bidang ini dan tentang keupayaan pengekodan.

Apa ini?

ASCII ialah jadual pengekodan aksara bercetak (lihat tangkapan skrin No. 1) yang ditaip pada papan kekunci komputer untuk menghantar maklumat dan beberapa kod. Dalam erti kata lain, abjad dan digit perpuluhan dikodkan ke dalam simbol sepadan yang mewakili dan membawa maklumat yang diperlukan.

ASCII dibangunkan di Amerika, jadi set aksara standard biasanya termasuk abjad Inggeris dengan nombor, dengan jumlah kira-kira 128 aksara. Tetapi persoalan yang adil timbul: apa yang perlu dilakukan jika pengekodan abjad kebangsaan diperlukan?

Versi lain jadual ASCII telah dibangunkan untuk menangani isu yang sama. Sebagai contoh, untuk bahasa dengan struktur asing, huruf abjad Inggeris sama ada dialih keluar, atau aksara tambahan ditambahkan padanya dalam bentuk abjad kebangsaan. Oleh itu, pengekodan ASCII mungkin mengandungi huruf Rusia untuk kegunaan negara (lihat tangkapan skrin No. 2).

Di manakah sistem pengekodan ASCII digunakan?

Sistem pengekodan ini diperlukan bukan sahaja untuk menaip maklumat teks pada papan kekunci. Ia juga digunakan dalam grafik. Contohnya, dalam program ASCII Art Maker, imej grafik pelbagai sambungan terdiri daripada julat aksara ASCII (lihat tangkapan skrin No. 3).


Sebagai peraturan, program sedemikian boleh dibahagikan kepada yang melaksanakan fungsi penyunting grafik, menyongsangkan imej ke dalam teks, dan yang menukar imej kepada grafik ASCII. Emotikon yang terkenal (atau ia juga dipanggil “ wajah manusia yang tersenyum") juga merupakan contoh watak pengekodan.

Kaedah pengekodan ini juga boleh digunakan semasa menulis atau mencipta dokumen HTML. Sebagai contoh, anda memasukkan set aksara yang khusus dan perlu, dan apabila melihat halaman itu sendiri, simbol yang sepadan dengan kod ini akan dipaparkan pada skrin.

Antara lain, pengekodan jenis ini diperlukan semasa membuat tapak web berbilang bahasa, kerana aksara yang tidak disertakan dalam satu atau jadual kebangsaan yang lain perlu diganti dengan kod ASCII. Sekiranya pembaca berhubung secara langsung dengan teknologi maklumat dan komunikasi (ICT), maka ia akan berguna baginya untuk membiasakan dirinya dengan sistem seperti:

  1. Set aksara mudah alih;
  2. Kawalan aksara;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Unicode;
  7. seni ASCII;
  8. KOI-8.

Sifat Jadual ASCII

Seperti mana-mana program sistematik, ASCII mempunyai ciri ciri tersendiri. Jadi, sebagai contoh, sistem nombor perpuluhan (digit dari 0 hingga 9) ditukar kepada sistem nombor perduaan (iaitu, setiap digit perpuluhan ditukar kepada perduaan 288 = 1001000, masing-masing).

Huruf yang terletak di lajur atas dan bawah berbeza antara satu sama lain hanya dengan sedikit, yang mengurangkan tahap kerumitan menyemak dan mengedit kes dengan ketara.

Dengan semua sifat ini, pengekodan ASCII berfungsi sebagai lapan-bit, walaupun pada asalnya ia bertujuan untuk tujuh-bit.

Penggunaan ASCII dalam program Microsoft Office:

Jika perlu, pilihan pengekodan maklumat ini boleh digunakan dalam Microsoft Notepad dan Microsoft Office Word. Dalam aplikasi ini, dokumen boleh disimpan dalam format ASCII, tetapi dalam kes ini, anda tidak akan dapat menggunakan beberapa fungsi semasa menaip teks.

Khususnya, fon tebal dan tebal tidak akan tersedia kerana pengekodan hanya mengekalkan makna maklumat yang ditaip, dan bukan rupa dan bentuk umum. Anda boleh menambah kod tersebut pada dokumen menggunakan aplikasi perisian berikut:

  • Microsoft Excel;
  • Halaman Depan Microsoft;
  • Microsoft InfoPath;
  • Microsoft OneNote;
  • Microsoft Outlook;
  • Microsoft PowerPoint;
  • Projek Microsoft.

Perlu dipertimbangkan bahawa apabila menaip kod ASCII dalam aplikasi ini, anda mesti menahan kekunci ALT.

Sudah tentu, semua kod yang diperlukan memerlukan kajian yang lebih panjang dan lebih terperinci, tetapi ini di luar skop artikel kami hari ini. Saya harap anda mendapati ia benar-benar berguna.

Jumpa lagi!

baik buruk

[Pengekodan 8-bit: ASCII, KOI-8R dan CP1251] Jadual pengekodan pertama yang dibuat di Amerika Syarikat tidak menggunakan bit kelapan dalam bait. Teks diwakili sebagai urutan bait, tetapi bit kelapan tidak diambil kira (ia digunakan untuk tujuan rasmi).

Jadual telah menjadi standard yang diterima umum ASCII(Kod Standard Amerika untuk Pertukaran Maklumat). 32 aksara pertama jadual ASCII (00 hingga 1F) telah digunakan untuk aksara bukan pencetakan. Mereka direka untuk mengawal peranti percetakan, dsb. Selebihnya - dari 20 hingga 7F - ialah aksara biasa (boleh dicetak).

Jadual 1 - pengekodan ASCII

DisHexOktCharPenerangan
0 0 000 null
1 1 001 permulaan tajuk
2 2 002 permulaan teks
3 3 003 akhir teks
4 4 004 akhir penghantaran
5 5 005 siasatan
6 6 006 mengakui
7 7 007 loceng
8 8 010 ruang belakang
9 9 011 tab mendatar
10 A 012 baris baru
11 B 013 tab menegak
12 C 014 halaman baharu
13 D 015 pemulangan pengangkutan
14 E 016 beralih keluar
15 F 017 beralih masuk
16 10 020 melarikan diri pautan data
17 11 021 kawalan peranti 1
18 12 022 kawalan peranti 2
19 13 023 kawalan peranti 3
20 14 024 kawalan peranti 4
21 15 025 pengakuan negatif
22 16 026 terbiar segerak
23 17 027 akhir trans. blok
24 18 030 batalkan
25 19 031 akhir medium
26 1A 032 pengganti
27 1B 033 melarikan diri
28 1C 034 pemisah fail
29 1D 035 pemisah kumpulan
30 1E 036 pemisah rekod
31 1F 037 pemisah unit
32 20 040 angkasa lepas
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
DisHexOktChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 saya
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 a
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 hlm
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 x
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

Seperti yang mudah dilihat, pengekodan ini hanya mengandungi huruf Latin, dan yang digunakan dalam bahasa Inggeris. Terdapat juga simbol aritmetik dan perkhidmatan lain. Tetapi tidak ada huruf Rusia, mahupun huruf Latin khas untuk bahasa Jerman atau Perancis. Ini mudah dijelaskan - pengekodan telah dibangunkan secara khusus sebagai standard Amerika. Apabila komputer mula digunakan di seluruh dunia, aksara lain perlu dikodkan.

Untuk melakukan ini, ia telah memutuskan untuk menggunakan bit kelapan dalam setiap bait. Ini menjadikan 128 lagi nilai tersedia (dari 80 hingga FF) yang boleh digunakan untuk mengekod aksara. Yang pertama daripada jadual lapan bit ialah "ASCII lanjutan" ( ASCII dilanjutkan) - termasuk pelbagai varian aksara Latin yang digunakan dalam beberapa bahasa Eropah Barat. Ia juga mengandungi simbol tambahan lain, termasuk pseudografik.

Aksara pseudografik membolehkan anda menyediakan beberapa rupa grafik dengan hanya memaparkan aksara teks pada skrin. Sebagai contoh, program pengurusan fail FAR Manager berfungsi menggunakan pseudografik.

Tiada huruf Rusia dalam jadual ASCII Lanjutan. Rusia (dahulunya USSR) dan negara lain mencipta pengekodan mereka sendiri yang memungkinkan untuk mewakili aksara "kebangsaan" tertentu dalam fail teks 8-bit - huruf Latin bahasa Poland dan Czech, Cyrillic (termasuk huruf Rusia) dan abjad lain.

Dalam semua pengekodan yang telah tersebar luas, 127 aksara pertama (iaitu, nilai bait dengan bit kelapan bersamaan dengan 0) adalah sama dengan ASCII. Jadi fail ASCII berfungsi dalam salah satu pengekodan ini; Huruf-huruf bahasa Inggeris diwakili dengan cara yang sama.

Organisasi ISO(Pertubuhan Standardisasi Antarabangsa) menerima pakai sekumpulan piawaian ISO 8859. Ia mentakrifkan pengekodan 8-bit untuk kumpulan bahasa yang berbeza. Jadi, ISO 8859-1 ialah jadual ASCII Lanjutan untuk Amerika Syarikat dan Eropah Barat. Dan ISO 8859-5 ialah jadual untuk abjad Cyrillic (termasuk Rusia).

Walau bagaimanapun, atas sebab sejarah, pengekodan ISO 8859-5 tidak berakar umbi. Pada hakikatnya, pengekodan berikut digunakan untuk bahasa Rusia:

Kod Muka Surat 866 ( CP866), aka "DOS", aka "pengekodan GOST alternatif". Digunakan secara meluas sehingga pertengahan 90-an; kini digunakan pada tahap yang terhad. Hampir tidak digunakan untuk mengedarkan teks di Internet.
- KOI-8. Dibangunkan pada tahun 70-80an. Ia adalah piawaian yang diterima umum untuk menghantar mesej e-mel di Internet Rusia. Ia juga digunakan secara meluas dalam sistem pengendalian keluarga Unix, termasuk Linux. Versi KOI-8, direka untuk bahasa Rusia, dipanggil KOI-8R; Terdapat versi untuk bahasa Cyrillic lain (contohnya, KOI8-U ialah versi untuk bahasa Ukraine).
- Kod Halaman 1251, CP1251,Windows-1251. Dibangunkan oleh Microsoft untuk menyokong bahasa Rusia dalam Windows.

Kelebihan utama CP866 ialah pengekalan aksara pseudo-grafik di tempat yang sama seperti dalam Extended ASCII; oleh itu, program teks asing, sebagai contoh, Norton Commander yang terkenal, boleh berfungsi tanpa perubahan. CP866 kini digunakan untuk program Windows yang dijalankan dalam tetingkap teks atau mod teks skrin penuh, termasuk FAR Manager.

Teks dalam CP866 agak jarang berlaku sejak beberapa tahun kebelakangan ini (tetapi ia digunakan untuk mengekod nama fail Rusia dalam Windows). Oleh itu, kami akan membincangkan dengan lebih terperinci mengenai dua pengekodan lain - KOI-8R dan CP1251.



Seperti yang anda lihat, dalam jadual pengekodan CP1251, huruf Rusia disusun dalam susunan abjad (dengan pengecualian, bagaimanapun, huruf E). Susunan ini memudahkan atur cara komputer untuk mengisih mengikut abjad.

Tetapi dalam KOI-8R susunan huruf Rusia kelihatan rawak. Tetapi sebenarnya tidak.

Dalam banyak program lama, bit ke-8 telah hilang semasa memproses atau menghantar teks. (Kini program sedemikian boleh dikatakan "pupus", tetapi pada akhir 80-an - awal 90-an mereka tersebar luas). Untuk mendapatkan nilai 7-bit daripada nilai 8-bit, hanya tolak 8 daripada digit paling ketara; sebagai contoh, E1 menjadi 61.

Sekarang bandingkan KOI-8R dengan jadual ASCII (Jadual 1). Anda akan mendapati bahawa huruf Rusia diletakkan dalam surat-menyurat yang jelas dengan huruf Latin. Jika bit kelapan hilang, huruf kecil Rusia bertukar menjadi huruf Latin besar, dan huruf Rusia besar bertukar menjadi huruf Latin huruf kecil. Jadi, E1 dalam KOI-8 ialah "A" Rusia, manakala 61 dalam ASCII ialah "a" Latin.

Jadi, KOI-8 membolehkan anda mengekalkan kebolehbacaan teks Rusia apabila bit ke-8 hilang. "Hello semua" menjadi "WSEM pRIWET".

Baru-baru ini, kedua-dua susunan abjad aksara dalam jadual pengekodan dan kebolehbacaan dengan kehilangan bit ke-8 telah kehilangan kepentingannya yang menentukan. Bit kelapan dalam komputer moden tidak hilang semasa penghantaran atau pemprosesan. Dan pengisihan abjad dilakukan dengan mengambil kira pengekodan, dan bukan dengan hanya membandingkan kod. (Dengan cara ini, kod CP1251 tidak disusun sepenuhnya mengikut abjad - huruf E tidak berada di tempatnya).

Disebabkan fakta bahawa terdapat dua pengekodan biasa, apabila bekerja dengan Internet (mel, melayari laman web), anda kadang-kadang dapat melihat set huruf yang tidak bermakna dan bukannya teks Rusia. Contohnya, "SAYA SBYUFEMHEL." Ini hanyalah perkataan "dengan hormat"; tetapi ia telah dikodkan dalam pengekodan CP1251, dan komputer menyahkod teks menggunakan jadual KOI-8. Jika perkataan yang sama, sebaliknya, dikodkan dalam KOI-8, dan komputer menyahkod teks mengikut jadual CP1251, hasilnya akan menjadi "U HCHBTSEOYEN".

Kadang-kadang ia berlaku bahawa komputer mentafsir huruf bahasa Rusia menggunakan jadual yang tidak dimaksudkan untuk bahasa Rusia. Kemudian, bukannya huruf Rusia, satu set simbol yang tidak bermakna muncul (contohnya, huruf Latin bahasa Eropah Timur); mereka sering dipanggil "crocozybras".

Dalam kebanyakan kes, program moden mengatasi penentuan pengekodan dokumen Internet (e-mel dan halaman Web) secara bebas. Tetapi kadang-kadang mereka "misfire", dan kemudian anda dapat melihat urutan aneh huruf Rusia atau "krokozyabry". Sebagai peraturan, dalam keadaan sedemikian, untuk memaparkan teks sebenar pada skrin, sudah cukup untuk memilih pengekodan secara manual dalam menu program.

Maklumat daripada halaman http://open-office.edusite.ru/TextProcessor/p5aa1.html telah digunakan untuk artikel ini.

Bahan yang diambil dari tapak:

Set aksara yang digunakan untuk menulis teks dipanggil abjad.

Bilangan aksara dalam abjad adalah kuasa.

Formula untuk menentukan jumlah maklumat: N=2b,

di mana N ialah kuasa abjad (bilangan aksara),

b – bilangan bit (berat maklumat simbol).

Abjad dengan kapasiti 256 aksara boleh memuatkan hampir semua aksara yang diperlukan. Abjad ini dipanggil mencukupi.

Kerana 256 = 2 8, maka berat 1 aksara ialah 8 bit.

Unit ukuran 8 bit diberi nama 1 bait:

1 bait = 8 bit.

Kod binari setiap aksara dalam teks komputer mengambil 1 bait memori.

Bagaimanakah maklumat teks diwakili dalam ingatan komputer?

Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.

Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara.

Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.

Semua aksara abjad komputer dinomborkan dari 0 hingga 255. Setiap nombor sepadan dengan kod binari lapan bit dari 00000000 hingga 11111111. Kod ini hanyalah nombor siri aksara dalam sistem nombor binari.

Jadual di mana semua aksara abjad komputer diberikan nombor siri dipanggil jadual pengekodan.

Jenis komputer yang berbeza menggunakan jadual pengekodan yang berbeza.

Jadual telah menjadi piawaian antarabangsa untuk PC ASCII(baca tanya) (Kod Standard Amerika untuk Pertukaran Maklumat).

Jadual kod ASCII dibahagikan kepada dua bahagian.

Hanya separuh pertama jadual adalah standard antarabangsa, i.e. simbol dengan nombor daripada 0 (00000000), sehingga 127 (01111111).

Struktur jadual pengekodan ASCII

Nombor siri

Kod

Simbol

0 - 31

00000000 - 00011111

Simbol dengan nombor dari 0 hingga 31 biasanya dipanggil simbol kawalan.
Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb.

32 - 127

00100000 - 01111111

Bahagian standard jadual (Bahasa Inggeris). Ini termasuk huruf kecil dan huruf besar abjad Latin, nombor perpuluhan, tanda baca, semua jenis kurungan, simbol komersial dan lain-lain.
Watak 32 ialah ruang, i.e. kedudukan kosong dalam teks.
Semua yang lain dicerminkan oleh tanda-tanda tertentu.

128 - 255

10000000 - 11111111

Bahagian alternatif jadual (Rusia).
Separuh kedua jadual kod ASCII, yang dipanggil halaman kod (128 kod, bermula dari 10000000 dan berakhir dengan 11111111), boleh mempunyai pilihan yang berbeza, setiap pilihan mempunyai nombor sendiri.
Halaman kod digunakan terutamanya untuk menampung abjad kebangsaan selain daripada Latin. Dalam pengekodan kebangsaan Rusia, aksara daripada abjad Rusia diletakkan di bahagian jadual ini.

Separuh pertama jadual kod ASCII


Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.

Untuk huruf abjad Rusia, prinsip pengekodan berurutan juga diperhatikan.

Separuh kedua jadual kod ASCII


Malangnya, pada masa ini terdapat lima pengekodan Cyrillic yang berbeza (KOI8-R, Windows. MS-DOS, Macintosh dan ISO). Oleh kerana itu, masalah sering timbul dengan memindahkan teks Rusia dari satu komputer ke komputer lain, dari satu sistem perisian ke yang lain.

Secara kronologi, salah satu piawaian pertama untuk pengekodan huruf Rusia pada komputer ialah KOI8 ("Kod Pertukaran Maklumat, 8-bit"). Pengekodan ini telah digunakan pada tahun 70-an pada komputer siri komputer ES, dan dari pertengahan 80-an ia mula digunakan dalam versi pertama sistem pengendalian UNIX yang telah dirussifikasikan.

Dari awal 90-an, masa penguasaan sistem pengendalian MS DOS, pengekodan CP866 kekal ("CP" bermaksud "Halaman Kod", "halaman kod").

Komputer Apple yang menjalankan sistem pengendalian Mac OS menggunakan pengekodan Mac mereka sendiri.

Selain itu, Pertubuhan Piawaian Antarabangsa (ISO) telah meluluskan pengekodan lain yang dipanggil ISO 8859-5 sebagai standard untuk bahasa Rusia.

Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251.

Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode. Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode merangkumi semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.

Mari cuba gunakan jadual ASCII untuk bayangkan rupa perkataan dalam ingatan komputer.

Perwakilan dalaman perkataan dalam ingatan komputer

Kadang-kadang ia berlaku bahawa teks yang terdiri daripada huruf abjad Rusia yang diterima dari komputer lain tidak boleh dibaca - beberapa jenis "abracadabra" kelihatan pada skrin monitor. Ini berlaku kerana komputer menggunakan pengekodan aksara yang berbeza untuk bahasa Rusia.

Setiap komputer mempunyai set aksara sendiri yang dilaksanakannya. Set ini mengandungi 26 huruf besar dan kecil, nombor dan aksara khas (titik, ruang, dsb.). Apabila ditukar kepada integer, simbol dipanggil kod. Piawaian telah dibangunkan supaya komputer mempunyai set kod yang sama.

Piawaian ASCII

ASCII (American Standard Code for Information Interchange) ialah kod standard Amerika untuk pertukaran maklumat. Setiap aksara ASCII mempunyai 7 bit, jadi bilangan maksimum aksara ialah 128 (Jadual 1). Kod 0 hingga 1F ialah aksara kawalan yang tidak dicetak. Banyak aksara ASCII yang tidak boleh dicetak diperlukan untuk menghantar data. Sebagai contoh, mesej mungkin terdiri daripada aksara permulaan pengepala SOH, pengepala itu sendiri dan aksara permulaan teks STX, teks itu sendiri dan aksara akhir teks ETX, dan akhir penghantaran. watak EOT. Walau bagaimanapun, data melalui rangkaian dihantar dalam paket, yang bertanggungjawab untuk permulaan dan akhir penghantaran. Jadi aksara yang tidak boleh dicetak hampir tidak pernah digunakan.

Jadual 1 - Jadual kod ASCII

Nombor Pasukan Maknanya Nombor Pasukan Maknanya
0 NUL Penunjuk nol 10 DLE Keluar dari sistem penghantaran
1 SOH permulaan tajuk 11 DC1 Pengurusan peranti
2 STX Permulaan teks 12 DC2 Pengurusan peranti
3 ETX Akhir teks 13 DC3 Pengurusan peranti
4 EOT Tamat penghantaran 14 DC4 Pengurusan peranti
5 ACK Permintaan 15 N.A.K. Tidak pengesahan penerimaan
6 BEL Pengesahan penerimaan 16 SYN Mudah
7 B.S. Simbol loceng 17 ETB Tamat blok penghantaran
8 HT Berundur 18 BOLEH Tandakan
9 LF Penjadualan mendatar 19 E.M. Tamat media
A VT Terjemahan baris 1A SUB Subskrip
B FF Tab menegak 1B ESC Keluar
C CR Terjemahan halaman 1C FS Pemisah fail
D JADI Pulangan pengangkutan 1D G.S. Pemisah kumpulan
E S.I. Beralih ke daftar tambahan 1E R.S. Pemisah rekod
S.I. Tukar kepada kes standard 1F AS Pemisah modul
Nombor Simbol Nombor Simbol Nombor Simbol Nombor Simbol Nombor Simbol Nombor Simbol
20 angkasa lepas 30 0 40 @ 50 P 60 . 70 hlm
21 ! 31 1 41 A 51 Q 61 a 71 q
22 32 2 42 B 52 R 62 b 72 r
23 # 33 3 43 C 53 S 63 c 73 s
24 φ 34 4 44 D 54 T 64 d 74 t
25 % 35 5 45 E 55 DAN 65 e 75 Dan
26 & 36 6 46 F 56 V 66 f 76 v
27 37 7 47 G 57 W 67 g 77 w
28 ( 38 8 48 H 58 X 68 h 78 x
29 ) 39 9 49 saya 59 Y 69 i 70 y
2A 3A ; 4A J 5A Z 6A j 7A z
2B + 3B ; 4B K 5B [ 6B k 7B {
2C 3C < 4C L 5C \ 6C l 7C |
2D 3D = 4D M 5D ] 6D m 7D }
2E 3E > 4E N 5E 6E n 7E ~
2F / 3F g 4F O 5F _ 6F o 7F DEL

Piawaian Unicode

Pengekodan sebelumnya baik untuk bahasa Inggeris, tetapi ia tidak sesuai untuk bahasa lain. Contohnya, bahasa Jerman mempunyai umlaut, dan bahasa Perancis mempunyai superskrip. Sesetengah bahasa mempunyai abjad yang sama sekali berbeza. Percubaan pertama untuk melanjutkan ASCII ialah IS646, yang melanjutkan pengekodan sebelumnya dengan tambahan 128 aksara. Huruf Latin dengan sebatan dan diakritik telah ditambah, dan menerima nama - Latin 1. Percubaan seterusnya ialah IS 8859 - yang mengandungi halaman kod. Terdapat juga percubaan pada sambungan, tetapi ini tidak universal. Pengekodan UNICODE telah dibuat (ialah 10646). Idea di sebalik pengekodan adalah untuk memberikan setiap aksara nilai 16-bit malar tunggal, yang dipanggil - penunjuk kod. Secara keseluruhan terdapat 65536 petunjuk. Untuk menjimatkan ruang, kami menggunakan Latin-1 untuk kod 0 -255, menukar ASII kepada UNICODE dengan mudah. Piawaian ini menyelesaikan banyak masalah, tetapi bukan semua. Disebabkan oleh kedatangan perkataan baru, contohnya, untuk bahasa Jepun, jumlah istilah perlu ditambah kira-kira 20 ribu. Ia juga perlu memasukkan braille.

Mari kita ingat beberapa fakta yang kita tahu:

Set simbol yang digunakan untuk menulis teks dipanggil abjad.

Bilangan aksara dalam abjad ialah kardinalitinya.

Formula untuk menentukan jumlah maklumat: N = 2 b,

di mana N ialah kuasa abjad (bilangan aksara),

b - bilangan bit (berat maklumat simbol).

Abjad dengan kapasiti 256 aksara boleh memuatkan hampir semua aksara yang diperlukan. Abjad sedemikian dipanggil mencukupi.

Kerana 256 = 2 8 , maka berat 1 aksara ialah 8 bit.

Unit ukuran 8 bit diberi nama 1 bait:

1 bait = 8 bit.

Kod binari setiap aksara dalam teks komputer mengambil 1 bait memori.

Bagaimanakah maklumat teks diwakili dalam ingatan komputer?

Pengekodan terdiri daripada memberikan setiap aksara kod perpuluhan unik dari 0 hingga 255 atau kod binari yang sepadan dari 00000000 hingga 11111111. Oleh itu, seseorang membezakan aksara dengan garis besarnya dan komputer dengan kodnya.

Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.

Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara.

Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.

Jadual ASCII telah menjadi piawaian antarabangsa untuk PC (baca tanya) (Kod Standard Amerika untuk Pertukaran Maklumat).

Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).

Nombor siri

Simbol

00000000 - 00011111


Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb.

32 - 127

00100000 - 01111111


128 - 255

10000000 - 11111111


Separuh kedua jadual kod ASCII, dipanggil halaman kod (128 kod, bermula dengan 10000000 dan berakhir dengan 11111111), boleh mempunyai varian yang berbeza, setiap varian mempunyai nombor sendiri.


Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.


Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251.

Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode . Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode termasuk semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.

Mari cuba gunakan jadual ASCII untuk bayangkan rupa perkataan dalam ingatan komputer.

Kata-kata

Ingatan

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Apabila memasukkan maklumat teks ke dalam komputer, aksara (huruf, nombor, tanda) dikodkan menggunakan pelbagai sistem kod, yang terdiri daripada satu set jadual kod yang terletak pada halaman piawaian yang sepadan untuk pengekodan maklumat teks. Dalam jadual sedemikian, setiap aksara diberikan kod berangka tertentu dalam sistem nombor perenambelasan atau perpuluhan, iaitu, jadual kod menggambarkan kesesuaian antara imej simbol dan kod angka dan bertujuan untuk pengekodan dan penyahkodan maklumat teks. Apabila memasukkan maklumat teks menggunakan papan kekunci komputer, setiap aksara yang dimasukkan dikodkan, iaitu, ditukar kepada kod angka; apabila maklumat teks dikeluarkan kepada peranti output komputer (paparan, pencetak atau plotter), imejnya dibina menggunakan kod angka watak. Penyerahan kod berangka tertentu kepada simbol adalah hasil perjanjian antara organisasi berkaitan di negara yang berbeza. Pada masa ini, tiada satu jadual kod universal yang sepadan dengan huruf abjad kebangsaan negara yang berbeza.

Jadual kod moden termasuk bahagian antarabangsa dan kebangsaan, iaitu mengandungi huruf Latin dan abjad kebangsaan, nombor, operasi aritmetik dan tanda baca, simbol matematik dan kawalan serta simbol pseudografi. Bahagian antarabangsa jadual kod berdasarkan standard ASCII (Kod Standard Amerika untuk Pertukaran Maklumat), mengekod separuh pertama aksara dalam jadual kod dengan kod angka dari 0 hingga 7 F 16, atau dalam sistem nombor perpuluhan dari 0 hingga 127. Dalam kes ini, kod dari 0 hingga 20 16 (0 ? 32 10) diberikan kepada kekunci fungsi (F1, F2, F3, dsb.) papan kekunci komputer peribadi. Dalam Rajah. 3.1 menunjukkan bahagian antarabangsa jadual kod berdasarkan standard ASCII. Sel jadual dinomborkan dalam sistem nombor perpuluhan dan heksadesimal, masing-masing.

Rajah 3.1. Bahagian antarabangsa jadual kod (standard ASCII) dengan nombor sel dipersembahkan dalam sistem nombor perpuluhan (a) dan heksadesimal (b).


Bahagian kebangsaan jadual kod mengandungi kod abjad kebangsaan, yang juga dipanggil jadual set aksara (set aksara).

Pada masa ini, untuk menyokong huruf abjad Rusia (Cyrillic), terdapat beberapa jadual kod (pengekodan) yang digunakan oleh pelbagai sistem pengendalian, yang merupakan kelemahan yang ketara dan dalam beberapa kes membawa kepada masalah yang berkaitan dengan operasi penyahkodan nilai aksara angka. Dalam jadual 3.1 menunjukkan nama halaman kod (standard) di mana jadual kod Cyrillic (pengekodan) terletak.

Jadual 3.1

Salah satu piawaian pertama untuk pengekodan abjad Cyrillic pada komputer ialah standard KOI8-R. Bahagian kebangsaan jadual kod piawaian ini ditunjukkan dalam Rajah. 3.2.

nasi. 3.2. Bahagian kebangsaan jadual kod standard KOI8-R


Pada masa ini, jadual kod yang terletak pada halaman CP866 standard pengekodan maklumat teks, yang digunakan dalam sistem pengendalian, juga digunakan MS DOS atau sesi MS DOS untuk pengekodan abjad Cyrillic (Rajah 3.3, A).

nasi. 3.3. Bahagian kebangsaan jadual kod, terletak pada halaman CP866 (a) dan pada halaman CP1251 (b) standard pengekodan maklumat teks


Pada masa ini, jadual kod yang paling banyak digunakan untuk pengekodan abjad Cyrillic terletak pada halaman CP1251 standard yang sepadan, yang digunakan dalam sistem pengendalian keluarga Windows syarikat Microsoft(Gamb. 3.2, b). Dalam semua jadual kod yang dibentangkan, kecuali jadual standard Unicode Untuk mengekod satu aksara, 8 digit binari (8 bit) diperuntukkan.

Pada penghujung abad yang lalu, satu piawaian antarabangsa baru muncul Unicode di mana satu aksara diwakili sebagai kod binari dua bait. Penggunaan piawaian ini adalah kesinambungan pembangunan piawaian antarabangsa sejagat untuk menyelesaikan masalah keserasian pengekodan aksara kebangsaan. Menggunakan standard ini, 2 16 = 65536 aksara berbeza boleh dikodkan. Dalam Rajah. 3.4 menunjukkan jadual kod 0400 (abjad Rusia) standard Unicode.

nasi. 3.4. Jadual kod Unicode 0400


Mari kita terangkan apa yang telah diperkatakan mengenai pengekodan maklumat teks menggunakan contoh.

Contoh 3.1

Kod perkataan "Komputer" sebagai jujukan nombor perpuluhan dan heksadesimal menggunakan pengekodan CP1251. Apakah aksara yang akan dipaparkan dalam jadual kod CP866 dan KOI8-R apabila menggunakan kod yang diterima.

Urutan kod perenambelasan dan binari perkataan "Komputer" berdasarkan jadual pengekodan CP1251 (lihat Rajah 3.3, b) akan kelihatan seperti ini:

Urutan kod dalam pengekodan SR866 dan KOI8-R ini akan menghasilkan paparan aksara berikut:

Untuk menukar dokumen teks bahasa Rusia dari satu standard pengekodan maklumat teks kepada yang lain, program khas digunakan - penukar. Penukar biasanya dibina ke dalam program lain. Contohnya ialah program penyemak imbas - Internet Explorer (IE), yang mempunyai penukar terbina dalam. Program pelayar ialah program khas untuk melihat kandungan. laman sesawang pada rangkaian komputer global Internet. Mari gunakan program ini untuk mengesahkan hasil pemetaan simbol yang diperolehi dalam contoh 3.1. Untuk melakukan ini, kami akan melakukan langkah-langkah berikut.

1. Lancarkan program Notepad (NotePad). Program Notepad dalam sistem pengendalian Windows XP dilancarkan menggunakan arahan: [Button Mulakan– Program – Standard – Notepad]. Dalam tetingkap program Notepad yang terbuka, taip perkataan "Komputer" menggunakan sintaks bahasa penanda dokumen hiperteks - HTML (Bahasa Penanda Teks Hiper). Bahasa ini digunakan untuk membuat dokumen di Internet. Teks sepatutnya kelihatan seperti ini:

Computerwater

, Di mana

Dan

tag (binaan khas) bahasa HTML untuk penanda pengepala. Dalam Rajah. Rajah 3.5 menunjukkan keputusan tindakan ini.

nasi. 3.5. Memaparkan teks dalam tetingkap Notepad


Mari kita simpan teks ini dengan melaksanakan arahan: [Fail - Simpan sebagai...] dalam folder yang sesuai pada komputer; apabila menyimpan teks, kami akan memberi nama fail - Nota, dengan sambungan fail. html.

2. Jom lancarkan program Internet Explorer, dengan melaksanakan arahan: [Button Mulakan- Program - Internet Explorer]. Apabila anda memulakan program, tetingkap yang ditunjukkan dalam Rajah. 3.6

nasi. 3.6. Tetingkap akses luar talian


Pilih dan aktifkan butang Luar talian Dalam kes ini, komputer tidak akan bersambung ke Internet global. Tetingkap program utama akan muncul Microsoft Internet Explorer, ditunjukkan dalam Rajah. 3.7.

nasi. 3.7. Tetingkap utama Microsoft Internet Explorer


Mari laksanakan arahan berikut: [Fail – Buka], tetingkap akan muncul (Gamb. 3.8), di mana anda perlu menentukan nama fail dan klik butang okey atau tekan butang Semak… dan cari fail Prim.html.

nasi. 3.8. Buka tingkap


Tetingkap utama program Internet Explorer akan mengambil bentuk yang ditunjukkan dalam Rajah. 3.9. Perkataan "Komputer" akan muncul dalam tetingkap. Seterusnya, menggunakan menu atas program Internet Explorer, jalankan arahan berikut: [View – Encoding – Cyrillic (DOS)]. Selepas melaksanakan arahan ini dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah akan dipaparkan. 3.10. Apabila melaksanakan arahan: [Lihat – Pengekodan – Cyrillic (KOI8-R) ] dalam tetingkap program internet Explorer Simbol yang ditunjukkan dalam Rajah akan dipaparkan. 3.11.

nasi. 3.9. Aksara dipaparkan dengan pengekodan CP1251


nasi. 3.10. Aksara dipaparkan apabila pengekodan CP866 didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251


nasi. 3.11. Aksara dipaparkan apabila pengekodan KOI8-R didayakan untuk urutan kod yang diwakili dalam pengekodan CP1251


Oleh itu, diperolehi menggunakan program internet Explorer jujukan aksara bertepatan dengan jujukan aksara yang diperoleh menggunakan jadual kod CP866 dan KOI8-R dalam contoh 3.1.

3.2. Pengekodan maklumat grafik

Maklumat grafik yang dipersembahkan dalam bentuk gambar, gambar, slaid, imej bergerak (animasi, video), gambar rajah, lukisan boleh dibuat dan disunting menggunakan komputer, dan ia dikodkan dengan sewajarnya. Pada masa ini, terdapat sejumlah besar program aplikasi untuk memproses maklumat grafik, tetapi semuanya melaksanakan tiga jenis grafik komputer: raster, vektor dan fraktal.

Jika anda melihat lebih dekat pada imej grafik pada skrin monitor komputer, anda boleh melihat sejumlah besar titik berbilang warna (piksel - dari bahasa Inggeris. piksel berpendidikan daripada elemen gambar - elemen imej), yang, apabila dikumpulkan bersama, membentuk imej grafik yang diberikan. Daripada ini kita boleh membuat kesimpulan: imej grafik pada komputer dikodkan dengan cara tertentu dan mesti dibentangkan dalam bentuk fail grafik. Fail ialah unit struktur asas untuk mengatur dan menyimpan data pada komputer dan, dalam kes ini, mesti mengandungi maklumat tentang cara membentangkan set mata ini pada skrin monitor.

Fail yang dibuat berdasarkan grafik vektor mengandungi maklumat dalam bentuk hubungan matematik (fungsi matematik yang menerangkan hubungan linear) dan data yang sepadan tentang cara membina imej objek menggunakan segmen garisan (vektor) apabila dipaparkan pada monitor komputer.

Fail yang dibuat berdasarkan grafik raster memerlukan penyimpanan data tentang setiap titik individu dalam imej. Untuk memaparkan grafik raster, pengiraan matematik yang kompleks tidak diperlukan; cukup untuk mendapatkan data mengenai setiap titik imej (koordinat dan warnanya) dan memaparkannya pada skrin monitor komputer.

Semasa proses pengekodan, imej didiskritkan secara spatial, iaitu, imej dibahagikan kepada titik individu dan setiap titik diberi kod warna (kuning, merah, biru, dll.). Untuk mengekod setiap titik imej grafik berwarna, prinsip penguraian warna sewenang-wenang ke dalam komponen utamanya digunakan, yang mana tiga warna utama digunakan: merah (perkataan Inggeris merah, dilambangkan dengan huruf KEPADA), hijau (Hijau, dilambangkan dengan huruf G), biru (Biru, dilambangkan dengan beech DALAM). Mana-mana warna titik yang dilihat oleh mata manusia boleh diperolehi dengan tambahan (berkadar) tambahan (pencampuran) tiga warna utama - merah, hijau dan biru. Sistem pengekodan ini dipanggil sistem warna RGB. Fail grafik yang menggunakan sistem warna RGB mewakili setiap titik imej sebagai triplet warna - tiga nilai berangka R, G Dan DALAM, keamatan sepadan warna merah, hijau dan biru. Proses pengekodan imej grafik dijalankan menggunakan pelbagai cara teknikal (pengimbas, kamera digital, kamera video digital, dll.); hasilnya ialah imej raster. Apabila menghasilkan semula imej grafik berwarna pada monitor komputer berwarna, warna setiap titik (piksel) imej sedemikian diperoleh dengan mencampurkan tiga warna utama R,G Dan B.

Kualiti imej raster ditentukan oleh dua parameter utama - resolusi (bilangan piksel secara mendatar dan menegak) dan palet warna yang digunakan (bilangan warna yang ditentukan untuk setiap piksel dalam imej). Resolusi ditentukan dengan menunjukkan bilangan piksel secara mendatar dan menegak, contohnya 800 x 600 piksel.

Terdapat hubungan antara bilangan warna yang diberikan kepada titik dalam imej raster dan jumlah maklumat yang mesti diperuntukkan untuk menyimpan warna titik, ditentukan oleh perhubungan (rumus R. Hartley):

di mana saya– jumlah maklumat; N – bilangan warna yang diberikan kepada titik.

Jumlah maklumat yang diperlukan untuk menyimpan warna titik juga dipanggil kedalaman warna, atau kualiti pemaparan warna.

Jadi, jika bilangan warna yang dinyatakan untuk titik imej ialah N= 256, maka jumlah maklumat yang diperlukan untuk penyimpanannya (kedalaman warna) mengikut formula (3.1) akan sama dengan saya= 8 bit.

Komputer menggunakan pelbagai mod grafik monitor untuk memaparkan maklumat grafik. Perlu diingatkan di sini bahawa sebagai tambahan kepada mod grafik monitor, terdapat juga mod teks, di mana skrin monitor secara konvensional dibahagikan kepada 25 baris 80 aksara setiap baris. Mod grafik ini dicirikan oleh resolusi skrin monitor dan kualiti warna (kedalaman warna). Untuk menetapkan mod grafik skrin monitor dalam sistem pengendalian MS Windows XP anda perlu melaksanakan arahan: [Button Mulakan– Tetapan – Panel Kawalan – Skrin]. Dalam kotak dialog "Properties: Skrin" yang muncul (Rajah 3.12), anda mesti memilih tab "Parameter" dan menggunakan peluncur "Resolusi Skrin" untuk memilih resolusi skrin yang sesuai (800 x 600 piksel, 1024 x 768 piksel, dan lain-lain.). Menggunakan senarai juntai bawah "Kualiti warna", anda boleh memilih kedalaman warna - "Tertinggi (32 bit)", "Sederhana (16 bit)", dsb., dan bilangan warna yang ditetapkan pada setiap titik dalam imej akan masing-masing menjadi 2 32 (4294967296), 2 16 (65536), dsb.

nasi. 3.12. Kotak Dialog Sifat Paparan


Untuk melaksanakan setiap mod grafik skrin monitor, sejumlah memori video komputer diperlukan. Jumlah maklumat yang diperlukan memori video (V) ditentukan daripada perkaitan

di mana KEPADA - bilangan titik imej pada skrin monitor (K = A · B); A - bilangan titik mendatar pada skrin monitor; DALAM - bilangan titik menegak pada skrin monitor; saya– jumlah maklumat (kedalaman warna).

Jadi, jika skrin monitor mempunyai resolusi 1024 x 768 piksel dan palet yang terdiri daripada 65,536 warna, maka kedalaman warna mengikut formula (3.1) adalah I = log 2 65,538 = 16 bit, jumlah piksel imej akan sama dengan: K = 1024 x 768 = 786432, dan jumlah maklumat yang diperlukan bagi memori video mengikut (3.2) akan sama dengan

V= 786432 · 16 bit = 12582912 bit = 1572864 bait = 1536 KB = 1.5 MB.

Sebagai kesimpulan, perlu diingatkan bahawa sebagai tambahan kepada ciri yang disenaraikan, ciri yang paling penting bagi monitor ialah dimensi geometri skrin dan titik imejnya. Dimensi geometri skrin ditentukan oleh saiz pepenjuru monitor. Saiz pepenjuru monitor dinyatakan dalam inci (1 inci = 1" = 25.4 mm) dan boleh mengambil nilai yang sama dengan: 14", 15", 17", 21", dll. Teknologi pengeluaran monitor moden boleh memberikan imej saiz titik sama dengan 0.22 mm.

Oleh itu, bagi setiap monitor terdapat resolusi skrin maksimum yang mungkin secara fizikal, ditentukan oleh saiz pepenjurunya dan saiz titik imej.

Latihan untuk dilakukan sendiri

1. Menggunakan program MS Excel tukar jadual kod ASCII, SR866, SR1251, KOI8-R kepada jadual dalam bentuk: dalam sel lajur pertama jadual tulis dalam susunan abjad huruf besar dan kemudian huruf kecil abjad Latin dan Cyrillic, dalam sel lajur kedua - kod yang sepadan dengan huruf dalam sistem nombor perpuluhan, dalam sel lajur ketiga ialah kod yang sepadan dengan huruf dalam sistem nombor heksadesimal. Nilai kod mesti dipilih daripada jadual kod yang sepadan.

2. Kod dan tulis perkataan berikut sebagai urutan nombor dalam sistem nombor perpuluhan dan perenambelasan:

a) Internet Explorer, b) Microsoft Office; V) CorelDRAW.

Pengekodan dijalankan menggunakan jadual pengekodan ASCII moden yang diperolehi dalam latihan sebelumnya.

3. Menggunakan jadual pengekodan KOI8-R yang dimodenkan, nyahkod jujukan nombor yang ditulis dalam sistem nombor heksadesimal:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Bagaimanakah rupa perkataan "Cybernetics" yang ditulis dalam pengekodan SR1251 apabila menggunakan pengekodan SR866 dan KOI8-R? Semak keputusan menggunakan program Internet Explorer.

5. Menggunakan jadual kod yang ditunjukkan dalam Rajah. 3.1 A, menyahkod urutan kod berikut yang ditulis dalam sistem nombor binari:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Tentukan isipadu maklumat perkataan "Ekonomi", yang dikodkan menggunakan jadual kod SR866, SR1251, Unicode dan KOI8-R.

7. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna berukuran 12x12 cm Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 600 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 16 bit.

Resolusi pengimbas 600 dpi (inci titik - titik per inci) menentukan keupayaan pengimbas dengan resolusi ini untuk membezakan 600 titik pada segmen 1 inci.

8. Tentukan isipadu maklumat fail yang diperoleh hasil daripada mengimbas imej berwarna bersaiz A4. Resolusi pengimbas yang digunakan untuk mengimbas imej ini ialah 1200 dpi. Pengimbas menetapkan kedalaman warna titik imej kepada 24 bit.

9. Tentukan bilangan warna dalam palet pada kedalaman warna 8, 16, 24 dan 32 bit.

10. Tentukan jumlah memori video yang diperlukan untuk mod grafik skrin monitor 640 kali 480, 800 kali 600, 1024 kali 768 dan 1280 kali 1024 piksel dengan kedalaman warna piksel imej 8, 16, 24 dan 32 bit. Ringkaskan keputusan dalam jadual. Membangunkan dalam MS Excel program untuk mengautomasikan pengiraan.

11. Tentukan bilangan maksimum warna yang boleh digunakan untuk menyimpan imej berukuran 32 x 32 piksel, jika komputer mempunyai 2 KB memori yang diperuntukkan untuk imej.

12. Tentukan resolusi maksimum yang mungkin bagi skrin monitor dengan panjang pepenjuru 15" dan saiz titik imej 0.28 mm.

13. Apakah mod grafik monitor yang boleh disediakan oleh memori video 64 MB?

Kandungan

I. Sejarah pengekodan maklumat……………………………..3

II. Pengekodan maklumat……………………………………………………4

III. Pengekodan maklumat teks…………………………….4

IV. Jenis jadual pengekodan……………………………………………………...6

V. Pengiraan jumlah maklumat teks………………………………14

Senarai rujukan……………………………..16

saya . Sejarah pengekodan maklumat

Umat ​​manusia telah menggunakan penyulitan teks (pengekodan) sejak saat maklumat rahsia pertama muncul. Berikut adalah beberapa teknik pengekodan teks yang dicipta pada pelbagai peringkat perkembangan pemikiran manusia:

Kriptografi ialah penulisan rahsia, sistem mengubah tulisan untuk membuat teks tidak dapat difahami oleh yang belum tahu;

Kod Morse atau kod telegraf tidak sekata, di mana setiap huruf atau tanda diwakili oleh gabungan sendiri letusan asas pendek arus elektrik (titik) dan letusan asas tempoh tiga kali ganda (sempang);

bahasa isyarat ialah bahasa isyarat yang digunakan oleh orang yang mempunyai masalah pendengaran.

Salah satu kaedah penyulitan yang paling awal diketahui dinamakan sempena nama maharaja Rom Julius Caesar (abad pertama SM). Kaedah ini berdasarkan menggantikan setiap huruf teks yang disulitkan dengan yang lain, dengan mengalihkan abjad daripada huruf asal dengan bilangan aksara tetap, dan abjad dibaca dalam bulatan, iaitu, selepas huruf i, a dianggap . Jadi perkataan "bait", apabila dialihkan dua aksara ke kanan, dikodkan sebagai perkataan "gwlf". Proses terbalik untuk mentafsir perkataan yang diberikan adalah perlu untuk menggantikan setiap huruf yang disulitkan dengan yang kedua di sebelah kirinya.

II. Pengekodan maklumat

Kod ialah satu set konvensyen (atau isyarat) untuk merekod (atau berkomunikasi) beberapa konsep yang telah ditetapkan.

Pengekodan maklumat ialah proses membentuk perwakilan maklumat tertentu. Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.

Biasanya, setiap imej semasa pengekodan (kadangkala dipanggil penyulitan) diwakili oleh tanda yang berasingan.

Tanda ialah unsur bagi satu set unsur terhingga yang berbeza antara satu sama lain.

Dalam erti kata yang lebih sempit, istilah "pengekodan" sering difahami sebagai peralihan daripada satu bentuk perwakilan maklumat kepada yang lain, lebih mudah untuk penyimpanan, penghantaran atau pemprosesan.

Anda boleh memproses maklumat teks pada komputer. Apabila dimasukkan ke dalam komputer, setiap huruf dikodkan dengan nombor tertentu, dan apabila output ke peranti luaran (skrin atau cetakan), imej huruf dibina daripada nombor ini untuk persepsi manusia. Korespondensi antara satu set huruf dan nombor dipanggil pengekodan aksara.

Sebagai peraturan, semua nombor dalam komputer diwakili menggunakan sifar dan satu (bukan sepuluh digit, seperti biasa untuk orang). Dalam erti kata lain, komputer biasanya beroperasi dalam sistem nombor binari, kerana ini menjadikan peranti untuk memprosesnya lebih mudah. Memasukkan nombor ke dalam komputer dan mengeluarkannya untuk bacaan manusia boleh dilakukan dalam bentuk perpuluhan biasa, dan semua penukaran yang diperlukan dilakukan oleh program yang dijalankan pada komputer.

III. Pengekodan maklumat teks

Maklumat yang sama boleh dibentangkan (dikodkan) dalam beberapa bentuk. Dengan kemunculan komputer, timbul keperluan untuk mengekod semua jenis maklumat yang ditangani oleh individu dan manusia secara keseluruhan. Tetapi manusia mula menyelesaikan masalah pengekodan maklumat jauh sebelum kemunculan komputer. Pencapaian hebat umat manusia - menulis dan mengira - tidak lebih daripada sistem pengekodan pertuturan dan maklumat berangka. Maklumat tidak pernah muncul dalam bentuk tulennya, ia sentiasa dibentangkan entah bagaimana, dikodkan entah bagaimana.

Pengekodan binari adalah salah satu cara biasa untuk mewakili maklumat. Dalam komputer, robot dan mesin yang dikawal secara berangka, sebagai peraturan, semua maklumat yang dikendalikan oleh peranti dikodkan dalam bentuk perkataan abjad binari.

Sejak lewat 60-an, komputer semakin digunakan untuk memproses maklumat teks, dan pada masa ini sebahagian besar komputer peribadi di dunia (dan kebanyakan masa) sibuk dengan memproses maklumat teks. Semua jenis maklumat dalam komputer ini dibentangkan dalam kod binari, iaitu, abjad kuasa dua digunakan (hanya dua aksara 0 dan 1). Ini disebabkan oleh fakta bahawa ia adalah mudah untuk mewakili maklumat dalam bentuk urutan impuls elektrik: tidak ada impuls (0), terdapat impuls (1).

Pengekodan sedemikian biasanya dipanggil binari, dan urutan logik sifar dan satu sendiri dipanggil bahasa mesin.

Dari sudut pandangan komputer, teks terdiri daripada aksara individu. Simbol termasuk bukan sahaja huruf (huruf besar atau kecil, Latin atau Rusia), tetapi juga nombor, tanda baca, aksara khas seperti "=", "(", "&", dll., dan juga (beri perhatian khusus!) ruang antara perkataan.

Teks dimasukkan ke dalam memori komputer menggunakan papan kekunci. Huruf, nombor, tanda baca dan simbol lain yang kita kenali ditulis pada kekunci. Mereka memasukkan RAM dalam kod binari. Ini bermakna setiap aksara diwakili oleh kod binari 8-bit.

Secara tradisinya, untuk mengekod satu aksara, jumlah maklumat yang sama dengan 1 bait digunakan, iaitu I = 1 bait = 8 bit. Menggunakan formula yang menghubungkan bilangan kemungkinan peristiwa K dan jumlah maklumat I, anda boleh mengira berapa banyak simbol berbeza boleh dikodkan (dengan mengandaikan bahawa simbol adalah peristiwa yang mungkin): K = 2 I = 2 8 = 256, iaitu untuk Kepada mewakili maklumat teks, anda boleh menggunakan abjad dengan kapasiti 256 aksara.

Bilangan aksara ini cukup memadai untuk mewakili maklumat teks, termasuk huruf besar dan huruf kecil abjad Rusia dan Latin, nombor, tanda, simbol grafik, dsb.

Pengekodan terdiri daripada memberikan setiap aksara kod perpuluhan unik dari 0 hingga 255 atau kod binari yang sepadan dari 00000000 hingga 11111111. Oleh itu, seseorang membezakan aksara dengan garis besarnya dan komputer dengan kodnya.

Kemudahan pengekodan aksara bait demi bait adalah jelas kerana bait ialah bahagian memori terkecil yang boleh dialamatkan dan, oleh itu, pemproses boleh mengakses setiap aksara secara berasingan apabila memproses teks. Sebaliknya, 256 aksara adalah jumlah yang cukup untuk mewakili pelbagai jenis maklumat simbolik.

Dalam proses memaparkan simbol pada skrin komputer, proses terbalik dilakukan - penyahkodan, iaitu, menukar kod simbol ke dalam imejnya. Adalah penting bahawa memberikan kod khusus kepada simbol adalah perkara persetujuan, yang direkodkan dalam jadual kod.

Sekarang timbul persoalan, kod binari lapan-bit yang manakah untuk diberikan kepada setiap aksara. Adalah jelas bahawa ini adalah perkara bersyarat; anda boleh menghasilkan banyak kaedah pengekodan.

Semua aksara abjad komputer dinomborkan dari 0 hingga 255. Setiap nombor sepadan dengan kod binari lapan bit dari 00000000 hingga 11111111. Kod ini hanyalah nombor siri aksara dalam sistem nombor binari.

IV . Jenis jadual pengekodan

Jadual di mana semua aksara abjad komputer diberikan nombor siri dipanggil jadual pengekodan.

Jenis komputer yang berbeza menggunakan jadual pengekodan yang berbeza.

Jadual kod ASCII (Kod Standard Amerika untuk Pertukaran Maklumat) telah diterima pakai sebagai piawaian antarabangsa, mengekod separuh pertama aksara dengan kod angka dari 0 hingga 127 (kod dari 0 hingga 32 diberikan bukan kepada aksara, tetapi untuk kekunci berfungsi) .

Jadual kod ASCII dibahagikan kepada dua bahagian.

Hanya separuh pertama jadual adalah standard antarabangsa, i.e. aksara dengan nombor daripada 0 (00000000), hingga 127 (01111111).

Struktur jadual pengekodan ASCII

Nombor siri Kod Simbol
0 - 31 00000000 - 00011111

Simbol dengan nombor dari 0 hingga 31 biasanya dipanggil simbol kawalan.

Fungsi mereka adalah untuk mengawal proses memaparkan teks pada skrin atau pencetakan, membunyikan isyarat bunyi, menandakan teks, dsb.

32 - 127 0100000 - 01111111

Bahagian standard jadual (Bahasa Inggeris). Ini termasuk huruf kecil dan huruf besar abjad Latin, nombor perpuluhan, tanda baca, semua jenis kurungan, simbol komersial dan lain-lain.

Watak 32 ialah ruang, i.e. kedudukan kosong dalam teks.

Semua yang lain dicerminkan oleh tanda-tanda tertentu.

128 - 255 10000000 - 11111111

Bahagian alternatif jadual (Rusia).

Separuh kedua jadual kod ASCII, yang dipanggil halaman kod (128 kod, bermula dari 10000000 dan berakhir dengan 11111111), boleh mempunyai pilihan yang berbeza, setiap pilihan mempunyai nombor sendiri.

Halaman kod digunakan terutamanya untuk menampung abjad kebangsaan selain daripada Latin. Dalam pengekodan kebangsaan Rusia, aksara daripada abjad Rusia diletakkan di bahagian jadual ini.

Separuh pertama jadual kod ASCII

Sila ambil perhatian bahawa dalam jadual pengekodan, huruf (huruf besar dan huruf kecil) disusun dalam susunan abjad dan nombor disusun dalam susunan menaik. Pematuhan susunan leksikografi dalam susunan simbol ini dipanggil prinsip pengekodan berurutan abjad.

Untuk huruf abjad Rusia, prinsip pengekodan berurutan juga diperhatikan.

Separuh kedua jadual kod ASCII

Malangnya, pada masa ini terdapat lima pengekodan Cyrillic yang berbeza (KOI8-R, Windows. MS-DOS, Macintosh dan ISO). Oleh kerana itu, masalah sering timbul dengan memindahkan teks Rusia dari satu komputer ke komputer lain, dari satu sistem perisian ke yang lain.

Secara kronologi, salah satu piawaian pertama untuk pengekodan huruf Rusia pada komputer ialah KOI8 ("Kod Pertukaran Maklumat, 8-bit"). Pengekodan ini telah digunakan pada tahun 70-an pada komputer siri komputer ES, dan dari pertengahan 80-an ia mula digunakan dalam versi pertama sistem pengendalian UNIX yang telah dirussifikasikan.

Dari awal 90-an, masa penguasaan sistem pengendalian MS DOS, pengekodan CP866 kekal ("CP" bermaksud "Halaman Kod", "halaman kod").

Komputer Apple yang menjalankan sistem pengendalian Mac OS menggunakan pengekodan Mac mereka sendiri.

Selain itu, Pertubuhan Piawaian Antarabangsa (ISO) telah meluluskan pengekodan lain yang dipanggil ISO 8859-5 sebagai standard untuk bahasa Rusia.

Pengekodan yang paling biasa digunakan pada masa ini ialah Microsoft Windows, disingkat CP1251. Diperkenalkan oleh Microsoft; Dengan mengambil kira pengedaran luas sistem pengendalian (OS) dan produk perisian lain syarikat ini di Persekutuan Rusia, ia telah menemui pengedaran yang meluas.

Sejak akhir 90-an, masalah penyeragaman pengekodan aksara telah diselesaikan dengan pengenalan standard antarabangsa baharu yang dipanggil Unicode.

Ini ialah pengekodan 16-bit, i.e. ia memperuntukkan 2 bait memori untuk setiap aksara. Sudah tentu, ini meningkatkan jumlah memori yang diduduki sebanyak 2 kali ganda. Tetapi jadual kod sedemikian membenarkan kemasukan sehingga 65536 aksara. Spesifikasi lengkap standard Unicode termasuk semua abjad dunia yang sedia ada, pupus dan buatan buatan, serta banyak simbol matematik, muzik, kimia dan lain-lain.

Perwakilan dalaman perkataan dalam ingatan komputer

menggunakan jadual ASCII

Kadang-kadang ia berlaku bahawa teks yang terdiri daripada huruf abjad Rusia yang diterima dari komputer lain tidak boleh dibaca - beberapa jenis "abracadabra" kelihatan pada skrin monitor. Ini berlaku kerana komputer menggunakan pengekodan aksara yang berbeza untuk bahasa Rusia.

Oleh itu, setiap pengekodan ditentukan oleh jadual kodnya sendiri. Seperti yang dapat dilihat daripada jadual, aksara yang berbeza diberikan kepada kod binari yang sama dalam pengekodan yang berbeza.

Sebagai contoh, jujukan kod angka 221, 194, 204 dalam pengekodan CP1251 membentuk perkataan "komputer", manakala dalam pengekodan lain ia akan menjadi set aksara yang tidak bermakna.

Nasib baik, dalam kebanyakan kes pengguna tidak perlu risau tentang transcoding dokumen teks, kerana ini dilakukan oleh program penukar khas yang terbina dalam aplikasi.

V . Pengiraan jumlah maklumat teks

Tugasan 1: Kod perkataan "Rom" menggunakan jadual pengekodan KOI8-R dan CP1251.

Penyelesaian:

Tugasan 2: Dengan mengandaikan bahawa setiap aksara dikodkan dalam satu bait, anggarkan isipadu maklumat ayat berikut:

"Paman saya mempunyai peraturan yang paling jujur,

Apabila saya jatuh sakit teruk,

Dia memaksa dirinya untuk menghormati

Dan saya tidak dapat memikirkan apa-apa yang lebih baik."

Penyelesaian: Frasa ini mempunyai 108 aksara, termasuk tanda baca, tanda petikan dan ruang. Kami mendarabkan nombor ini dengan 8 bit. Kami mendapat 108*8=864 bit.

Tugasan 3: Kedua-dua teks mengandungi bilangan aksara yang sama. Teks pertama ditulis dalam bahasa Rusia, dan yang kedua dalam bahasa suku Naguri, yang abjadnya terdiri daripada 16 aksara. Teks siapa yang mengandungi maklumat lanjut?

Penyelesaian:

1) I = K * a (isipadu maklumat teks adalah sama dengan hasil darab bilangan aksara dan berat maklumat satu aksara).

2) Kerana Kedua-dua teks mempunyai bilangan aksara (K) yang sama, maka perbezaannya bergantung pada kandungan maklumat satu aksara abjad (a).

3) 2 a1 = 32, i.e. a 1 = 5 bit, 2 a2 = 16, i.e. dan 2 = 4 bit.

4) I 1 = K * 5 bit, I 2 = K * 4 bit.

5) Ini bermakna bahawa teks yang ditulis dalam bahasa Rusia membawa 5/4 kali lebih banyak maklumat.

Tugasan 4: Saiz mesej, yang mengandungi 2048 aksara, ialah 1/512 MB. Tentukan kuasa abjad.

Penyelesaian:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bit - menukar isipadu maklumat mesej kepada bit.

2) a = I / K = 16384 /1024 = 16 bit - menyumbang satu aksara abjad.

3) 2*16*2048 = 65536 aksara – kuasa abjad yang digunakan.

Tugasan 5: Pencetak laser Canon LBP mencetak pada kelajuan purata 6.3 Kbps. Berapa lama masa yang diperlukan untuk mencetak dokumen 8 halaman, jika anda tahu bahawa satu halaman mempunyai purata 45 baris dan 70 aksara setiap baris (1 aksara - 1 bait)?

Penyelesaian:

1) Cari jumlah maklumat yang terkandung pada 1 halaman: 45 * 70 * 8 bit = 25200 bit

2) Cari jumlah maklumat pada 8 muka surat: 25200 * 8 = 201600 bit

3) Kami mengurangkan kepada unit ukuran biasa. Untuk melakukan ini, kami menukar Mbit kepada bit: 6.3*1024=6451.2 bit/saat.

4) Cari masa cetakan: 201600: 6451.2 =31 saat.

Bibliografi

1. Ageev V.M. Teori maklumat dan pengekodan: persampelan dan pengekodan maklumat pengukuran. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Asas teori maklumat dan pengekodan. - Kyiv, sekolah Vishcha, 1986.

3. Kaedah penyulitan teks yang paling mudah / D.M. Zlatopolsky. – M.: Chistye Prudy, 2007 – 32 p.

4. Ugrinovich N.D. Sains komputer dan teknologi maklumat. Buku teks untuk gred 10-11 / N.D. Ugrinovich. – M.: BINOM. Makmal Pengetahuan, 2003. – 512 p.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Bahan pembelajaran kendiri pada tajuk Kuliah 2

Pengekodan ASCII

Jadual pengekodan ASCII (ASCII - Kod Standard Amerika untuk Pertukaran Maklumat - Kod Standard Amerika untuk Pertukaran Maklumat).

Secara keseluruhan, 256 aksara berbeza boleh dikodkan menggunakan jadual pengekodan ASCII (Rajah 1). Jadual ini dibahagikan kepada dua bahagian: yang utama (dengan kod dari OOh hingga 7Fh) dan yang tambahan (dari 80h hingga FFh, di mana huruf h menunjukkan bahawa kod itu tergolong dalam sistem nombor perenambelasan).

Gambar 1

Untuk mengekod satu aksara daripada jadual, 8 bit (1 bait) diperuntukkan. Semasa memproses maklumat teks, satu bait mungkin mengandungi kod aksara tertentu - huruf, nombor, tanda baca, tanda tindakan, dsb. Setiap aksara mempunyai kod sendiri dalam bentuk integer. Dalam kes ini, semua kod dikumpul dalam jadual khas yang dipanggil jadual pengekodan. Dengan bantuan mereka, kod simbol ditukar kepada perwakilan yang boleh dilihat pada skrin monitor. Akibatnya, sebarang teks dalam memori komputer diwakili sebagai urutan bait dengan kod aksara.

Contohnya, perkataan hello! akan dikodkan seperti berikut (Jadual 1).

Jadual 1

Kod binari

kod perpuluhan

Rajah 1 menunjukkan aksara yang disertakan dalam pengekodan ASCII standard (Bahasa Inggeris) dan lanjutan (Rusia).

Separuh pertama jadual ASCII diseragamkan. Ia mengandungi kod kawalan (dari 00j hingga 20j dan 77j). Kod ini telah dialih keluar daripada jadual kerana ia tidak digunakan pada elemen teks. Tanda baca dan simbol matematik juga diletakkan di sini: 2lh - !, 26h - &, 28h - (, 2Bh -+,..., huruf Latin besar dan kecil: 41h - A, 61h – a.

Separuh kedua jadual mengandungi fon kebangsaan, simbol pseudografik dari mana jadual boleh dibina, dan simbol matematik khas. Bahagian bawah jadual pengekodan boleh diganti menggunakan pemacu yang sesuai - mengawal program tambahan. Teknik ini membolehkan anda menggunakan beberapa fon dan muka taipnya.

Paparan untuk setiap kod simbol harus memaparkan imej simbol - bukan hanya kod digital, tetapi gambar yang sepadan, kerana setiap simbol mempunyai bentuknya sendiri. Penerangan tentang bentuk setiap aksara disimpan dalam memori paparan khas - penjana aksara. Penonjolan watak pada skrin paparan PC IBM, sebagai contoh, dijalankan menggunakan titik-titik membentuk matriks aksara. Setiap piksel dalam matriks sedemikian adalah elemen imej dan boleh menjadi terang atau gelap. Titik gelap dikodkan sebagai 0, titik terang (terang) sebagai 1. Jika anda mewakili piksel gelap dalam medan matriks tanda sebagai titik dan piksel terang sebagai asterisk, anda boleh menggambarkan bentuk simbol secara grafik.

Orang di negara yang berbeza menggunakan simbol untuk menulis perkataan dalam bahasa ibunda mereka. Hari ini, kebanyakan aplikasi, termasuk sistem e-mel dan penyemak imbas web, adalah 8-bit tulen, bermakna ia hanya boleh memaparkan dan menerima aksara 8-bit dengan betul, mengikut piawaian ISO-8859-1.

Terdapat lebih daripada 256 aksara di dunia (jika anda mengambil kira Cyrillic, Arab, Cina, Jepun, Korea dan Thai), dan semakin banyak aksara baharu muncul. Dan ini mewujudkan jurang berikut untuk ramai pengguna:

Anda tidak boleh menggunakan aksara daripada set pengekodan yang berbeza dalam dokumen yang sama. Memandangkan setiap dokumen teks menggunakan set pengekodan sendiri, terdapat kesukaran besar dengan pengecaman teks automatik.

Simbol baharu muncul (contohnya: Euro), akibatnya ISO membangunkan piawaian baharu, ISO-8859-15, yang hampir serupa dengan piawaian ISO-8859-1. Perbezaannya ialah jadual pengekodan ISO-8859-1 lama telah mengalih keluar simbol untuk mata wang lama yang tidak digunakan pada masa ini untuk memberi ruang kepada simbol yang baru diperkenalkan (seperti Euro). Akibatnya, pengguna mungkin mempunyai dokumen yang sama pada cakera mereka, tetapi dalam pengekodan yang berbeza. Penyelesaian kepada masalah ini ialah penggunaan satu set pengekodan antarabangsa yang dipanggil Pengekodan Universal atau Unikod.

Pengekodan Unicode

Piawaian ini dicadangkan pada tahun 1991 oleh organisasi bukan untung Unicode Consortium (Unicode Inc.). Penggunaan standard ini membolehkan anda mengekod sejumlah besar aksara daripada skrip yang berbeza: Dokumen Unicode boleh mengandungi aksara Cina, simbol matematik, huruf abjad Yunani, abjad Latin dan Cyrillic, dan penukaran halaman kod menjadi tidak diperlukan.

Standard ini terdiri daripada dua bahagian utama: set aksara universal (UCS) dan keluarga pengekodan (UTF, format transformasi Unicode). Set aksara universal menentukan surat-menyurat satu dengan satu antara aksara dan kod - elemen ruang kod yang mewakili integer bukan negatif. Keluarga pengekodan mentakrifkan perwakilan mesin bagi urutan kod UCS.

Piawaian Unicode dibangunkan untuk mencipta pengekodan aksara tunggal untuk semua bahasa bertulis moden dan banyak bahasa purba. Setiap aksara dalam piawaian ini dikodkan dengan 16 bit, yang membolehkan ia meliputi bilangan aksara yang tidak dapat dibandingkan dengan pengekodan 8-bit yang diterima sebelum ini. Satu lagi perbezaan penting antara Unicode dan sistem pengekodan lain ialah ia bukan sahaja memberikan kod unik kepada setiap aksara, tetapi juga mentakrifkan pelbagai ciri watak itu, contohnya:

    jenis aksara (huruf besar, huruf kecil, nombor, tanda baca, dsb.);

    atribut aksara (paparan dari kiri ke kanan atau kanan ke kiri, ruang, pemisah baris, dsb.);

    huruf besar atau huruf kecil yang sepadan (untuk huruf kecil dan huruf besar, masing-masing);

    nilai angka yang sepadan (untuk aksara angka).

Keseluruhan julat kod dari 0 hingga FFFF dibahagikan kepada beberapa subset standard, setiap satunya sepadan dengan abjad sesuatu bahasa atau dengan sekumpulan aksara khas yang serupa dalam fungsinya. Rajah di bawah mengandungi senarai umum subset Unicode 3.0 (Rajah 2).

Rajah 2

Piawaian Unicode adalah asas untuk menyimpan teks dalam banyak sistem komputer moden. Walau bagaimanapun, ia tidak serasi dengan kebanyakan protokol Internet kerana kodnya boleh mengandungi sebarang nilai bait, dan protokol biasanya menggunakan bait 00 - 1F dan FE - FF sebagai bait perkhidmatan. Untuk mencapai keserasian, beberapa format transformasi Unicode (UTF, Format Transformasi Unicode) telah dibangunkan, yang mana UTF-8 adalah yang paling biasa hari ini. Format ini mentakrifkan peraturan berikut untuk menukar setiap kod Unicode kepada satu set bait (satu hingga tiga) yang sesuai untuk pengangkutan melalui protokol Internet.

Di sini x,y,z menandakan bit kod sumber yang harus diekstrak, bermula dengan kod yang paling tidak signifikan, dan dimasukkan ke dalam bait hasil dari kanan ke kiri sehingga semua kedudukan yang ditentukan diisi.

Perkembangan lanjut standard Unicode dikaitkan dengan penambahan satah bahasa baharu, i.e. aksara dalam julat 10000 - 1FFFF, 20000 - 2FFFF, dsb., di mana ia sepatutnya memasukkan pengekodan untuk skrip bahasa mati yang tidak disertakan dalam jadual di atas. Format baharu, UTF-16, telah dibangunkan untuk mengekod aksara tambahan ini.

Jadi terdapat 4 cara utama untuk mengekod bait Unicode:

UTF-8: 128 aksara yang dikodkan dalam satu bait (format ASCII), 1920 aksara yang dikodkan dalam 2 bait ((Romawi, Yunani, Cyrillic, Koptik, Armenia, Ibrani, aksara Arab), 63488 aksara yang dikodkan dalam 3 bait (Cina, Jepun dll .) Baki 2,147,418,112 aksara (belum digunakan) boleh dikodkan dengan 4, 5 atau 6 bait.

UCS-2: Setiap aksara diwakili oleh 2 bait. Pengekodan ini hanya merangkumi 65,535 aksara pertama daripada format Unicode.

UTF-16: Sambungan UCS-2, ia mengandungi 1,114,112 aksara format Unicode. 65,535 aksara pertama diwakili oleh 2 bait, selebihnya dengan 4 bait.

USC-4: Setiap aksara dikodkan dalam 4 bait.