Кожен комп'ютер має власний набір знаків, який він продає. Такий набір містить 26 великих і малих літер, цифри та спеціальні символи (точка, пробіл і тд). Символи під час переведення в цілі числа мають назву кодами. Були розроблені стандарти, щоб комп'ютери мали однакові набори кодів.
Стандарт ASCIIASCII (American Standart Code for Inmormation Interchange) – американський стандартний код для обміну інформацією. Кожен символ ASCII має 7 бітів, тому максимальна кількість символів – 128 (таблиця 1). Коди від 0 до 1F є символами керування, які не друкуються. Безліч недрукованих символів ASCII потрібні передачі даних. Наприклад послання може складатися із символу початку заголовка SOH, самого заголовка та символу початку тексту STX, самого тексту та символу кінця тексту ETX, та символ кінця передачі EOT. Однак дані мережі передаються в пакетах, які самі відповідають за початок передачі і кінець. Отже, недруковані символи майже не використовуються.
Таблиця 1 - таблиця кодів ASCII
0 | NUL | Порожній покажчик | 10 | DLE | Вихід із системи передачі |
1 | SOH | початок заголовка | 11 | DC1 | Управління пристроєм |
2 | STX | Початок тексту | 12 | DC2 | Управління пристроєм |
3 | ETX | Кінець тексту | 13 | DC3 | Управління пристроєм |
4 | EOT | Кінець передачі | 14 | DC4 | Управління пристроєм |
5 | ACK | Запит | 15 | NAK | Непідтвердження прийому |
6 | BEL | Підтвердження прийому | 16 | SYN | Простий |
7 | BS | Символ дзвінка | 17 | ETB | Кінець блоку передачі |
8 | HT | Відступ назад | 18 | CAN | Відмітка |
9 | LF | Горизонтальна табуляція | 19 | EM | Кінець носія |
A | VT | Переклад рядка | 1A | SUB | Підрядковий індекс |
B | FF | Вертикальна табуляція | 1B | ESC | Вихід |
C | CR | Переклад сторінки | 1C | FS | Розділювач файлів |
D | SO | Повернення каретки | 1D | GS | Розділювач групи |
E | SI | Перемикання на додатковий регістр | 1E | RS | Розділювач запису |
SI | Перемикання на стандартний регістр | 1F | US | Розділювач модуля |
20 | пробіл | 30 | 0 | 40 | @ | 50 | P | 60 | . | 70 | p |
21 | ! | 31 | 1 | 41 | A | 51 | Q | 61 | a | 71 | q |
22 | ‘ | 32 | 2 | 42 | B | 52 | R | 62 | b | 72 | r |
23 | # | 33 | 3 | 43 | C | 53 | S | 63 | c | 73 | s |
24 | φ | 34 | 4 | 44 | D | 54 | T | 64 | d | 74 | t |
25 | % | 35 | 5 | 45 | E | 55 | І | 65 | e | 75 | і |
26 | & | 36 | 6 | 46 | F | 56 | V | 66 | f | 76 | v |
27 | ‘ | 37 | 7 | 47 | G | 57 | W | 67 | g | 77 | w |
28 | ( | 38 | 8 | 48 | H | 58 | X | 68 | h | 78 | x |
29 | ) | 39 | 9 | 49 | I | 59 | Y | 69 | i | 70 | y |
2A | ‘ | 3A | ; | 4A | J | 5A | Z | 6A | j | 7A | z |
2B | + | 3B | ; | 4B | K | 5B | [ | 6B | k | 7B | { |
2C | ‘ | 3C | < | 4C | L | 5C | \ | 6C | l | 7C | | |
2D | — | 3D | = | 4D | M | 5D | ] | 6D | m | 7D | } |
2E | 3E | > | 4E | N | 5E | — | 6E | n | 7E | ~ | |
2F | / | 3F | g | 4F | O | 5F | _ | 6F | o | 7F | DEL |
Попереднє кодування відмінно підходить для англійської мови, однак для інших мов вона не зручна. Наприклад у німецькій мові є умляути, а французькою надрядкові знаки. Деякі мови мають абсолютно різні алфавіти. Першою спробою розширення ASCII був IS646, який розширював попереднє кодування ще на 128 символів. Додані були латинські літери зі штрихами та діакритичними знаками, і отримав назву – Latin 1. Наступна спроба була IS 8859 – які містили кодову сторінку. Були ще спроби розширень, але це було не універсальним. Було створено кодування UNICODE (10646). Ідея кодування в тому, щоб приписати кожному символу єдине постійне 16-бітне значення, яке називається - покажчиком коду . Усього виходить 65536 покажчиків. Для економії місця використовували Latin-1 для кодів 0 -255, легко змінюючи ASII UNICODE. Такий стандарт вирішив багато проблем, проте не всі. У зв'язку з надходженням нових слів, наприклад для японської мови необхідно підвищувати кількість термінів десь на 20 тис. Також необхідно включити шрифт брайля.
Накладення символівЗавдяки символу BS (повернення на крок) на принтері можна друкувати один символ поверх іншого. В ASCII було передбачено додавання таким чином діакритики до літер, наприклад:
- a BS " → á
- a BS ` → à
- a BS ^ → â
- o BS / → ø
- c BS → ç
- n BS ~ → ñ
Примітка: у старих шрифтах апостроф "малювався з нахилом вліво, а тильда ~ була зрушена вгору, так що вони якраз підходили на роль акута і тильди зверху.
Якщо символ накладається той самий символ, то виходить ефект жирного шрифту, і якщо символ накладається підкреслення, то виходить підкреслений текст.
- a BS a → a
- a BS _ → a
Примітка: це використовується, наприклад, у довідковій системі man.
Національні варіанти ASCIIСтандарт ISO 646 (ECMA-6) передбачає можливість розміщення національних символів на місці @[\]^`(|)~. На додаток до цього, на місці # може бути розміщений £ , а на місці $ - ¤ . Така система добре підходить для європейських мов, де потрібно лише кілька додаткових символів. Варіант ASCII без національних символів називається US-ASCII або «International Reference Version».
Згодом виявилося зручніше використовувати 8-бітові кодування (кодові сторінки), де нижню половину кодової таблиці (0-127) займають символи US-ASCII, а верхню (128-255) - додаткові символи, включаючи набір національних символів. Таким чином, верхня половина таблиці ASCII до повсюдного впровадження Юнікод активно використовувалася для представлення локалізованих символів, літер місцевої мови. Відсутність єдиного стандарту розміщення кирилиць у таблиці ASCII доставляла безліч проблем з кодуваннями (КОІ-8, Windows-1251 та інші). Інші мови з нелатинською писемністю теж страждали через кілька різних кодувань.
NUL | SOM | EOA | EOM | EQT | WRU | RU | BELL | BKSP | HT | LF | VT | FF | CR | SO | SI |
DC 0 | DC 1 | DC 2 | DC 3 | DC 4 | ERR | SYNC | LEM | S 0 | S 1 | S 2 | S 3 | S 4 | S 5 | S 6 | S 7 |
BLANK | ! | " | # | $ | % | & | " | ( | ) | * | + | , | - | . | / |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
@ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ← | |
a | b | c | d | e | f | g | h | i | j | k | l | m | n | o | |
p | q | r | s | t | u | v | w | x | y | z | ESC | DEL |
На комп'ютерах, де мінімально адресованою одиницею пам'яті було 36-битное слово, спочатку використовували 6-битные символи (1 слово = 6 символів). Після переходу на ASCII на таких комп'ютерах в одному слові почали розміщувати або 5 семибітних символів (1 біт залишався зайвим), або 4 дев'ятибітні символи.
ASCII-коди також використовуються для визначення натиснутої клавіші при програмуванні. Для стандартної QWERTY-клавіатури таблиця кодів виглядає так:
[8-бітні кодування: ASCII, КОІ-8R та CP1251] Перші таблиці кодування, створені в США, не використовували восьмий біт у байті. Текст представлявся як послідовність байт, але восьмий біт не враховувався (він застосовувався у службових цілях). Загальновизнаним стандартом стала таблиця ASCII (American Standard Code for Information Interchange). Перші 32 символи таблиці ASCII (від 00 до 1F) використовувалися для недрукованих символів. Вони були призначені для керування принтером і т.п. Решта - від 20 до 7F - звичайні (друковані) символи. Таблиця 1 - кодування ASCII
Як легко помітити, у цьому кодуванні представлені лише латинські літери, причому ті, що використовуються англійською мовою. Є також арифметичні та інші службові символи. Але немає ні російських букв, ні навіть спеціальних латинських для німецької чи французької. Це легко пояснити - кодування розроблялося як американський стандарт. Коли комп'ютери стали застосовуватися в усьому світі, потрібно кодувати інші символи. Для цього було прийнято рішення використати восьмий біт у кожному байті. Тим самим було доступно ще 128 значень (від 80 до FF), які можна було використовувати для кодування символів. Перша з восьмибітних таблиць - "розширений ASCII" (Extended ASCII) - включала різні варіанти латинських символів, що застосовуються в деяких мовах Західної Європи. Також у ній були інші додаткові символи, включаючи псевдографіку. Псевдографічні символи дозволяють, виводячи на екран лише текстові символи, забезпечувати певну подобу графіки. За допомогою псевдографіки працює, наприклад, програма управління файлами FAR Manager. Російських букв у таблиці Extended ASCII був. У Росії (раніше - СРСР) та інших державах створювалися свої кодування, що дозволяють представляти у 8-бітних текстових файлах специфічні “національні” символи - латинські літери польської та чеської мов, кирилицю (включаючи російські літери) та інші алфавіти. У всіх кодуваннях, що набули поширення, перші 127 символів (тобто значення байта при восьмому биті, що дорівнює 0) збігаються з ASCII. Таким чином, файл у форматі ASCII працює у будь-якому з цих кодувань; літери англійської в них представлені однаково. Організація ISO (International Standardization Organization – Міжнародна Організація за Стандартами) прийняла групу стандартів ISO 8859 . Вона визначає 8-бітові кодування для різних груп мов. Так, ISO 8859-1 – це Extended ASCII, таблиця для США та Західної Європи. А ISO 8859-5 – таблиця для кирилиці (включаючи російську мову). Однак з історичних причин кодування ISO 8859-5 не прижилося. Реально для російської застосовуються такі кодування: Code Page 866 (CP866 ), вона ж “DOS”, вона ж “альтернативне кодування ГОСТ”. Широко застосовувалася до середини 90-х; тепер використовується обмежено. Практично не використовується для розповсюдження текстів в Інтернеті. Основною перевагою CP866 було збереження символів псевдографіки на тих же місцях, що й Extended ASCII; тому могли без змін працювати зарубіжні текстові програми, наприклад знаменитий Norton Commander. Зараз CP866 використовується для програм під Windows, що працюють у текстових вікнах або в повноекранному текстовому режимі, включаючи FAR Manager. Тексти в CP866 останніми роками зустрічаються досить рідко (натомість вона використовується для кодування російських імен файлів у Windows). Тому ми докладніше зупинимося на двох інших кодуваннях – КОІ-8R та CP1251. Як можна помітити, в таблиці кодування CP1251 російські букви розташовані в алфавітному порядку (за винятком, щоправда, букви Е). Завдяки такому розташуванню комп'ютерних програм дуже просто здійснювати сортування за абеткою. А ось у КОІ-8R порядок російських букв здається випадковим. Але насправді це негаразд. У багатьох старих програмах під час обробки чи передачі тексту губився 8-й біт. (Зараз такі програми практично "вимерли", але наприкінці 80-х - на початку 90-х років вони були широко поширені). Щоб отримати з 8-бітного значення 7-бітне, достатньо відібрати від старшої цифри 8; наприклад, E1 перетворюється на 61. А тепер порівняйте КОІ-8R із таблицею ASCII (табл.1). Ви виявите, що російські літери поставлені в чітку відповідність до латинських. Якщо зникне восьмий біт, малі російські літери перетворюються на великі латинські, а великі російські - на малі латинські. Так, E1 у КОІ-8 - це російське "А", тоді як 61 в ASCII - латинське "a". Отже, КОІ-8 дозволяє зберігати читання російського тексту за втрати 8-го біта. “Привіт усім” перетворюється на “pRIWET WSEM”. Останнім часом і алфавітний порядок розташування символів у таблиці кодування, та читання при втраті 8-го біта втратили вирішальне значення. Восьмий біт у сучасних комп'ютерах не втрачається ні під час передачі, ні під час обробки. А сортування за алфавітом здійснюється з урахуванням кодування, а не простим порівнянням кодів. (До речі, коди CP1251 розташовані не повністю за абеткою - буква Е не знаходиться на своєму місці). Через те, що поширених кодувань виявилося два, під час роботи з Інтернетом (пошта, перегляд Web-сайтів) іноді можна замість російського тексту побачити безглуздий набір букв. Наприклад, "Я СБЮФЕМХЕЛ". Це лише слова “з повагою”; але вони були закодовані у кодуванні CP1251, а комп'ютер декодував текст за таблицею КОІ-8. Якщо ж слова, навпаки, закодовані в КОИ-8, а комп'ютер декодував текст за таблицею CP1251, результатом буде “У ХЧБЦЕОЙЕН”. Іноді буває, що комп'ютер розшифровує російськомовні листи і за таблицею, не призначеної російської. Тоді замість російських літер з'являється безглуздий набір символів (наприклад, латинські літери східноєвропейських мов); їх часто називають "крокозябрами". Найчастіше сучасні програми справляються з визначенням кодувань документів Інтернету (електронних листів та Web-сторінок) самостійно. Але іноді вони "дають осічку", і тоді можна побачити дивні послідовності російських букв або "крокозябри". Як правило, щоб у такій ситуації вивести на екран справжній текст, достатньо вибрати вручну кодування в меню програми. Для статті використовувалася інформація сторінки http://open-office.edusite.ru/TextProcessor/p5aa1.html. Матеріал взятий із сайту:
Опис спеціальних (керуючих) символів Слід зазначити, що спочатку керуючі символи таблиці ASCII використовувалися для забезпечення обміну даними по телетайпу, введення даних з перфострічки та найпростішого керування зовнішніми пристроями. В даний час більшість керуючих символів ASCII таблиці вже не несуть це навантаження і можуть використовуватися для інших цілей.
Excel для Office 365 Word для Office 365 Outlook для Office 365 PowerPoint для Office 365 Publisher для Office 365 Excel 2019 Outlook 2019 6 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio професійний 2016 Visio стандартний 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 7 Outlook 2007 PowerPoint 2007 Publisher 2007 Access 2007 Visio 2007 OneNote 2007 Office 2010 Visio Стандартний 2007 Visio стандартний 2010 Менше У цій статті Вставка символу ASCII або Юнікоду в документЯкщо вам потрібно ввести лише кілька спеціальних знаків або символів, можна використовувати або клавіші. Список символів ASCII див. у наступних таблицях або статті Вставлення літер національних алфавітів за допомогою клавіш . Примітки: Вставка символів ASCIIЩоб вставити символ ASCII, натисніть та утримуйте клавішу ALT, вводячи код символу. Наприклад, щоб вставити символ градусів (º), натисніть та утримуйте клавішу ALT, а потім введіть 0176 на цифровій клавіатурі. Щоб ввести цифри, використовуйте цифрову клавіатуру , а не цифри на основній клавіатурі. Якщо на цифровій клавіатурі потрібно ввести цифри, переконайтеся, що увімкнено індикатор NUM LOCK. Вставка символів ЮнікодуЩоб вставити символ Юнікоду, введіть код символу, потім послідовно натисніть клавіші ALT і X. Наприклад, щоб вставити символ долара ($), введіть 0024 і послідовно натисніть клавіші ALT і X. Усі коди символів Юнікоду див. Важливо: Деякі програми Microsoft Office, наприклад PowerPoint та InfoPath, не підтримують перетворення кодів Юнікоду на символи. Якщо вам потрібно вставити символ Юнікоду в одній з таких програм, використовуйте . Примітки: Якщо після натискання клавіш ALT+X відображається неправильний символ Юнікоду, виберіть правильний код, а потім натисніть ALT+X. Крім того, перед кодом слід ввести U+. Наприклад, якщо ввести "1U+B5" та натиснути клавіші ALT+X, відобразиться текст "1µ", а якщо ввести "1B5" і натиснути клавіші ALT+X, з'явиться символ "Ƶ". Таблиця символів - це програма, вбудована в Microsoft Windows, яка дозволяє переглядати символи, доступні для вибраного шрифту. За допомогою таблиці символів можна копіювати окремі символи або групу символів у буфер обміну та вставляти їх у будь-яку програму, яка підтримує відображення цих символів. Відкриття таблиці символів У Windows 10 Введіть слово "символ" у полі пошуку на панелі завдань та оберіть таблицю символів у результатах пошуку. У Windows 8 Введіть слово "символ" на початковому екрані та оберіть таблицю символів у результатах пошуку. У Windows 7 натисніть кнопку Пуск, послідовно виберіть Усі програми, Стандартні, Службові та клацніть Таблиця символів. Символи групуються за шрифтом. Натисніть список шрифтів, щоб вибрати відповідний набір символів. Щоб вибрати символ, клацніть його та натисніть кнопку Вибрати . Щоб вставити символ, клацніть потрібне місце в документі правою кнопкою миші та виберіть Вставити . Коди символів, що часто використовуютьсяПовний список символів див. на комп'ютері, таблиці кодів символів ASCII або таблицях символів Юнікоду, впорядкованих за наборами .
|