តារាងសរសេរកូដ Koi លេខ 8 ។ តើការអ៊ិនកូដ KOI8-R គឺជាអ្វី ហើយតើវាបានផ្តល់ឱ្យអ្វីខ្លះ? ASCII - ការអ៊ិនកូដអត្ថបទជាមូលដ្ឋានសម្រាប់អក្ខរក្រមឡាតាំង

KOI-8 (លេខកូដផ្លាស់ប្តូរព័ត៌មាន ៨ ប៊ីត) KOI8- ស្តង់ដារប្រាំបីប៊ីតសម្រាប់ការអ៊ិនកូដតួអក្សរក្នុងវិទ្យាសាស្ត្រកុំព្យូទ័រ។ រចនាឡើងសម្រាប់ការអ៊ិនកូដអក្សរនៃអក្ខរក្រម Cyrillic ។ វាក៏មានកំណែប្រាំពីរប៊ីតនៃការអ៊ិនកូដផងដែរ - KOI-7 ។ KOI-7 និង KOI-8 ត្រូវបានពិពណ៌នានៅក្នុង GOST 19768-74 (ឥឡូវមិនត្រឹមត្រូវ) ។

អ្នកអភិវឌ្ឍន៍នៃ KOI-8 បានដាក់តួអក្សរនៃអក្ខរក្រមរុស្ស៊ីនៅផ្នែកខាងលើនៃតារាង ASCII ដែលត្រូវបានពង្រីកតាមរបៀបដែលទីតាំងនៃតួអក្សរ Cyrillic ត្រូវគ្នាទៅនឹងសមភាគីសូរសព្ទរបស់ពួកគេនៅក្នុងអក្ខរក្រមអង់គ្លេសនៅខាងក្រោមតារាង។ នេះមានន័យថាប្រសិនបើនៅក្នុងអត្ថបទដែលសរសេរនៅក្នុង KOI-8 ប៊ីតទីប្រាំបីនៃតួអក្សរនីមួយៗត្រូវបានដកចេញ នោះអត្ថបទ "អាចអានបាន" ត្រូវបានទទួល ទោះបីជាវាត្រូវបានសរសេរជាអក្សរឡាតាំងក៏ដោយ។ ឧទាហរណ៍ ពាក្យ "អត្ថបទរុស្ស៊ី" នឹងក្លាយជា "rUSSKIJ tEKST" ។ ជាលទ្ធផល តួអក្សរ Cyrillic មិនត្រូវបានរៀបចំតាមលំដាប់អក្ខរក្រមទេ។

សរសេរកូដ KOI8-R

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.ក	.ខ	.គ	.ឃ	.អ៊ី	.F
8.	─ 2500	│ 2502	┌ 250C	┐ 2510	└ 2514	┘ 2518	├ ២៥១ គ	┤ 2524	┬ ២៥២ គ	┴ 2534	┼ ២៥៣ គ	▀ 2580	▄ 2584	█ 2588	▌ ២៥៨ គ	▐ 2590
9.	░ 2591	▒ 2592	▓ 2593	⌠ 2320	■ 25A0	∙ 2219	√ 221 ក	≈ 2248	≤ 2264	≥ 2265	A0	⌡ 2321	° B0	² ខ២	· ខ៧	÷ F7
ក.	═ 2550	║ 2551	╒ 2552	អ៊ី 451	╓ 2553	╔ 2554	╕ 2555	╖ 2556	╗ 2557	╘ 2558	╙ 2559	╚ 255A	╛ 255 ប	╜ 255 គ	╝ 255 ឃ	╞ 255 អ៊ី
ខ.	╟ 255F	╠ 2560	╡ 2561	យូ 401	╢ 2562	╣ 2563	╤ 2564	╥ 2565	╦ 2566	╧ 2567	╨ 2568	╩ 2569	╪ ២៥៦ ក	╫ ២៥៦ ប	╬ ២៥៦ គ	© ក៩
គ.	យូ 44 អ៊ី	ក 430	ខ 431	ts 446	ឃ 434	អ៊ី 435	f 444	ជី 433	X 445	និង 438	ទី 439	ទៅ 43A	លីត្រ ៤៣ ប	ម 43 គ	ន 43D	អូ ៤៣ អ៊ី
ឃ.	ន 43F	ខ្ញុំ 44F	r 440	ជាមួយ 441	ធ 442	នៅ 443	និង 436	វ 432	ខ 44 គ	ស ៤៤ ប	h 437	វ 448	អូ 44D	sch 449	h 447	ъ ៤៤ ក
អ៊ី.	យូ ៤២ អ៊ី	ក 410	ខ 411	គ 426	ឃ 414	អ៊ី 415	ច 424	ជី 413	X 425	និង 418	យ 419	TO ៤១ ក	អិល ៤១ ប	ម 41 គ	ន 41 ឃ	អំពី ៤១ អ៊ី
ច.	ទំ 41F	ខ្ញុំ 42F	រ 420	ជាមួយ 421	ធ 422	យូ 423	និង 416	IN 412	ខ 42 គ	យ ៤២ ប	Z 417	ស 428	អ៊ី 42 ឃ	SCH 429	ហ 427	Kommersant ៤២ ក

ការអ៊ិនកូដ KOI8-U (អ៊ុយក្រែន)

	.0	.1	.2	.3	.4	.5	.6	.7	.8	.9	.ក	.ខ	.គ	.ឃ	.អ៊ី	.F
ក.	═ 2550	║ 2551	╒ 2552	អ៊ី 451	є 454	╔ 2554	і 456	ї 457	╗ 2557	╘ 2558	╙ 2559	╚ 255A	╛ 255 ប	ґ 491	╝ 255 ឃ	╞ 255 អ៊ី
ខ.	╟ 255F	╠ 2560	╡ 2561	យូ 401	Є 404	╣ 2563	І 406	Ї 407	╦ 2566	╧ 2567	╨ 2568	╩ 2569	╪ ២៥៦ ក	Ґ 490	╬ ២៥៦ គ	© ក៩

— Zampolit (@ComradZampolit) ថ្ងៃទី ១៧ ខែ សីហា ឆ្នាំ ២០១៧

តើ KOI8-R ដំណើរការយ៉ាងដូចម្តេច?

KOI8-R គឺជាទំព័រកូដប្រាំបីប៊ីតដែលត្រូវបានរចនាឡើងសម្រាប់ការអ៊ិនកូដអក្សរនៃអក្ខរក្រម Cyrillic ។ អ្នកអភិវឌ្ឍន៍បានដាក់តួអក្សរនៃអក្ខរក្រមរុស្ស៊ីតាមរបៀបដែលទីតាំងនៃអក្សរ Cyrillic ត្រូវគ្នាទៅនឹងសមភាគីសូរសព្ទរបស់ពួកគេនៅក្នុងអក្ខរក្រមអង់គ្លេសនៅខាងក្រោមតារាង។ ហើយប្រសិនបើនៅក្នុងអត្ថបទដែលសរសេរនៅក្នុងការអ៊ិនកូដនេះ ប៊ីតទីប្រាំបីនៃតួអក្សរនីមួយៗត្រូវបានដកចេញ នោះលទ្ធផលគឺជាអត្ថបទស្រដៀងនឹងការបកប្រែជាអក្សរឡាតាំង។

លេខកូដផ្លាស់ប្តូរព័ត៌មាននេះត្រូវបានប្រើនៅក្នុងទសវត្សរ៍ទី 70 នៅលើកុំព្យូទ័រនៃស៊េរីកុំព្យូទ័រ ES ហើយចាប់ពីពាក់កណ្តាលទសវត្សរ៍ទី 80 វាបានចាប់ផ្តើមប្រើនៅក្នុងកំណែ Russified ដំបូងនៃប្រព័ន្ធប្រតិបត្តិការ UNIX ។

ការសរសេរកូដមាននៅក្នុងការពិតដែលថាតួអក្សរនីមួយៗត្រូវបានផ្តល់លេខកូដតែមួយគត់: ពី 00000000 ដល់ 11111111 ។ ដូច្នេះមនុស្សម្នាក់បានសម្គាល់តួអក្សរដោយគ្រោងរបស់ពួកគេនិងកុំព្យូទ័រ - ដោយលេខកូដរបស់ពួកគេ។

តើការអ៊ិនកូដ Chernoff បច្ចុប្បន្នត្រូវបានប្រើទេ?

ទេ វាពាក់ព័ន្ធសម្រាប់កុំព្យូទ័រប្រាំបីប៊ីតចាស់ ឥឡូវនេះយូនីកូដក្នុងទម្រង់ផ្សេងៗត្រូវបានប្រើប្រាស់ជាចម្បង។

ថ្ងៃនេះយើងនឹងនិយាយទៅកាន់អ្នកអំពីកន្លែងដែល krakozyabrs មកពីគេហទំព័រមួយ និងនៅក្នុងកម្មវិធី តើការអ៊ិនកូដអត្ថបទមានអ្វីខ្លះ ហើយគួរប្រើមួយណា។ សូមពិនិត្យមើលឱ្យកាន់តែច្បាស់អំពីប្រវត្តិនៃការអភិវឌ្ឍន៍របស់ពួកគេ ដោយចាប់ផ្តើមពីមូលដ្ឋាន ASCII ក៏ដូចជាកំណែបន្ថែមរបស់វា CP866, KOI8-R, Windows 1251 និងបញ្ចប់ដោយការអ៊ិនកូដទំនើបនៃសម្ព័ន្ធយូនីកូដ UTF 16 និង 8។ តារាងមាតិកា៖ សម្រាប់អ្នកខ្លះ ព័ត៌មាននេះអាចហាក់ដូចជាមិនចាំបាច់ ប៉ុន្តែតើអ្នកដឹងទេថាតើមានសំណួរប៉ុន្មានដែលខ្ញុំទទួលបានជាពិសេសទាក់ទងនឹង krakozyabrs ដែលវារ (សំណុំតួអក្សរដែលមិនអាចអានបាន)។ ឥឡូវនេះខ្ញុំនឹងមានឱកាសដើម្បីបញ្ជូនអ្នកគ្រប់គ្នាទៅកាន់អត្ថបទនៃអត្ថបទនេះហើយស្វែងរកកំហុសផ្ទាល់ខ្លួនរបស់ខ្ញុំ។ ជាការប្រសើរណាស់, ត្រៀមខ្លួនដើម្បីស្រូបយកព័ត៌មានហើយព្យាយាមធ្វើតាមលំហូរនៃរឿង។

ASCII - ការអ៊ិនកូដអត្ថបទជាមូលដ្ឋានសម្រាប់អក្ខរក្រមឡាតាំង

ការអភិវឌ្ឍន៍នៃការអ៊ិនកូដអត្ថបទបានកើតឡើងក្នុងពេលដំណាលគ្នាជាមួយនឹងការបង្កើតឧស្សាហកម្ម IT ហើយក្នុងអំឡុងពេលនេះ ពួកគេបានឆ្លងកាត់ការផ្លាស់ប្តូរយ៉ាងច្រើន។ ជាប្រវត្តិសាស្ត្រ វាទាំងអស់បានចាប់ផ្តើមជាមួយនឹង EBCDIC ដែលមានភាពច្របូកច្របល់នៅក្នុងការបញ្ចេញសំឡេងរបស់រុស្ស៊ី ដែលធ្វើឱ្យវាអាចធ្វើទៅបានដើម្បីអ៊ិនកូដអក្សរនៃអក្ខរក្រមឡាតាំង លេខអារ៉ាប់ និងសញ្ញាវណ្ណយុត្តិជាមួយនឹងតួអក្សរបញ្ជា។ ប៉ុន្តែនៅតែចំណុចចាប់ផ្តើមសម្រាប់ការអភិវឌ្ឍនៃការអ៊ិនកូដអត្ថបទទំនើបគួរតែត្រូវបានចាត់ទុកថាល្បីល្បាញ ASCII(កូដស្តង់ដារអាមេរិកសម្រាប់ការផ្លាស់ប្តូរព័ត៌មាន ដែលជាធម្មតាត្រូវបានប្រកាសជាភាសារុស្សីថា "សួរ")។ វាពិពណ៌នាអំពីតួអក្សរ 128 ដំបូងដែលប្រើជាទូទៅបំផុតដោយអ្នកប្រើប្រាស់ដែលនិយាយភាសាអង់គ្លេស - អក្សរឡាតាំង លេខអារ៉ាប់ និងសញ្ញាវណ្ណយុត្តិ។ តួអក្សរទាំង 128 នេះដែលត្រូវបានពិពណ៌នានៅក្នុង ASCII ក៏រួមបញ្ចូលផងដែរនូវតួអក្សរសេវាកម្មមួយចំនួនដូចជា តង្កៀប សញ្ញាសញ្ញា សញ្ញាផ្កាយ។ល។ តាមពិតទៅ អ្នកអាចឃើញពួកគេដោយខ្លួនឯង៖

វាគឺជាតួអក្សរទាំង 128 នេះពីកំណែដើមនៃ ASCII ដែលបានក្លាយជាស្តង់ដារ ហើយនៅក្នុងការអ៊ិនកូដផ្សេងទៀត អ្នកប្រាកដជានឹងរកឃើញពួកវា ហើយពួកគេនឹងបង្ហាញនៅក្នុងលំដាប់នេះ។ ប៉ុន្តែការពិតគឺថាជាមួយនឹងព័ត៌មានមួយបៃអ្នកអាចអ៊ិនកូដមិនមែន 128 ទេ ប៉ុន្តែតម្លៃខុសៗគ្នារហូតដល់ 256 (ពីរទៅថាមពលប្រាំបីស្មើនឹង 256) ដូច្នេះបន្ទាប់ពីកំណែមូលដ្ឋានរបស់ Asuka ស៊េរីទាំងមូលនៃ ពង្រីកការអ៊ិនកូដ ASCIIដែលក្នុងនោះ បន្ថែមពីលើតួអក្សរមូលដ្ឋានចំនួន 128 វាក៏អាចធ្វើទៅបានផងដែរក្នុងការអ៊ិនកូដនិមិត្តសញ្ញានៃការអ៊ិនកូដជាតិ (ឧទាហរណ៍រុស្ស៊ី) ។ នៅទីនេះ វាប្រហែលជាមានតម្លៃនិយាយបន្តិចទៀតអំពីប្រព័ន្ធលេខដែលត្រូវបានប្រើនៅក្នុងការពិពណ៌នា។ ជាដំបូង ដូចដែលអ្នកទាំងអស់គ្នាដឹងហើយថា កុំព្យូទ័រមួយដំណើរការតែជាមួយលេខនៅក្នុងប្រព័ន្ធគោលពីរប៉ុណ្ណោះ ពោលគឺលេខសូន្យ និងលេខមួយ ("ពិជគណិតប៊ូលីន" ប្រសិនបើអ្នកណាយកវានៅវិទ្យាស្ថាន ឬសាលារៀន)។ មួយបៃមានប្រាំបីប៊ីត ដែលនីមួយៗជាថាមពលពីរ ចាប់ផ្តើមពីសូន្យ ហើយបញ្ចប់ដោយថាមពលពីរទៅថាមពលទីប្រាំពីរ៖

វាមិនពិបាកយល់ទេថា បន្សំដែលអាចធ្វើបានទាំងអស់នៃលេខសូន្យ និងលេខក្នុងការរចនាបែបនេះអាចត្រឹមតែ 256 ប៉ុណ្ណោះ។ ការបំប្លែងលេខពីប្រព័ន្ធគោលពីរទៅជាប្រព័ន្ធទសភាគគឺសាមញ្ញណាស់។ អ្នកគ្រាន់តែត្រូវបន្ថែមអំណាចទាំងអស់នៃពីរជាមួយនឹងមួយនៅពីលើពួកវា។ ក្នុងឧទាហរណ៍របស់យើង វាប្រែជា 1 (2 ទៅអំណាចនៃសូន្យ) បូក 8 (ពីរទៅថាមពលនៃ 3) បូក 32 (ពីរទៅថាមពលទីប្រាំ) បូក 64 (ដល់ថាមពលទីប្រាំមួយ) បូក 128 (ដល់អំណាចទីប្រាំពីរ) ។ សរុបគឺ 233 ក្នុងសញ្ញាណទសភាគ។ ដូចដែលអ្នកអាចឃើញអ្វីគ្រប់យ៉ាងគឺសាមញ្ញណាស់។ ប៉ុន្តែប្រសិនបើអ្នកក្រឡេកមើលតារាងយ៉ាងដិតដល់ជាមួយនឹងតួអក្សរ ASCII អ្នកនឹងឃើញថាពួកវាត្រូវបានតំណាងនៅក្នុងការអ៊ិនកូដលេខគោលដប់ប្រាំមួយ។ ឧទាហរណ៍ "សញ្ញាផ្កាយ" ត្រូវគ្នាទៅនឹងលេខគោលដប់ប្រាំមួយ 2A នៅក្នុង Aski ។ អ្នកប្រហែលជាដឹងថានៅក្នុងប្រព័ន្ធលេខគោលដប់ប្រាំមួយ បន្ថែមពីលើលេខអារ៉ាប់ អក្សរឡាតាំងពី A (មានន័យថាដប់) ដល់ F (មានន័យថាដប់ប្រាំ) ក៏ត្រូវបានគេប្រើផងដែរ។ អញ្ចឹងសម្រាប់ ការបំប្លែងលេខគោលពីរទៅជាលេខគោលដប់ប្រាំមួយ។ងាកទៅរកវិធីសាស្រ្តសាមញ្ញ និងជាក់ស្តែងខាងក្រោម។ បៃនីមួយៗនៃព័ត៌មានត្រូវបានបែងចែកជាពីរផ្នែកនៃបួនប៊ីត ដូចដែលបានបង្ហាញនៅក្នុងរូបថតអេក្រង់ខាងលើ។ នោះ។ ក្នុងមួយបៃកន្លះនីមួយៗ មានតែតម្លៃដប់ប្រាំមួយ (ពីរទៅថាមពលទីបួន) អាចត្រូវបានអ៊ិនកូដជាគោលពីរ ដែលអាចត្រូវបានតំណាងយ៉ាងងាយស្រួលជាលេខគោលដប់ប្រាំមួយ។ ជាងនេះទៅទៀត នៅពាក់កណ្តាលបៃខាងឆ្វេង ដឺក្រេនឹងត្រូវរាប់ម្តងទៀត ដោយចាប់ផ្តើមពីសូន្យ ហើយមិនមែនដូចដែលបានបង្ហាញក្នុងរូបថតអេក្រង់នោះទេ។ ជាលទ្ធផលតាមរយៈការគណនាសាមញ្ញយើងទទួលបានថាលេខ E9 ត្រូវបានអ៊ិនកូដនៅក្នុងរូបថតអេក្រង់។ ខ្ញុំសង្ឃឹមថាវគ្គនៃការវែកញែករបស់ខ្ញុំ និងដំណោះស្រាយចំពោះល្បែងផ្គុំរូបនេះច្បាស់សម្រាប់អ្នក។ មែនហើយ ឥឡូវនេះសូមបន្ត ជាការពិត ការនិយាយអំពីការអ៊ិនកូដអត្ថបទ។

កំណែបន្ថែមនៃការអ៊ិនកូដ Asuka - CP866 និង KOI8-R ជាមួយនឹងការក្លែងបន្លំ

ដូច្នេះ យើងចាប់ផ្តើមនិយាយអំពី ASCII ដែលជាចំណុចចាប់ផ្តើមសម្រាប់ការអភិវឌ្ឍន៍ការអ៊ិនកូដទំនើបទាំងអស់ (Windows 1251, Unicode, UTF 8)។ ដំបូងឡើយ វាមានតែ 128 តួអក្សរនៃអក្ខរក្រមឡាតាំង លេខអារ៉ាប់ និងអ្វីផ្សេងទៀត ប៉ុន្តែនៅក្នុងកំណែបន្ថែម វាអាចប្រើតម្លៃទាំងអស់ 256 ដែលអាចត្រូវបានអ៊ិនកូដក្នុងព័ត៌មានមួយបៃ។ ទាំងនោះ។ វាអាចបន្ថែមនិមិត្តសញ្ញាអក្សរនៃភាសារបស់អ្នកទៅ Aski ។ នៅទីនេះ យើងនឹងត្រូវការបកស្រាយម្តងទៀត ដើម្បីពន្យល់ - ហេតុអ្វីបានជាយើងត្រូវការការអ៊ិនកូដអត្ថបទទាំងស្រុង?ហើយហេតុអ្វីបានជាវាសំខាន់ម៉្លេះ។ តួអក្សរនៅលើអេក្រង់កុំព្យូទ័ររបស់អ្នកត្រូវបានបង្កើតឡើងនៅលើមូលដ្ឋាននៃរឿងពីរគឺ សំណុំនៃរាងវ៉ិចទ័រ (តំណាង) នៃតួអក្សរគ្រប់ប្រភេទ (ពួកវានៅក្នុងឯកសារដែលមានពុម្ពអក្សរដែលត្រូវបានដំឡើងនៅលើកុំព្យូទ័ររបស់អ្នក) និងកូដដែលអនុញ្ញាតឱ្យអ្នកទាញចេញយ៉ាងពិតប្រាកដ។ មួយពីសំណុំនៃរាងវ៉ិចទ័រនេះ (ឯកសារពុម្ពអក្សរ) ដែលនឹងត្រូវបញ្ចូលនៅកន្លែងត្រឹមត្រូវ។ វាច្បាស់ណាស់ថាពុម្ពអក្សរខ្លួនឯងទទួលខុសត្រូវចំពោះរូបរាងវ៉ិចទ័រ ប៉ុន្តែប្រព័ន្ធប្រតិបត្តិការ និងកម្មវិធីដែលប្រើក្នុងវាទទួលខុសត្រូវចំពោះការអ៊ិនកូដ។ ទាំងនោះ។ អត្ថបទណាមួយនៅលើកុំព្យូទ័ររបស់អ្នកនឹងជាសំណុំនៃបៃ ដែលនីមួយៗអ៊ិនកូដតួអក្សរតែមួយនៃអត្ថបទនេះ។ កម្មវិធីដែលបង្ហាញអត្ថបទនេះនៅលើអេក្រង់ (កម្មវិធីនិពន្ធអត្ថបទ កម្មវិធីរុករកតាមអ៊ីនធឺណិត។ ឯកសារអត្ថបទ។ អ្វីគ្រប់យ៉ាងគឺសាមញ្ញនិង banal ។ នេះមានន័យថា ដើម្បីអ៊ិនកូដតួអក្សរណាមួយដែលយើងត្រូវការ (ឧទាហរណ៍ ពីអក្ខរក្រមជាតិ) លក្ខខណ្ឌពីរត្រូវតែបំពេញ - ទម្រង់វ៉ិចទ័រនៃតួអក្សរនេះត្រូវតែមាននៅក្នុងពុម្ពអក្សរដែលបានប្រើ ហើយតួអក្សរនេះអាចត្រូវបានអ៊ិនកូដនៅក្នុងការអ៊ិនកូដ ASCII ដែលបានពង្រីកនៅក្នុង មួយបៃ។ ដូច្នេះមានជម្រើសបែបនេះជាច្រើន។ គ្រាន់តែសម្រាប់ការអ៊ិនកូដតួអក្សរជាភាសារុស្សី មានប្រភេទ Aska បន្ថែមជាច្រើនប្រភេទ។ ឧទាហរណ៍ដំបូងបានបង្ហាញខ្លួន CP866ដែលមានសមត្ថភាពប្រើតួអក្សរពីអក្ខរក្រមរុស្ស៊ី និងជាកំណែបន្ថែមនៃ ASCII ។ ទាំងនោះ។ ផ្នែកខាងលើរបស់វាស្របគ្នាទាំងស្រុងជាមួយនឹងកំណែមូលដ្ឋានរបស់ Aska (128 តួអក្សរឡាតាំង លេខ និងអក្សរតូចផ្សេងទៀត) ដែលត្រូវបានបង្ហាញនៅក្នុងរូបថតអេក្រង់ខាងលើ ប៉ុន្តែផ្នែកខាងក្រោមនៃតារាងជាមួយនឹងការអ៊ិនកូដ CP866 មានរូបរាងបង្ហាញនៅក្នុងរូបថតអេក្រង់ខាងក្រោម។ និងអនុញ្ញាតឱ្យអ្នកអ៊ិនកូដសញ្ញា 128 ផ្សេងទៀត (អក្សររុស្ស៊ីនិងគ្រប់ប្រភេទនៃក្លែងក្លាយ):

អ្នកឃើញនៅជួរខាងស្តាំ លេខចាប់ផ្តើមដោយលេខ 8 ព្រោះ... លេខពី 0 ដល់ 7 សំដៅលើផ្នែកមូលដ្ឋាននៃ ASCII (សូមមើលរូបថតអេក្រង់ដំបូង) ។ នោះ។ អក្សររុស្ស៊ី "M" នៅក្នុង CP866 នឹងមានលេខកូដ 9C (វាមានទីតាំងនៅចំនុចប្រសព្វនៃជួរដេកដែលត្រូវគ្នាជាមួយលេខ 9 និងជួរឈរដែលមានលេខ C នៅក្នុងប្រព័ន្ធលេខគោលដប់ប្រាំមួយ) ដែលអាចសរសេរជាព័ត៌មានមួយបៃ និង ប្រសិនបើមានពុម្ពអក្សរសមរម្យជាមួយតួអក្សររុស្ស៊ី អក្សរនេះដោយគ្មានបញ្ហានឹងបង្ហាញនៅក្នុងអត្ថបទ។ តើចំនួននេះមកពីណា? ការក្លែងបន្លំនៅក្នុង CP866? ចំណុចទាំងមូលគឺថាការអ៊ិនកូដនេះសម្រាប់អត្ថបទជាភាសារុស្សីត្រូវបានបង្កើតឡើងវិញនៅក្នុងឆ្នាំដ៏អាក្រក់ទាំងនោះ នៅពេលដែលប្រព័ន្ធប្រតិបត្តិការក្រាហ្វិកមិនរីករាលដាលដូចបច្ចុប្បន្ន។ ហើយនៅក្នុង Dosa និងប្រព័ន្ធប្រតិបត្តិការអត្ថបទស្រដៀងគ្នា ការក្លែងបន្លំបានធ្វើឱ្យវាអាចធ្វើទៅបានយ៉ាងហោចណាស់ធ្វើពិពិធកម្មការរចនានៃអត្ថបទហើយដូច្នេះ CP866 និងមិត្តភ័ក្តិផ្សេងទៀតរបស់វាពីប្រភេទនៃកំណែបន្ថែមរបស់ Asuka មានច្រើននៅក្នុងវា។ CP866 ត្រូវបានចែកចាយដោយ IBM ប៉ុន្តែបន្ថែមពីលើនេះ ការអ៊ិនកូដមួយចំនួនត្រូវបានបង្កើតឡើងសម្រាប់តួអក្សរភាសារុស្សី ឧទាហរណ៍ ប្រភេទដូចគ្នា (ពង្រីក ASCII) អាចត្រូវបានកំណត់គុណលក្ខណៈ KOI8-R:

គោលការណ៍នៃប្រតិបត្តិការរបស់វានៅតែដូចគ្នានឹង CP866 ដែលបានពិពណ៌នាមុននេះបន្តិច - តួអក្សរនីមួយៗនៃអត្ថបទត្រូវបានអ៊ិនកូដដោយបៃតែមួយ។ រូបថតអេក្រង់បង្ហាញពីពាក់កណ្តាលទីពីរនៃតារាង KOI8-R ពីព្រោះ ពាក់កណ្តាលទីមួយគឺស្របទាំងស្រុងជាមួយនឹង Asuka មូលដ្ឋានដែលត្រូវបានបង្ហាញនៅក្នុងរូបថតអេក្រង់ដំបូងនៅក្នុងអត្ថបទនេះ។ ក្នុងចំណោមលក្ខណៈពិសេសនៃការអ៊ិនកូដ KOI8-R វាអាចត្រូវបានកត់សម្គាល់ថាអក្សររុស្ស៊ីនៅក្នុងតារាងរបស់វាមិនមានតាមលំដាប់អក្ខរក្រមទេឧទាហរណ៍ពួកគេបានធ្វើវានៅក្នុង CP866 ។ ប្រសិនបើអ្នកក្រឡេកមើលរូបថតអេក្រង់ដំបូងបំផុត (នៃផ្នែកមូលដ្ឋានដែលត្រូវបានរួមបញ្ចូលនៅក្នុងការអ៊ិនកូដបន្ថែមទាំងអស់) អ្នកនឹងសម្គាល់ឃើញថានៅក្នុង KOI8-R អក្សររុស្ស៊ីមានទីតាំងនៅក្នុងក្រឡាដូចគ្នានៃតារាងជាអក្សរដែលត្រូវគ្នានៃអក្ខរក្រមឡាតាំង។ ពីផ្នែកដំបូងនៃតារាង។ នេះត្រូវបានធ្វើដើម្បីភាពងាយស្រួលនៃការប្តូរពីអក្សររុស្ស៊ីទៅឡាតាំងដោយបោះចោលបន្តិច (ពីរទៅថាមពលទីប្រាំពីរ ឬ 128)។

វីនដូ 1251 - កំណែទំនើបនៃ ASCII ហើយហេតុអ្វីបានជាស្នាមប្រេះចេញមក

ការអភិវឌ្ឍន៍បន្ថែមទៀតនៃការអ៊ិនកូដអត្ថបទគឺដោយសារតែប្រព័ន្ធប្រតិបត្តិការក្រាហ្វិកកំពុងទទួលបានប្រជាប្រិយភាព ហើយតម្រូវការប្រើប្រាស់អក្សរក្លែងបន្លំនៅក្នុងពួកវាបានបាត់ទៅវិញតាមពេលវេលា។ ជាលទ្ធផល ក្រុមទាំងមូលបានក្រោកឡើងថា ជាខ្លឹមសារនៅតែជាកំណែបន្ថែមរបស់ Asuka (តួអក្សរមួយនៃអត្ថបទត្រូវបានអ៊ិនកូដដោយព័ត៌មានមួយបៃប៉ុណ្ណោះ) ប៉ុន្តែដោយគ្មានការប្រើប្រាស់និមិត្តសញ្ញាក្លែងក្លាយ។ ពួកវាជាកម្មសិទ្ធិរបស់អ្វីដែលគេហៅថាការអ៊ិនកូដ ANSI ដែលត្រូវបានបង្កើតឡើងដោយវិទ្យាស្ថានស្តង់ដារអាមេរិក។ នៅក្នុងការនិយាយទូទៅ ឈ្មោះ Cyrillic ក៏ត្រូវបានប្រើសម្រាប់កំណែដែលមានការគាំទ្រជាភាសារុស្សីផងដែរ។ ឧទាហរណ៍នៃរឿងនេះអាចជា វីនដូ 1251. វាមានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងពី CP866 និង KOI8-R ដែលបានប្រើពីមុន ត្រង់កន្លែងនៃនិមិត្តសញ្ញាក្លែងក្លាយនៅក្នុងវាត្រូវបានយកដោយនិមិត្តសញ្ញាដែលបាត់នៃការវាយអក្សររបស់រុស្ស៊ី (លើកលែងតែសញ្ញាសង្កត់សំឡេង) ក៏ដូចជានិមិត្តសញ្ញាដែលប្រើជាភាសាស្លាវីជិត រុស្ស៊ី (អ៊ុយក្រែន បេឡារុស្ស ។ល។)។

ដោយសារតែការអ៊ិនកូដភាសារុស្សីមានច្រើនបែបនេះ ក្រុមហ៊ុនផលិតពុម្ពអក្សរ និងក្រុមហ៊ុនផលិតសូហ្វវែរតែងតែឈឺក្បាល ហើយអ្នក និងខ្ញុំ អ្នកអានជាទីគោរព តែងតែទទួលបានភាពល្បីល្បាញដូចគ្នា krakozyabryនៅពេលដែលមានការភ័ន្តច្រឡំជាមួយកំណែដែលបានប្រើនៅក្នុងអត្ថបទ។ ជាញឹកញាប់ពួកគេចេញមកនៅពេលផ្ញើ និងទទួលសារតាមអ៊ីមែល ដែលរួមបញ្ចូលការបង្កើតតារាងបំប្លែងដ៏ស្មុគស្មាញ ដែលតាមពិត មិនអាចដោះស្រាយបញ្ហានេះជាមូលដ្ឋានបានទេ ហើយជារឿយៗអ្នកប្រើប្រាស់បានប្រើការបកប្រែអក្សរឡាតាំងសម្រាប់ការឆ្លើយឆ្លងដើម្បី ជៀសវាងភាពមិនច្បាស់លាស់នៅពេលប្រើការអ៊ិនកូដភាសារុស្សីដូចជា CP866, KOI8-R ឬ Windows 1251។ តាមពិត ការបង្ក្រាបដែលលេចឡើងជំនួសឱ្យអត្ថបទជាភាសារុស្សីគឺជាលទ្ធផលនៃការប្រើប្រាស់មិនត្រឹមត្រូវនៃការអ៊ិនកូដនៃភាសាដែលបានផ្តល់ឱ្យ ដែលមិនទាក់ទងទៅនឹងភាសានៅក្នុង ដែលសារអត្ថបទត្រូវបានអ៊ិនកូដដំបូង។ ចូរនិយាយថាប្រសិនបើអ្នកព្យាយាមបង្ហាញតួអក្សរដែលបានអ៊ិនកូដដោយប្រើ CP866 ដោយប្រើតារាងកូដ Windows 1251 នោះពាក្យដដែលៗទាំងនេះ (សំណុំតួអក្សរគ្មានន័យ) នឹងចេញមក ដោយជំនួសអត្ថបទសារទាំងស្រុង។

ស្ថានភាពស្រដៀងគ្នានេះកើតឡើងជាញឹកញាប់នៅពេលបង្កើត និងដំឡើងគេហទំព័រ វេទិកា ឬប្លក់ នៅពេលដែលអត្ថបទដែលមានតួអក្សររុស្ស៊ីត្រូវបានរក្សាទុកដោយច្រឡំក្នុងការអ៊ិនកូដខុសដែលត្រូវបានប្រើនៅលើគេហទំព័រតាមលំនាំដើម ឬនៅក្នុងកម្មវិធីកែអត្ថបទខុស ដែលបន្ថែមការមើលមិនឃើញ ទៅលេខកូដដោយភ្នែកទទេ។ នៅទីបញ្ចប់ មនុស្សជាច្រើនមានការធុញទ្រាន់នឹងស្ថានភាពនេះជាមួយនឹងការអ៊ិនកូដជាច្រើន និងឥតឈប់ឈរ ហើយតម្រូវការជាមុនបានលេចឡើងសម្រាប់ការបង្កើតបំរែបំរួលសកលថ្មីដែលនឹងជំនួសអ្វីៗដែលមានស្រាប់ទាំងអស់ ហើយទីបំផុតនឹងដោះស្រាយបញ្ហាជាមួយនឹងរូបរាង។ នៃអត្ថបទដែលមិនអាចអានបាន។ លើសពីនេះទៀតក៏មានបញ្ហាភាសាដូចជាភាសាចិនដែរ ដែលមានតួអក្សរច្រើនជាង ២៥៦ ។

យូនីកូដ - ការអ៊ិនកូដជាសកល UTF 8, 16 និង 32

តួអក្សររាប់ពាន់ទាំងនេះនៃក្រុមភាសាអាស៊ីអាគ្នេយ៍មិនអាចត្រូវបានពិពណ៌នាក្នុងមួយបៃនៃព័ត៌មានដែលត្រូវបានបម្រុងទុកសម្រាប់ការអ៊ិនកូដតួអក្សរនៅក្នុងកំណែបន្ថែមនៃ ASCII ។ ជាលទ្ធផល សមាគមមួយត្រូវបានបង្កើតឡើងហៅថា យូនីកូដ(យូនីកូដ - Unicode Consortium) ដោយមានការសហការពីអ្នកដឹកនាំឧស្សាហកម្ម IT ជាច្រើន (អ្នកដែលផលិតកម្មវិធី អ្នកសរសេរកូដផ្នែករឹង អ្នកបង្កើតពុម្ពអក្សរ) ដែលចាប់អារម្មណ៍នឹងការលេចចេញនៃការអ៊ិនកូដអត្ថបទជាសកល។ បំរែបំរួលដំបូងដែលបានចេញផ្សាយក្រោមការឧបត្ថម្ភពីសម្ព័ន្ធយូនីកូដគឺ UTF ៣២. លេខនៅក្នុងឈ្មោះអ៊ិនកូដមានន័យថាចំនួនប៊ីតដែលត្រូវបានប្រើដើម្បីអ៊ិនកូដតួអក្សរមួយ។ 32 ប៊ីតស្មើនឹង 4 បៃនៃព័ត៌មានដែលនឹងត្រូវការដើម្បីអ៊ិនកូដតួអក្សរតែមួយនៅក្នុងការអ៊ិនកូដ UTF សកលថ្មី។ ជាលទ្ធផល ឯកសារដូចគ្នាជាមួយនឹងអត្ថបទដែលបានអ៊ិនកូដនៅក្នុងកំណែបន្ថែមនៃ ASCII និងនៅក្នុង UTF-32 ក្នុងករណីចុងក្រោយនឹងមានទំហំ (ទម្ងន់) ធំជាងបួនដង។ នេះគឺអាក្រក់ ប៉ុន្តែឥឡូវនេះយើងមានឱកាសក្នុងការអ៊ិនកូដដោយប្រើ YTF ចំនួនតួអក្សរស្មើនឹងពីរទៅថាមពលសាមសិបវិនាទី ( រាប់ពាន់លានតួអក្សរដែលនឹងគ្របដណ្តប់លើតម្លៃចាំបាច់ណាមួយជាមួយនឹងរឹមដ៏ធំ)។ ប៉ុន្តែប្រទេសជាច្រើនដែលមានភាសានៃក្រុមអ៊ឺរ៉ុបមិនចាំបាច់ប្រើតួអក្សរដ៏ច្រើនបែបនេះក្នុងការអ៊ិនកូដទាល់តែសោះ ទោះជាយ៉ាងណាក៏ដោយនៅពេលប្រើ UTF-32 ពួកគេដោយគ្មានហេតុផលទទួលបានការកើនឡើងបួនដងនៃទម្ងន់នៃឯកសារអត្ថបទ។ ហើយជាលទ្ធផល ការកើនឡើងនៃបរិមាណចរាចរអ៊ីនធឺណិត និងបរិមាណទិន្នន័យដែលបានរក្សាទុក។ នេះច្រើនណាស់ ហើយគ្មាននរណាម្នាក់អាចទិញកាកសំណល់បែបនេះបានទេ។ ជាលទ្ធផលនៃការអភិវឌ្ឍន៍យូនីកូដ។ UTF-16វាបានប្រែក្លាយថាទទួលបានជោគជ័យយ៉ាងខ្លាំងដែលវាត្រូវបានអនុម័តតាមលំនាំដើមជាចន្លោះមូលដ្ឋានសម្រាប់តួអក្សរទាំងអស់ដែលយើងប្រើ។ វាប្រើពីរបៃដើម្បីអ៊ិនកូដតួអក្សរមួយ។ តោះមើលថាតើរឿងនេះមើលទៅដូចម្ដេច។ នៅក្នុងប្រព័ន្ធប្រតិបត្តិការ Windows អ្នកអាចដើរតាមផ្លូវ "ចាប់ផ្តើម" - "កម្មវិធី" - "គ្រឿងបន្លាស់" - "ឧបករណ៍ប្រព័ន្ធ" - "តារាងតួអក្សរ" ។ ជាលទ្ធផល តារាងមួយនឹងបើកជាមួយនឹងរាងវ៉ិចទ័រនៃពុម្ពអក្សរទាំងអស់ដែលបានដំឡើងនៅលើប្រព័ន្ធរបស់អ្នក។ ប្រសិនបើអ្នកជ្រើសរើសតួអក្សរយូនីកូដដែលបានកំណត់នៅក្នុង "ជម្រើសកម្រិតខ្ពស់" អ្នកនឹងអាចមើលឃើញសម្រាប់ពុម្ពអក្សរនីមួយៗដាច់ដោយឡែកពីជួរតួអក្សរទាំងមូលដែលបានរួមបញ្ចូលនៅក្នុងវា។ ដោយវិធីនេះដោយចុចលើពួកវាណាមួយអ្នកអាចមើលឃើញពីរបៃរបស់វា។ កូដក្នុងទម្រង់ UTF-16ដែលមានលេខគោលដប់ប្រាំមួយចំនួនបួន៖

តើតួអក្សរប៉ុន្មានអាចត្រូវបានអ៊ិនកូដនៅក្នុង UTF-16 ដោយប្រើ 16 ប៊ីត? 65,536 (ពីរទៅថាមពលដប់ប្រាំមួយ) ហើយនេះគឺជាលេខដែលត្រូវបានអនុម័តជាលំហមូលដ្ឋាននៅក្នុងយូនីកូដ។ លើសពីនេះ មានវិធីក្នុងការអ៊ិនកូដប្រហែលពីរលានតួអក្សរដោយប្រើវា ប៉ុន្តែពួកវាត្រូវបានកំណត់ត្រឹមទំហំពង្រីកនៃអក្សរមួយលានតួអក្សរ។ ប៉ុន្តែសូម្បីតែកំណែដែលទទួលបានជោគជ័យនៃការអ៊ិនកូដយូនីកូដនេះមិនបាននាំមកនូវការពេញចិត្តច្រើនដល់អ្នកដែលសរសេរកម្មវិធីតែជាភាសាអង់គ្លេសទេព្រោះសម្រាប់ពួកគេបន្ទាប់ពីការផ្លាស់ប្តូរពីកំណែបន្ថែមនៃ ASCII ទៅ UTF-16 ទម្ងន់នៃឯកសារបានកើនឡើងទ្វេដង ( មួយបៃក្នុងមួយតួអក្សរនៅក្នុង Aski និងពីរបៃសម្រាប់តួអក្សរដូចគ្នានៅក្នុង YUTF-16) ។ វាច្បាស់ណាស់សម្រាប់ការពេញចិត្តរបស់មនុស្សគ្រប់រូប និងអ្វីគ្រប់យ៉ាងនៅក្នុងសម្ព័ន្ធយូនីកូដដែលវាត្រូវបានសម្រេចចិត្ត មកជាមួយការអ៊ិនកូដប្រវែងអថេរ។ វាត្រូវបានគេហៅថា UTF-8 ។ ទោះបីជាប្រាំបីនៅក្នុងឈ្មោះរបស់វាក៏ដោយវាពិតជាមានប្រវែងអថេរ i.e. តួអក្សរនីមួយៗនៃអត្ថបទអាចត្រូវបានអ៊ិនកូដទៅជាលំដាប់នៃប្រវែងមួយទៅប្រាំមួយបៃ។ នៅក្នុងការអនុវត្ត UTF-8 ប្រើតែចន្លោះពីមួយទៅបួនបៃប៉ុណ្ណោះ ពីព្រោះលើសពី 4 បៃនៃកូដ វាមិនអាចគិតតាមទ្រឹស្តីបានទៀតទេ។ តួអក្សរឡាតាំងទាំងអស់នៅក្នុងវាត្រូវបានអ៊ិនកូដទៅជាមួយបៃ ដូចនៅក្នុង ASCII ចាស់ល្អ។ អ្វីដែលគួរឲ្យកត់សម្គាល់នោះគឺថា ក្នុងករណីដែលការអ៊ិនកូដតែអក្សរឡាតាំង សូម្បីតែកម្មវិធីទាំងនោះដែលមិនយល់ពីយូនីកូដនឹងនៅតែអានអ្វីដែលត្រូវបានអ៊ិនកូដនៅក្នុង YTF-8 ដដែល។ ទាំងនោះ។ ផ្នែកស្នូលនៃ Asuka ត្រូវបានផ្ទេរយ៉ាងសាមញ្ញទៅកាន់ការបង្កើតសម្ព័ន្ធយូនីកូដនេះ។ តួអក្សរ Cyrillic នៅក្នុង UTF-8 ត្រូវបានអ៊ិនកូដជាពីរបៃ ហើយឧទាហរណ៍ អក្សរហ្សកហ្ស៊ី - ក្នុងបីបៃ។ សម្ព័ន្ធយូនីកូដ បន្ទាប់ពីបង្កើត UTF 16 និង 8 បានដោះស្រាយបញ្ហាចម្បង - ឥឡូវនេះយើងមាន ពុម្ពអក្សរមានចន្លោះកូដតែមួយ. ហើយឥឡូវនេះក្រុមហ៊ុនផលិតរបស់ពួកគេអាចបំពេញវាបានតែជាមួយទម្រង់វ៉ិចទ័រនៃតួអក្សរអត្ថបទដោយផ្អែកលើភាពខ្លាំងនិងសមត្ថភាពរបស់ពួកគេ។ នៅក្នុង "តារាងតួអក្សរ" ខាងលើ អ្នកអាចមើលឃើញថា ពុម្ពអក្សរផ្សេងគ្នា គាំទ្រចំនួនតួអក្សរផ្សេងគ្នា។ ពុម្ពអក្សរដែលសំបូរទៅដោយយូនីកូដមួយចំនួនអាចធ្ងន់ណាស់។ ប៉ុន្តែឥឡូវនេះ ពួកវាខុសគ្នាត្រង់ថាពួកវាត្រូវបានបង្កើតសម្រាប់ការបំប្លែងកូដផ្សេងៗគ្នា ប៉ុន្តែនៅក្នុងការពិតដែលថាក្រុមហ៊ុនផលិតពុម្ពអក្សរបានបំពេញ ឬមិនបានបំពេញទាំងស្រុងនូវចន្លោះកូដតែមួយជាមួយនឹងទម្រង់វ៉ិចទ័រជាក់លាក់។

ពាក្យឆ្កួតជំនួសឱ្យអក្សររុស្ស៊ី - របៀបជួសជុលវា។

ឥឡូវនេះសូមមើលពីរបៀបដែល krakozyabrs លេចឡើងជំនួសឱ្យអត្ថបទ ឬនិយាយម្យ៉ាងទៀត របៀបអ៊ិនកូដត្រឹមត្រូវសម្រាប់អត្ថបទរុស្ស៊ីត្រូវបានជ្រើសរើស។ តាមពិតទៅ វាត្រូវបានកំណត់នៅក្នុងកម្មវិធីដែលអ្នកបង្កើត ឬកែសម្រួលអត្ថបទនេះ ឬកូដដោយប្រើបំណែកអត្ថបទ។ ដើម្បីកែសម្រួល និងបង្កើតឯកសារអត្ថបទ ខ្ញុំផ្ទាល់ប្រើល្អណាស់ តាមគំនិតរបស់ខ្ញុំ កម្មវិធីនិពន្ធ Html និង PHP Notepad++ ។ ទោះយ៉ាងណាក៏ដោយ វាអាចរំលេចវាក្យសម្ព័ន្ធនៃភាសាសរសេរកម្មវិធី និងសញ្ញាសម្គាល់រាប់រយផ្សេងទៀត ហើយថែមទាំងមានសមត្ថភាពពង្រីកដោយប្រើកម្មវិធីជំនួយផងដែរ។ អានការពិនិត្យឡើងវិញលម្អិតនៃកម្មវិធីដ៏អស្ចារ្យនេះនៅតំណដែលបានផ្តល់។ នៅក្នុងម៉ឺនុយកំពូលនៃ Notepad ++ មានធាតុ "ការអ៊ិនកូដ" ដែលអ្នកនឹងមានឱកាសបំប្លែងជម្រើសដែលមានស្រាប់ទៅជាជម្រើសដែលបានប្រើតាមលំនាំដើមនៅលើគេហទំព័ររបស់អ្នក៖

ក្នុងករណីគេហទំព័រនៅលើ Joomla 1.5 និងខ្ពស់ជាងនេះ ក៏ដូចជាក្នុងករណីប្លុកនៅលើ WordPress អ្នកគួរតែជ្រើសរើសជម្រើសដើម្បីជៀសវាងការលេចចេញនូវស្នាមប្រេះ។ UTF 8 ដោយគ្មាន BOM. តើបុព្វបទ BOM ជាអ្វី? ការពិតគឺថានៅពេលដែលពួកគេកំពុងបង្កើតការអ៊ិនកូដ YUTF-16 សម្រាប់ហេតុផលមួយចំនួនពួកគេបានសម្រេចចិត្តភ្ជាប់រឿងបែបនេះទៅវាដូចជាសមត្ថភាពក្នុងការសរសេរកូដតួអក្សរទាំងនៅក្នុងលំដាប់ផ្ទាល់ (ឧទាហរណ៍ 0A15) និងបញ្ច្រាស (150A) ។ . ហើយដើម្បីឱ្យកម្មវិធីយល់ច្បាស់ក្នុងលំដាប់ណាដែលត្រូវអានកូដ វាត្រូវបានបង្កើត BOM(Byte Order Mark ឬនិយាយម្យ៉ាងទៀតហត្ថលេខា) ដែលត្រូវបានបញ្ជាក់នៅក្នុងការបន្ថែមបៃចំនួនបីបន្ថែមទៀតដល់ដើមដំបូងនៃឯកសារ។ នៅក្នុងការអ៊ិនកូដ UTF-8 មិនមាន BOMs ណាមួយត្រូវបានផ្តល់ជូននៅក្នុងសម្ព័ន្ធយូនីកូដទេ ដូច្នេះហើយការបន្ថែមហត្ថលេខា (ចំនួនបីបៃបន្ថែមដ៏ល្បីទាំងនោះនៅដើមឯកសារ) គ្រាន់តែរារាំងកម្មវិធីមួយចំនួនពីការអានកូដ។ ដូច្នេះនៅពេលរក្សាទុកឯកសារក្នុង UTF យើងត្រូវជ្រើសរើសជម្រើសដោយគ្មាន BOM (ដោយគ្មានហត្ថលេខា)។ ដូច្នេះអ្នកជាមុន ការពារខ្លួនអ្នកពីការវារ krakozyabrs. អ្វីដែលគួរឱ្យកត់សម្គាល់នោះគឺថាកម្មវិធីមួយចំនួននៅក្នុង Windows មិនអាចធ្វើដូចនេះបានទេ (ពួកគេមិនអាចរក្សាទុកអត្ថបទនៅក្នុង UTF-8 ដោយគ្មាន BOM) ឧទាហរណ៍ Windows Notepad ដ៏ល្បីល្បាញដូចគ្នា។ វារក្សាទុកឯកសារក្នុង UTF-8 ប៉ុន្តែនៅតែបន្ថែមហត្ថលេខា (បីបៃបន្ថែម) ទៅការចាប់ផ្តើមរបស់វា។ លើសពីនេះទៅទៀត បៃទាំងនេះនឹងដូចគ្នាជានិច្ច - អានកូដតាមលំដាប់ផ្ទាល់។ ប៉ុន្តែនៅលើម៉ាស៊ីនមេ ដោយសារតែរឿងតូចតាចនេះ បញ្ហាអាចកើតឡើង - ជនឆបោកនឹងចេញមក។ ដូច្នេះមិនស្ថិតក្រោមកាលៈទេសៈណាក៏ដោយ។ កុំប្រើ Windows notepad ធម្មតា។ដើម្បីកែសម្រួលឯកសារនៅលើគេហទំព័ររបស់អ្នក ប្រសិនបើអ្នកមិនចង់ឱ្យការបង្ក្រាបណាមួយលេចឡើង។ ខ្ញុំចាត់ទុកកម្មវិធីនិពន្ធ Notepad++ ដែលបានរៀបរាប់រួចជាស្រេចថាជាជម្រើសដ៏ល្អបំផុត និងសាមញ្ញបំផុត ដែលជាក់ស្តែងមិនមានគុណវិបត្តិ ហើយមានគុណសម្បត្តិតែប៉ុណ្ណោះ។ នៅក្នុង Notepad++ នៅពេលអ្នកជ្រើសរើសការអ៊ិនកូដ អ្នកនឹងមានជម្រើសក្នុងការបំប្លែងអត្ថបទទៅជាការអ៊ិនកូដ UCS-2 ដែលមានលក្ខណៈជិតស្និទ្ធនឹងស្តង់ដារយូនីកូដ។ ផងដែរនៅក្នុង Notepad វានឹងអាចធ្វើទៅបានដើម្បីអ៊ិនកូដអត្ថបទនៅក្នុង ANSI, i.e. ទាក់ទងទៅនឹងភាសារុស្សី នេះនឹងជា Windows 1251 ដែលយើងបានពណ៌នាខាងលើរួចហើយ តើព័ត៌មាននេះមកពីណា? វាត្រូវបានចុះឈ្មោះក្នុងបញ្ជីឈ្មោះប្រព័ន្ធប្រតិបត្តិការ Windows របស់អ្នក ដែលការអ៊ិនកូដដែលត្រូវជ្រើសរើសក្នុងករណី ANSI ដែលត្រូវជ្រើសរើសក្នុងករណី OEM (សម្រាប់ភាសារុស្សីវានឹងជា CP866)។ ប្រសិនបើអ្នកដំឡើងភាសាលំនាំដើមផ្សេងទៀតនៅលើកុំព្យូទ័ររបស់អ្នក នោះការអ៊ិនកូដទាំងនេះនឹងត្រូវបានជំនួសដោយភាសាស្រដៀងគ្នាពីប្រភេទ ANSI ឬ OEM សម្រាប់ភាសាដូចគ្នានោះ។ បន្ទាប់ពីអ្នករក្សាទុកឯកសារក្នុង Notepad ++ ក្នុងការអ៊ិនកូដដែលអ្នកត្រូវការ ឬបើកឯកសារពីគេហទំព័រសម្រាប់កែសម្រួល អ្នកអាចឃើញឈ្មោះរបស់វានៅជ្រុងខាងស្តាំខាងក្រោមនៃកម្មវិធីនិពន្ធ៖ ដើម្បីជៀសវាងការឡើងក្រហមបន្ថែមពីលើសកម្មភាពដែលបានពិពណ៌នាខាងលើ វានឹងមានប្រយោជន៍ក្នុងការបញ្ចូលព័ត៌មានអំពីការអ៊ិនកូដនេះនៅក្នុងបឋមកថានៃកូដប្រភពនៃទំព័រទាំងអស់នៃគេហទំព័រ ដើម្បីកុំឱ្យមានការភ័ន្តច្រឡំនៅលើម៉ាស៊ីនមេ ឬម៉ាស៊ីនមូលដ្ឋាន។ ជាទូទៅ ភាសា hypertext markup ទាំងអស់ លើកលែងតែ Html ប្រើការប្រកាស xml ពិសេស ដែលបញ្ជាក់ការអ៊ិនកូដអត្ថបទ។< ? xml version= "1.0" encoding= "windows-1251" ? >មុននឹងញែកកូដ កម្មវិធីរុករកតាមអ៊ីនធឺណិតដឹងថាកំណែមួយណាកំពុងត្រូវបានប្រើប្រាស់ និងថាតើវាត្រូវការយ៉ាងណាដើម្បីបកស្រាយកូដតួអក្សរនៃភាសានោះ។ ប៉ុន្តែអ្វីដែលគួរឲ្យកត់សម្គាល់នោះគឺថា ប្រសិនបើអ្នករក្សាទុកឯកសារជាយូនីកូដលំនាំដើម នោះការប្រកាស xml នេះអាចត្រូវបានលុបចោល (ការបំប្លែងកូដនឹងត្រូវបានចាត់ទុកជា UTF-8 ប្រសិនបើមិនមាន BOM ឬ UTF-16 ប្រសិនបើមាន BOM)។ ក្នុងករណីឯកសារភាសា Html ការអ៊ិនកូដត្រូវបានប្រើដើម្បីចង្អុលបង្ហាញ ធាតុមេតាដែលត្រូវបានសរសេរនៅចន្លោះស្លាកក្បាលបើក និងបិទ៖ < head> . . . < meta charset= "utf-8" > . . . < / head>ធាតុនេះមានភាពខុសគ្នាខ្លាំងពីស្តង់ដារដែលបានអនុម័តនៅក្នុង Html 4.01 ប៉ុន្តែវាគោរពយ៉ាងពេញលេញជាមួយនឹងស្តង់ដារ Html 5 ថ្មីដែលកំពុងត្រូវបានណែនាំជាបណ្តើរៗ ហើយវានឹងត្រូវបានយល់យ៉ាងត្រឹមត្រូវដោយកម្មវិធីរុករកណាមួយដែលកំពុងប្រើប្រាស់នាពេលបច្ចុប្បន្ន។ តាមទ្រឹស្តី វាជាការប្រសើរក្នុងការដាក់ Meta element ដែលបង្ហាញពីការអ៊ិនកូដឯកសារ Html ខ្ពស់តាមដែលអាចធ្វើទៅបាននៅក្នុងបឋមកថាឯកសារដូច្នេះនៅពេលជួបតួអក្សរដំបូងក្នុងអត្ថបទមិនមែនមកពី ANSI មូលដ្ឋាន (ដែលតែងតែអានបានត្រឹមត្រូវ និងក្នុងការប្រែប្រួលណាមួយ) កម្មវិធីរុករកគួរតែមានព័ត៌មានអំពីរបៀបបកស្រាយកូដនៃតួអក្សរទាំងនេះរួចហើយ។ ភ្ជាប់ទៅទីមួយ

ជំរាបសួរ, អ្នកអានជាទីស្រឡាញ់នៃគេហទំព័រប្លក់។ ថ្ងៃនេះយើងនឹងនិយាយទៅកាន់អ្នកអំពីកន្លែងដែល krakozyabrs មកពីគេហទំព័រមួយ និងនៅក្នុងកម្មវិធី តើការអ៊ិនកូដអត្ថបទមានអ្វីខ្លះ ហើយគួរប្រើមួយណា។ សូមពិនិត្យមើលឱ្យកាន់តែដិតដល់នូវប្រវត្តិនៃការអភិវឌ្ឍន៍របស់ពួកគេ ដោយចាប់ផ្តើមពី ASCII មូលដ្ឋាន ក៏ដូចជាកំណែបន្ថែមរបស់វា CP866, KOI8-R, Windows 1251 និងបញ្ចប់ដោយការអ៊ិនកូដយូនីកូដ Consortium UTF 16 និង 8 ។

សម្រាប់អ្នកខ្លះ ព័ត៌មាននេះអាចហាក់ដូចជាមិនចាំបាច់ ប៉ុន្តែតើអ្នកដឹងទេថាតើមានសំណួរប៉ុន្មានដែលខ្ញុំទទួលបានជាពិសេសទាក់ទងនឹង krakozyabrs ដែលវារ (សំណុំតួអក្សរដែលមិនអាចអានបាន)។ ឥឡូវនេះខ្ញុំនឹងមានឱកាសដើម្បីបញ្ជូនអ្នកគ្រប់គ្នាទៅកាន់អត្ថបទនៃអត្ថបទនេះហើយស្វែងរកកំហុសផ្ទាល់ខ្លួនរបស់ខ្ញុំ។ ជាការប្រសើរណាស់, ត្រៀមខ្លួនដើម្បីស្រូបយកព័ត៌មានហើយព្យាយាមធ្វើតាមលំហូរនៃរឿង។

ASCII - ការអ៊ិនកូដអត្ថបទជាមូលដ្ឋានសម្រាប់អក្ខរក្រមឡាតាំង

ប៉ុន្តែនៅតែចំណុចចាប់ផ្តើមសម្រាប់ការអភិវឌ្ឍនៃការអ៊ិនកូដអត្ថបទទំនើបគួរតែត្រូវបានចាត់ទុកថាល្បីល្បាញ ASCII(កូដស្តង់ដារអាមេរិកសម្រាប់ការផ្លាស់ប្តូរព័ត៌មាន ដែលជាធម្មតាត្រូវបានប្រកាសជាភាសារុស្សីថា "សួរ")។ វាពិពណ៌នាអំពីតួអក្សរ 128 ដំបូងដែលប្រើជាទូទៅបំផុតដោយអ្នកប្រើប្រាស់ដែលនិយាយភាសាអង់គ្លេស - លេខអារ៉ាប់ និងសញ្ញាវណ្ណយុត្តិ។

តួអក្សរទាំង 128 នេះដែលត្រូវបានពិពណ៌នានៅក្នុង ASCII ក៏រួមបញ្ចូលផងដែរនូវតួអក្សរសេវាកម្មមួយចំនួនដូចជា តង្កៀប សញ្ញាសញ្ញា សញ្ញាផ្កាយ។ល។ តាមពិតទៅ អ្នកអាចឃើញពួកគេដោយខ្លួនឯង៖

វាគឺជាតួអក្សរទាំង 128 នេះពីកំណែដើមនៃ ASCII ដែលបានក្លាយជាស្តង់ដារ ហើយនៅក្នុងការអ៊ិនកូដផ្សេងទៀត អ្នកប្រាកដជានឹងរកឃើញពួកវា ហើយពួកគេនឹងបង្ហាញនៅក្នុងលំដាប់នេះ។

ប៉ុន្តែការពិតគឺថាជាមួយនឹងព័ត៌មានមួយបៃអ្នកអាចអ៊ិនកូដមិនមែន 128 ទេ ប៉ុន្តែតម្លៃខុសៗគ្នារហូតដល់ 256 (ពីរទៅថាមពលប្រាំបីស្មើនឹង 256) ដូច្នេះបន្ទាប់ពីកំណែមូលដ្ឋានរបស់ Asuka ស៊េរីទាំងមូលនៃ ពង្រីកការអ៊ិនកូដ ASCIIដែលក្នុងនោះ បន្ថែមពីលើតួអក្សរមូលដ្ឋានចំនួន 128 វាក៏អាចធ្វើទៅបានផងដែរក្នុងការអ៊ិនកូដនិមិត្តសញ្ញានៃការអ៊ិនកូដជាតិ (ឧទាហរណ៍រុស្ស៊ី) ។

នៅទីនេះ វាប្រហែលជាមានតម្លៃនិយាយបន្តិចទៀតអំពីប្រព័ន្ធលេខដែលត្រូវបានប្រើនៅក្នុងការពិពណ៌នា។ ជាដំបូង ដូចដែលអ្នកទាំងអស់គ្នាដឹងហើយថា កុំព្យូទ័រមួយដំណើរការតែជាមួយលេខនៅក្នុងប្រព័ន្ធគោលពីរប៉ុណ្ណោះ ពោលគឺលេខសូន្យ និងលេខមួយ ("ពិជគណិតប៊ូលីន" ប្រសិនបើអ្នកណាយកវានៅវិទ្យាស្ថាន ឬសាលារៀន)។ ដែលនីមួយៗជាពីរទៅថាមពល ចាប់ផ្តើមពីសូន្យ និងរហូតដល់ពីរទៅទីប្រាំពីរ៖

ក្នុងឧទាហរណ៍របស់យើង វាប្រែជា 1 (2 ទៅអំណាចនៃសូន្យ) បូក 8 (ពីរទៅថាមពលនៃ 3) បូក 32 (ពីរទៅថាមពលទីប្រាំ) បូក 64 (ដល់ថាមពលទីប្រាំមួយ) បូក 128 (ដល់អំណាចទីប្រាំពីរ) ។ សរុបគឺ 233 ក្នុងសញ្ញាណទសភាគ។ ដូចដែលអ្នកអាចឃើញអ្វីគ្រប់យ៉ាងគឺសាមញ្ញណាស់។

ប៉ុន្តែប្រសិនបើអ្នកក្រឡេកមើលតារាងយ៉ាងដិតដល់ជាមួយនឹងតួអក្សរ ASCII អ្នកនឹងឃើញថាពួកវាត្រូវបានតំណាងនៅក្នុងការអ៊ិនកូដលេខគោលដប់ប្រាំមួយ។ ឧទាហរណ៍ "សញ្ញាផ្កាយ" ត្រូវគ្នាទៅនឹងលេខគោលដប់ប្រាំមួយ 2A នៅក្នុង Aski ។ អ្នកប្រហែលជាដឹងថានៅក្នុងប្រព័ន្ធលេខគោលដប់ប្រាំមួយ បន្ថែមពីលើលេខអារ៉ាប់ អក្សរឡាតាំងពី A (មានន័យថាដប់) ដល់ F (មានន័យថាដប់ប្រាំ) ក៏ត្រូវបានគេប្រើផងដែរ។

អញ្ចឹងសម្រាប់ ការបំប្លែងលេខគោលពីរទៅជាលេខគោលដប់ប្រាំមួយ។ងាកទៅរកវិធីសាស្រ្តសាមញ្ញ និងជាក់ស្តែងខាងក្រោម។ បៃនីមួយៗនៃព័ត៌មានត្រូវបានបែងចែកជាពីរផ្នែកនៃបួនប៊ីត ដូចដែលបានបង្ហាញនៅក្នុងរូបថតអេក្រង់ខាងលើ។ នោះ។ ក្នុងមួយបៃកន្លះនីមួយៗ មានតែតម្លៃដប់ប្រាំមួយ (ពីរទៅថាមពលទីបួន) អាចត្រូវបានអ៊ិនកូដជាគោលពីរ ដែលអាចត្រូវបានតំណាងយ៉ាងងាយស្រួលជាលេខគោលដប់ប្រាំមួយ។

ជាងនេះទៅទៀត នៅពាក់កណ្តាលបៃខាងឆ្វេង ដឺក្រេនឹងត្រូវរាប់ម្តងទៀត ដោយចាប់ផ្តើមពីសូន្យ ហើយមិនមែនដូចដែលបានបង្ហាញក្នុងរូបថតអេក្រង់នោះទេ។ ជាលទ្ធផលតាមរយៈការគណនាសាមញ្ញយើងទទួលបានថាលេខ E9 ត្រូវបានអ៊ិនកូដនៅក្នុងរូបថតអេក្រង់។ ខ្ញុំសង្ឃឹមថាវគ្គនៃការវែកញែករបស់ខ្ញុំ និងដំណោះស្រាយចំពោះល្បែងផ្គុំរូបនេះច្បាស់សម្រាប់អ្នក។ មែនហើយ ឥឡូវនេះសូមបន្ត ជាការពិត ការនិយាយអំពីការអ៊ិនកូដអត្ថបទ។

កំណែបន្ថែមនៃការអ៊ិនកូដ Asuka - CP866 និង KOI8-R ជាមួយនឹងការក្លែងបន្លំ

ដូច្នេះ យើងចាប់ផ្តើមនិយាយអំពី ASCII ដែលជាចំណុចចាប់ផ្តើមសម្រាប់ការអភិវឌ្ឍន៍ការអ៊ិនកូដទំនើបទាំងអស់ (Windows 1251, Unicode, UTF 8)។

ដំបូងឡើយ វាមានតែ 128 តួអក្សរនៃអក្ខរក្រមឡាតាំង លេខអារ៉ាប់ និងអ្វីផ្សេងទៀត ប៉ុន្តែនៅក្នុងកំណែបន្ថែម វាអាចប្រើតម្លៃទាំងអស់ 256 ដែលអាចត្រូវបានអ៊ិនកូដក្នុងព័ត៌មានមួយបៃ។ ទាំងនោះ។ វាអាចបន្ថែមនិមិត្តសញ្ញាអក្សរនៃភាសារបស់អ្នកទៅ Aski ។

នៅទីនេះ យើងនឹងត្រូវការបកស្រាយម្តងទៀត ដើម្បីពន្យល់ - ហេតុអ្វីបានជាយើងត្រូវការការអ៊ិនកូដ?អត្ថបទ និងហេតុអ្វីបានជាវាសំខាន់ម៉្លេះ។ តួអក្សរនៅលើអេក្រង់កុំព្យូទ័ររបស់អ្នកត្រូវបានបង្កើតឡើងនៅលើមូលដ្ឋាននៃរឿងពីរ - សំណុំនៃទម្រង់វ៉ិចទ័រ (តំណាង) នៃតួអក្សរផ្សេងៗ (ពួកវាមានទីតាំងនៅក្នុងឯកសារជាមួយ) និងកូដដែលអនុញ្ញាតឱ្យអ្នកទាញចេញពីសំណុំនៃទម្រង់វ៉ិចទ័រនេះ (ឯកសារពុម្ពអក្សរ ) ជាតួអក្សរដែលនឹងត្រូវបញ្ចូលទៅក្នុងកន្លែងត្រឹមត្រូវ។

វាច្បាស់ណាស់ថាពុម្ពអក្សរខ្លួនឯងទទួលខុសត្រូវចំពោះរូបរាងវ៉ិចទ័រ ប៉ុន្តែប្រព័ន្ធប្រតិបត្តិការ និងកម្មវិធីដែលប្រើក្នុងវាទទួលខុសត្រូវចំពោះការអ៊ិនកូដ។ ទាំងនោះ។ អត្ថបទណាមួយនៅលើកុំព្យូទ័ររបស់អ្នកនឹងជាសំណុំនៃបៃ ដែលនីមួយៗអ៊ិនកូដតួអក្សរតែមួយនៃអត្ថបទនេះ។

កម្មវិធីដែលបង្ហាញអត្ថបទនេះនៅលើអេក្រង់ (កម្មវិធីនិពន្ធអត្ថបទ កម្មវិធីរុករកតាមអ៊ីនធឺណិត។ ឯកសារអត្ថបទ។ អ្វីគ្រប់យ៉ាងគឺសាមញ្ញនិង banal ។

នេះមានន័យថា ដើម្បីអ៊ិនកូដតួអក្សរណាមួយដែលយើងត្រូវការ (ឧទាហរណ៍ ពីអក្ខរក្រមជាតិ) លក្ខខណ្ឌពីរត្រូវតែបំពេញ - ទម្រង់វ៉ិចទ័រនៃតួអក្សរនេះត្រូវតែមាននៅក្នុងពុម្ពអក្សរដែលបានប្រើ ហើយតួអក្សរនេះអាចត្រូវបានអ៊ិនកូដនៅក្នុងការអ៊ិនកូដ ASCII ដែលបានពង្រីកនៅក្នុង មួយបៃ។ ដូច្នេះមានជម្រើសបែបនេះជាច្រើន។ គ្រាន់តែសម្រាប់ការអ៊ិនកូដតួអក្សរជាភាសារុស្សី មានប្រភេទ Aska បន្ថែមជាច្រើនប្រភេទ។

ឧទាហរណ៍ដំបូងបានបង្ហាញខ្លួន CP866ដែលមានសមត្ថភាពប្រើតួអក្សរពីអក្ខរក្រមរុស្ស៊ី និងជាកំណែបន្ថែមនៃ ASCII ។

ទាំងនោះ។ ផ្នែកខាងលើរបស់វាស្របគ្នាទាំងស្រុងជាមួយនឹងកំណែមូលដ្ឋានរបស់ Aska (128 តួអក្សរឡាតាំង លេខ និងអក្សរតូចផ្សេងទៀត) ដែលត្រូវបានបង្ហាញនៅក្នុងរូបថតអេក្រង់ខាងលើ ប៉ុន្តែផ្នែកខាងក្រោមនៃតារាងជាមួយនឹងការអ៊ិនកូដ CP866 មានរូបរាងបង្ហាញនៅក្នុងរូបថតអេក្រង់ខាងក្រោម។ និងអនុញ្ញាតឱ្យអ្នកអ៊ិនកូដសញ្ញា 128 ផ្សេងទៀត (អក្សររុស្ស៊ីនិងគ្រប់ប្រភេទនៃក្លែងក្លាយ):

តើចំនួននេះមកពីណា? ការក្លែងបន្លំនៅក្នុង CP866? ចំណុចទាំងមូលគឺថាការអ៊ិនកូដនេះសម្រាប់អត្ថបទជាភាសារុស្សីត្រូវបានបង្កើតឡើងវិញនៅក្នុងឆ្នាំដ៏អាក្រក់ទាំងនោះ នៅពេលដែលប្រព័ន្ធប្រតិបត្តិការក្រាហ្វិកមិនរីករាលដាលដូចបច្ចុប្បន្ន។ ហើយនៅក្នុង Dosa និងប្រព័ន្ធប្រតិបត្តិការអត្ថបទស្រដៀងគ្នា ការក្លែងបន្លំបានធ្វើឱ្យវាអាចធ្វើទៅបានយ៉ាងហោចណាស់ធ្វើពិពិធកម្មការរចនានៃអត្ថបទហើយដូច្នេះ CP866 និងមិត្តភ័ក្តិផ្សេងទៀតរបស់វាពីប្រភេទនៃកំណែបន្ថែមរបស់ Asuka មានច្រើននៅក្នុងវា។

CP866 ត្រូវបានចែកចាយដោយ IBM ប៉ុន្តែបន្ថែមពីលើនេះ ការអ៊ិនកូដមួយចំនួនត្រូវបានបង្កើតឡើងសម្រាប់តួអក្សរភាសារុស្សី ឧទាហរណ៍ ប្រភេទដូចគ្នា (ពង្រីក ASCII) អាចត្រូវបានកំណត់គុណលក្ខណៈ KOI8-R:

ក្នុងចំណោមលក្ខណៈពិសេសនៃការអ៊ិនកូដ KOI8-R វាអាចត្រូវបានកត់សម្គាល់ថាអក្សររុស្ស៊ីនៅក្នុងតារាងរបស់វាមិនមានតាមលំដាប់អក្ខរក្រមទេឧទាហរណ៍ពួកគេបានធ្វើវានៅក្នុង CP866 ។

ប្រសិនបើអ្នកក្រឡេកមើលរូបថតអេក្រង់ដំបូងបំផុត (នៃផ្នែកមូលដ្ឋានដែលត្រូវបានរួមបញ្ចូលនៅក្នុងការអ៊ិនកូដបន្ថែមទាំងអស់) អ្នកនឹងសម្គាល់ឃើញថានៅក្នុង KOI8-R អក្សររុស្ស៊ីមានទីតាំងនៅក្នុងក្រឡាដូចគ្នានៃតារាងជាអក្សរដែលត្រូវគ្នានៃអក្ខរក្រមឡាតាំង។ ពីផ្នែកដំបូងនៃតារាង។ នេះត្រូវបានធ្វើដើម្បីភាពងាយស្រួលនៃការប្តូរពីអក្សររុស្ស៊ីទៅឡាតាំងដោយបោះចោលបន្តិច (ពីរទៅថាមពលទីប្រាំពីរ ឬ 128)។

វីនដូ 1251 - កំណែទំនើបនៃ ASCII ហើយហេតុអ្វីបានជាស្នាមប្រេះចេញមក

ពួកវាជាកម្មសិទ្ធិរបស់អ្វីដែលគេហៅថាការអ៊ិនកូដ ANSI ដែលត្រូវបានបង្កើតឡើងដោយវិទ្យាស្ថានស្តង់ដារអាមេរិក។ នៅក្នុងការនិយាយទូទៅ ឈ្មោះ Cyrillic ក៏ត្រូវបានប្រើសម្រាប់កំណែដែលមានការគាំទ្រជាភាសារុស្សីផងដែរ។ ឧទាហរណ៍នៃការនេះនឹងជា។

វាមានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងពី CP866 និង KOI8-R ដែលបានប្រើពីមុន ត្រង់កន្លែងនៃនិមិត្តសញ្ញាក្លែងក្លាយនៅក្នុងវាត្រូវបានយកដោយនិមិត្តសញ្ញាដែលបាត់នៃការវាយអក្សររបស់រុស្ស៊ី (លើកលែងតែសញ្ញាសង្កត់សំឡេង) ក៏ដូចជានិមិត្តសញ្ញាដែលប្រើជាភាសាស្លាវីជិត រុស្ស៊ី (អ៊ុយក្រែន បេឡារុស្ស ។ល។)។

ជាញឹកញាប់ពួកគេចេញមកនៅពេលផ្ញើ និងទទួលសារតាមអ៊ីមែល ដែលរួមបញ្ចូលការបង្កើតតារាងបំប្លែងដ៏ស្មុគស្មាញ ដែលតាមពិតទៅ មិនអាចដោះស្រាយបញ្ហានេះជាមូលដ្ឋានបានទេ ហើយអ្នកប្រើប្រាស់ជាញឹកញាប់ប្រើសម្រាប់ការឆ្លើយឆ្លង ដើម្បីជៀសវាងការខុសឆ្គងដ៏ល្បីល្បាញនៅពេលប្រើ។ ការអ៊ិនកូដរុស្ស៊ីដូចជា CP866, KOI8-R ឬ Windows 1251 ។

តាមពិត ការបង្ក្រាបដែលលេចឡើងជំនួសឱ្យអត្ថបទភាសារុស្សី គឺជាលទ្ធផលនៃការប្រើប្រាស់មិនត្រឹមត្រូវនៃការអ៊ិនកូដនៃភាសានេះ ដែលមិនត្រូវគ្នាទៅនឹងអត្ថបទដែលសារត្រូវបានអ៊ិនកូដពីដំបូងឡើយ។

ចូរនិយាយថាប្រសិនបើអ្នកព្យាយាមបង្ហាញតួអក្សរដែលបានអ៊ិនកូដដោយប្រើ CP866 ដោយប្រើតារាងកូដ Windows 1251 នោះពាក្យដដែលៗទាំងនេះ (សំណុំតួអក្សរគ្មានន័យ) នឹងចេញមក ដោយជំនួសអត្ថបទសារទាំងស្រុង។

ស្ថានភាពស្រដៀងគ្នានេះកើតឡើងជាញឹកញាប់នៅលើវេទិកា ឬប្លក់ នៅពេលដែលអត្ថបទដែលមានតួអក្សររុស្ស៊ីត្រូវបានរក្សាទុកដោយច្រឡំក្នុងការបំប្លែងកូដខុសដែលត្រូវបានប្រើនៅលើគេហទំព័រតាមលំនាំដើម ឬនៅក្នុងកម្មវិធីកែអត្ថបទខុស ដែលបន្ថែមការនិយាយទៅកាន់កូដដែលមើលមិនឃើញ។ ភ្នែកទទេ។

នៅទីបញ្ចប់ មនុស្សជាច្រើនមានការធុញទ្រាន់នឹងស្ថានភាពនេះជាមួយនឹងការអ៊ិនកូដជាច្រើន និងឥតឈប់ឈរ ហើយតម្រូវការជាមុនបានលេចឡើងសម្រាប់ការបង្កើតបំរែបំរួលសកលថ្មីដែលនឹងជំនួសអ្វីៗដែលមានស្រាប់ទាំងអស់ ហើយទីបំផុតនឹងដោះស្រាយបញ្ហាជាមួយនឹងរូបរាង។ នៃអត្ថបទដែលមិនអាចអានបាន។ លើសពីនេះទៀតក៏មានបញ្ហាភាសាដូចជាភាសាចិនដែរ ដែលមានតួអក្សរច្រើនជាង ២៥៦ ។

យូនីកូដ - ការអ៊ិនកូដជាសកល UTF 8, 16 និង 32

បំរែបំរួលដំបូងដែលបានចេញផ្សាយក្រោមការឧបត្ថម្ភពីសម្ព័ន្ធយូនីកូដគឺ UTF ៣២. លេខនៅក្នុងឈ្មោះអ៊ិនកូដមានន័យថាចំនួនប៊ីតដែលត្រូវបានប្រើដើម្បីអ៊ិនកូដតួអក្សរមួយ។ 32 ប៊ីតស្មើនឹង 4 បៃនៃព័ត៌មានដែលនឹងត្រូវការដើម្បីអ៊ិនកូដតួអក្សរតែមួយនៅក្នុងការអ៊ិនកូដ UTF សកលថ្មី។

ជាលទ្ធផល ឯកសារដូចគ្នាជាមួយនឹងអត្ថបទដែលបានអ៊ិនកូដនៅក្នុងកំណែបន្ថែមនៃ ASCII និងនៅក្នុង UTF-32 ក្នុងករណីចុងក្រោយនឹងមានទំហំ (ទម្ងន់) ធំជាងបួនដង។ នេះគឺអាក្រក់ ប៉ុន្តែឥឡូវនេះយើងមានឱកាសក្នុងការអ៊ិនកូដដោយប្រើ YTF ចំនួនតួអក្សរស្មើនឹងពីរទៅថាមពលសាមសិបវិនាទី ( រាប់ពាន់លានតួអក្សរដែលនឹងគ្របដណ្តប់លើតម្លៃចាំបាច់ណាមួយជាមួយនឹងរឹមដ៏ធំ)។

ប៉ុន្តែប្រទេសជាច្រើនដែលមានភាសានៃក្រុមអ៊ឺរ៉ុបមិនចាំបាច់ប្រើតួអក្សរដ៏ច្រើនបែបនេះក្នុងការអ៊ិនកូដទាល់តែសោះ ទោះជាយ៉ាងណាក៏ដោយនៅពេលប្រើ UTF-32 ពួកគេដោយគ្មានហេតុផលទទួលបានការកើនឡើងបួនដងនៃទម្ងន់នៃឯកសារអត្ថបទ។ ហើយជាលទ្ធផល ការកើនឡើងនៃបរិមាណចរាចរអ៊ីនធឺណិត និងបរិមាណទិន្នន័យដែលបានរក្សាទុក។ នេះច្រើនណាស់ ហើយគ្មាននរណាម្នាក់អាចទិញកាកសំណល់បែបនេះបានទេ។

ជាលទ្ធផលនៃការអភិវឌ្ឍន៍យូនីកូដ។ UTF-16វាបានប្រែក្លាយថាទទួលបានជោគជ័យយ៉ាងខ្លាំងដែលវាត្រូវបានអនុម័តតាមលំនាំដើមជាចន្លោះមូលដ្ឋានសម្រាប់តួអក្សរទាំងអស់ដែលយើងប្រើ។ វាប្រើពីរបៃដើម្បីអ៊ិនកូដតួអក្សរមួយ។ តោះមើលថាតើរឿងនេះមើលទៅដូចម្ដេច។

នៅក្នុងប្រព័ន្ធប្រតិបត្តិការ Windows អ្នកអាចដើរតាមផ្លូវ "ចាប់ផ្តើម" - "កម្មវិធី" - "គ្រឿងបន្លាស់" - "ឧបករណ៍ប្រព័ន្ធ" - "តារាងតួអក្សរ" ។ ជាលទ្ធផល តារាងមួយនឹងបើកជាមួយនឹងរាងវ៉ិចទ័រនៃពុម្ពអក្សរទាំងអស់ដែលបានដំឡើងនៅលើប្រព័ន្ធរបស់អ្នក។ ប្រសិនបើអ្នកជ្រើសរើសតួអក្សរយូនីកូដដែលបានកំណត់នៅក្នុង "ជម្រើសកម្រិតខ្ពស់" អ្នកនឹងអាចមើលឃើញសម្រាប់ពុម្ពអក្សរនីមួយៗដាច់ដោយឡែកពីជួរតួអក្សរទាំងមូលដែលបានរួមបញ្ចូលនៅក្នុងវា។

ដោយវិធីនេះដោយចុចលើពួកវាណាមួយអ្នកអាចមើលឃើញពីរបៃរបស់វា។ កូដក្នុងទម្រង់ UTF-16ដែលមានលេខគោលដប់ប្រាំមួយចំនួនបួន៖

ប៉ុន្តែសូម្បីតែកំណែដែលទទួលបានជោគជ័យនៃការអ៊ិនកូដយូនីកូដនេះមិនបាននាំមកនូវការពេញចិត្តច្រើនដល់អ្នកដែលសរសេរកម្មវិធីតែជាភាសាអង់គ្លេសទេព្រោះសម្រាប់ពួកគេបន្ទាប់ពីការផ្លាស់ប្តូរពីកំណែបន្ថែមនៃ ASCII ទៅ UTF-16 ទម្ងន់នៃឯកសារបានកើនឡើងទ្វេដង ( មួយបៃក្នុងមួយតួអក្សរនៅក្នុង Aski និងពីរបៃសម្រាប់តួអក្សរដូចគ្នានៅក្នុង YUTF-16) ។

វាច្បាស់ណាស់ក្នុងការបំពេញចិត្តមនុស្សគ្រប់រូប និងអ្វីៗគ្រប់យ៉ាងនៅក្នុងសម្ព័ន្ធយូនីកូដ ដែលវាត្រូវបានសម្រេចចិត្តបង្កើត ការអ៊ិនកូដប្រវែងអថេរ. វាត្រូវបានគេហៅថា UTF-8 ។ ទោះបីជាប្រាំបីនៅក្នុងឈ្មោះរបស់វាក៏ដោយវាពិតជាមានប្រវែងអថេរ i.e. តួអក្សរនីមួយៗនៃអត្ថបទអាចត្រូវបានអ៊ិនកូដទៅជាលំដាប់នៃប្រវែងមួយទៅប្រាំមួយបៃ។

នៅក្នុងការអនុវត្ត UTF-8 ប្រើតែចន្លោះពីមួយទៅបួនបៃប៉ុណ្ណោះ ពីព្រោះលើសពី 4 បៃនៃកូដ វាមិនអាចគិតតាមទ្រឹស្តីបានទៀតទេ។ តួអក្សរឡាតាំងទាំងអស់នៅក្នុងវាត្រូវបានអ៊ិនកូដទៅជាមួយបៃ ដូចនៅក្នុង ASCII ចាស់ល្អ។

អ្វីដែលគួរឲ្យកត់សម្គាល់នោះគឺថា ក្នុងករណីដែលការអ៊ិនកូដតែអក្សរឡាតាំង សូម្បីតែកម្មវិធីទាំងនោះដែលមិនយល់ពីយូនីកូដនឹងនៅតែអានអ្វីដែលត្រូវបានអ៊ិនកូដនៅក្នុង YTF-8 ដដែល។ ទាំងនោះ។ ផ្នែកស្នូលនៃ Asuka ត្រូវបានផ្ទេរយ៉ាងសាមញ្ញទៅកាន់ការបង្កើតសម្ព័ន្ធយូនីកូដនេះ។

តួអក្សរ Cyrillic នៅក្នុង UTF-8 ត្រូវបានអ៊ិនកូដជាពីរបៃ ហើយឧទាហរណ៍ តួអក្សរហ្សកហ្ស៊ីត្រូវបានអ៊ិនកូដជាបីបៃ។ សម្ព័ន្ធយូនីកូដ បន្ទាប់ពីបង្កើត UTF 16 និង 8 បានដោះស្រាយបញ្ហាចម្បង - ឥឡូវនេះយើងមាន ពុម្ពអក្សរមានចន្លោះកូដតែមួយ. ហើយឥឡូវនេះក្រុមហ៊ុនផលិតរបស់ពួកគេអាចបំពេញវាបានតែជាមួយទម្រង់វ៉ិចទ័រនៃតួអក្សរអត្ថបទដោយផ្អែកលើភាពខ្លាំងនិងសមត្ថភាពរបស់ពួកគេ។ ឥឡូវនេះពួកគេថែមទាំងមកជាឈុត។

នៅក្នុង "តារាងតួអក្សរ" ខាងលើ អ្នកអាចមើលឃើញថា ពុម្ពអក្សរផ្សេងគ្នា គាំទ្រចំនួនតួអក្សរផ្សេងគ្នា។ ពុម្ពអក្សរដែលសំបូរទៅដោយយូនីកូដមួយចំនួនអាចធ្ងន់ណាស់។ ប៉ុន្តែឥឡូវនេះ ពួកវាខុសគ្នាត្រង់ថាពួកវាត្រូវបានបង្កើតសម្រាប់ការបំប្លែងកូដផ្សេងៗគ្នា ប៉ុន្តែនៅក្នុងការពិតដែលថាក្រុមហ៊ុនផលិតពុម្ពអក្សរបានបំពេញ ឬមិនបានបំពេញទាំងស្រុងនូវចន្លោះកូដតែមួយជាមួយនឹងទម្រង់វ៉ិចទ័រជាក់លាក់។

ពាក្យឆ្កួតជំនួសឱ្យអក្សររុស្ស៊ី - របៀបជួសជុលវា។

ដើម្បីកែសម្រួល និងបង្កើតឯកសារអត្ថបទ ខ្ញុំផ្ទាល់ប្រើល្អណាស់ តាមគំនិតរបស់ខ្ញុំ។ ទោះយ៉ាងណាក៏ដោយ វាអាចរំលេចវាក្យសម្ព័ន្ធនៃភាសាសរសេរកម្មវិធី និងសញ្ញាសម្គាល់រាប់រយផ្សេងទៀត ហើយថែមទាំងមានសមត្ថភាពពង្រីកដោយប្រើកម្មវិធីជំនួយផងដែរ។ អានការពិនិត្យឡើងវិញលម្អិតនៃកម្មវិធីដ៏អស្ចារ្យនេះនៅតំណដែលបានផ្តល់។

នៅក្នុងម៉ឺនុយកំពូលនៃ Notepad ++ មានធាតុ "ការអ៊ិនកូដ" ដែលអ្នកនឹងមានឱកាសបំប្លែងជម្រើសដែលមានស្រាប់ទៅជាជម្រើសដែលបានប្រើតាមលំនាំដើមនៅលើគេហទំព័ររបស់អ្នក៖

ការពិតគឺថានៅពេលដែលពួកគេកំពុងបង្កើតការអ៊ិនកូដ YUTF-16 សម្រាប់ហេតុផលមួយចំនួនពួកគេបានសម្រេចចិត្តភ្ជាប់រឿងបែបនេះទៅវាដូចជាសមត្ថភាពក្នុងការសរសេរកូដតួអក្សរទាំងនៅក្នុងលំដាប់ផ្ទាល់ (ឧទាហរណ៍ 0A15) និងបញ្ច្រាស (150A) ។ . ហើយដើម្បីឱ្យកម្មវិធីយល់ច្បាស់ក្នុងលំដាប់ណាដែលត្រូវអានកូដ វាត្រូវបានបង្កើត BOM(Byte Order Mark ឬនិយាយម្យ៉ាងទៀតហត្ថលេខា) ដែលត្រូវបានបញ្ជាក់នៅក្នុងការបន្ថែមបៃចំនួនបីបន្ថែមទៀតដល់ដើមដំបូងនៃឯកសារ។

នៅក្នុងការអ៊ិនកូដ UTF-8 មិនមាន BOMs ណាមួយត្រូវបានផ្តល់ជូននៅក្នុងសម្ព័ន្ធយូនីកូដទេ ដូច្នេះហើយការបន្ថែមហត្ថលេខា (ចំនួនបីបៃបន្ថែមដ៏ល្បីទាំងនោះនៅដើមឯកសារ) គ្រាន់តែរារាំងកម្មវិធីមួយចំនួនពីការអានកូដ។ ដូច្នេះនៅពេលរក្សាទុកឯកសារក្នុង UTF យើងត្រូវជ្រើសរើសជម្រើសដោយគ្មាន BOM (ដោយគ្មានហត្ថលេខា)។ ដូច្នេះអ្នកជាមុន ការពារខ្លួនអ្នកពីការវារ krakozyabrs.

អ្វីដែលគួរឱ្យកត់សម្គាល់នោះគឺថាកម្មវិធីមួយចំនួននៅក្នុង Windows មិនអាចធ្វើដូចនេះបានទេ (ពួកគេមិនអាចរក្សាទុកអត្ថបទនៅក្នុង UTF-8 ដោយគ្មាន BOM) ឧទាហរណ៍ Windows Notepad ដ៏ល្បីល្បាញដូចគ្នា។ វារក្សាទុកឯកសារក្នុង UTF-8 ប៉ុន្តែនៅតែបន្ថែមហត្ថលេខា (បីបៃបន្ថែម) ទៅការចាប់ផ្តើមរបស់វា។ លើសពីនេះទៅទៀត បៃទាំងនេះនឹងដូចគ្នាជានិច្ច - អានកូដតាមលំដាប់ផ្ទាល់។ ប៉ុន្តែនៅលើម៉ាស៊ីនមេ ដោយសារតែរឿងតូចតាចនេះ បញ្ហាអាចកើតឡើង - ជនឆបោកនឹងចេញមក។

ដូច្នេះមិនស្ថិតក្រោមកាលៈទេសៈណាក៏ដោយ។ កុំប្រើ Windows notepad ធម្មតា។ដើម្បីកែសម្រួលឯកសារនៅលើគេហទំព័ររបស់អ្នក ប្រសិនបើអ្នកមិនចង់ឱ្យការបង្ក្រាបណាមួយលេចឡើង។ ខ្ញុំចាត់ទុកកម្មវិធីនិពន្ធ Notepad++ ដែលបានរៀបរាប់រួចជាស្រេចថាជាជម្រើសដ៏ល្អបំផុត និងសាមញ្ញបំផុត ដែលជាក់ស្តែងមិនមានគុណវិបត្តិ ហើយមានគុណសម្បត្តិតែប៉ុណ្ណោះ។

នៅក្នុង Notepad++ នៅពេលអ្នកជ្រើសរើសការអ៊ិនកូដ អ្នកនឹងមានជម្រើសក្នុងការបំប្លែងអត្ថបទទៅជាការអ៊ិនកូដ UCS-2 ដែលមានលក្ខណៈជិតស្និទ្ធនឹងស្តង់ដារយូនីកូដ។ ផងដែរនៅក្នុង Notepad វានឹងអាចធ្វើទៅបានដើម្បីអ៊ិនកូដអត្ថបទនៅក្នុង ANSI, i.e. ទាក់ទងទៅនឹងភាសារុស្សី នេះនឹងជា Windows 1251 ដែលយើងបានពណ៌នាខាងលើរួចហើយ តើព័ត៌មាននេះមកពីណា?

វាត្រូវបានចុះឈ្មោះក្នុងបញ្ជីឈ្មោះប្រព័ន្ធប្រតិបត្តិការ Windows របស់អ្នក ដែលការអ៊ិនកូដដែលត្រូវជ្រើសរើសក្នុងករណី ANSI ដែលត្រូវជ្រើសរើសក្នុងករណី OEM (សម្រាប់ភាសារុស្សីវានឹងជា CP866)។ ប្រសិនបើអ្នកដំឡើងភាសាលំនាំដើមផ្សេងទៀតនៅលើកុំព្យូទ័ររបស់អ្នក នោះការអ៊ិនកូដទាំងនេះនឹងត្រូវបានជំនួសដោយភាសាស្រដៀងគ្នាពីប្រភេទ ANSI ឬ OEM សម្រាប់ភាសាដូចគ្នានោះ។

បន្ទាប់ពីអ្នករក្សាទុកឯកសារក្នុង Notepad ++ ក្នុងការអ៊ិនកូដដែលអ្នកត្រូវការ ឬបើកឯកសារពីគេហទំព័រសម្រាប់កែសម្រួល អ្នកអាចឃើញឈ្មោះរបស់វានៅជ្រុងខាងស្តាំខាងក្រោមនៃកម្មវិធីនិពន្ធ៖

ដើម្បីជៀសវាងការឡើងក្រហមបន្ថែមពីលើសកម្មភាពដែលបានពិពណ៌នាខាងលើ វានឹងមានប្រយោជន៍ក្នុងការបញ្ចូលព័ត៌មានអំពីការអ៊ិនកូដនេះនៅក្នុងបឋមកថានៃកូដប្រភពនៃទំព័រទាំងអស់នៃគេហទំព័រ ដើម្បីកុំឱ្យមានការភ័ន្តច្រឡំនៅលើម៉ាស៊ីនមេ ឬម៉ាស៊ីនមូលដ្ឋាន។

ជាទូទៅ ភាសា hypertext markup ទាំងអស់ លើកលែងតែ Html ប្រើការប្រកាស xml ពិសេស ដែលបញ្ជាក់ការអ៊ិនកូដអត្ថបទ។

មុននឹងញែកកូដ កម្មវិធីរុករកតាមអ៊ីនធឺណិតដឹងថាកំណែមួយណាកំពុងត្រូវបានប្រើប្រាស់ និងថាតើវាត្រូវការយ៉ាងណាដើម្បីបកស្រាយកូដតួអក្សរនៃភាសានោះ។ ប៉ុន្តែអ្វីដែលគួរឲ្យកត់សម្គាល់នោះគឺថា ប្រសិនបើអ្នករក្សាទុកឯកសារជាយូនីកូដលំនាំដើម នោះការប្រកាស xml នេះអាចត្រូវបានលុបចោល (ការបំប្លែងកូដនឹងត្រូវបានចាត់ទុកជា UTF-8 ប្រសិនបើមិនមាន BOM ឬ UTF-16 ប្រសិនបើមាន BOM)។

ក្នុងករណីឯកសារភាសា Html ការអ៊ិនកូដត្រូវបានប្រើដើម្បីចង្អុលបង្ហាញ ធាតុមេតាដែលត្រូវបានសរសេរនៅចន្លោះស្លាកក្បាលបើក និងបិទ៖

... ...

ធាតុនេះមានភាពខុសប្លែកគ្នាយ៉ាងខ្លាំងពីអ្វីដែលបានអនុម័ត ប៉ុន្តែត្រូវបានអនុលោមយ៉ាងពេញលេញជាមួយនឹងស្តង់ដារ Html 5 ថ្មីដែលកំពុងត្រូវបានណែនាំជាបណ្តើរៗ ហើយវានឹងត្រូវបានយល់យ៉ាងត្រឹមត្រូវដោយកម្មវិធីរុករកណាមួយដែលកំពុងប្រើប្រាស់នាពេលបច្ចុប្បន្ន។

តាមទ្រឹស្តី វាជាការប្រសើរក្នុងការដាក់ Meta element ដែលបង្ហាញពីការអ៊ិនកូដឯកសារ Html ខ្ពស់តាមដែលអាចធ្វើទៅបាននៅក្នុងបឋមកថាឯកសារដូច្នេះនៅពេលជួបតួអក្សរដំបូងក្នុងអត្ថបទមិនមែនមកពី ANSI មូលដ្ឋាន (ដែលតែងតែអានបានត្រឹមត្រូវ និងក្នុងការប្រែប្រួលណាមួយ) កម្មវិធីរុករកគួរតែមានព័ត៌មានអំពីរបៀបបកស្រាយកូដនៃតួអក្សរទាំងនេះរួចហើយ។

សូមសំណាងល្អដល់អ្នក! ជួបគ្នាឆាប់ៗនៅលើទំព័រនៃគេហទំព័រប្លក់

អ្នកប្រហែលជាចាប់អារម្មណ៍

តើអាសយដ្ឋាន URL ជាអ្វី តើតំណភ្ជាប់ដាច់ខាត និងទំនាក់ទំនងសម្រាប់គេហទំព័រខុសគ្នាយ៉ាងដូចម្តេច?
OpenServer - ម៉ាស៊ីនមេក្នុងស្រុកទំនើប និងជាឧទាហរណ៍នៃរបៀបប្រើវាដើម្បីដំឡើង WordPress នៅលើកុំព្យូទ័រ
តើ Chmod ជាអ្វី ការអនុញ្ញាតអ្វីខ្លះក្នុងការកំណត់ទៅឯកសារ និងថតឯកសារ (777, 755, 666) និងរបៀបធ្វើវាតាមរយៈ PHP
ស្វែងរក Yandex តាមគេហទំព័រ និងហាងអនឡាញ