Какво е кодовата таблица
Фигура 1 показва символите включени в стандарта (на английски език) и разширен (руски) ASCII кодиране.
През първата половина на ASCII таблица е стандартизирана. Той съдържа управляващи кодове (от 00ч до 20ч и 77H). Тези кодове се отстраняват от масата, тъй като те не се прилагат за текстовите елементи. Тук се поставят знаци и математически знаци: 2lh -. 26h - , 28з - (, 2BH - + големи и малки букви :. 41з - А, 61h - а.
През втората половина на таблицата съдържа национални шрифтове, чертожни герои, от които могат да бъдат изградени на масата, специални математически символи. В долната част на таблицата за кодиране може да се обменя с помощта на подходящите драйвери - програми за подпомагане контрол. Тази техника позволява използването на множество шрифтове и шрифтове.
Всеки екран характер код трябва да покаже образа символ - не само цифров код и съответната му картина като всеки един от героите има своя собствена форма. Описание образуват всеки знак се съхранява в паметта на дисплея - характер генератор. Показване на дисплея символ IBM PC, например, с помощта на точки, които са символ матрица. Всеки пиксел в такава матрица е елемент на изображението и може да бъде ярка или тъмна. Тъмна точка е кодиран 0, ярък (светъл) - 1. Ако в матрицата представляват областта на тъмните пиксели отбележат точка, и светлина - звезда, можете да обрисуват форма характер графично.
Хората в различни страни използват символи за записване на думите на своя роден език е. В днешно време повечето приложения, включително системи за електронна поща и уеб браузъри, са чисто 8-битов, което означава, че може да покаже и правилно възприемат само 8-битови символи, в съответствие с ISO-8859-1 стандарт.
Има повече от 256 знака в света (ако вземем предвид кирилица, арабски, китайски, японски, корейски и тайландски) и има все повече и повече нови герои. И това създава следните пропуски за много потребители:
Не можете да използвате символи от различни кодировки в същия документ. Тъй като всеки текстов документ използва свой собствен набор от кодировки, тогава има големи трудности с автоматично разпознаване на текст.
Има нови герои (например евро), което води до ISO разработва нова ISO-8859-15 стандарт, който е много подобен на ISO-8859-1 стандарт. Разликата е, както следва: от старите стандартни символи за кодиране на ISO-8859-1 се отнасят до масата на старите валути са били премахнати, което не се използва в момента, за да се направи място за нововъзникващите знаци (като евро). В резултат на това, потребителите могат да лежат на дисковете са същите документи, но в различни кодировки. Решението на тези проблеми е приемането на международна група от кодировки, което се нарича универсално кодиране или Unicode.
Стандартът се състои от две основни части: (. Английски UTF, формат Unicode трансформация) Всеобщата набор от символи (. Английски UCS, универсален набор от символи) и семейството на кодировки. универсален набор символи определя една кореспонденция на символи кодове - код елемент пространство, което представлява не-отрицателни числа. Семейството на кодировки уточнява ПКС машинен код последователности.
В стандарта Unicode е проектиран да се създаде единен кодиране на знаците за всички модерни и много древни писмени езици. Всеки герой е кодиран в стандартните 16 бита, което позволява тя да улови много повече символи, отколкото предишната си 8-битово кодиране. Друга важна разлика от друга система за кодиране Unicode е, че тя не само задава всеки знак с уникален код, а също така определя различните характеристики на характера, като например:
вида на характера (главни букви, малки букви, цифри, препинателни знаци и т.н.);
характер атрибути (дисплей от ляво на дясно или от дясно на ляво, пространство, нови редове и т.н.);
съответстващ главни или малки (за горните и малки букви, съответно);
съответната числова стойност (цифрови знака).
Цялата гама от кодове от 0 до FFFF е разделена на няколко стандартни подгрупи, всяка от които отговаря на азбука на език или група от специални символи, които са подобни на функция. Диаграмата по-долу показва общ списък на подгрупи на Unicode 3.0 (Фигура 2).
В стандарта Unicode е основата за съхранението и текста на много от днешните компютърни системи. Въпреки това, той не е съвместим с по-голямата част от интернет протоколи, защото тя кодове могат да съдържат никакви байтове ценности и протоколи се използват често байта 00 - 1F и FE - FF като услуга. няколко Unicode формати преобразуване са проектирани за съвместимост (UTFs, Unicode Transformation формати), от които днес най-често е UTF-8. Този формат определя следната трансформация правила всеки Unicode код, определен в байтове (02:59), подходящ за транспортиране на интернет протоколи.
Binary характер код
1110xxxx 10yyyyyy 10zzzzzz
Тук, X, Y, Z означаваме бита код, които трябва да бъдат извлечени от най-ниските, и влезе в байтове на резултата от дясно на ляво, докато всички тези позиции са запълнени.
По този начин, има 4 основни метода за кодиране байта в Unicode формат:
UTF-8: 128 знака са кодирани в един байт (ASCII формат) 1920 символа кодирани с 2 байта ((римски, гръцки, кирилица, коптски, арменски, иврит, арабски знака) 63488 символи се кодират от 3 байта (китайски, японски и др.) останалите 2,147,418,112 символи (не се използва) може да бъде кодирана от 4, 5 или 6 байта.
UCS-2: Всеки герой е представен от 2 байта. Това кодиране включва само първите 65,535 символите от формата Unicode.
UTF-16: това е разширение на UCS-2, включително 1,114,112 формат Unicode символа. Първите 65,535 символи са представени с по 2 байта, а останалите - по 4 байта.
Най-USC 4: Всеки герой е кодиран от 4 байта.