Кодировка символов

 

Для обработки текстовой информации каждому символу ставится в соответствие определенное число. Соответствие между набором символов и числами называется кодировкой символов. При вводе в компьютер информация кодируется, а при выводе декодируется.

Существует много различных кодировок. В большинстве из них символы кодируются восьмибитовыми (или однобайтными) числами. В одном байте можно записать 256 различных целых чисел. Этого достаточно для кодирования все букв русского и латинского алфавитов, арабских цифр, знаков препинания и некоторых других необходимых символов.

Для наглядности кодируемые символы располагаются в таблице. Таблица разбита на 16 строк и 16 столбцов. Каждая строка и каждый столбец имеют четырехразрядные двоичные номера от 0000 до 1111 (или шестнадцатиричные от 0 до F). Код символа составляется из номеров столбца и строки, на пересечении которых он находится. Этим двоичным числам соответствуют десятичные числа от 0 до 255.

До появления операционной системы Windows основной являлась кодовая таблица символов ASCII (American Standard Code for Information Interchange – американский стандартный код обмена информацией).

Первая половина таблицы ASCII (коды от 0 до 127) содержит знаки препинания, цифры, символы латинского алфавита, математические знаки и является общепринятой. Коды от 128 до 255 называются расширенными и используются для национальных алфавитов и символов псевдографики.

В таблице ASCII отсутствуют символы кириллицы. Для представления кириллицы в DOS была разработана кодовая страница CP866, построенная на основе ASCII. Символы с кодами от 0 до 127 в этой таблице такие же, как в кодировке ASCII, а символы кириллицы расположены на тех позициях, где в таблице ASCII находятся относительно редко используемые символы национальных алфавитов и греческие буквы. Ниже приведен фрагмент этой таблицы. Символам кириллицы здесь соответствуют десятичные коды от 128 до 175 и от 224 до 239.

  A B C D E F
      @ P ` p А Р а       р  
    ! A Q a q Б С б       с  
    « B R b r В Т в       т  
    # C S c s Г У г       у  
    $ D T d t Д Ф. д       ф  
    % E U e u Е Х е       х  
    & F V f v Ж Ц ж       ц  
    G W g w З Ч з       ч  
    ( H X h x И Ш и       ш  
    ) I Y i y Й Щ й       щ  
A     * : J Z j z К Ъ к       ъ  
B     + ; K [ k { Л Ы л       ы  
C     , < L \ l | М Ь м       ь  
D     - = M ] m } Н Э н       э  
E     . > N ^ n ~ О Ю о       ю  
F     / ? O _ o   П Я п       я  

 

С появлением графической среды Windows ASCII морально устарела, в частности, ненужными стали псевдографические символы. Фирмой Microsoft была разработана новая кодовая таблица ANSI. Для представления кириллицы в Windows на основе кодировки ANSI построена кодовая страница CP12565. Символам кириллицы здесь соответствуют шестнадцатиричные коды от C0 до FF, или в десятичной системе счисления от 192 до 255.

В настоящее время все большее распространение приобретает двухбайтная кодировка Unicode. Поскольку в 16 двоичных разрядах (2 байтах) можно записать 65 536 различных целых чисел, эта таблица кодов включает в себя все существующие алфавиты мира, а также множество математических, химических, музыкальных и декоративных символов. Кодировка Unicode используется в программах MS Word и MS Excel.