Кодировка символов
Для обработки текстовой информации каждому символу ставится в соответствие определенное число. Соответствие между набором символов и числами называется кодировкой символов. При вводе в компьютер информация кодируется, а при выводе декодируется.
Существует много различных кодировок. В большинстве из них символы кодируются восьмибитовыми (или однобайтными) числами. В одном байте можно записать 256 различных целых чисел. Этого достаточно для кодирования все букв русского и латинского алфавитов, арабских цифр, знаков препинания и некоторых других необходимых символов.
Для наглядности кодируемые символы располагаются в таблице. Таблица разбита на 16 строк и 16 столбцов. Каждая строка и каждый столбец имеют четырехразрядные двоичные номера от 0000 до 1111 (или шестнадцатиричные от 0 до F). Код символа составляется из номеров столбца и строки, на пересечении которых он находится. Этим двоичным числам соответствуют десятичные числа от 0 до 255.
До появления операционной системы Windows основной являлась кодовая таблица символов ASCII (American Standard Code for Information Interchange – американский стандартный код обмена информацией).
Первая половина таблицы ASCII (коды от 0 до 127) содержит знаки препинания, цифры, символы латинского алфавита, математические знаки и является общепринятой. Коды от 128 до 255 называются расширенными и используются для национальных алфавитов и символов псевдографики.
В таблице ASCII отсутствуют символы кириллицы. Для представления кириллицы в DOS была разработана кодовая страница CP866, построенная на основе ASCII. Символы с кодами от 0 до 127 в этой таблице такие же, как в кодировке ASCII, а символы кириллицы расположены на тех позициях, где в таблице ASCII находятся относительно редко используемые символы национальных алфавитов и греческие буквы. Ниже приведен фрагмент этой таблицы. Символам кириллицы здесь соответствуют десятичные коды от 128 до 175 и от 224 до 239.
A | B | C | D | E | F | |||||||||||
@ | P | ` | p | А | Р | а | р | |||||||||
! | A | Q | a | q | Б | С | б | с | ||||||||
« | B | R | b | r | В | Т | в | т | ||||||||
# | C | S | c | s | Г | У | г | у | ||||||||
$ | D | T | d | t | Д | Ф. | д | ф | ||||||||
% | E | U | e | u | Е | Х | е | х | ||||||||
& | F | V | f | v | Ж | Ц | ж | ц | ||||||||
‘ | G | W | g | w | З | Ч | з | ч | ||||||||
( | H | X | h | x | И | Ш | и | ш | ||||||||
) | I | Y | i | y | Й | Щ | й | щ | ||||||||
A | * | : | J | Z | j | z | К | Ъ | к | ъ | ||||||
B | + | ; | K | [ | k | { | Л | Ы | л | ы | ||||||
C | , | < | L | \ | l | | | М | Ь | м | ь | ||||||
D | - | = | M | ] | m | } | Н | Э | н | э | ||||||
E | . | > | N | ^ | n | ~ | О | Ю | о | ю | ||||||
F | / | ? | O | _ | o | П | Я | п | я |
С появлением графической среды Windows ASCII морально устарела, в частности, ненужными стали псевдографические символы. Фирмой Microsoft была разработана новая кодовая таблица ANSI. Для представления кириллицы в Windows на основе кодировки ANSI построена кодовая страница CP12565. Символам кириллицы здесь соответствуют шестнадцатиричные коды от C0 до FF, или в десятичной системе счисления от 192 до 255.
В настоящее время все большее распространение приобретает двухбайтная кодировка Unicode. Поскольку в 16 двоичных разрядах (2 байтах) можно записать 65 536 различных целых чисел, эта таблица кодов включает в себя все существующие алфавиты мира, а также множество математических, химических, музыкальных и декоративных символов. Кодировка Unicode используется в программах MS Word и MS Excel.