Представление символьной информации в ЭВМ
Символьная (алфавитно-цифровая) информация хранится и обрабатывается в ЭВМ в форме цифрового кода. Кодом называется уникальное беззнаковое целое двоичное число, поставленное в соответствие некоторому символу.
Необходимый набор символов, предусмотренный в конкретной ЭВМ, включает в себя:
- арабские цифры
- буквы латинского алфавита
- знаки препинания
- специальные символы и знаки
- буквы национального алфавита
- символы псевдографики — растры, прямоугольники, одинарные и двойные рамки, стрелки.
Среди наборов символов наибольшее распространение получили знаки кода ASCII (American Standard Code of Information Interchange — американский стандартный код информационного обмена информацией).
В таблице ASCII содержится 256 символов и их кодов. Таблица состоит из двух частей: основной и расширенной. Основная часть (символы с кодами от 0 до 127 включительно) является базовой, она в соответствии с принятым стандартом не может быть изменена. В нее вошли:
- управляющие коды (им соответствуют коды с 1 по 31), которым не соответствуют никакие символы языков, и соответственно эти коды не выводятся ни на экран, ни на устройства печати, но они могут управлять тем, как производится вывод данных.
- арабские цифры, буквы латинского алфавита, знаки препинания, знаки арифметических действий, специальные символы (коды с 32 по 127).
Расширенная часть (символы с кодами от 128 до 255) отдана национальным алфавитам, символам псевдографики и некоторым специальным символам.
В расширенной таблице стандартной кодировки фирмы IBM:
- коды 176-223 занимают символы псевдографики;
- коды 128-175, 224-239 используются для размещения некоторых символов национальных алфавитов различных европейских языков;
- коды 240-255 для размещения специальных знаков.
ОС Windows поддерживает большое число расширенных таблиц для различных национальных алфавитов.
В России используются следующие кодировки символов русского языка:
- ГОСТ-альтернативная кодировка (главное достоинство – расположение символов псевдографики на тех же местах, что и в кодировке IBM);
- кодировка Windows 1251 (используется на большинстве ПК, работающих на платформе Windows);
- КОИ-8 (используется в компьютерных сетях на территории России).
В 1991 году была создана универсальная система кодирования текстовых данных – UNICODE. В данной системе символы кодируются 16-разрядными числами. 16 разрядов позволяет обеспечить уникальные коды для 65536 различных символов – этого достаточно для размещения в одной таблице всех широкоупотребляемых языков.