Кодирование текстов

Для кодирования текстовых данных в ЭВМ используется специальный метод, согласно которому, каждому символу алфавита сопоставлено число. Эти соответствия сведены в специальные таблицы, называемые стандартами кодирования текстовых данных. При кодировании текста, каждый символ алфавита заменяется соответствующим ему числом. При раскодировании, наоборот числа заменяются соответствующими им символами. Для того чтобы не ошибиться при декодировании данных, числа, представляющие текст, разделены на зоны. Каждая зона имеет длину 1 байт (8 двоичных разрядов).

В настоящее время очень широкое распространение получил стандарт, называемый ASKII (American Standard Code for Information Interchange - стандартный код информационного обмена США). Этот стандарт имеет две части таблицы базовую – содержащую символы математических операций, латиницы, знаки препинания и др. и расширенную, содержащую символы национальных языков. Базовая часть всегда неизменна и использует для кодирования символов шестнадцатеричные коды 00 – 7F. Расширенная часть таблицы (коды 80 – FF) может использоваться разная. Таблица ASCII-кодов используемая в России приведена на рисунке 5.

Рисунок 5 – Таблица ASCII-кодов

Слово “information” записанное в кодах таблицы ASCII выглядит как:

i	n	f	o	r	m	a	t	i	o	n

В двоичном представлении на код каждой буквы отводится 1 байт. Например, символ i кодируется числом 105, которое в двоичном представлении выглядит как 0110 1001.