Кодирование текстовой информации

Кодирование текстовой информации заключается в том, что каждому текстовому символу (букве, цифре, знаку препинания и др.) приписывается код - целое число. В зависимости от числа битов, отведенных под кодирование символов, все виды кодировок делятся на две группы: 8-разрядные и 16-разрядные. Для каждого вида кодировки символы вместе с их кодами образуют кодировочную таблицу.

В 8-разрядной кодировке для кодирования одного символа отводится 8 бит (1 байт). С их помощью можно записать 2⁸ =256 разных целых чисел, а, следовательно, закодировать 256 различных символов.

В кодировочной таблице первая половина кодов отводится под кодирование управляющих (невидимых) символов, а также букв английского алфавита, цифр и знаков препинания. Оставшаяся часть - под кодирование символов национальных алфавитов. В результате народы, говорящие на разных языках (не на английском) не могут использовать одну и ту же кодировочную таблицу. Чтобы правильно отобразить текст на экране монитора, необходимо выбрать для него подходящую кодировку. Это делает невозможным правильно восприятие текста на любом языке, кроме английского.

К 8-разрядным кодировкам, включающим в себя кодировку символов русского языка, относятся ASCII, ДКОИ-8, Win 1251 (или СР1251).

16 - разрядная кодировка Unicode позволяет представить 2¹⁶=65536 различных символов. В кодовой таблице Unicode присутствуют символы всех современных национальных языков. Символы первых 128 кодов совпадают с ASCII.

4.Определите информационный объем пословицы в битах «Мал золотник, да дорог» в кодировке Unicode.

Указание. Нужно просто подсчитать количество символов в предложенной фразе, включая пробелы и знаки препинания. (При этом подразумевается, что между словами стоит ровно один пробел, а перед знаками препинания пробелов нет.) Полученное значение умножить на 16, чтобы получить ответ в битах.

___________________________________________________________________________________

Ответ: 368 бит.