Универсальность дискретного (цифрового) представления информации. Дискретное (цифровое) представление текстовой информации
Что такое дискретность? Дискретное множество состоит из отделенных друг от друга элементов. Например, песок дискретен, поскольку он состоит из отдельных песчинок. Вода – непрерывна (рамках наших ощущений, поскольку отдельные молекулы мы ощутим не можем).
В компьютере для представления информации используется дискретное (цифровое) двоичное кодирование, так как удалось создать надежно работающие технические устройства, которые могут со стопроцентной надежностью сохранять и распознавать не более двух различных состояний (цифр):
ü электромагнитные реле – замкнуто/разомкнуто (широко использовались в первых ЭВМ);
ü участок поверхности магнитного носителя информации – намагничен/размагничен;
ü участок поверхности лазерного диска – отражает/не отражает;
ü триггер – может устойчиво находиться в одном из двух состояний, используется в оперативной памяти ПК.
Все виды информации в компьютере кодируются на машинном языке, в виде логических последовательностей нулей и единиц:
Вид информации: Числовая Текстовая Графическая Звуковая Видео |
1 1 0 0 1 1 1 0 0 1 1 1 1 |
Информация в компьютере представлена в двоичном коде, алфавит которого состоит из двух цифр – 0 и 1. Цифра двоичной системы называется битом (от английских слов binary digit – двоичная цифра).
Дискретное (цифровое) представление текстовой информации
Текстовая информация дискретна – состоит из отдельных знаков. За каждой буквой алфавита, цифрой, знаком препинания и иным символом закрепляется определенный двоичный код. В популярных системах кодировки (ASCII, KOI8, Windows, MS-DOS, Mac, ISO) каждый символ заменяется на 8-разрядное целое положительное двоичное число (1 байт). Это число является порядковым номером символа в кодовой таблице. Согласно главной формуле информатики N = 2I определяем, что размер алфавита, который можно закодировать,
равен 28 = 256. Этого количества достаточно для размещения двух алфавитов естественных языков (английского и русского) и всех необходимых дополнительных символов.
Для обработки текстовой информации на компьютере необходимо представить ее в двоичной знаковой системе. Каждому знаку необходимо поставить в соответствие уникальный 8-битовый двоичный код, значения которого находятся в интервале от 00000000 до 11111111 (в десятичном коде от 0 до 255).
Поскольку в мире много языков и много алфавитов, то постепенно совершается переход на международную 16-битовую систему кодировки Unicode. В ней каждый символ занимает 2 байта, что обеспечивает 216 = 65 536 кодов для различных символов.
Такого количества символов оказалось достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.
Не следует представлять себе текст, хранимый в памяти компьютера или на внешнем носителе, лишь как поток байтов, каждый из которых является лишь кодом символа текста. Форматы хранения текстовой информации определяются форматами текстовых файлов, используемых той или иной программой обработки текстов. Файлы, создаваемые с помощью текстовых процессоров (например, Microsoft Word), включают в себя не только коды символов алфавита, но и данные формата: тип и размер шрифта, положение строк, поля и отступы и прочую дополнительную информацию.