Билет 3
Дискретное представление информации: двоичные числа, двоичное кодирование текста в памяти компьютера. Информационный объем текста.
План ответа
1. Дискретное представление информации.
2. Двоичные числа.
3. Двоичное кодирование текста.
4. Информационный объем текста. Дискретное представление информации
Вся информация, которая попадает в компьютер, преобразуется в последовательность электрических импульсов. Наличие импулк»! са принято условно обозначать «1», а его отсутствие — «О». ТаИЯ способ кодирования информации называется двоичным или бинарм ным. Один двоичный символ получил название бит. (bit — от щШ лийского bjnary digit — «двоичная цифра»). Таким образом, двоичное кодирование — это представление информации при помощи ми* J нимально возможного числа элементарных символов.
С точки зрения инженеров двоичное кодирование привлекательно тем, что легко реализуется технически. Электронные схемы дл< обработки двоичных кодов должны находиться только в одном И1 I двух состояний — есть сигнал/нет сигнала (или высокое напряжсние/низкое напряжение), а так как состояний всего два, то их легад ■] различать, а схему легко переключать из одного состояния в другое, К техническим устройствам, которые могут надежно сохраняв и распознавать информацию, закодированную с помощью двух со» стояний (т.е. в двоичной системе кодирования) можно отнести:
• электромагнитные реле (замкнуто/разомкнуто), которые широко использовались при конструировании первых ЭВМ;
• поверхности магнитных носителей информации (намагничено/размагничено);
• поверхности лазерных дисков (отражает/не отражает);
• триггер, который может находиться в одном из двух состояний (О или 1), широко используется в оперативной памяти компьютере.
Таким образом, в компьютерах используют двоичную систему потому, что она имеет ряд преимуществ перед другими системами:
• для ее реализации нужны технические устройства с двумя устойчивыми состояниями (есть ток — нет тока, намагничен — не намагничен и т. п.), а не, например, с десятью, — как в десятичной;
• представление информации посредством только двух состояний надежно и помехоустойчиво;
• возможно применение аппарата алгебры логики для выполнения логических преобразований информации;
• двоичная арифметика намного проще десятичной.
Двоичные числа
Двоичное кодирование автоматически дает способ кодирования чисел в двоичной системе счисления.
Системой счисления называется совокупность приемов наименования и записи чисел. В любой системе счисления для представления чисел выбираются некоторые символы (их называют цифрами), а остальные числа получаются в результате каких-либо операций над цифрами данной системы счисления.
Система называется позиционной, если значение каждой цифры (ее вес) изменяется в зависимости от ее.положения (позиции) в последовательности цифр, изображающих число.
Наиболее употребительными в настоящее время являются десятичная и двоичная позиционные системы счисления.
Десятичная система счисления имеет алфавит, состоящий из 10 цифр (соответственно основание этой системы счисления равно 10): 0,1,2, 3,4, 5, 6,7, 8, 9. Информацию несет не только сама цифра, но и то место, на котором она стоит (ее позиция в числе). Например, в десятичном числе 444 и количество единиц, и количество десятков, и количество сотен обозначается одинаковыми цифрами. А вот в числе 700 значима только первая цифра — 7, обозначающая количество сотен, а две цифры 0 нужны лишь для обозначения позиции цифры 7 и сами по себе вклад в число не дают.
Мы используем сокращенную запись десятичных чисел. Например, десятичное число 12345 в развернутой форме записи будет выглядеть следующим образом: 12345=5+4-10+3 -100+2-1000+1 -10000=5- 10D+4-r01+3-102+2-103 + HOt
В любой позиционной системе счисления с основанием к можно записать число N в виде: ./V =а„ • к" + ап_Л ■ к"л + ... + а, ■ к1 + й0£°, где а, — цифры в записи числа, п - количество разрядов в числе, к — основание системы счисления.
Таким образом, числа в позиционных системах счисления записываются в виде суммы степеней основания, при этом в роли коэффициентов выступают цифры данного числа.
Двоичное кодирование текста
Традиционно для кодирования одного символа используется количество информации, равное 1 байту (8 битам). Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код (или соответствующий ему двоичный код). Код символа хранится в памяти компьютера, где занимает, как уже говорилось, 1 байт. При таком способе можно закодировать 256 различных символов (256 = 28). Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и заглавные буквы русского алфавита, цифры, знаки, графические символы и т.д.
Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице.
В настоящее время существует несколько различных кодировок (кодовых таблиц) для русских букв. Каждая кодировка задается своей кодовой таблицей. Одному и тому же двоичному коду в различных кодировках соответствуют различные символы. Поэтому если текст создан в одной кодировке, то он не будет правильно отображаться в другой.
Присвоение символу конкретного кода является вопросом соглашения, которое и фиксируется в конкретной кодовой таблице. В качестве международного стандарта принята кодовая таблица ASCII. В этой кодовой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Это правило соблюдается и в других таблицах кодировки и называется принципом последовательного кодирования алфавитов.
Стандартными в этой таблице кодов ASCII являются только перввые 128 символов, т. е. символы с номерами от нуля (двоичный ко 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000 и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов Одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 (код обмена информацией, 8-битный). Эта кодировка применялась еще в 1970-е годы на компьютерах серии ЕС ЭВМ Операционная система MS DOS использует кодировку СР866. Наиболее распространенной в настоящее время является кодирошг MS Windows, которая обозначается как СР1251, или Windows 1251, В настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли. Этот стандарт отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать 65 536 различных символов (65 536 = 216).
Информационный объем текста
Для определения информационного объема текста используется алфавитный подход к измерению информации. В частности для представления текстов в компьютере используется алфавит из 256 символов. Один символ такого алфавита несет в себе 8 бит (1 байт) ин» формации, т. к. 256 = 2s.
В качестве примера рассмотрим следующую задачу. Пусть требуется определить, какой объем информации содержит реферат, ни» бранный на компьютере и содержащий 88 страниц, если на каждой страcom/demo/celevie-posetiteli/ \n\nThis file was not retrieved by Teleport VLX, because it is addressed on a domain or path outside the boundaries set for its Starting Address. \n\nDo you want to open it from the server?'))window.location='http://usr.