Кодирование информации

Чем больше информации несет каждый из определенного числа импульсов, тем полнее используется пропускная способность канала. Поэтому нужно разумно кодировать информацию, найти экономный, скупой язык для передачи сообщений.

Информация - произвольная последовательность символов, т.е. любое слово, каждый новый символ увеличивает количество информации. Для измерения количества информации нужен эталон. Эталоном считается слово, состоящее из одного символа двухсимвольного алфавита (цифры 0 или 1). Количество информации, содержащееся в этом слове, принимают за единицу, названную битом. Имея эталон количества информации, можно сравнить любое слово с эталоном. Проще сравнивать те слова, которые записаны в том же двухсимвольном алфавите.

Для определения количества информации нужно найти способ представить любую ее форму (символьную, текстовую, графическую) в едином виде. Иначе говоря, надо суметь эти формы информации преобразовать так, чтобы она получила единый стандартный вид. Таким видом стала так называемая двоичная форма представления информации. Она заключается в записи любой информации в виде последовательности только двух символов. Эти символы могут на бумаге обозначаться любым способом: буквами А, Б; словами ДА, НЕТ. Однако ради простоты записи взяты цифры 1 и 0. В электронном аппарате, хранящем либо обрабатывающем информацию, рассматриваемые символы могут также обозначаться по-разному: один из них - наличием в рассматриваемой точке электрического тока либо магнитного поля, второй - отсутствием в этой точке электрического тока либо магнитного поля.

Благодаря введению понятия единицы информации появилась возможность определения размера любой информации числом битов. Образно говоря, если, например, объем грунта определяют в кубометрах, то объем информации - в битах. Условимся каждый положительный ответ на заданный вопрос представлять цифрой 1, а отрицательный - цифрой 0. Тогда запись всех ответов образует многозначную последовательность цифр, состоящую из нулей и единиц, например 0100.

Информация в компьютере хранится в памяти или перерабатывается в процессоре в виде комбинации сигналов, имеющих два значения, которые принято обозначать нулем и единицей. В этом случае говорят о двоичном коде (всего две цифры; 0 и 1). Каждая такая минимальная порция информации называется «бит». Эта единица слишком мелкая, поэтому ввели более крупную:

1 бит - двоичный разряд машинного слова

8 бит = 1 байт = 1 символ

2 байта = 1 слово (машинное) – обычно

210 байт = 1024 байт = 1 Кб

210 Кб = 1024 Кб = 1 Мб

210 Мб = 1024 Мб = 1 Гб

210 Гб = 1024 Гб = 1 Тб

210 Тб = 1024 Тб = 1 Эб

Приставка «кило» означает 1000, 103, но на самом деле - килобайт – это 1024 байт.

Оперативная память ПК составляет обычно 32 или 64 МБ. Компьютер перерабатывает информацию, следовательно, закладывает и выдает биты.

Бит может принимать два значения: 0 или 1. Если бы мы могли «увидеть» информацию в ЗУ или в магистрали, это был бы поток нулей и единиц.

1 Байт = 8 бит. Зачем биты соединять в более сложные системы? Если бы мы обладали понятием лишь только бита (не байта), то программирование было бы слишком громоздким.

Пример. Если лекция состоится, вешаем табличку с цифрой 1, если нет – с цифрой 0. В 1 бите можно закодировать одно событие – свершилось или нет – или совершение одного из двух событий: есть лекция или нет лекции. 2=21, значит, для кодировки двух событий нужна одна ячейка. Рассмотрим 4 варианта: 00 – лекции нет,

01 – лекция есть,

10 – лабораторная работа,

11 – контрольная работа.

Мы видим, что для кодировки 4 событий нужны 2 ячейки.

Когда известно, сколько будет событий, можно выбрать необходимое количество ячеек для их хранения. Для восьми событий надо 3 ячейки, т.к. 23 = 8. Для 16 событий надо 4 ячейки, т.к. 24 = 16.

В 1 байте, т.е. в восьми ячейках может храниться 256 событий, т.к. 1 байт = 8 бит. Если в байте хранится не событие, а число, то присутствие “1” в бите номер n означает, что в данном числе присутствует 2n.

Процесс получения двоичной информации об объектах исследования называют кодированием информации. Кодирование информации перечислением всех возможных событий очень трудоемко. Поэтому на практике кодирование осуществляется более простым способом. Он основан на том, что один разряд последовательности двоичных цифр имеет уже вдвое больше различных значений - 00, 01, 10, 11, - чем одноразрядная последовательность (0 и 1). Трехразрядная последовательность имеет также вдвое больше значений - 000, 001, 010, 011, 100, 101, 110, 111, - чем двухразрядная, и т.д. Добавление одного разряда увеличивает число значений вдвое, это позволяет составить следующую таблицу информационной емкости чисел:

Число разрядов
Количество различных значений
                                 

Например, нам нужно закодировать 32 буквы русского алфавита, для этой цели достаточно взять пять разрядов, потому что пятиразрядная последовательность имеет 32 различных значения. В документах широко используются не только русские, но и латинские буквы, цифры, математические знаки и другие специальные знаки, всего примерно 200-250 символов. Поэтому для кодировки всех указанных символов используется восьмиразрядная последовательность цифр 0 и 1. Например, русские буквы представляются восьмиразрядными последовательностями следующим образом: А - 11000001, И - 11001011, Я - 11011101.

Для представления графической информации в двоичной форме используется так называемый поточечный способ. На первом этапе вертикальными и горизонтальными линиями делят изображение. Чем больше при этом получилось квадратов, тем точнее будет передана информация о картинке. Как известно из физики, любой цвет может быть представлен в виде суммы различной яркости зеленого, синего, красного цветов. Поэтому информация о каждой клетки будет иметь довольно сложный вид.

Перед тем как кодировать любую информацию нужно договориться о том, какие используются коды, в каком порядке они записываются, хранятся и передаются. Это называется языком представления информации.

Информация описывается многоразрядными последовательностями двоичных чисел. Поэтому для удобства эти последовательности объединяются в группы по 8 бит. Такая группа именуется байтом, например, число 11010011 - эта информация величиной один байт.

На практике довольно часто случается, что код, удобный и экономный, может исказить сообщение из-за помех, которые всегда, к сожалению, бывают в каналах связи: искажения звука в телефоне, атмосферные помехи в радио, искажение или затемнение изображения в телевидении, ошибки при передаче в телеграфе. Эти помехи, или, как их называют, шумы, обрушиваются на информацию. Поэтому для повышения надежности в передаче и обработке информации приходится вводить лишние символы - своеобразную защиту от искажений. Они - эти лишние символы - не несут действительного содержания в сообщении, они избыточны. С точки зрения теории информации все то, что делает язык красочным, гибким, богатым оттенками, многоплановым, многозначным, - избыточность. Как избыточно с таких позиций письмо Татьяны к Онегину! Сколько в нем информационных излишеств для краткого и всем понятного сообщения « Я вас люблю»! И как информационно точны рисованные обозначения, понятные всем и каждому, кто входит сегодня в метро, где вместо слов и фраз объявлений висят лаконичные символьные знаки, указывающие: «Вход», «Выход».

В этой связи полезно вспомнить анекдот, рассказанный в свое время знаменитым американским ученым Бенджаменом Франклином, о шляпочнике, пригласившем своих друзей для обсуждения проекта вывески. Предполагалось нарисовать на вывеске шляпу и написать: «Джон Томпсон, шляпочник, делает и продает шляпы за наличные деньги». Один из друзей заметил, что слова «за наличные деньги» являются излишними - такое напоминание будет оскорбительным для покупателя. Другой нашел также лишним слово «продает», так как само собой понятно, что шляпочник продает шляпы, а не раздает их даром. Третьему показалось, что слова «шляпочник» и «делает шляпы» представляют собой ненужную тавтологию, и последние слова были выкинуты. Четвертый предложил выкинуть и слово «шляпочник» - нарисованная шляпа ясно говорит, кто такой Джон Томпсон. Наконец, пятый уверял, что для покупателя совершенно безразлично, будет ли шляпочник называться Джоном Томпсоном или иначе, и предложил обойтись без этого указания. Таким образом, в конце концов на вывеске не осталось ничего, кроме шляпы.

Конечно, если бы люди пользовались только такого рода кодами, без избыточности в сообщениях, то все «информационные формы» - книги, доклады, статьи - были бы предельно краткими. Но проиграли бы в доходчивости и красоте.