Методы оценки количества информации.

Как и для характеристик вещества, так и для характеристик информации имеются единицы измерения, что позволяет некоторой порции информации приписывать числа — количественные характеристики информации.

На сегодняшний день наиболее известны следующие способы измерения информации:

1. объемный,

2. энтропийный,

3. алгоритмический.

Объемный является самым простым и грубым способом измерения информации. Соответствующую количественную оценку информации естественно назвать объемом информации.

Объем информации в сообщении —- это количество символов ( разрядов) в сообщении.

Поскольку, например, одно и то же число может быть записано многими разными способами (с использованием разных алфавитов):

«двадцать один»

110012

XXI,

то этот способ соотносится с формой представления (записи) сообщения.

В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

В двоичной системе счисления единица измерения - бит (знаки 0 и 1 ) Отметим, что создатели компьюте­ров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаря­женный и т.п. В компьютере бит является наименьшей возможной единицей инфор­мации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозмож­но нецелое число битов (в отличие от вероятностного подхода).

Для удобства использования введены и более крупные, чем бит, единицы коли­чества информации: 1 байт = 8 битов

1Кбайт= 1024 байта

1024 килобайта - мегабайт (Мбайт)

1024 мегабайта - гигабайт (Гбайт).

В десятичной системе счисления единица измерения - дит (десятичный разряд)

Пример: Сообщение в двоичной системе 1011110112=8 бит=1 байт

Сообщение в десятичной системе 275903 = 6 дит

Энтропийный подход к измерению информации принят в теории информации и кодирования. Этот способ измерения исходит из следующей модели. Получатель информации (сообщения) имеет определенные представления о возможных наступлениях некоторых событий. Эти представления в общем случае недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности (энтропия) характеризуется некоторой математической зависимостью от совокупности этих вероятностей.

К.Шенноном было введено понятие энтропии - количественной меры информации, как меры неопределенности состояния объекта или некоторой ситуации с конечным числом исходов. В статистической теории основное внимание обращается на распределение вероятности появления отдельных событий и построение на его основе обобщенных характеристик, позволяющих оценить количество информации в одном событии либо в их совокупности.

Чтобы возник процесс передачи, должны иметь место источник информации и потребитель. Источник выдает сообщение, потребитель, принимая сообщение, получает при этом информацию о состоянии источника. В статической теории не изучается содержание информации. Предполагается, что до получения информации имела место некоторая неопределённость. С получением информации эта неопределенность снимается.

Таким образом, статистическая количественная мера информации – это мера снимаемой в процессе получения информации неопределенности системы. Количество информации зависит от закона распределения состояния системы.

Семантический подход базируется на ценности информации. Термин "семантика" исторически применялся в металогике и семиотике. В металогике под семантикой понимается совокупность правил соответствия между формальными выражениями и их интерпретацией (истолкованием). Под семиотикой понимают комплекс научных теорий, изучающих свойства знаковых систем, т.е. систем конкретных или абстрактных объектов, с каждым из которых сопоставлено некоторое значение. Примерами знаковых систем являются естественные языки и искусственные языки: алгоритмические языки, языки программирования, информационные языки и др. Обобщенно термин "знаковые языки" подразумевает любые устройства, рассматриваемые как "черные ящики". В информатике языки различного уровня занимают все большее место.

Семантическая теория оценивает содержательный аспект информации, семантический подход базируется на анализе её ценности. Ценность информации связывают со временем, поскольку с течением времени она стареет и ценность её, а следовательно и "количество" уменьшается.

Семантический подход имеет особое значение при использовании информации для управления, т.к. количество информации тесно связано с эффективностью управления в системе.

Структурный подход рассматривает построение информационных массивов, что имеет особое значение при хранении информации. Универсальным средством как оперативного, так и долговременного хранения различной информации стали ЭВМ. Оценка количества информации с позиций структурного подхода оказывается исключительно плодотворной, так как за единицы информации принимаются некоторые "ранговые" структурные единицы: реквизиты – логически неделимые элементы документации, описывающие определенные свойства объекта (реквизиты – основания, определяющие числовые данные: вес, количество, стоимость, номер, год, реквизиты – признаки: фамилия, цвет, марка), записи, информационные массивы, комплексы информационных массивов, информационная база, банк данных.

Структурный подход к оценке количества информации в настоящее время приобретает все большее значение, поскольку необходимо оценивать все возрастающее количество хранимой информации.

Таким образом, статистическая количественная характеристика информации – это мера снимаемой в процессе получения информации неопределенности системы. Количество информации зависит от закона распределения состояний системы.

В зависимости от вида перерабатываемой информации (вида сообщений) вычислительные машины и устройства делят на два основных класса: аналоговые (непрерывного действия) и цифровые (дискретные).

Аналоговые вычислительные машины (АВМ) оперируют с информацией, представленной в виде непрерывных изменений некоторых физических величин (ток, напряжение, угол поворота, скорость движения тела и т.п.). Используя тот факт, что многие явления в природе, обществе, технике математически описываются одними и теми же уравнениями, АВМ обычно предназначаются для решения определенного класса задач.

Объектом передачи и преобразования в цифровых вычислительных машинах (ЭВМ) являются дискретные сообщения, как уже отмечалось выше, формируемые из различных последовательностей элементов. Элементы (цифры, буквы, математические знаки, цвета сигнальных ламп и др.), из которых состоят дискретные сообщения, называются символами. Фиксируемый конечный набор символов составляет алфавит, а число символов в алфавите – объем алфавита.

Заложенные еще К. Шенноном принципы количественной оценки информации на основе функции энтропии, сохраняют свою значимость до настоящего времени и являются полезными при определении информативности символов и сообщений.