Понятие о количестве информации

Возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является вывод:

В определенных условиях можно пренебречь качественными особенностями информации и выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

Понятие "количество информации", основано на том, что информацию, содержащуюся в сообщении, можно трактовать в смысле её новизны или уменьшения неопределённости наших знаний об объекте.

Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определяет как двоичный логарифм N.

Формула Хартли: I = log₂N.

Пусть нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log₂100 = 6,644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.

Для неравновероятных сообщений американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = – ( p₁ log₂ p₁ + p₂ log₂ p₂ + . . . + p_N log₂ p_N ), где p_i — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p₁, ..., p_N равны, то есть каждая из них равна 1/N, то формула Шеннона превращается в формулу Хартли.

В качестве единицы информации условились принять один бит (англ. bit— двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений. В вычислительной технике битом называют объем памяти, необходимый для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит —самая мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2⁸).

Широко используются также ещё более крупные производные единицы информации:

· 1 Килобайт (Кбайт) = 1024 байт = 2¹⁰ байт,

· 1 Мегабайт (Мбайт) = 1024 Кбайт = 2²⁰ байт,

· 1 Гигабайт (Гбайт) = 1024 Мбайт = 2³⁰ байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

· 1 Терабайт (Тбайт) = 1024 Гбайт = 2⁴⁰ байт,

· 1 Петабайт (Пбайт) = 1024 Тбайт = 2⁵⁰ байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Тогда это будет не двоичная (бит), а десятичная единица информации (дит).