Понятие о количестве информации

Возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является вывод:

В определенных условиях можно пренебречь качественными особенностями информации и выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

Понятие "количество информации", основано на том, что информацию, содержащуюся в сообщении, можно трактовать в смысле её новизны или уменьшения неопределённости наших знаний об объекте.

Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определяет как двоичный логарифм N.

Формула Хартли: I = log2N.

Пусть нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 = 6,644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.

Для неравновероятных сообщений американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = – ( p1 log2 p1 + p2 log2 p2 + . . . + pN log2 pN ), где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то есть каждая из них равна 1/N, то формула Шеннона превращается в формулу Хартли.

В качестве единицы информации условились принять один бит (англ. bit— двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений. В вычислительной технике битом называют объем памяти, необходимый для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит —самая мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также ещё более крупные производные единицы информации:

· 1 Килобайт (Кбайт) = 1024 байт = 210 байт,

· 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

· 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

· 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

· 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Тогда это будет не двоичная (бит), а десятичная единица информации (дит).