Условная энтропия.

Рассматривая формулу Шеннона (3.3) для вычисления энтропии случайной величины и количества информации, мы предполагали, что информация о случайной величине (X) поступает непосредственно к наблюдателю. Однако, как правило, мы получаем информацию не о той случайной величине (X), которая нас интересует, а о некоторой другой (Y), которая связана с X стохастическим образом. Такая связь случайных величин отличается от функциональной связи, при которой каждому значению одной величины соответствует единственное, вполне определённое значение другой величины. Стохастическая (вероятностная) связь двух случайных величин X и Y означает, что изменение одной из них влияет на значение другой, но таким образом, что зная значение X нельзя точно указать значение, которое примет величина Y. Можно лишь указать тенденцию изменения величины Y.

Пусть B – случайное событие; p(B) – вероятность его наступления; обозначим через X случайную величину, которая принимает N различных значений {x1, x2, … xN}, а через Ak событие, состоящее в том, что случайная величина X примет значение xk:

Ak = { X = xk}, k=1,2, …N ;

Вероятность события Ak обозначим через p(Ak). Вероятность наступления некоторых событий может меняться в зависимости от того, наступило или нет некоторое другое событие. Вероятность pB(Ak) события Ak, вычисленная в предположении, что наступило событие B, называется условной вероятностью события Ak , при этом:

(4.1)

События Аk и B называются независимыми, если вероятность наступления события Аk не зависит от того, наступило или нет событие B. Это означает, что условная вероятность события pB(Ak) равна «обычной» вероятности p(Ak).

Определение. Условной энтропией случайной величины X при условии B называется величина

(4.2)

Отличие от формулы Шеннона (3.3) заключается в том, что вместо вероятностей p(Ak) используются условные вероятности pB(Ak).

Пусть теперь Y – другая случайная величина, принимающая значения {y1, y2, … yM}. Обозначим через Bj событие, состоящее в том, что случайная величина Y примет значение yj:

Bj = { Y = yj}, j=1, 2,… M.

Вероятность события Bj обозначим через p(Bj).

Определение. Условной энтропией случайной величины X при заданном значении случайной величины Y называется величина HY(X)

(4.3)

Выполним преобразование формулы (4.3):

Формула (4.3) принимает вид:

(4.4)

Вычислим количество информации о случайной величине X, полученное при наблюдении за случайной величиной Y. Это количество информации I(X,Y) равно убыли энтропии случайной величины X при наблюдении за случайной величиной Y:

(4.5)

Подставим в (15) выражения для H(X) и HY(X):

Заменим в первой сумме p(Ak)=p(AkB1)+ p(AkB2)+ p(AkB3)…+ p(AkBM). Это равенство действительно имеет место, т.к. события AkB1, AkB2, … AkBM – попарно несовместные, при этом одно из них наступит, если наступит Ak . Наоборот, если наступит одно из Bj , то наступит и Ak . Продолжая преобразования, получим:

Итак, мы получили формулу для вычисления количества информации о случайной величине X при наблюдении за другой случайной величиной Y:

(4.6)

Если случайные величины ( или события) независимы, то для них выполняется соотношение p(AkBj) = p(Ak)p(Bj) – вероятность совместного наступления двух событий равна произведению вероятностей этих событий.

Относительно величины I(X,Y) справедливы следующие утверждения.

Для независимых случайных величин получим

I(X,Y) = 0.

Это означает, что наблюдение за случайной величиной Y не даст никакого преимущества в получении информации о случайной величине Х.

В других случаях I(X,Y) >0, при этом выполняется неравенство:

I(X,Y) £ H(X).

Равенство достигается в случае наличия функциональной связи Y=F(X). В этом случае наблюдение за Y даёт полную информацию о X. Если Y=X, то I(X,X) = H(X).

Величина I(X,Y) симметрична: I(X,Y) = I(Y,X). Это означает, что наблюдение случайной величины Y даёт такое же количество информации о случайной величине Х, какое наблюдение случайной величины Х даёт относительно случайной величины Y. Если мы рассматриваем две случайные величины, которые находятся в стохастической зависимости, то средствами теории информации нельзя установить какая из них является причиной, а какая следствием.