Ценность информации

Создатель классической теории информации К. Шеннон отметил, что смысл (т.е. семантика – “о чём”) сообщений не имеет никакого отношения к его теории информации и занимающегося текстовыми сообщениями. Но возможность точного измерения информации в сообщениях, созданная теорией информации Шеннона, наводила на мысль о возможности существования способов измерения информации более общего вида – макроинформации Кастлера-Чернавского и семантической информации, содержащейся в предложениях естественного или (хотя бы) формализованного языка.

Эта задача далека от своего решения, но имеет всё возрастающее теоретическое и практическое значение.

Понятия ценности, осмысленности информации – центральные в современной информатике, системном анализе. Ценностью информации, смыслом сообщений занимается семантическая теория информации.

Основные положения семантической теории информации.

1.Ценность информации зависит от цели.

Если цель достижима, то ценность информации может быть определена по уменьшению затрат на её достижение.

Если достижение цели – не обязательно то ценность информации V по Бонгарду и Харкевичу равна:

V = log2 ; (5)

p- вероятность достижения цели до получения информации;

P- вероятность достижения после получения информации;

Априорная вероятность p зависит от информационной тары, от полного количества информации I, определяемого по формуле (2): p=2-I.

Так если все варианты равновероятны то p=1/n; I=log2n;

Апостериорную вероятность P может быть как больше, так и меньше p; тогда (P < p). Это – дезинформация. При изменении апостериорной вероятности P в пределах 0<P<1, ценность информации по Бонгарду и Харкевичу изменяется в пределах -∞<V<Vmax;

Ценность информации по Корогодину даётся формулой:

V=; (6)

Она изменяется в пределах V ≤ V≤ 1.

2.Ценность информации зависит от величины p , от так называемого тезауруса (предварительной информации).

Если предварительной информации нет, то p=;

а если p=1 то ценность V=Vmax = log2n; т.е. совпадает с максимальным количеством информации в данном множестве символов (в данной информационной таре).

Это совпадение не случайно, именно для этого была выбрана формула (5) для определения ценности информации– при этом ценность информации можно понимать как количество ценной информации.

В формуле (6) при

P = 1 получаем:

Итак, по Бонгарду-Харкевичу:

-∞ < Vlog2n

По Корогодину (здесь нет понятия дезинформации)

0 ≤ V ≤ 1 0 соответственно P = 0, p = 0

При введении понятия дезинформации

Væ
1-n

Рmin = 0 Рmin =

 

Pmax = 1 Pmax = 1 P

3. Количество информации, имеющей нулевую ценность, как правило, не мало с количеством информации, имеющем хоть какую-то ценность для реципиента (получателя).

Понятно, что ценность информации субъективна – она зависит от целей и тезауруса реципиента.

Бессмысленная информация – это информация, не имеющая ценности ни для кого из тех, кого интересует смысл текста. Соответственно, как противоположность, возникает понятие осмысленной информации.

Объективность понятия «осмысленная информация» основана на следующем утверждении: в информационной таре, куда может быть помещена данная информация, можно выделить определенное количество информации, которая ни для кого, ни для каких дел не понадобится. Это – бессмысленная информация, все остальное – осмысленная. Но! Осмысленность текста зависит от тезауруса. Для человека, не знающего иероглифов, любой текст, составленный из них – текст бессмысленный.

Итак, различение понятий «количество информации», «ценность информации», «осмысленность информации» очень важно.

Во-первых, в традиционной информатике, основанной на классической теории информации (названной автором, Шенноном «математической теорией связи»), не существуют и не обсуждаются вопросы о ценной информации, её возникновении и эволюции. Ценность рассматривается в предположении, что цель задана извне. Вопрос о спонтанном возникновении цели внутри системы не рассматривается.

С точки зрения теории систем, здесь рассматриваются процессы в связях, а системному анализу нужны и связи, и элементы. И понятие цели играет в системном анализе основополагающую роль, поскольку он занимается целенаправленными системами.

В синергетике где также исследуются эти проблемы, показано [Чернавский], что ценность информации способна эволюционировать: неценная информация становится ценной, а бессмысленная – осмысленной, и наоборот. Цели системы могут возникать, меняться и исчезать в процессе развития.

Во-вторых, отождествление понятий просто информации, ценной информации , осмысленной информации приводит к недоразумениям. Для них невозможно дать единое объективное (воспринимаемое всеми) и конструктивное (полезное для развития науки и практики) определение. Напротив, разделив эти понятия можно дать конструктивное определение каждому из них, оговорить меру условности и субъективности.

Мы ранее рассмотрели меры ценности информации. Это мера Бонгарда-Харкевича, и мера Корогодина.

Вот еще две меры, связанные с истинностью информации [Лидовский].

Первая:

inf(s) = -log2 p(s) = -1.44 ln p(s)

где s – предложение, смысл которого измеряется;

p(s) – вероятность того, что предложение S – истинно.

Понятно, что эта мера подходит только для простых предложений. Но тем не менее.

Некоторые свойства функции inf(s):

1) inf(s) ≥ 0 поскольку 0 ≤ p(s) ≤ 1;

2) при p(s) = 1, inf(s) = 0 (в тривиальном (истинном) предложении никакой информации не содержится);

3) при p(s) → 0, inf(s) → ∞ – чем неожиданнее сообщение, тем больше информации в нём содержится.

Из свойств (2) и (3) следует, что p(s) совпадает с априорной информацией р в формулах Бонгарда и Корогодина.

Но здесь это «внешняя» информация, находящаяся в сообщении, а там – «внутренняя», определяемая также и тезаурусом получателя.

4) если s1s2(из s1следует s2) истинна, то inf(s1) ≥ inf(s2);

5) условия независимости: inf(s1s2) = inf(s1) + inf(s2) ↔ p(s1) * p(s2) = p(s1*s2).

Значение функции-меры inf(s) больше для предложений, исключающих большое количество возможностей. Пример:из s1: “a > 3” из s2: “а = 7”, следует, что s1s2и inf(s2) > inf(s1). Ясно, что s2 исключает больше возможностей, чем s1.

Вторая:

cont(s) = 1 - p(s).

Связь между этими мерами даётся формулами:

cont(s) = 1 – 2-inf(s)= 1 – e-0.69 inf(s);

inf(s) = -log2(1 - cont(s)) = -0.69ln(1 – inf(s))

Задача.Вычислить меры истинности inf(s) и cont(s) для трёх предложений:

1) предложения s1, про которое известно, что оно достоверно на 25%;

2) предложения s2, достоверного на 50%;

3) предложения s3, достоверного на 75%.