Алгоритмический, семантический и ценностный подходы к определению информации.
Классическая теория информации Шеннона не может охватить всего многообразия понятия информации и, в первую очередь, ее содержательного аспекта. Теория информации К. Шеннона также не занимается определением ценности информации, так как её интересуют лишь проблемы передачи данных оптимальным образом.
Наряду с энтропийным (синтаксическим) подходом Шеннона к определению информации существуют и другие, среди которых следует отметить алгоритмический, семантический и прагматический (ценностный) подходы.
Идея алгоритмического измерения количества информации была выдвинута в 1965 г. А.Н. Колмогоровым. Суть ее заключается в том, что количество информации определяется как минимальная длина программы, позволяющей преобразовать один объект (множество) в другой. Чем больше различаются два объекта между собой, тем сложнее (длиннее) программа перехода от одного объекта к другому. Так, воспроизвести последовательность букв а, а,...,а можно при помощи очень простой программы. Несколько большей окажется длина программы, восстанавливающей последовательность а, в, с, а, в, с,...Длина программы при этом измеряется количеством команд (операций), позволяющих воспроизвести заданную последовательность. Этот подход, не базирующийся на понятии вероятности, позволяет, например, определить прирост количества информации, содержащейся в результатах расчета, по сравнению с исходными данными. Вероятностный подход Шеннона в теории информации не может дать ответа на подобные вопросы.
Попытки оценить не только количественную, но и содержательную сторону информации дали толчок к дразвитию семантической (смысловой) теории информации. Исследования в этой области теснее всего связаны с семиотикой – теорией знаковых систем. Семиотика исследует знаки как особый вид носителей информации. При этом знаком является условное изображение элемента сообщения, словом – совокупность знаков, имеющих смысловое значение, языком – словарь и правила пользования им. Таким образом, рассуждая о количестве, содержании и ценности информации, заключённой в сообщении, можно исходить из возможностей анализа знаковых структур.
В качестве знаковых систем используются естественные и искусственные языки, в том числе и языки программирования, различные системы сигнализации, логические, математические и химические символы. Сразу же заметим, что методы точного количественного определения смыслового содержания информации до настоящего времени еще не разработаны.
Рассматривая знаковые системы, выделяют три основных аспекта их изучения: синтактику, семантику и прагматику. Синтактика изучает синтаксис знаковых структур, т.е. способы сочетаний знаков, правила образования этих сочетаний и их преобразований безотносительно к их значениям. Отметим, что рассмотренные ранее способы определения количества информации можно отнести к синтаксическим способам.
Семантикаизучает знаковые системы как средства выражения смысла, определенного содержания, т.е. правила интерпретации знаков и их сочетаний, смысловую сторону языка.
Прагматикарассматривает соотношение между знаковыми системами и их пользователями, или приемниками-интерпретаторами сообщений. Иными словами, к прагматике относится изучение практической полезности знаков, слов и, следовательно, сообщений, т.е. потребительский аспект изучения языка.
Ценностный подход к определению количества информации представлен в работах М.М. Бонгарда, А.А. Харкевича, В.И. Корогодина, Д.С. Чернавского.
Д.С. Чернавский придерживается следующего определения информации: «Информация - это запомненный выбор одного варианта из нескольких возможных и равноправных». Это определение является развитием подхода, предложенного Г. Кастлером.
Комментарий. Определение Кастлера начинается словами «случайный изапомненный выбор». Однако, как отмечает Д.С. Чернавский, выбор может быть сделан и неслучайным образом. Кроме этого, выбор должен быть обязательно запомнен. Запоминание означает, что сделанный выбор сохраняется в течение времени, которое больше, чем характерное время использования информации. Равноправие вариантов означает, что априорные различия между ними невелики. Равноправие выборов не означает их равновероятности, но означает, что вероятности вариантов это величины одного порядка.
Если выбор сделан случайным образом - говорят о генерации информации, если выбор неслучаен, продиктован «сверху» – это рецепция информации. Рецепция – выбор навязанный системе. Это означает перевод системы из одного состояния в другое, определённое состояние. Рецепция часто встречается в технике, когда некоторую динамическую систему переводят в нужное состояние путём воздействия на неё электрическим или световым импульсом. В этом случае говорят о силовом переключении. Существует параметрическое переключение, когда перевод системы в нужное состояние осуществляется путём изменения её параметров. Такой способ переключения чаще встречается в биологических системах. Процесс обучения «учитель – ученик» основан на рецепции информации: обучаемый воспринимает некоторую информацию, которую передаёт ему учитель. Генерация информации более «творческий» процесс – его результат заранее непредсказуем.
Результат рецепции или генерации зависит от информации, которая уже воспринята и содержится в генераторе или рецепторе, т.е. новые выборы можно сделать только на основе выборов, сделанных ранее. В связи с этим можно ввести понятие тезауруса. Тезаурус - информация, содержащаяся в системе на данном уровне, необходимая для рецепции или генерации информации на следующем уровне. Без тезауруса нет множества, из которого нужно сделать выбор. Каждый раз, когда мы воспринимаем или генерируем информацию, нам необходимы некоторые знания (язык, математика, история, биология и т.п.), которые и составляют наш тезаурус. Поэтому студенты, слушающие лекцию в одной аудитории, воспринимают разную информацию, а кто-то вообще её не воспринимает, в силу разного тезауруса, которым они обладают на данный момент времени.
Запоминание сделанного выбора играет важную роль. Запомненный выбор называют макроинформацией. Если выбор не запоминается, то фиксации информации не происходит – такой выбор называется микроинформацией. Микроинформация встречается в физических системах с большим числом состояний; при этом спонтанный переход большого числа частиц из одного состояния в другое совершается в течение малого отрезка времени t = 10-13 с. Именно поэтому, термодинамическая трактовка информации для таких систем некорректна – термодинамическая система не запоминает «сделанный выбор». Здесь мы имеем дело с микроинформацией. Свойство запоминания присуще лишь макросистемам, которые могут сохранять выбранное состояние достаточно долгий период времени. Таким простейшим запоминающим устройством является триггер – система с двумя устойчивыми состояниями. Переход из одного состояния в другое происходит не спонтанно, а в результате внешнего воздействия – происходит рецепция информации. Вывод: нельзя путать Больцмановскую энтропию с информационной энтропией.
На начальном этапе своего развития информатика занималась преимущественно проблемами передачи и хранения информации. Вопросы, связанные с генерацией и ценностью информации, стали ставиться сравнительно недавно. Ценность информации зависит от той цели, к которой стремиться воспринимающая информацию система (объект). Чем в большей мере информация способствует достижению цели, тем более ценной она считается. Здесь возможны два случая.
1) Цель наверняка достижима, причём разными способами. Ценность информации можно определить по тому, насколько эта информация помогает уменьшить затраты (материальные или временные) для достижения цели.
2) Цель достижима с некоторой вероятностью. В этом случае мерой ценности информации может служить величина
, (6.1)
где P0 – вероятность достижения цели до получения информации (априорная вероятность), P1 - вероятность достижения цели после получения информации (апостериорная вероятность)[2]. Если до получения информации все варианты достижения цели равновероятны, то P0 =1/N, где N – число вариантов. Если варианты имеют разную вероятность, то можно воспользоваться формулой Шеннона и вычислить полную вероятность системы I и определить априорную вероятность из уравнения I = Log2(P0); т.е. P0 = 2-I.
Апостериорная вероятность P1 может быть: 1) больше P0 : P 1 > P0 ;
2) равна P0 : P 1 = P0 ; 3) меньше P0 : P 1 < P0 . В первом случае величина V, вычисленная по формуле (16), будет положительной. Это означает, что получена информация, которая будет способствовать достижению цели. Во втором случае V = 0, т.е. мы не получили никакой новой информации. В третьем случае V < 0 – это означает, что полученная информация будет мешать достижению цели. В этом случае мы имеем дело с дезинформацией. Значение V, найденное по формуле (6.1), изменяется в пределах от (-¥ ; Vmax), где Vmax = Log2(1/P0).
Другой способ измерения ценности V информации предложен В.И. Корогодиным:
Другой способ измерения ценности V информации предложен В.И. Корогодиным:
(6.2)
Смысл обозначений такой же, как и в (6.1): P0 и P1 – априорная и апостериорная вероятности достижения (осуществления) цели Z. Значения V принадлежат интервалу (0 ; 1) при условии P1 > P0 . Если P1 = P0 , то V = 0; если P1 = 1, то V = 1.
Значения V не могут принимать отрицательные значения, т.к. ситуация, при которой P1 < P0 , может возникнуть лишь в двух случаях. Первый, когда объект, поставляющий или использующий информацию, стремится уменьшить вероятность осуществления некоторого события. Тогда цель для него - неосуществление Z, вероятность чего P' = 1- P0, и в этом случае P1, которое меньше, чем P0, будет превышать значение P', и, следовательно, требование V > 0 будет соблюдено. Второй случай – это ошибочное использование неподходящей информации, что требует коррекции, а не логического анализа. Ситуация с “сознательным обманом” целиком включается в первый случай.
Можно сделать вывод, что помимо количества информации, измерять и выражать в цифрах можно и такое ее свойство, как ценность. В основе определения ценности информации лежат такие ее свойства, как операциональность и эмерджентность, а также предложенный А. А. Харкевичем способ исчисления ценности через приращение вероятности достижения той цели, для чего данная информация используется.
Можно утверждать, что в отличие от количества, ценность информации невозможно задать одним единственным числом. Ценность каждой информации имеет определенное значение лишь по отношению к некоторой данной ситуации и данной цели: по отношению к разным парам “ситуация-цель” ценность любой информации может варьировать в некоторых пределах, например, от 0 до 1. Следовательно, мы никогда не сможем иметь исчерпывающие сведения о ценности какой-либо информации – сколь бы ни представлялась она ничтожной, всегда остается надежда, что могут существовать такие ситуации и цели, где эта ценность близка к максимальной, т.е. к единице.
Поэтому ценность информации, сообщаемой во время лекции преподавателем, неодинакова для каждого из судентов из-за существующих различий в тезаурусе и целях этих студентов. Здесь можно провести аналогию с вычислением работы силы по перемещению в заданном направлении: «вектор информации» и «вектор личных целей» могут быть сонаправлены, перпендикулярны или составлять острый угол.