Данные и знания. Основные определения.

Модели представления знаний

Математические методы и модели представления и обработки данных и знаний в СППР

Лекция 2 часа

В рамках направления «Представление знаний» решаются задачи, связанные с формализацией и представлением знаний в памяти интеллектуальной системы (ИС, СППР). Для этого разрабатываются специальные модели представления знаний и языки для описания знаний, выделяются различные типы знаний. Проблема представления знаний для ИС чрезвычайно актуальна, т.к. ИС - это система, функционирование которой опирается на знания о проблемной области, которые хранятся в ее памяти.

Создание общей теории или метода представления знаний является стратегической проблемой. Такая теория открывает возможность накопления знаний, которые нужны ежедневно для решения все новых и новых задач. Однако для достижения поставленной цели необходимо найти способ выражения общих закономерностей предметных областей, в чем и состоит суть проблемы представления знаний.

Уже давно исследователи пришли к выводу, что эффективность программы при решении задач зависит от знаний, которыми она обладает, а не только от формализмов и схем вывода, которые она использует.

Информация, с которой имеют дело ЭВМ, разделяется на процедурную и декларативную. Процедурная информация овеществлена в программах, которые выполняются в процессе решения задач, декларативная информация - в данных, с которыми эти программы работают. Стандартной формой представления информации в ЭВМ является машинное слово, состоящее из определенного для данного типа ЭВМ числа двоичных разрядов - битов.

Параллельно с развитием структуры ЭВМ происходило развитие информационных структур для представления данных. Появились способы описания данных в виде векторов и матриц, возникли списочные структуры, иерархические структуры. Появление баз данных (БД) знаменовало собой еще один шаг на пути организации работы с декларативной информацией. В базах данных могут одновременно храниться большие объемы информации, а специальные средства, образующие систему управления базами данных (СУБД), позволяют эффективно манипулировать с данными, при необходимости извлекать их из базы данных и записывать их в нужном порядке в базу. По мере развития исследований в области ИС возникла концепция знаний, которые объединили в себе многие черты процедурной и декларативной информации.

Итак, что же такое знания и чем они отличаются от данных в системах машинной обработки?

Знания — это целостная и систематизированная совокупность понятий о закономерностях природы, общества и мышления, накопленных человечеством в процессе активной преобразующей производственной деятельности и направленная на дальнейшее познание и изменение объективного мира.

Следовательно, интеллектуальная деятельность человека связана с поиском решений в новых, нестандартных ситуациях. Отсюда, задача и называется интеллектуальной, если алгоритм ее решения априори не известен. Любая интеллектуальная деятельность опирается на знания о предметной области, в которой ставятся и решаются задачи. Предметной областью обычно называют совокупность взаимосвязанных сведений, необходимых и достаточных для решения данной задачи или определенной совокупности задач.

Знания о предметной области включают описание объектов, явлений, фактов, а также отношения между ними.

В общем виде знания в ЭВМ представляются некоторой семиотической (знаковой) системой, в которой выделяются по аналогии с данными три аспекта: синтаксический, семантический и прагматический.

Синтаксис описывает внутреннее устройство знаковой системы, т.е. правила построения и преобразования сложных знаковых выражений. Для естественного языка синтаксис определяет правильное построение предложений и связанного текста.

Семантика определяет отношения между знаками и их свойствами (концептами), т.е. задает смысл или значение конкретных знаков.

Прагматика определяет знак с точки зрения конкретной сферы его применения либо субъекта, использующего данную знаковую систему.

В соответствии с перечисленными аспектами семиотических систем можно выделить три типа знаний: синтаксические, семантические и прагматические.

Синтаксические знания характеризуют синтаксическую структуру описываемого объекта или явления, которая не зависит от смысла и содержания используемых при этом понятий.

Семантические знания содержат информацию, непосредственно связанную со значением и смыслом описываемых объектов и явлений.

Прагматические знания описывают объекты и явления с точки зрения решаемой задачи, например, с учетом действующих в данной задаче специфических критериев.

Проанализируем особенности знаний, которые собственно и отличают их от данных.

1. Интерпретируемость. Данные, помещенные в ЭВМ, могут содержательно интерпретироваться лишь соответствующей программой. В отрыве от нее данные не несут никакой содержательной информации. Знания отличаются тем, что возможность содержательной интерпретации всегда присутствует.

2. Структурированность или наличие классифицирующих отношений. Не смотря на разнообразие форм хранения данных, ни одна из них не обеспечивает возможности компактного описания всех связей между разными типами данных. Информационные единицы знаний должны обладать гибкой структурой, т.е. для них должен выполняться «принцип матрешки», т.е. такой вложенности, когда можно любую информационную единицу включить в состав другой и из каждой информационной единицы можно выделить некоторые ее составляющие.

3. Наличие ситуативных связей и связность. Они определяют определенную ситуативную совместимость отдельных событий или фактов, хранимых или вводимых в память, а также такие отношения, как одновременность, расположенность в одной области пространства, нахождение в состоянии механического или иного взаимодействия и т.п. Ситуативные связи помогают строить процедуры анализа знаний на совместимость, противоречивость и другие, которые трудно реализовать при хранении традиционных массивов данных.

4. Семантическая метрика. На множестве информационных единиц в некоторых случаях полезно задавать отношение, характеризующее ситуативную близость информационных единиц, т.е. силу ассоциативной связи между ними. Это отношение можно назвать отношением ревалентности для информационных единиц.

5. Активность. Все процессы, протекающие в ЭВМ, инициируются командами, которые являются активной компонентой, а данные используются этими командами лишь при необходимости, т.е. последние — пассивная компонента. Такая ситуация, характерная для классических систем обработки информации, для интеллектуальных систем неприемлема. По аналогии с человеком в интеллектуальной системе актуализации тех или иных действий способствуют знания, имеющиеся в системе. Таким образом, выполнение программ в таких системах должно инициироваться текущим состоянием информационной базы. Появление в базе фактов (объектов выбора) или описаний событий (квалификаторов и их значений), установление связей (правил в продукционных системах) может стать источником активности системы.

Однако в настоящее время не существует баз знаний, в которых комплексно, в полной мере были бы реализованы внутренняя интерпретируемость, структуризация, связность, введена семантическая мера и обеспечена активность знаний. Все это предопределяет многообразие моделей представления данных, используемых в интеллектуальных системах.

Наибольшее распространение получили три модели представления знаний: семантические сети, фреймы и продукционные модели. Большинство других моделей являются лишь производными от перечисленных.