МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ

Классификация моделей представления знаний

Переход от базы данных к базе знаний.

Особеннсти знаний и их отличие от данных.

Данные и знания. Основные определения.

Данные – это отдельные факты, характеризующие объекты, процессы и явления предметной области, а также их свойства. Данные можно представить в виде векторов, матриц, записей, файлов, списочных и иерархических структур и т.д.

Информация – это совокупность данных, повышающих уровень знаний о реальности окружающего мира.

Информация, с которой имеют дело ЭВМ, разделяется на процедурную и декларативную. Процедурная информация овеществлена в программах, которые выполняются в процессе решения задач, декларативная информация - в данных, с которыми эти программы работают. Стандартной формой представления информации в ЭВМ является машинное слово, состоящее из определенного для данного типа ЭВМ числа двоичных разрядов - битов. Машинное слово для представления данных и машинное слово для представления команд, образующих программу, могут иметь одинаковое или разное число разрядов. В последнее время для представления данных и команд используются одинаковые по числу разрядов машинные слова. Однако в ряде случаев машинные слова разбиваются на группы по восемь двоичных разрядов, которые называются байтами.

Одинаковое число разрядов в машинных словах для команд и данных позволяет рассматривать их в ЭВМ в качестве одинаковых информационных единиц и выполнять операции над командами, как над данными. Содержимое памяти образует информационную базу.

В большинстве существующих ЭВМ возможно извлечение информации из любого подмножества разрядов машинного слова вплоть до одного бита. Во многих ЭВМ можно соединять два или более машинного слова в слово с большей длиной. Однако машинное слово является основной характеристикой информационной базы, т.к. его длина такова, что каждое машинное слово хранится в одной стандартной ячейке памяти, снабженной индивидуальным именем - адресом ячейки. По этому имени происходит извлечение информационных единиц из памяти ЭВМ и записи их в нее.

Параллельно с развитием структуры ЭВМ происходило развитие информационных структур для представления данных. Появились способы описания данных в виде векторов и матриц, возникли списочные структуры, иерархические структуры. В настоящее время в языках программирования высокого уровня используются абстрактные типы данных, структура которых задается программистом. Появление баз данных (БД) знаменовало собой еще один шаг на пути организации работы с декларативной информацией. В базах данных могут одновременно храниться большие объемы информации, а специальные средства, образующие систему управления базами данных (СУБД), позволяют эффективно манипулировать с данными, при необходимости извлекать их из базы данных и записывать их в нужном порядке в базу.

По мере развития исследований в области ИИ возникла концепция знаний, которые объединили в себе многие черты процедурной и декларативной информации.

Знания – это закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области.

Логический вывод – это генерация новых утверждений на основе исходных фактов, аксиом и правил вывода.

Предметная область – это совокупность взаимосвязанных сведений из некоторой области знаний необходимых и достаточных для решения определенного класса задач.

Знания можно разделить на формализованные (точные) и неформализованные (не точные). Формализованные знания представляют собой истины, известные в данной предметной области. Они записываются в справочниках и руководствах в виде таблиц, формул, схем и т.п. Неформализованные знания – это знания, для которых отсутствует или неизвестен алгоритм получения. Они являются результатом накопления многолетнего опыта и интуиции и представляют собой множество эмпирических алгоритмов, которые ограничивают разнообразие и обеспечивают целенаправленное поведение решающей системы, не гарантируя, однако, получения наилучшего результата. {Приметы о погоде}

Задачи, которые решаются на основе точных знаний называются формализованными, а на основе неточных – неформализованными.

В зависимости от методов представления и способов обработки знания делятся на алгоритмические, фактуальные и концептуальные.

Алгоритмические знания – это правила решения задачи, выраженные в виде алгоритмов, записанные на процедурном языке представления и хранящиеся в памяти компьютера в виде библиотек программ.

Фактуальные знания представлены в виде фактов о количественных и качественных характеристиках объектов предметной области.

Концептуальные знания выражают причинно-следственные, структурно-функциональные и иные связи между количественными и качественными характеристиками объектов и понятий. {Человек при решении задач использует, во-первых, данные ему от природы способности рассуждать, делать логические выводы, во-вторых, знания, полученные им в школе, ВУЗе и т.п., а также вследствие практического опыта.} Эти знания могут быть представлены в виде математических теорем, законов физики, химии, социологии и других наук.

Знания могут быть поверхностными и глубинными. Поверхностные – знания о видимых взаимосвязях между отдельными событиями и фактами предметной области. Глубинные – абстракции, аналогии, схемы, отображающие структуру и природу процессов, протекающих в предметной области. {Поверхностные знания: «Если нажать на кнопку звонка, раздастся звук. Если болит голова, то следует принять аспирин.» Глубинные знания: «Принципиальная электрическая схема звонка и проводки. Знания физиологов и врачей о причинах, видах головных болей и методах их лечения»}

Кроме того, знания делят на процедурные (знания, растворенные в алгоритмах) и декларативные (таблицы, списки, абстрактные типы данных).

В ЭВМ знания так же, как и данные, отображаются в знаковой форме - в виде формул, текста, файлов, информационных массивов и т.п. Поэтому можно сказать, что знания - это особым образом организованные данные. Но это было бы слишком узкое понимание. А между тем, в системах ИИ знания являются основным объектом формирования, обработки и исследования. База знаний, наравне с базой данных, - необходимая составляющая программного комплекса ИИ. Машины, реализующие алгоритмы ИИ, называются машинами, основанными на знаниях, а подраздел теории ИИ, связанный с построением экспертных систем, - инженерией знаний.

Особенности знаний:

1. Внутренняя интерпретируемость.

Данные, хранящиеся в памяти компьютера, не несут никакой информации без соответствующей программы, поскольку только она может интерпретировать их. Знания же содержат и данные и соответствующие им имена и описания, а значит, имеют интерпретацию.

Каждая информационная единица должна иметь уникальное имя, по которому ИС находит ее, а также отвечает на запросы, в которых это имя упомянуто. Когда данные, хранящиеся в памяти, были лишены имен, то отсутствовала возможность их идентификации системой. Данные могла идентифицировать лишь программа, извлекающая их из памяти по указанию программиста, написавшего программу. Что скрывается за тем или иным двоичным кодом машинного слова, системе было неизвестно.

Фамилия	Год рождения	Специальность	Стаж, число лет
Попов		Слесарь
Сидоров		Токарь
Иванов		Токарь
Петров		Сантехник

Если, например, в память ЭВМ нужно было записать сведения о сотрудниках учреждения, представленные в табл. 1.1, то без внутренней интерпретации в память ЭВМ была бы занесена совокупность из четырех машинных слов, соответствующих строкам этой таблицы. При этом информация о том, какими группами двоичных разрядов в этих машинных словах закодированы сведения о специалистах, у системы отсутствуют. Они известны лишь программисту, который использует данные табл. 1.1 для решения возникающих у него задач. Система не в состоянии ответить на вопросы типа "Что тебе известно о Петрове?" или "Есть ли среди специалистов сантехник?".

При переходе к знаниям в память ЭВМ вводится информация о некоторой протоструктуре информационных единиц. В рассматриваемом примере она представляет собой специальное машинное слово, в котором указано, в каких разрядах хранятся сведения о фамилиях, годах рождения, специальностях и стажах. При этом должны быть заданы специальные словари, в которых перечислены имеющиеся в памяти системы фамилии, года рождения, специальности и продолжительности стажа. Все эти атрибуты могут играть роль имен для тех машинных слов, которые соответствуют строкам таблицы. По ним можно осуществлять поиск нужной информации. Каждая строка таблицы будет экземпляром протоструктуры. В настоящее время СУБД обеспечивают реализацию внутренней интерпретируемости всех информационных единиц, хранящихся в базе данных.

2. Структурированность. Информационные единицы должны обладать гибкой структурой. Для них должен выполняться «принцип матрёшки» (т.е. рекурсивная вложенность одних информационных единиц в другие): каждая информационная единица может быть включена в состав любой другой, и из каждой информационной единицы можно выделить некоторые составляющие ее информационные единицы. Между определенными единицами знаний могут быть установлены различные отношения, отражающие характер их взаимодействия типа «часть - целое», «род - вид», «элемент - множество».

3. Связность. В БД между информационными единицами устанавливаются связи различного типа. Эти отношения могут носить декларативный или процедурный характер. Например, две или более информационные единицы могут быть связаны отношениями типа «одновременно», «причина - следствие», «быть рядом». Такие отношения характеризуют декларативные знания. Если между двумя информационными единицами установлено отношение «аргумент - функция», то оно характеризует процедурное знание, связанное с вычислением определенных функций.

Различают отношения структуризации (задаются иерархии информационных единиц), функциональные (позволяют вычислять одни информационные единицы через другие), каузальные (задают причинно-следственные связи), семантические (все остальные отношения).

Интерпретация, структурированность и связность позволяют ввести общую модель представления знаний – семантическую сеть. {Термин «семантическая» означает «смысловая», а сама семантика – это наука, устанавливающая отношения между символами и объектами, которые они обозначают, т.е. наука, определяющая смысл знаков.}

4. Семантическая метрика. На множестве информационных единиц в некоторых случаях полезно задавать отношение, характеризующее их ситуационную близость, т.е. силу ассоциативной связи между информационными единицами. Такое отношение (отношение релевантности) дает возможность выделять в информационной базе некоторые типовые ситуации («покупка», «регулирование движения на перекрестке») и находить знания, близкие к уже найденным.

5.Активность. С момента разделения информационных единиц на данные и команды возникла ситуация, при которой данные пассивны, а команды активны. Все процессы, протекающие в компьютере, инициируются командами, а данные используются этими командами лишь в случае необходимости. В интеллектуальных системах знания инициируют действия. Появление в информационной базе фактов, описаний, событий или установлении связей может служить источником активности системы.

Перечисленные пять особенностей определяют ту грань, за которой данные превращаются в знания, а БД превращается в БЗ. Совокупность средств, обеспечивающих работу со знаниями, образуют систему управления базой знаний (СУБЗ). В настоящее время не существует БЗ, в которых в полной мере были бы реализованы все пять особенностей знаний.

Все эти свойства знаний в конечном итоге должны обеспечить возможность СИИ моделировать рассуждения человека при решении прикладных задач — со знаниями тесно связано понятие процедуры получения решений задач (стратегии обработки знаний). В системах обработки знаний такую процедуру называют механизмом вывода, логическим выводом или машиной вывода. Принципы построения механизма вывода в СИИ определяются способом представления знаний и видом моделируемых рассуждений.

Для организации взаимодействия с СИИ в ней должны быть средства общения с пользователем, т. е. интерфейс. Интерфейс обеспечивает работу с БЗ и механизмом вывода на языке достаточно высокого уровня, приближенном к профессиональному языку специалистов в той прикладной области, к которой относится СИИ. Кроме того, в функции интерфейса входит поддержка диалога пользователя с системой, что дает пользователю возможность получать объяснения действий системы, участвовать в поиске решения задачи, пополнять и корректировать базу знаний. Таким образом, основными частями систем, основанных на знаниях, являются.

1.База знаний.
2. Механизм вывода.
3.Интерфейс с пользователем.

Каждая из этих частей может быть устроена по-разному в различных системах, отличия эти могут быть в деталях и в принципах. Однако для всех СИИ характерно моделирование человеческих рассуждений. СИИ создаются для того, чтобы овеществлять в рамках программно-технической системы знания и умения, которыми обладают люди, чтобы решать задачи, относящиеся к области творческой деятельности человека. Особенность систем представления знаний заключается в том, что они моделируют деятельность человека, осуществляемую часто в неформальном виде. Модели представления знаний имеют дело с информацией, получаемой от экспертов, которая часто носит качественный и противоречивый характер. Для обработки с помощью ЭВМ такая информация должна быть приведена к однозначному формализованному виду. Методологией формализованного представления знаний является логика. Перейдем к рассмотрению основных понятий логики.

Представление знаний - это соглашение о том, как описывать реальный мир. В естественных и технических науках принят следующий традиционный способ представления знаний. На естественном языке вводятся основные понятия и отношения между ними. При этом используются ранее определенные понятия и отношения, смысл которых уже известен. Далее устанавливается соответствие между характеристиками (чаще всего количественными) понятий знания и подходящей математической модели.

Основная цель представления знаний — строить математические модели реального мира и его частей, для которых соответствие между системой понятий проблемного знания может быть установлено на основе совпадения имен переменных модели и имен понятий без предварительных пояснений и установления дополнительных неформальных соответствий. Представление знаний обычно выполняется в рамках той или иной системы представления знаний.

Системой представления знаний (СПЗ) называют средства, позволяющие описывать знания о предметной области с помощью языка представления знаний, организовывать хранение знаний в системе (накопление, анализ, обобщение и организация структурированности знаний), вводить новые знания и объединять их с имеющимися, выводить новые знания из имеющихся, находить требуемые знания, устранять устаревшие знания, проверять непротиворечивость накопленных знаний, осуществлять интерфейс между пользователем и знаниями.

Центральное место в СПЗ занимает язык представления знаний (ЯПЗ). В свою очередь, выразительные возможности ЯПЗ определяются лежащей в основе ЯПЗ моделью! представления знаний (иногда эти понятия отождествляют).
Модель представления знаний является формализмом, призванным отобразить статические и динамические свойства предметной области (ПО), т. е. отобразить объекты и отношения ПО, связи между ними, иерархию понятий ПО и изменение отношений между объектами.

Модель представления знаний может быть универсальной (применимой для большинства ПО) или специализированной (разработанной для конкретной ПО). В СИИ используются следующие основные универсальные модели представления знаний:

· семантические сети;

· фреймы;

· продукционные системы;

· логические модели и другие.

Во всех разработанных системах с базами знаний кроме этих моделей, взятых за основу, использовались специальные дополнительные средства. Тем не менее, классификация моделей представления знаний остается неизменной.