Введение

Пренебрегая незначительными различиями в определениях термина

«онтология», полученных из разных источников (и приведенных в первой

части), будем понимать под онтологией систему, состоящую из множества

понятий, их определений и аксиом, необходимых для ограничения

интерпретации и использования понятий. При решении прикладных задач

онтология часто отождествляется с набором классов (или понятий

предметной области), связанных определенным набором отношений (или

свойств – бинарных отношений). Базовыми типами отношений являются

«ПОДКЛАСС-НАДКЛАСС» (гипонимия), «ЧАСТЬ-ЦЕЛОЕ» (меронимия),

"ЭКЗЕМПЛЯР-КЛАСС", "ПРИЧИНА-СЛЕДСТВИЕ", отношение

зависимости и др.

Онтологии верхнего уровня описывают, так называемое, общее знание о

моделируемом мире, формируя общую для онтологий нижних уровней

систему понятий. В основном онтологии являются разделяемыми (shared)

ресурсами (содержимое онтологии одновременно используется несколькими

лицами, группами или сообществами). Разделяемые онтологии (в большей

степени это относится к онтологиям верхнего уровня) содержат знания

здравого смысла (common sense).

Рассмотрим и сравним наиболее масштабные проекты онтологий

верхнего уровня.

 

OpenCyc1 – открытая для общего пользования часть коммерческого

проекта Cyc, на текущий момент наиболее масштабной и детализированной

онтологии в области общего знания. База знаний OpenCyc содержит

информацию из различных предметных областей: Философия, Математика,

Химия, Биология, Психология, Лингвистика и т.д. (http://www.opencyc.com).

Ключевым понятием в проекте OpenCyc является коллекция. Любая

коллекция может содержать подколлекции и экземпляры. Таким образом, в

OpenCyc определены два таксономических отношения: "подколлекция-

надколлекция" (genls) и "экземпляр-коллекция" (isa). Экземпляром коллекции

может быть любой термин онтологии. Важная черта отношения isa в том, что

оно передается по иерархии отношения genls, т.е. если А является

экземпляром коллекции B и B является подколлекцией коллекции C, то А

является также экземпляром коллекции С. В случае, если коллекции А и В

связаны отношением genls (А genls В), то это означает, что все экземпляры

коллекции А являются также экземплярами коллекции В.

 

Рис.6. Фрагмент иерархии коллекций в OpenCyc

 

В вершине иерархии коллекций находится универсальная коллекция с

именем "Нечто". По определению, она содержит все, что существует в рамках

описываемой области (т.н. «Universe of Discourse»). Любая коллекция

описанная в OpenCyc, будь то "Индивид", "МатематическоеМножество" или

"Коллекция" является и подколлекцией, и экземпляром коллекции "Нечто".

Более того, коллекция "Нечто" является как экземпляром, так и подколлецией

самой себя, но не подколлекцией какой-либо другой коллекции. На первом

уровне иерархии "Нечто" разделяется сразу на 116 подколлекций. На рис.6

изображена урезанная иерархия коллекций верхних уровней.

 

Коллекция "Индивид" содержит всевозможные индивиды, т.е. сущности

не являющиеся ни множествами, ни коллекциями. Индивиды могут быть

абстрактными или конкретными, включать физические объекты, события,

отношения, числа, группы, они могут состоять из частей, иметь сложную

структуру, но ни один экземпляр этой коллекции не может иметь элементов

или подмножеств. Так, индивид имеющий части (связи типа "ЧАСТЬ-

ЦЕЛОЕ") и множество или коллекция, содержащая те же самые части

(связи типа "ЭЛЕМЕНТ-МНОЖЕСТВО" и "ЭЛЕМЕНТ-КОЛЛЕКЦИЯ") – две

совершенно разные сущности. Например, данная фирма (1), группа,

содержащая всех работников данной фирмы (2), коллекция всех работников

фирмы (3) и множество всех работников фирмы (4) – четыре разных понятия

и только первые два из них – индивиды.

Коллекция "Коллекция" содержит все коллекции онтологии OpenCyc,

кроме "Нечто". Именно "Коллекция" наиболее близка понятию класс, которое

часто используют при проектировании онтологий предметных областей (но

не понятию класс объектно-ориентированного программирования!),

поскольку эта коллекция описывает набор объектов (экземпляров коллекции)

имеющих некоторые общие атрибуты (свойства). Это же отличает

"Коллекцию" от "МатематическогоМножества". Множество может содержать

абсолютно не связанные элементы, а “Коллекция” нет. Все экземпляры

"Коллекции" являются абстрактными сущностями, даже если коллекция

содержит материальные объекты.

Структурно база знаний OpenCyc состоит из констант (терминов) и

правил (формул), оперирующих этими константами. Правила делятся на два

вида: выводимые утверждения и аксиомы. Под аксиомами в OpenCyc

понимаются утверждения, которые были явно и вручную введены в базу

знаний экспертами, а не появились там (или могут появиться) в результате

работы машины вывода. Все утверждения или формулы в базе знаний

OpenCyc фиксируются на языке CycL, выразительно эквивалентном

исчислению предикатов первого порядка.

 

DOLCE(Descriptive Ontology for Linguistic and Cognitive Engineering) –

первая из онтологий в библиотеке базовых онтологий проекта WonderWeb.

(http://www.loa-cnr.it/DOLCE.html).

Онтологию DOLCE предполагается применять в SemanticWeb для

согласования между интеллектуальными агентами, использующими разную

терминологию. При этом онтология не претендует на звание универсальной,

стандартной или общей. Основная цель разработчиков - создать модель,

помогающую при сравнении и объяснении связей с другими онтологиями

библиотеки WFOL (базовой библиотеки онтологий WonderWeb), а также для

выявления скрытых допущений, лежащих в основе существующих онтологий

и лингвистических ресурсов, таких как WordNet. DOLCE имеет когнитивный

уклон, поскольку фиксирует онтологические категории естественного языка и

знания «здравого смысла».

В основу процесса проектирования легло фундаментальное философское

разделение всех сущностей на универсалии (сущности потенциально или

реально имеющие экземпляры) и индивиды (или частности), которые не

имеют и не могут иметь экземпляров. DOLCE - онтология

имеют и не могут иметь экземпляров. DOLCE - онтология индивидов, в том

смысле, что область описания ограничена только ими. В качестве примера

универсалии можно привести понятие «Собака» (оно имеет множество

экземпляров, конкретных примеров в окружающем мире). В отличие от этого

понятия, понятие «Время» скорее рассматривается как индивид (едва ли

кому-то понадобится трактовать «Время» как множество различных

объектов, конечно, если речь не идет о параллельных мирах).

Еще одна черта DOLCE (также заимствованная разработчиками из

философии) – явное разделение на «Постоянные» и «Происходящие»

сущности. Различие между ними состоит в том, что «Постоянные» сущности

имеются в наличии целиком и неизменно в некотором фиксированном

промежутке времени (например, стол, дом в течение периода своего

существования).

 

Рис. 7. Верхние уровни иерархии DOLCE.

 

А «Происходящие» разворачиваются во времени и в каждый момент в

некотором временном интервале они могут быть различными, по-разному

себя проявлять, иметь разный состав, (например: ураган, жизненный цикл),

однако при этом их идентичность сохраняется.

Такое разделение на "объект" и "процесс" весьма условно и здесь

прослеживается когнитивный уклон DOLCE. Оно привело к тому, что в

онтологии определены два типа отношения "ЧАСТЬ-ЦЕЛОЕ". Первое никак

не зависит от времени, второе имеет временной индекс, определяющий в

каких временных рамках, отношение действует. Подобное "раздвоение"

наблюдается и для отношения "КАЧЕСТВО-ОБЛАДАТЕЛЬ КАЧЕСТВА".

Другие базовые отношения онтологии: "УЧАСТНИК-ПРОЦЕСС",

"КОМПОНЕНТ-ЦЕЛОЕ" (компонент входит в состав целого) и отношение

зависимости имеют временной индекс. Для сравнения, в онтологии OpenCyc

нет явного деления на «Постоянные» и "Происходящие". Поэтому, среди

множества отношений в разделе "Части объектов" нет отношения,

учитывающего временной аспект: возможное непостоянство данного

отношения.

Для представления своей онтологии авторы DOLCE избрали более

гибкий, чем в проекте Cyc, подход: онтология фиксируется на бумаге с

использованием логики предикатов первого порядка. Затем описывается та

часть аксиом, которая может быть представлена на языке OWL. Оставшиеся

аксиомы, выраженные на языке KIF2, добавляются к OWL описаниям в виде

комментариев. Таким образом, достигается выразительность уровня KIF3 и

совместимость с OWL. Недостаток такого подхода в том, что приложения, не

имеющие информации о действительной структуре OWL документа, не

смогут получить доступ к «закомментированным» знаниям.

 

SUMO (Suggested Upper Merged Ontology)– онтология верхнего

уровня, разработанная в рамках проекта рабочей группы IEEE SUO (IEEE

Standard Upper Ontology Working Group) и Teknowledge. Проект претендует

на статус стандарта для онтологий верхнего уровня

(http://ontology.teknowledge.com/).

 

Онтология SUMOсодержит наиболее общие и самые абстрактные

концепты, имеет исчерпывающую иерархию фундаментальных понятий

(около 1 тыс. понятий), а также набор аксиом (примерно 4 тыс.),

определяющих эти понятия. Назначение SUMO – содействовать улучшению

интероперабельности данных, извлечения и поиска информации,

автоматического вывода (доказательства), обработки естественного языка.

Онтология охватывает следующие области знания: общие виды процессов и

объектов, абстракции (теория множеств, атрибуты, отношения), числа и

единицы измерения, временные понятия, части и целое, агенты и намерения.

SUMO является «канонической» онтологией верхнего уровня: содержит

обозримое число концептов и аксиом, имеет ясную иерархию классов, легко

расширяется, является итогом объединения различных общедоступных

онтологий верхнего уровня (в том числе онтологии Джона Совы (J. Sowa’s

ontology), о которой речь пойдет ниже). К преимуществам SUMO можно

отнести возможность трансляции описания онтологии на любой из основных

языков представления знаний, наличие онтологии среднего уровня (MILO),

гладко интегрированной с SUMO, несколько дюжин примеров практического

применения, а также связь с WordNet – наиболее крупным на настоящий

момент тезаурусом, содержащим около 150 тыс. слов повседневного

английского языка.

 

Рис 8. Иерархия классов SUMO.

 

Иерархия классов в SUMO (рис. 8.) менее запутана, чем в OpenCyc, и,

возможно, более удобна для практического применения, чем DOLCE.

Основными концептами, как во многих онтологиях верхнего уровня,

являются «Сущность» и ее категории – «Физический» и «Абстрактный».

Первая категория включают все, что имеет положение в пространстве-

времени, а вторая – все остальное (а точнее только то, что существует в

воображении). «Физический» делится на «Объект» и «Процесс», что

соответствует подходу, реализованному в DOLCE. Непосредственно под

концептом «Объект» находятся два непересекающихся понятия:

«СвязныйОбъект» и «Коллекция». Первое обозначает любой объект, все

части которого непосредственно или косвенно связаны друг с другом.

Концепт «СвязныйОбъект» разделен на два концепта: «НепрерывныйОбъект»

и «ДискретныйОбъект» (корпускулярный). «НепрерывныйОбъект»

характеризуется тем, что все его части (вплоть до самого низкого уровня

деления) имеют такие же свойства, как и целое. Такие субстанции как вода и

глина могут быть подклассами концепта «НепрерывныйОбъект», также как и

поверхности и географические области. Ниже на диалекте SUO-KIF языка

KIF записаны формальные аксиомы, определяющие различие между

концептами «НепрерывныйОбъект» и «ДискретныйОбъект».

 

А1. (=>

(and

(subclass-of ?OBJECTTYPE НепрерывныйОбъект)

(instance-of ?OBJECT ?OBJECTTYPE)

(part-of ?PART ?OBJECT))

(instance-of ?PART ?OBJECTTYPE))

А2. (equal ДискретныйОбъект (ComplementFn

НепрерывныйОбъект)

 

Аксиома А1 формализует утверждение «Если (PART) является частью

объекта (OBJECT), являющегося в свою очередь экземпляром некоторого

подкласса (OBJECTTYPE) класса НепрерывныйОбъект, то эта часть (PART)

также как и OBJECT является экземпляром класса OBJECTTYPE». Аксиома

А2 постулирует факт, что классы ДискретныйОбъект и НепрерывныйОбъект

являются взаимодополняющими.

«Коллекции» в SUMO отделены от «СвязныхОбъектов». «Коллекции»

состоят из несвязанных частей и отношений («ЧЛЕН-КОЛЛЕКЦИЯ») между

частями и соответствующей им коллекцией. Здесь, также как в OpenCyc,

проводится разграничение понятий «Коллекция», «Класс» и «Множество».

Предикат «быть членом коллекции» отличен от предикатов «быть

экземпляром класса» и «быть элементом множества», относящих объекты к

«Классам» или «Множествам», которым они принадлежат. В отличие от

«Классов» и «Множеств», «Коллекции» занимают некоторое положение в

пространстве-времени (они не абстрактны как в OpenCyc, а материальны),

члены могут добавляться и удаляться из коллекции, не меняя ее

идентичность. Примеры «Коллекций» ящики с инструментами, футбольные

команды, отары овец. Возвращаясь к концептам уровня «Физический»-

«Абстрактный», обсудим ветвь «Абстрактный». Категория «Абстрактный»

разделяется на «Множество», «Утверждение», «Величина» и «Атрибут».

«Множество» - обычное понятие теории множеств, включает «Класс»,

который в свою очередь имеет подкласс «Отношение». «Класс» понимается

как множество со свойством или пересечением свойств, которые определяют

принадлежность к «Классу», «Отношение» есть «Класс» упорядоченных пар.

«Отношение» по смыслу ближе к «Классу», чем к «Множеству».

«Отношение» ограничено только теми упорядоченными парами, которые

описывают его содержимое.

Концепт «Утверждение» соответствует понятию семантического или

информационного содержимого. Однако SUMO не накладывает никаких

ограничений на это содержимое. Это более общее понятие, чем используемое

в большинстве онтологий, почти невозможно принципиально разделить

абстрактное содержимое, выраженное одним предложением и абстрактное

содержимое, выраженное многочисленными речевыми единицами. Примеры

«Утверждений»: краткое изложение рассказа, музыкальное содержимое

напечатанной партитуры.

Понятие «Атрибут» включает все количества, свойства и т.д., которые не

представимы как «Объекты». Например, вместо того, чтобы делить класс

«Животные» на «ЖивотныеЖенскогоПола» и «ЖивотныеМужскогоПола»,

создаются экземпляры «Женщина» и «Мужчина» класса

«БиологическийАтрибут», который является подклассом «Атрибута».

Наконец, «Величина» разделяется на «Число» и «ФизическаяВеличина».

Первое понимается как независящая от системы измерения величина, а

второе как составная величина, состоящая из «Числа» и конкретной единицы

измерения.

Аксиомы ограничивают интерпретацию концептов и предоставляют базу

для систем автоматизированного рассуждения, которые обрабатывают базы

знаний соответствующие онтологии SUMO. Пример аксиомы: «Если C

является экземпляром процесса горения, то существуют выделение тепла Hи излучение света Lтакие, что оба они Hи Lявляются подпроцессами C».

Более сложные, но логичные предложения говорят, что процессы выделения тепла и излучения света сопутствуют каждому процессу горения. Аксиомы кодируются в SUMO на формальном логическом языке SUO-KIF.

Онтология Джона Совы, предложенная им в книге «Knowledge

Representation: Logical, Philosophical, and Computational Foundations»,

определяет базовые онтологические категории, полученные автором из

источников по логике, лингвистике, философии и искусственному интеллекту

(http://www.jfsowa.com/ontology/).

Для того чтобы сохранить открытость, онтология, по мнению Совы,

должна быть основана не на фиксированной иерархии концептов, а на

каркасе, описывающем различия, по которому иерархия генерируется

автоматически. В любом конкретном приложении концепты не определяются

рисованием линий на диаграмме, а задаются выбором подходящего

множества различий.

Рис. 9. Онтологические категории верхнего уровня, предложенные Джоном Совой.

 

Кроме приведенных на рис.9 категорий в онтологии есть еще два

понятия. «Сущность» не определяет никаких отличительных признаков или

различий и является надтипом для всех других концептов. Второе понятие –

«Абсурдный» тип, наследующий все возможные, в том числе

противоречащие, различия. Ни один экземпляр не может иметь этот тип. В

онтологии также проводится различие между абстрактным и физическим

(именно в таком виде оно заимствовано разработчиками SUMO). Отдельно

выделяются категории независимости, относительности и опосредованности.

«Независимые» сущности не нуждаются в существовании каких-либо связей

с другими сущностями. Любая «Относительная» сущность обязательно имеет

х отя бы одну связь с некоторой другой сущностью. Для существования

«Опосредованной» сущности необходимо наличие некоторого отношения

связывающего какие-то другие сущности, имеющие отношение также и к

первой (например, бракосочетание). Онтология Джона Совы описывает роли

и отношения, агентов, процессы, и т.д.

 

WordNet –один из наиболее полно разработанных тезаурусов общего

назначения. Здесь мы рассмотрим верхние уровни WordNet как онтологию.

Подробное описание структуры WordNet будет изложено в других разделах.

Центральным объектом в WordNet является синсет, множество синонимов

(или синонимический ряд). WordNet содержит около 70 тыс. синсетов,

организованных в иерархию по отношению НАДКЛАСС-ПОДКЛАСС (это

отношение также называется гипонимией). Часть иерархии WordNet,

связанная с материальными предметами представлена на рис.10. Здесь можно

сразу отметить, насколько верхние уровни WordNet более прозрачны и

понятны по сравнению с онтологией Cyc. Для каждого понятия (синсета),

есть указатель на существительные, представляющие его части. Например,

части для понятия «птица» представляются понятиями «клюв», «крылья» и

т.д. Подобные указатели реализуют отношение ЧАСТЬ-ЦЕЛОЕ (меронимия).

 

В WordNet существуют другие виды связей (например, от

существительного к глаголу, чтобы представить функции или к

прилагательному, чтобы представить свойства), но не все они реализованы.

Эта онтология не имеет аксиом.

В целом WordNet можно представить как сеть, в узлах которой

находятся синсеты – лексикализованные понятия. Основными типами

отношений являются гипонимия и меронимия.

Рис.10. Верхние уровни иерархии синсетов существительных в WordNet.

Из рис.10 видно, что некоторые понятия, «ошибочно» попали на верхние

уровни иерархии. Достаточно рассмотреть ряд таксонов (Вещество –

Артифакт – Пища(?) – Природный объект) или (Человек(?) – Растение –

Животное). По всей видимости, такие «несоответствия» есть результат

сильной зависимости структуры онтологии от языка. Понятно, что можно

было бы поместить синсет «Человек» под синсет «Животное, животный

мир», но, либо, эти синсеты имеют несовместимые подиерархии, либо в

языке слова «Человек» и «Животное» имеют сильно отличающиеся значения.

Рис.11. 25 синсетов существительных верхнего уровня WordNet.

 

Поскольку онтологии верхнего уровня описывают самые общие знания

об окружающем мире, они во многом похожи. Так, во всех онтологиях

проводится разделение сущностей на абстрактные (такие сущности не могут

занимать положения ни в пространстве, ни во времени) и реально

существующие (материальные, осязаемые). Во всех онтологиях, так или

иначе, присутствует деление на постоянные и временные (меняющиеся во

времени) сущности, деление на объект и процесс. В онтологии Джона Совы

это деление на «Континуальный» и «Происходящий», в DOLCE –

«Постоянные» и «Происходящие», в SUMO – «Объект» и «Процесс».

В то же время даже на верхних уровнях наблюдаются существенные

различия. В онтологии SUMO первично разделение на абстрактные и

материальные сущности, а разделение на постоянные и временные –

вторично. В DOLCE на верхнем уровне производится разделение на

постоянные, временные, абстрактные и качественные сущности. В онтологии

Совы иерархии сущностей в явном виде нет: в ней описаны только категории,

по которым понятия разделяются или группируются. В онтологии OpenCyc

на верхнем уровне коллекция "Нечто" делится на «Неосязаемые» и

«Индивиды», но экземпляры и тех и других могут быть как абстрактными,

так и материальными u1086 объектами.

__