Семантические и синтагматические языки

Представление содержание документов является главной функцией документальных ИПЯ. В дескрипторных ИПЯ семантическая задача описания содержания документов и запросов решается, по сути дела, приблизительно. Гораздо ближе к этой проблеме подошли создатели семантических и синтагматических языков, среди которых наиболее известны семантический код Перри–Кента, язык RХ-кодов и язык СИНТОЛ. Их разработчики основную задачу видели в обеспечении однозначного перевода с естественного языка на ИПЯ с учетом семантических и синтаксических факторов. Характерная особенность этих языков – наличие средств, явно описывающих семантическую и семантико-синтаксическую структуру понятий и выражений (семантические множители, термы, реляторы, предикаты, сущности и т.п.).

Приведем пример лексических единиц языка RX-кодов на примере понятий «луг» и «лес». В языке RX-кодов для образования слов и словосочетаний применяются два типа единиц: термины (X), обозначающие предметы и понятия, и релятемы (R), обозначающие свойства и бинарные отношения.

Луг–это участок, покрытый травянистой растительностью и расположенный в пойме реки.

Лес–это участок, покрытый деревьями.

На языке RX-кодов эти два понятия будут выражены так:

X1=R1X2R2X3R3X4

X5=R1X2R2X6

Здесь

X1 – определение понятия «луг»,

X2 – участок,

X3 – травянистая растительность,

X4 – пойма реки,

X5 – определение понятия «лес»,

X6 – древесная растительность,

R1 – быть видом,

R2 – быть покрытым,

R3 – быть расположенным.

Более подробно об этих языках см., например, в книгах А.И.Черного и В.М.Московича.

Развитие семантических языков в целом прошло сложный путь “самоопределения”, и в настоящее время языки этого типа используются в основном в системах искусственного интеллекта. Практика показала, что сложные семантические языки и трудно реализуемые синтаксические и семантические методы анализа текстов не дают существенного выигрыша с точки зрения достигаемых результатов документального поиска (а чаще просто дают худшие результаты). Постепенно стала осознаваться необходимость построения информационно-поисковых языков в соответствии с типами задач, для решения которых они предназначаются, и современным уровнем компьютерной лингвистики. “Нужно иметь в виду, что всякое усложнение информационного языка, не сопровождающееся соответствующим усложнением остальных компонент, не может дать позитивного результата и, скорее всего, даже ухудшит работу ИПС” Авторы указанной статьи, проведя и описав серию экспериментов по оценке смыслоразличительной роли синтаксической связи в ситуации документального поиска, делают вывод, что синтаксический анализ сам по себе не дает улучшения качества документального поиска. “Полученные нами результаты показывают, что возможности использования в информационном поиске чисто синтаксических моделей не следует переоценивать. Только в рамках хорошо разработанной семантической модели языка в качестве одной из ее составляющих синтаксический анализ может дать должный поисковый эффект. К сожалению, для полной практической реализации такого подхода сегодня еще нет достаточных теоретических предпосылок”.

Именно поэтому большинство реально работающих документальных ИПС строится на основе вербальных ИПЯ с простой грамматикой.

Основной целью содержательного анализа в информационно-поисковых системах является выдача релевантных документов, а не представление их содержания, в отличие от систем искусственного интеллекта, где требуется способность делать выводы из полученной информации, т.е. где имеет место такой компонент значения, как истинностная оценка. Существует мнение, что документальные информационно-поисковые системы не являются промежуточными продуктами на пути создания интеллектуальных систем типа “вопрос–ответ”, а выполняют особую информационно-поисковую функцию там, где нет необходимости в использовании идей семантики.

Представляет интерес описание информационных языков разных типов в уже упоминавшейся книге В.А.Московича, которое дается по одной и той же схеме: общие сведения, способ кодирования, аппарат парадигматики, аппарат синтагматики, правила интерпретации, дополнительные сведения.