Грамматика

Грамматика ИПЯ представляет собой совокупность отношений между лексическими единицами языка и правил их выражения. Грамматические отношения в дескрипторных и вербальных языках бывают двух видов: синтагматические (текстуальные, контекстные) и парадигматические (базовые). Синтагматические отношения – это отношения между лексическими единицами, возникающие в определенной ситуации, в определенном контексте (т.е. в тексте – в данном документе или запросе). Для фиксации синтагматических отношений, отражающих связи между ЛЕ (т.е., фактически, между понятиями) в тексте, вводятся специальные грамматические средства. Набор и способы записи этих средств различны в разных ИПС и зависят от назначения системы и других факторов.

В системах 1960–1970-х годов наибольшее распространение получили указатели роли и связи. Указатели роли определяют, какое категориальное значение имеет в тексте (и соответственно, в ПОД) тот или иной дескриптор, и играют в ИПЯ роль квазиграмматических категорий. В качестве примеров таких категорий можно назвать “процесс”, “свойства”, “материал”, “оборудование”, “среда”. Фактически, с указателями роли в дескрипторные ИПЯ вводятся элементы фасетного анализа. Обозначаются указатели роли посредством соответствующих буквенно-цифровых кодов, приписываемых дескрипторам в ПОД и ПОЗ. Естественно, эти грамматические категории соответствующим образом должны учитываться в критериях смыслового соответствия и программах поиска.

Указатели связи определяют, какие из дескрипторов в тексте (в документе или запросе) связаны между собой (логически или синтаксически). Обозначаются они также особыми символами, приписываемыми дескрипторам в ПОД и ПОЗ.

Приведем пример указателей роли из языка ИПС Американского общества инженеров-химиков:

A. То, что вводится (загружается) в химическую реакцию или подвергается переработке.

B. Продукт, побочный продукт, продукт, сопутствующий реакции или процессу производства.

C. Брак, отход, загрязнение.

D. Особый агент, катализатор.

E. Растворитель, среда, окружение.

F. Независимая переменная, действие которой изучается.

G. Независимая переменная, изучаемая с точки зрения воздействий на нее.

H. Активное понятие, предмет изучения.

I. Пассивное понятие.

J. Приборы, материалы или методы, используемые для производства операций.

Их использование при индексировании можно показать на следующем реферате: “Осушение жидкостей распылением без применения атомизирующего газа. Латентная теплота подается прямым излучением от горячей стены к распылителю...”.

Тогда поисковый образ этого документа можно представить следующим образом:

Жидкость-A, распыление-J, сушка-H, атомизация-J, газ-J, латентная теплота-J, излучение-J, стена-I.

Использование указателей роли и связи увеличивает смыслоразличительную силу ИПЯ и позволяет улучшить поисковые характеристики ИПС, в частности точность. Так, вышеприведенный реферат не будет выдан на запрос «… методом сушка», так как в поисковом образе запроса этому дескриптору будет приписан указатель «J» (сушка-J). Но при этом неизбежно усложняются методика индексирования и критерий соответствия (т.е. усложняется процесс смыслоотождествления), что может привести к снижению других характеристик, а именно, полноты. Индексирование документов с применением указателей роли и связи требует также дополнительных трудозатрат и влечет за собой возможность ошибок. Все это привело к тому, что на практике в современных ИПС указатели роли и связи, как правило, перестали использоваться.

Парадигматические отношения относятся к словарному составу языка и, в отличие от естественных языков, в словаре (тезаурусе) отображаются в явном виде. Парадигматические отношения обусловлены наличием логических связей между понятиями как элементами, отражающими объекты и явления реального мира. Они отражают смысловые связи между ЛЕ ИПЯ, зависящие не от контекста, а от отношений между объектами в реальном мире. К их числу относятся иерархическое отношение (род–вид), а также многочисленные отношения, получившие название ассоциативных (часть–целое, предмет–свойство, процесс–результат и др.) Справедливости ради следует сказать, что эти отношения (например, причина–следствие) не всегда независимы от контекста. Смысловые (логические) связи между понятиями в явном виде фиксируются в информационно-поисковых тезаурусах (ИПТ). Можно сказать, что ИПТ – это семантическая модель плана содержания соответствующей области знания.

Собственно говоря, грамматике в узком смысле принадлежат только синтагматические отношения. Поэтому иногда вместо грамматики говорят о синтаксисе ИПЯ. Языки, в которых есть средства для выражения синтагматических отношений, называют “ИПЯ с грамматикой”, а те, в которых таких средств нет – “ИПЯ без грамматики” (или ИПЯ с мешочной грамматикой, когда расстановка дескрипторов или ключевых слов не зависит от значения или положения соответствующих им понятий в индексируемом тексте).

В ряде случаев отсутствие указателей связи компенсируется другими способами. Наибольшее распространение получили средства фиксации линейной структуры текста и принадлежности ЛЕ к соответствующим структурным составляющим документа, таким как предложение, абзац, раздел, глава и т.п. Подобные средства, позволяющие использовать порядок следования лексических единиц, структуру и деление текста на части получили название “контекстной”, “линейной”, “позиционной” или “позиционно-скобочной” грамматики. К ним относятся специальные контекстные (позиционные) операторы или квалификаторы, ограничивающие область действия обычных булевских операторов И, ИЛИ, НЕ (См. 2.4. «Языки запросов»).

Существуют языки (семантические и синтагматические) и с более сложной грамматикой, например, с представлением в ПОД и ПОЗ синтаксических зависимостей между ЛЕ ИПЯ. Способы их фиксации могут базироваться на грамматике зависимостей или иметь собственные грамматические средства типа глубинного синтаксиса. КСС в этом случае должен учитывать отношения синтаксического подчинения.

Все системы (языки) с точки зрения своего состава можно поделить на 4 типа (А, Б, В, Г).

Табл. 2.1.

Типы систем по составу ИПЯ

Системы типа УНИТЕРМ не имели ни фиксированного словаря, ни грамматики (тип А). Первые дескрипторные языки имели только словарь (тип Б). Классические ИПЯ (дескрипторные, семантические, синтагматические) относятся к классу Г. Постепенно среди документальных систем “победил” тип ИПС с вербальными ИПЯ (без фиксированного словаря) с линейной грамматикой (тип “B”).

Разделение языковых средств ИПС на словарные и грамматические довольно условно, как в ЕЯ, так и в ИПЯ. Например, какое-либо понятие в языке может обозначаться словосочетанием. В ИПС без фиксированного словаря элементы такого словосочетания будут связаны синтагматической связью. В ИПС с фиксированным словарем это словосочетание может быть задано непосредственно в словаре в дескрипторной статье, т.е. то, что в первом случае представлено как грамматическая связь, во втором случае будет выражено лексически. Указатели роли, эти своего рода информационно-поисковые “члены предложения”, могут выступать как грамматические средства, а могут фиксироваться в ИПС как элементы лексики.