Дескрипторные ИПЯ

В основу построения посткоординируемых языков положен принцип координации – соотнесения двух понятий и порождение ими нового непосредственно в процессе поиска. Принцип координатного индексирования был разработан в 1950-х годах в процессе создания механизированных ИПС. Однако сам принцип описания содержания документов через перечисление ключевых слов существует издавна. Координация, или логическое умножение понятий, в результате которой из простых лексических единиц строятся более сложные, выражающие более узкие понятия, осуществляется как бы дважды: потенциально – при индексировании документа – и реально – в процессе поиска: при сопоставлении поискового образа документа с терминами запроса (поискового предписания). Например, пересечением понятий БИБЛИОТЕКИ и АВТОМАТИЗАЦИЯ, заданных в поисковом предписании, порождается новое более узкое понятие АВТОМАТИЗАЦИЯ БИБЛИОТЕК. Логическое умножение понятий хорошо иллюстрируется на кругах Эйлера (они же – диаграммы Венна).

 

Отдельная проблема – действительно ли образованное таким образом сочетание терминов является именем понятия и всегда ли? Известно и достаточно подробно изучено явление ложной координации понятий. Документ, в котором встретились слова БИБЛИОТЕКА и АВТОМАТИЗАЦИЯ, на самом деле может быть посвящен, например, роли БИБЛИОТЕК в АВТОМАТИЗАЦИИ научных исследований. То есть, тема, определяемая понятием "автоматизация библиотек" в данном документе не обсуждается.

Другой пример: пусть имеется запрос со словосочетанием: КАТАЛИЗАТОРЫ БРОМИСТОГО МАРГАНЦА. И пусть имеется документ, содержащий фрагмент текста "Производство фталевой кислоты окислением ксилола БРОМИСТЫМ МАРГАНЦЕМ в присутствии КАТАЛИЗАТОРОВ". Как и в первом примере, пересечение понятий КАТАЛИЗАТОР и МАРГАНЕЦ для данного документа дает ложную координацию понятий.

Одной из первых ИПС с посткоординируемым ИПЯ была система УНИТЕРМ (UNITERM), разработанная в США М. Таубе. В ней в качестве индексов, описывающих содержание документов и запросов, использовались ключевые слова, выбранные из текста (англ. uniterm – одиночный термин). Все такие слова имели одинаковый иерархический ранг. Словарный состав унитермных языков не разрабатывался предварительно, а формировался непосредственно в процессе индексирования.

В то же время очевидно, что в естественном языке одна и та же тема в разных документах может описываться разными способами (например, «устройство для запоминания информации» и «запоминающее устройство»). Встает проблема выбора информативных слов и проблема их нормализации. Нормализация заключается в приведении всех ключевых слов к «нормальному» виду (единое написание, единая морфологическая форма) и в устранении лексической и синтаксической синонимии, полисемии, омонимии. Эта нормализация получила название лексического (или лексикографического) контроля. Контроль осуществляется при помощи специального нормативно-справочного словаря, в котором перечисляются все ключевые слова и словосочетания, встречающиеся в документах. Синонимичные слова и словосочетания объединяются в один класс, омонимы, наоборот, разносятся по разным классам, и каждому классу присваивается уникальное имя. Такие имена назвали «дескрипторами» (англ. describe – описывать), а их алфавитный перечень – дескрипторным словарем. Языки, в основе которых лежит дескрипторный словарь, получили название дескрипторных ИПЯ.