Словарь

Словарь является основной частью всех информационно-поисковых языков. В качестве лексических единиц в дескрипторных ИПЯ выступают дескрипторы – имена понятий или классов понятий, которые явно перечисляются в дескрипторном словаре. В обычном понимании – это слова (или словосочетания), выбранные в качестве представителей классов условной эквивалентности – групп синонимичных слов и словосочетаний. Как правило, это существительные или номинативные выражения. Связь номинации с понятиями давно осознана в языкознании. То же понимание утвердилось и в информатике: “Номинативная группа как наиболее общая речевая форма представления понятия в тексте рассматривается … как фундаментальное для методов автоматической обработки текстов явление”. “Объектный характер назывных слов роднит их с понятиями. Лексические значения, как и понятия, это своего рода, умственные “концентраторы”, сгустки человеческих знаний об определенных фрагментах и сторонах окружающей нас действительности”.

Дескрипторный словарь представляет собой нормативный словарь, в котором в алфавитном порядке приведены все важнейшие ключевые слова данной предметной области с соответствующими пометами. Если в качестве имен понятий выбираются слова естественного языка, то существуют специальные способы для устранения полисемии и омонимии слов. Например, в системах с ручным (интеллектуальным) индексированием для этого используются специальные пометы: нос (орган обоняния) – нос (передняя часть судна, самолета); линь (рыба) – линь (мор. канат). Можно просто перенумеровать омонимы, оговорив в словаре их значения: нос1 – нос2; линь1 – линь2.

Дескрипторный словарь используется как инструмент лексического контроля при индексировании документов и запросов. Термин “лексический контроль” (ЛК) имеет синоним “словарный контроль”, так как для семантического нормирования ЛЕ ИПЯ используется словарь индексирования, или дескрипторный словарь, в котором в явном виде перечислены все важнейшие ключевые слова и дескрипторы, объединенные в классы условной эквивалентности. Лексический контроль – это совокупность мер, принимаемых при координатном индексировании с целью сокращения до минимума отрицательных последствий неоднозначного и неединообразного употребления слов ЕЯ.

Суть лексического контроля, осуществляемого с помощью словаря индексирования, в основном сводится к контролю синонимии и разрешению омонимии.

Кратко коснемся каждой из составляющих ЛК.

1) Контроль синонимии является главной функцией ЛК в ИПС. Он заключается в том, что все синонимы текста в ПОД и ПОЗ представляются одной и той же лексической единицей – дескриптором. В число синонимов включаются:

– полные синонимы (радар – радиолокатор, ЭВМ – компьютер);

– фонетические (графические) варианты слов ( секстан – секстант, center – centre, labor – labour, Chekhov – Tchekhov);

– аббревиатуры (ИПС – информационно-поисковая система);

– слова, близкие по смыслу (отсечка – отсечение, магнитный диск – магнитная память, ОРЗ – простуда);

– слова, совпадающие по смыслу в одном из значений (компьютер – машина, статья – работа, перепись – перезапись).

Иногда к синонимам относят и антонимы (“квазисинонимы”) (жесткость – мягкость, фокусировка – дефокусировка).

Иногда в один класс условной эквивалентности сводятся не только грамматические формы одной лексемы, но и разноосновные и относящиеся даже к разным частям речи лексемы, объединяемые общим лексическим значением, например: трелевка – трелевочный, сверло – сверление. Л.В.Сахарный назвал такие единицы “гиперлексемами”.

2) ЛК призван также обеспечить различение омонимов (омографов) и многозначных слов. Это достигается присвоением им различных цифровых кодов (в первых дескрипторных ИПЯ, лексика которых записывалась с помощью цифрового алфавита) или системой помет, например:

конденсаторы (для пара) – конденсаторы (электрические), литье (предмет) – литье (процесс), меркурий (металл) – Меркурий (планета).

В ряде исследований, однако, показано, что неразличение омонимов не ведет к заметному информационному шуму . Это объясняется тем, что совпадение (ложное) одного термина запроса с омонимичным ему термином в документе не влияет сколь-либо значительно на коэффициент релевантности при количественном критерии смыслового соответствия и недостаточно, как правило, для присвоения логическому выражению запроса значения «истина», так как другие термины из конъюнктивной формулы запроса скорее всего в данном документе будут отсутствовать.

Между лексическими единицами ИПЯ могут быть установлены различные отношения. Обычно их включают в грамматику. Однако те из них, которые не зависят от контекста и фиксируются в словаре, могут рассматриваться как семантические характеристики лексических единиц и относиться к словарю. Такие отношения называют базовыми, или парадигматическими, или аналитическими. Дескрипторный словарь (нормативный словарь индексирования) с зафиксированными в нем парадигматическими отношениями (подробнее см. следующий раздел – «Грамматика ИПЯ») называется информационно-поисковым тезаурусом (ИПТ), или просто тезаурусом. Целью создания ИПТ является повышение показателей качества поиска информации.

“Информационно-поисковый тезаурус – контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов”.

В лексическом составе ИПТ выделяют дескрипторы и аскрипторы. Дескриптор – это лексическая единица ИПТ, предназначенная для использования в поисковых образах документов и/или запросов. Аскриптор (недескриптор) – лексическая единица ИПТ, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.

Форма представления тезауруса определяется требованиями удобства пользования. Она должна обеспечивать нахождение нужной по смыслу ЛЕ и всех ЛЕ, с ней связанных.

Чаще всего ИПТ имеет две части.

Словарная часть (собственно тезаурус), представляющая собой алфавитный список дескрипторов вместе с их словарными статьями (гнездами).

Словарная статья обычно содержит:

заглавный дескриптор (прописными буквами);

ключевые слова или словосочетания, входящие в гнездо данного дескриптора (условные синонимы) (строчными буквами);

“вышестоящие” дескрипторы (находящиеся с данным в отношении “род–вид”, “часть–целое”);

“нижестоящие” дескрипторы (находящиеся с заглавным дескриптором в отношении “вид–род”, “целое–часть");

ассоциативные (ассоциированные) дескрипторы (связанные с данным другими разнообразными отношениями, как-то: причина–следствие, сырье–продукт, процесс–объект, процесс–субъект, свойство–носитель свойства, функциональное сходство).

Указанные подмножества обычно приводятся с пометами, чаще всего:

«с» – синонимы,

«в» – выше,

«н» – ниже

«а» – ассоциация.

Также встречаются и другие пометы и знаки:

«см.» – смотри (отсылка к соответствующему заглавному дескриптору);

«исп к» – использует комбинацию (в случаях замены ключевого слова сочетанием двух или более дескрипторов);

«исп а» – использует альтернативу (в случае многозначного ключевого слова, заменяемого одним из двух или более дескрипторов);

«ср» – сравни (для многозначных слов внутри дескрипторного гнезда, которые могут заменяться не только данным дескриптором);

( ) – в скобках уточняется лексическое значение дескриптора (для омонимов) или ограничение области использования.

2. Указатели различных видов, облегчающие пользование тезаурусом (алфавитный указатель всех ключевых слов, пермутационный указатель для элементов словосочетаний, частотный указатель и др.).

Пример дескрипторной статьи из Тезауруса по информатике:

ДОКУМЕНТАЛЬНЫЕ ИПС

с документальные информационно-поисковые системы

ср документально-фактографические ИПС

в ИПС

н БИБЛИОГРАФИЧЕСКИЕ ИПС

ДОКУМЕНТАЛЬНЫЕ АИПС

а ДОКУМЕНТАЛЬНАЯ ИНФОРМАЦИЯ

ДОКУМЕНТАЛЬНЫЙ ПОИСК

Еще один пример из двуязычного Тезауруса по сохранности документов:

***************************

Принципы построения тезауруса широко описаны в литературе и могут быть сведены к следующим:

1) ни одно редко встречающееся понятие не надо включать в тезаурус;

2) служебные (незначащие) слова в тезаурус не включаются;

3) термины слишком общего значения с высокой частотой встречаемости должны быть исключены из словаря;

4) у неоднозначных терминов должны быть закодированы только те их значения, в которых они встречаются в фонде обрабатываемых документов.

Помимо лексико-семантической нормализации, в ИПС всех типов необходима морфологическая нормализация лексических единиц текста (ИПЯ) – приведение всех словоформ одной и той же лексической единицы к некоторому стандартному, каноническому виду. В системах с ручным индексированием эта задача решается индексатором на уровне составления ПОД и ПОЗ. В остальных случаях разрабатываются автоматизированные методы учета словоизменения (см. об этом в разделе 2.4 «Языки запросов»).