Анализ информации и построение словарей

Состав и структура дескрипторных ИПЯ.

В соответствии с принципом чистой координации документа выдается на запрос в том случае, если их поисковые образы имеют не менее общих ключевых слов.

Дескрипторные ИПЯ

В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов, т.е. списком наиболее существенных для понимания текста названных полнозначных слов. Полнозначные слова – существительные, прилагательные, глаголы, наречия, числительные, местоимения. Неполнозначные слова – предлоги, союзы, частицы, связки.

Принцип чистого координатного индексирования и поиска состоит в индексировании документов и запросов списками ключевых слов, являющихся ПОДами и ПОЗами, и в последующем сравнении полученных списков.

 

Списать! =)

 

 

Рисунок

 

04.05.

Рассмотрим запрос , поисковый образ которого есть

 

Документ отвечает на запрос ( релевантен ), если

 

Подмножество релевантно запросу , если

 

 

При использовании чистой координации при поиске могут возникнуть следующие нежелательные ситуации:

1. Ложная координация (в массиве, выданном на запрос, может быть документ, который не отвечает запросу)

2. Неполная координация (выдача документа, несоответствующего запросу)

3. Синонимия ключевых слов (выдача отсутствует, хотя необходимо было выдать документ, содержащий синоним искомого термина)

4. Полисемия (выдача ненужных документов)

5. Необозначенность родо-видовых (парадигматических) связей (выдача отсутствует, хотя необходимо было выдать документ, содержащий родо-видовую связь с искомым термином)

6. Ложные синтагматические связи (выдача документа, не отвечающего запросу)

7. Невыдача документов, близких по смыслу запросу (большое значение K)

Для ликвидации указанных недостатков необходимы:

1. Устранение синонимии, полисемии, омонимии

2. Учет парадигматических связей

3. Учет синтагматических связей

 

Основными элементами ДИПЯявляются:

1. Словарь лексических единиц (ЛЕ), обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц

2. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документа запросов (слов и словосочетаний – морфология; фраз, текстов в целом – синтаксис) с естественного языка на ИПЯ.

3. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т.е. его словаря и правил применения.

 

Задача построения словарей состоит в следующем: по заданному классу текстов необходимо выбрать попарно-различимые лексические единицы (словоформы, основы слов, КС, дескрипторы и т.д.), определить их морфологические, синтаксические и семантические характеристики и расположить в заранее обусловленном порядке.

Существует три способа построения словарей: априорный, апостериорный, динамический.

 

Априорный. Лексические единицы выделяются из различных терминологических источников (справочников, энциклопедий, словарей, классификаторов и т.д.) по заданной тематике). После отбора лексики проводят ее семантическую обработку и строят словари.

Апостериорный. Лексика формируется из представительной выработки будущего фонда документов. Далее проводят ее семантическую обработку и строят словари.

Динамический способ. Процессы накопления лексики, ее семантическая обработка и построение словарей совмещены с процессом эксплуатации ИПС.