Системы индексирования
Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ [29].
Рассмотрим классификацию систем индексирования [29].
1. По степени автоматизации процесса индексирования выделяют системы:
• ручного индексирования;
• автоматического индексирования
• автоматизированного индексирования.
2. По степени контролируемости различают системы:
• без словаря;
• с жестким словарем;
• со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
• с последовательным просмотром текста (отбираются все полнозначные слова);
• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
• со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для ПОД берутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).