Виды документальных информационных систем

ТЕМА 5 «ДОКУМЕНТАЛЬНЫЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ»

Виды документальных информационных систем

Классификационные информационно-поисковые языки

Системы индексирования

Полнотекстовые информационно-поисковые системы

Виды документальных информационных систем

Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД.

Однако создание фактографических информационных систем требует предварительной структуризации данных, например, на основе таблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографических системах зачастую экономически не оправдано.

Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов [14].

Элементом данных в документальных ИС является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл.

Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.

Документальная информационная система (ДИС) — единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов [14].

Поисковый характер документальных информационных систем определил еще одно их название — информационно-поисковые системы (ИПС).

Соответствие найденных документов информационным потребностям пользователя называется пертинентностью. В силу теоретических и практических сложностей формализации смыслового содержания документов пертинентность относится скорее к качественным понятиям.

В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы [14]:

• системы на основе индексирования;

• семантически-навигационные системы.

Семантика (от греч. semantikos — обозначающий) — значения единиц языка.

В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса — координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов [14].

На основе определенных критериев ДИС осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.

Соответствие найденных документов запросу пользователя называется релевантностью.

Схема устройства и функционирования ДИС на основе индексирования приведена на рис. 5.1 [14].

Рисунок 5.1Схема функционирования дис на основе индексирования

 

Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную) для выражения содержания документа и поискового запроса [14].

Основными элементами ИПЯ являются алфавит, лексика и грамматика.

Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ.

Лексика, или словарный состав, ИПЯ — совокупность слов, словосочетаний и выражений, используемых для построения текстов НИЯ.

Грамматика ИПЯ — совокупность средств и способов построения, изменения и сочетания лексических единиц.

Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска [14].

Полнота информационного поиска R определяется отношением числа найденных релевантных документов А к общему числу релевантных документов С, имеющихся в системе [14]:

, (5.1)

Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу документов L, выданных на запрос пользователя [14]:

, (5.2)

Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума К определяется отношением числа нерелевантных документов (L - А), выданных в ответе пользователю, к общему числу документов L, выданных на запрос пользователя [14]:

,(5.3)