Тезаурусы АИС

Тезаурус (Thesaurus) представляет собой толковый дескрипторный словарь, в котором значение каждой стандартной лексической единицы (дескриптора - слова или словосочетания) интерпретируется через связи с другими дескрипторами.

Тезаурус в печатной форме обычно включает две части:

· систематический указатель дескрипторов;

· алфавитный указатель.

Любая часть тезауруса есть перечень дескрипторных статей, упорядоченных в первом случае по тематическим группам и подгруппам, а во втором - в алфавитном порядке.

Дескрипторная статья начинается списком запрещенных понятий, заменяемых при индексировании данным дескриптором. Далее, в ней содержатся сведения о связи заглавного с другими дескрипторами

Правильная структура тезауруса должна удовлетворять следующим очевидным условиям:

· полнота - каждый термин обязательно должен быть или заглавным дескриптором какой-либо статьи, или запрещенным термином;

· корректность.

При составлении тезаурусов иногда используют также отношения «часть-целое», «причина-целое», «объект-применение» и т. д., однако в большинстве случаев достаточно ограничиться указанными ВТ, RT, NT, сводя к ним остальные типы.

Информационные языки

Делятся на:

1. языки манипулирования данными

2. языки описания данных

Языки манипулирования данными делятся на 2 части:

- поиск данных ( предполагается наличие критерия смыслового соответствия или решающего правила, определяющего факт формального отношения поискового образа документа к поисковому образу запроса);

- отображение данных ( предполагается наличие языковых или иных средств описания форматов (вкладов или подсхем) представления сгенерированных системой данных пользователю).

Языки манипулирования данными включают в себя:

- языки запросов (SQL);

- информационно-поисковые языки ( включают в себя лексику, т.е. словарь единиц текста, используемых для индексирования и грамматику, т.е. совокупность правил составления поисковых образов и уточнения смысла лексических единиц по контексту и позициям).

Самым распространенным языком описания данных является язык SQL, в котором основным компонентом является база данных. Но существуют и другие языки, которые базируются на понятии словаря данных.

Структуру БД можно разделить на логическую и физическую.

Основные элементы логических структур данных в АИС

БД:

1. Элементарные поля

· Число

· Поля

· Дата и время

2. Агрегаты данных

· Векторные

· Групповые

· Периодические группы

3. Текстовые поля

· Параграф

· Предложение

· Слово

4. Бинарные объекты

· Графика

· Видео

· Аудио

БД может включать одну или несколько подбаз, каждая из которых состоит из агрегатов данных (записей или документов). Запись определяется внутренним номером.

Агрегат – это именованная совокупность элементов данных, представленных простой или иерархической структурой, например массивы, записи, комплексные числа и т.д.

Запись – это совокупность разнотипных и разноструктурных данных, описывающих объект реального мира. Запись состоит из полей.

Поле – это именованный элементарный или составной фрагмент записи, содержащий информацию об определенном объекте элемента предметной области.

Возможны следующие структуры полей:

· Элементарные – имеют фиксированную или ограниченную длину и не содержат входящих в них структур данных

· Составные (групповые) – образуются как агрегаты элементарных полей и также имеют фиксированную или ограниченную длину

· Текстовые – поля переменной длины и сложной внутренней структуры, например иерархическая последовательность: раздел, подраздел, параграф, предложение, слово

· Бинарные – данные, интегрируемые как поля, но обычно физически не входящие в состав записей БД