Тезаурусы АИС
Тезаурус (Thesaurus) представляет собой толковый дескрипторный словарь, в котором значение каждой стандартной лексической единицы (дескриптора - слова или словосочетания) интерпретируется через связи с другими дескрипторами.
Тезаурус в печатной форме обычно включает две части:
· систематический указатель дескрипторов;
· алфавитный указатель.
Любая часть тезауруса есть перечень дескрипторных статей, упорядоченных в первом случае по тематическим группам и подгруппам, а во втором - в алфавитном порядке.
Дескрипторная статья начинается списком запрещенных понятий, заменяемых при индексировании данным дескриптором. Далее, в ней содержатся сведения о связи заглавного с другими дескрипторами
Правильная структура тезауруса должна удовлетворять следующим очевидным условиям:
· полнота - каждый термин обязательно должен быть или заглавным дескриптором какой-либо статьи, или запрещенным термином;
· корректность.
При составлении тезаурусов иногда используют также отношения «часть-целое», «причина-целое», «объект-применение» и т. д., однако в большинстве случаев достаточно ограничиться указанными ВТ, RT, NT, сводя к ним остальные типы.
Информационные языки
Делятся на:
1. языки манипулирования данными
2. языки описания данных
Языки манипулирования данными делятся на 2 части:
- поиск данных ( предполагается наличие критерия смыслового соответствия или решающего правила, определяющего факт формального отношения поискового образа документа к поисковому образу запроса);
- отображение данных ( предполагается наличие языковых или иных средств описания форматов (вкладов или подсхем) представления сгенерированных системой данных пользователю).
Языки манипулирования данными включают в себя:
- языки запросов (SQL);
- информационно-поисковые языки ( включают в себя лексику, т.е. словарь единиц текста, используемых для индексирования и грамматику, т.е. совокупность правил составления поисковых образов и уточнения смысла лексических единиц по контексту и позициям).
Самым распространенным языком описания данных является язык SQL, в котором основным компонентом является база данных. Но существуют и другие языки, которые базируются на понятии словаря данных.
Структуру БД можно разделить на логическую и физическую.
Основные элементы логических структур данных в АИС
БД:
1. Элементарные поля
· Число
· Поля
· Дата и время
2. Агрегаты данных
· Векторные
· Групповые
· Периодические группы
3. Текстовые поля
· Параграф
· Предложение
· Слово
4. Бинарные объекты
· Графика
· Видео
· Аудио
БД может включать одну или несколько подбаз, каждая из которых состоит из агрегатов данных (записей или документов). Запись определяется внутренним номером.
Агрегат – это именованная совокупность элементов данных, представленных простой или иерархической структурой, например массивы, записи, комплексные числа и т.д.
Запись – это совокупность разнотипных и разноструктурных данных, описывающих объект реального мира. Запись состоит из полей.
Поле – это именованный элементарный или составной фрагмент записи, содержащий информацию об определенном объекте элемента предметной области.
Возможны следующие структуры полей:
· Элементарные – имеют фиксированную или ограниченную длину и не содержат входящих в них структур данных
· Составные (групповые) – образуются как агрегаты элементарных полей и также имеют фиксированную или ограниченную длину
· Текстовые – поля переменной длины и сложной внутренней структуры, например иерархическая последовательность: раздел, подраздел, параграф, предложение, слово
· Бинарные – данные, интегрируемые как поля, но обычно физически не входящие в состав записей БД