Архитектура хранилища данных. Категории данных в хранилище. Информационные потоки в ХД.
Компоненты архитектуры ХД:
- средства извлечения данных различных БД
- средства трансформации и очистки данных
- ПО БД
- средства для соединения источников данных с хранилищем и клиентов с сервером
Также необходимы:
- спец. прог. средства для проектирования хранилища
- средства работы с репозиторием метаданных
- средства OLAP
Осн. типы программно-аппар. архитектуры ХД
-системы с глобальным ХД
-системы с независимыми витринами данных
-системы с интегрированными витринами данных
-системы на основе комбинации архитектур
кроме того, хранилища м.б. централизованными и распределёнными.
Все данные в ХД делятся на три категории:
- детальные данные – данные, переносимые непосредственно из OLTP-подсистем. Соответствуют элементарным событиям, фиксируемым в OLTP-системах. Подразделяются на:
* измерения – наборы данных, необходимые для описания событий (товар, продавец, покупатель, магазин, … );
* факты – данные, отражающие сущность события (количество проданного товара, сумма продаж, …);
- агрегированные (обобщенные) данные – данные, получаемые на основании детальных путем суммирования по определенным измерениям;
- метаданные – данные о данных, содержащихся в ХД. Могут описывать:
* объекты предметной области, информация о которых содержится в ХД;
* категории пользователей, использующих данные в ХД;
* места и способы хранения данных;
* действия, выполняемые над данными;
* время выполнения различных действий над данными;
* причины выполнения различных действий над данными.
Информационные потоки в ХД
Данные в ХД образуют следующие информационные потоки:
-входной поток – образуется данными, копируемыми из OLTP-систем в ХД; данные при этом часто очищаются и обогащаются путем добавления новых атрибутов;
-поток обобщения – образуется агрегированием детальных данных и их сохранением в ХД;
-архивный поток – образуется перемещением детальных данных, количество обращений к которым снизилось;
-поток метаданных – образуется потоком информации о данных в репозиторий данных;
-выходной поток – образуется данными, извлекаемыми пользователями;
-обратный поток – образуется очищенными данными, записываемыми обратно в OLTP-системы.