Оперативный склад данных

Подсистема загрузки данных – программное обеспечение (ПО), которое в соответствии с определенным регламентом извлекает данные из источников и приводит их к единому формату, определенному для хранилища. Данная подсистема отвечает за формализованную логическую согласованность, качество и интеграцию данных, которые загружаются из источников в оперативный склад данных.

Хранилище данных (в узком смысле) представляет собой предметно-ориентированную базу или совокупность БД, извлекаемых из источников, которые организованы по сегментам, отражающим конкретную предметную область бизнеса: производство, правило, детальные слабо агрегированные данные.

Хранилище данных

Модель данных

Модель данных современных СППР строится на основе пяти классов данных:

- источников данных;

- хранилища данных (в узком смысле);

- оперативного склада данных;

- витрины данных;

- метаданных.

Определение понятию «хранилище данных» первым дал Уильям Инмон: «предметно-ориентированная, интегрированная, неразрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений».

Источниками данных хранилища служат оперативные транзакционные системы, которые обслуживают повседневную учетную деятельность компании. Необходимость включения той или иной транзакционной системы в качестве источника определяется бизнес-требованиями к СППР. Исходя из этих же требований, в качестве источников данных могут быть рассмотрены внешние системы, в том числе и Интернет. Детальные данные из источников могут либо напрямую поступать в хранилище, либо предварительно агрегироваться до требуемого уровня обобщения.

Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре.

На первом уровне расположены разнообразные источники данных − внутренние регистрирующие и справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели).

Второй уровень содержит центральное хранилище, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных, который не содержит исторических данных и выполняет две основные функции. Во-первых, он является источником аналитической информации для оперативного управления, и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и проведение определенных проверок. Наличие оперативного склада данных просто необходимо при различном регламенте поступления информации из источников.

Третий уровень представляет собой набор предметно-ориентиро­ван­ных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.

 

Хранилище на самом верхнем уровне состоит, как правило, из трех подсистем:

- подсистемы загрузки данных;

- подсистемы обработки запросов и представления данных;

- подсистемы администрирования хранилища.

Каждый источник данных требует разработки собственного загрузочного модуля. Каждый модуль должен решать два класса задач:

- начальной загрузки ретроспективных данных;

- регламентного пополнения хранилища данными из источников.

Подсистема также по регламенту извлекает детальные данные из оперативного склада, производит их агрегирование, консолидацию, транфор­­мацию и помещает данные в хранилище и витрины данных. Именно в этой подсистеме должны быть определены все бизнес-модели консолидации данных по иерархическим измерениям и выполнены вычисления зависимых бизнес-показателей по независимым исходным данным.

Подсистема обработки запросов и представления данных – ПО, которое обеспечивает извлечение данных, их аналитическую обработку и представление конечным пользователям. Как правило, можно выделить три типа этого ПО:

1) программное обеспечение регламентированной отчетности, которое характеризуется заранее предопределенными запросами данных и их представлениями бизнес-пользователям. От данного ПО не требуется быстрого времени реакции. Из соображений стоимости эффективности для его реализации в наибольшей степени подходит технология ROLAP;

2) программное обеспечение нерегламентированных запросов пользователей. Это ПО – основной способ общения бизнес-аналитиков с хранилищем, при котором каждый последующий запрос к данным и вид их представления определяются, как правило, результатами предыдущего запроса. Для приложений данного типа требуется высокая скорость обработки запросов (единицы секунд). Данное ПО реализуется техно­ло­ги­ей­MOLAP и специальными инструментами построения сложных нерегламентированных запросов с интуитивно понятным для бизнес-аналитиков графическим интерфейсом;

3) программное обеспечение добычи знаний, которое реализует сложные статистические алгоритмы и алгоритмы искусственного интеллекта, предназначенные для поиска скрытых в данных закономерностей, представления этих закономерностей, представления этих закономерностей в виде моделей и многовариантного прогнозирования по ним развития ситуаций по схеме «Что если …?».

Подсистема администрирования хранилища – ПО, связанное с поддерживанием системы и обеспечением ее устойчивой работы и расширения. Можно выделить, по крайней мере, четыре класса задач, расширение которых должна обеспечивать данная подсистема:

1) администрирование данных, которое включает в себя регулярное пополнение данных из источников, если необходимо; ручной ввод, сверку и корректировку данных в оперативном складе. Администрирование данных ведется, как правило, бизнес-пользователями, а ответственность распределяется по предметно-ориентированным сегментам;

2) администрирование хранилища данных. В задачу администрирования хранилища входят все вопросы, связанные с поддержанием архитектуры хранилища, обеспечением его эффективной и бесперебойной работы, защитой и восстановлением данных после сбоев;

3) администрирование доступа к данным обеспечивает сопровождение профилей пользователей, разграничение доступа к конфиденциальным данным, защиту информации от несанкционированного доступа;

4) администрирование метаданных системы.

Оперативный склад данных (Operational Data Store – ODS) − техноло­ги­ческий элемент хранения данных в СППР, который служит буфером между транзакционными источниками данных и хранилищем. Данные, прежде чем попасть в хранилище, должны быть преобразованы в единые форматы, очищены, объединены и синхронизированы. Например, данные, необходимые для поддержки принятия решения, могут существовать в транзакционной системе более короткое время (часы, дни), чем период пополнения данных хранилища (дни, недели). Или семантически однородные данные поступают из транзакционных систем в разное время. В этом случае оперативный склад данных служит аккумулятором данных, поступающих от источников, перед их загрузкой в хранилище. В отличие от хранилища данных информация в складе данных может изменяться со временем в соответствии с изменениями, происходящими в источниках данных.

Оперативный склад данных создается как промежуточный буфер между оперативными системами и хранилищем данных. Эта конструкция аналогична конструкции хранилища данных. Идентичность оперативного склада и хранилища данных состоит в их предметной ориентированности и хранении детальных данных. Отличие от хранилища данных состоит в том, что оперативный склад данных:

- имеет изменяемое содержимое,

- содержит только детальные данные,

- содержит текущие значения данных.

Детальные данные − это данные из оперативных и внешних систем, не подвергавшиеся операциям обобщения, суммирования, т.е. данные, не изменившие своей семантики. Из оперативных систем и внешних источников данные поступают в оперативный склад, проходя процессы трансформации.

Данные оперативного склада регулярно обновляются. Каждый раз, когда данные изменяются в оперативных системах и внешних источниках, соответствующие им данные из оперативного склада также должны быть изменены. Частота обновления оперативного склада зависит как от частоты обновления источников, так и от регламента загрузки данных в склад.

Витрины данных (Data mart)

Витрины данных можно представить в виде логически или физически разделенных подмножеств хранилищ данных. Обычно они строятся для обслуживания нужд определенной группы пользователей.

Источником данных для витрин служат данные хранилища, которые, как правило, агрегируются и консолидируются по различным уровням иерархии. Детальные данные могут также помещаться в витрину или присутствовать в ней в виде ссылок на данные хранилища.

Функционально ориентированные витрины данных представляют собой структуры данных, обеспечивающие решение аналитических задач в конкретной функциональной области или подразделении компании, например управление прибыльностью, анализ рынков, анализ ресурсов и пр. Иногда эти структуры хранения данных называют также киосками данных.

Различные витрины данных содержат разные комбинации и выборки одних и тех же детализированных данных хранилища. Важно, что данные витрины поступают из центрального хранилища данных.