Возможности Integration Services для работы с OLAP. Архитектура служб SSIS. Пакет SSIS.

 

Службы SQL Server Integration Services (SSIS) представляют собой платформу для построения высокопроизводительных решений интеграции данных и решений потока операций, включая операции извлечения, преобразования и загрузки (Extract, Transform, Load – ETL) для хранилищ данных.

 

Типичные случаи применения пакетов служб SSIS совместно с SSAS включают в себя:

слияние данных из разнородных хранилищ данных;

заполнение хранилищ данных и витрин данных;

очистка и стандартизация данных.

 

Слияние данных из разнородных хранилищ данных

Данные обычно хранятся во множестве различных систем хранилищ данных, и извлечение данных из всех источников и их слияние в единый согласованный набор данных может представлять собой довольно сложную задачу.

Службы SSIS могут подключиться ко многим типам источников данных, включая несколько источников данных одного пакета. Службы SSIS содержат компоненты источника, осуществляющие работу по извлечению данных из плоских файлов, рабочих листов Excel, XML-документов, а также таблиц и представлений реляционных БД из источника данных, к которому подключается пакет.

Затем данные обычно преобразуются с помощью преобразований, содержащихся в службах SSIS. После того, как данные преобразованы в совместимые форматы, они могут быть физически объединены в один набор.

 

Заполнение хранилищ данных и витрин данных

Данные в хранилищах и витринах данных обновляются часто, а объем загружаемых данных обычно довольно велик.

Службы SSIS содержат задачу, которая производит массовую загрузку данных прямо из плоского файла в таблицы и представления SQL Server, а также компонент назначения, производящий массовую загрузку данных в базу данных SQL Server в качестве последнего шага преобразования данных.

Можно использовать пакеты служб SSIS для загрузки в базу данных таблиц измерений и фактов.

Обновление данных в хранилищах и витринах данных может стать сложной задачей, так как оба типа хранилищ данных обычно содержат медленно изменяющиеся измерения, которыми бывает сложно управлять с помощью преобразования данных. Мастер медленно изменяющихся измерений автоматизирует поддержку медленно изменяющихся измерений, динамически создавая инструкции SQL, которые обновляют и заменяют записи, обновляют связанные записи, а также добавляют новые столбцы в таблицы.

Кроме того, задачи и преобразования в пакетах служб SSIS могут обрабатывать кубы и измерения служб SSAS.

Службы SSIS могут также вычислять функции перед загрузкой данных в назначение.

 

Очистка и стандартизация данных

Перед загрузкой данных для оперативной обработки транзакций (OLTP) или в базу данных оперативной аналитической обработки (OLAP), рабочий лист Excel или файл, данные необходимо очистить и стандартизировать.

Службы SSIS содержат встроенные преобразования, которые можно добавить к пакетам для очистки и стандартизации данных, изменения регистра данных, преобразования данных в иной тип или формат, а также для создания нового столбца данных на основе выражений. Пакет служб SSIS также может произвести очистку данных путем замены значений в столбцах на значения ссылочной таблицы, используя уточняющие запросы или нечеткие уточняющие запросы для поиска значений в ссылочной таблице

Другое преобразование производит очистку данных с помощью группирования похожих значений набора данных. Это полезно при распознавании записей, которые могут быть дубликатами и поэтому не должны быть включены в базу данных без дальнейшей оценки. Например, сравнивая адреса в списке записей клиентов, можно найти несколько дублирующих записей.

 

Архитектура служб SSIS

Конструктор служб SSIS – это графическое средство, с помощью которого можно создавать и обслуживать пакеты служб Integration Services

Среда выполнения служб SSIS сохраняет макет пакетов, выполняет пакеты и обеспечивает поддержку ведения журналов, точек останова, настройки, соединений и транзакций.

Исполняемые объекты времени выполнения служб SSIS – это пакеты, контейнеры, задачи и обработчики событий, содержащиеся в службах SSIS. К числу исполняемых объектов среды выполнения принадлежат также разрабатываемые пользовательские задачи.

Задача потока данных инкапсулирует подсистему обработки потока данных. Подсистема обработки потока данных предоставляет размещенные в памяти буферы для перемещения данных из источника на целевой объект и вызова средств для извлечения данных из файлов и реляционных баз данных.

Модель объектов служб SSIS включает управляемые прикладные программные интерфейсы (API) для создания пользовательских компонентов, используемых в пакетах, или пользовательских приложений для создания, загрузки, выполнения пакетов и управления ими.

Служба SSIS позволяет использовать среду SQL Server Management Studio для наблюдения за работой пакетов служб SSIS и управления хранением пакетов.

Мастер импорта и экспорта SQL Server может копировать данные из любого источника данных и в любой источник данных, для которого доступен управляемый поставщик данных .NET Framework или собственный поставщик данных OLE DB.

Службы SSIS включают дополнительные средства, мастера и программы командной строки для выполнения пакетов служб SSIS и управления ими.