Проектирование и разработка хранилищ данных DWH
Data Warehouse = DWH = Хранилище данных (rus) – это платформа (набор программ), содержащая базу данных, средство для потоковой обработки данных (ETL-средство) и агента (оркестратора), выполняющего запуск процедур ETL. Хранилище может быть аналитическим или операционным.
Какие задачи решает хранилище:
- Распространение мастер-данных предприятия (количество баз данных прикладных систем предприятия может достигать нескольких десятков, но есть данные, единые для всего предприятия. Централизованное их распространение позволяет избежать трудозатрат на повторный ввод данных и их консолидацию в случае построения единых отчетов)
- Обеспечивает качество данных (данные, собираемые учетными системами не всегда удовлетворяют требованиям качества. На уровне хранилища выполняется «очистка» данных, т.е. приведение к нужному виду, дедупликация, унификация)
- Предоставляет консолидированные данные для систем визуализации, таких как системы отчетности и [OLAP-кубы]
- Обеспечивает эффективное хранение данных предприятия
Концептуальная схема хранилища данных DWH:

Для реализации хранилища потребуется:
- Собрать требования заинтересованных сторон – хранилище можно считать сервисом, предоставляющим услуги потребителям, а с любым сервисом заключается SLA с точными требованиями к работе
- Спроектировать и описать модель данных – проектируя новую модель данных, необходимо документировать знание о ней. Описание структуры — лучший способ снизить порог изучения базы данных хранилища новыми разработчиками и архитекторами
- Спроектировать решение по выбору инструментов и платформ – от того, какое решение выбрано, будет зависеть дальнейшая судьба хранилища. Каких специалистов придется искать, на сколько популярны их компетенции на рынке, какую цену придется заплатить предприятию в будущем за поддержание инфраструктуры хранилища
- Разработать структуру СУБД – согласно спроектированной модели данных создается физическая структура хранилища данных
- Разработать процедуры (ETL) трансформаций данных – необходимо правильно организовать движение данных, безопасно отследить изменения в прикладных системах, выполнить трансформации и загрузить данные в хранилище. Подобный процесс реализуется в таком типе программ, как ETL-средство
- Отладить и протестировать – при разработке неизбежны ошибки, и их необходимо выявить на этапе тестирования, чтобы иметь как можно меньше инцидентов при поддержке продукта в будущем
Считаете, что создадим «черный ящик», в котором никому не разобраться?
- Модель данных описывается до каждого атрибута в специальной программе (CASE-средстве) или непосредственно в структуре БД
- Описываем функциональное назначение процедур ETL, доступных для понимания любому разработчику DWH
- В случае особых требований организуем систему мониторинга доставки и качества данных
С какими платформами мы работаем?
- В первую очередь — с Microsoft SQL Server. Но мы не навязываем, а предлагаем варианты решений, изучив популярность СУБД Вашей компании, и после согласования с Вами начинаем разработку хранилища данных
Создание корпоративного хранилища данных (DWH) — нетривиальная задача, ведь каждый случай уникален. Профессионально спроектируем и внедрим хранилище для вашей IT архитектуры. Переделаем существующее хранилище (рефакторинг).