BIWEB | Внедрение готовых решений BI

Проектирование и разработка хранилищ данных DWH

Data Warehouse = DWH = Хранилище данных (rus) – это платформа (набор программ), содержащая базу данных, средство для потоковой обработки данных (ETL-средство) и агента (оркестратора), выполняющего запуск процедур ETL. Хранилище может быть аналитическим или операционным.

Какие задачи решает хранилище:

  • Распространение мастер-данных предприятия (количество баз данных прикладных систем предприятия может достигать нескольких десятков, но есть данные, единые для всего предприятия. Централизованное их распространение позволяет избежать трудозатрат на повторный ввод данных и их консолидацию в случае построения единых отчетов)
  • Обеспечивает качество данных (данные, собираемые учетными системами не всегда удовлетворяют требованиям качества. На уровне хранилища выполняется «очистка» данных, т.е. приведение к нужному виду, дедупликация, унификация)
  • Предоставляет консолидированные данные для систем визуализации, таких как системы отчетности и [OLAP-кубы]
  • Обеспечивает эффективное хранение данных предприятия

Концептуальная схема хранилища данных DWH:

DWH_DATA_WAREHOUSES_BIWEB

Для реализации хранилища потребуется:

  • Собрать требования заинтересованных сторон – хранилище можно считать сервисом, предоставляющим услуги потребителям, а с любым сервисом заключается SLA с точными требованиями к работе
  • Спроектировать и описать модель данных – проектируя новую модель данных, необходимо документировать знание о ней. Описание структуры — лучший способ снизить порог изучения базы данных хранилища новыми разработчиками и архитекторами
  • Спроектировать решение по выбору инструментов и платформ – от того, какое решение выбрано, будет зависеть дальнейшая судьба хранилища. Каких специалистов придется искать, на сколько популярны их компетенции на рынке, какую цену придется заплатить предприятию в будущем за поддержание инфраструктуры хранилища
  • Разработать структуру СУБД – согласно спроектированной модели данных создается физическая структура хранилища данных
  • Разработать процедуры (ETL) трансформаций данных – необходимо правильно организовать движение данных, безопасно отследить изменения в прикладных системах, выполнить трансформации и загрузить данные в хранилище. Подобный процесс реализуется в таком типе программ, как ETL-средство
  • Отладить и протестировать – при разработке неизбежны ошибки, и их необходимо выявить на этапе тестирования, чтобы иметь как можно меньше инцидентов при поддержке продукта в будущем

Считаете, что создадим «черный ящик», в котором никому не разобраться?

  • Модель данных описывается до каждого атрибута в специальной программе (CASE-средстве) или непосредственно в структуре БД
  • Описываем функциональное назначение процедур ETL, доступных для понимания любому разработчику DWH
  • В случае особых требований организуем систему мониторинга доставки и качества данных

С какими платформами мы работаем?

  • В первую очередь — с Microsoft SQL Server. Но мы не навязываем, а предлагаем варианты решений, изучив популярность СУБД Вашей компании, и после согласования с Вами начинаем разработку хранилища данных

Создание корпоративного хранилища данных (DWH) — нетривиальная задача, ведь каждый случай уникален. Профессионально спроектируем и внедрим хранилище для вашей IT архитектуры. Переделаем существующее хранилище (рефакторинг).