Что такое архитектура медальона в гибридном решении "хранилище и озеро данных"?

Архитектура медальона описывает ряд слоев данных, которые соответствуют качеству данных, хранящихся в гибридном решении "хранилище и озеро данных". Databricks рекомендует использовать многоуровневый подход к созданию единого источника истины для корпоративных продуктов данных. Эта архитектура гарантирует атомарность, согласованность, изоляцию и устойчивость, так как данные проходят через несколько уровней проверок и преобразований, прежде чем они будут сохранены в схеме, оптимизированной для эффективной аналитики. Термины бронзовый (необработанные), серебряный (проверенные) и золотой (обогащенные) описывают качество данных в каждом из этих уровней.

Важно отметить, что эта архитектура медальона не заменяет другие методы моделирования измерений. Схемы и таблицы на каждом уровне могут принимать различные формы и степени нормализации в зависимости от частоты и характера обновлений данных и подчиненных вариантов использования данных.

Организации могут использовать Databricks lakehouse для создания и обслуживания проверенных наборов данных, доступных во всей компании. Внедрение организационного мышления, ориентированного на управление данными как продуктами, является ключевым шагом в успешном построении гибридного решения "хранилище и озеро данных".

Прием необработанных данных на бронзовом уровне

На бронзовом уровне хранятся непроверенные данные. Данные, принимаемые на бронзовом уровне, обычно:

  • сохраняют исходное состояние как в источнике данных;
  • добавляются постепенно и со временем увеличиваются в объеме;
  • могут представлять собой любое сочетание потоковых и пакетных транзакций.

Сохранение полного необработанного журнала каждого набора данных в эффективном формате хранения позволяет воссоздать любое состояние заданной системы данных.

Кроме того, во время приема данных в них можно добавить дополнительные метаданные (например, имена исходных файлов или запись данных времени обработки) для повышения возможности обнаружения, описания состояния исходного набора данных и оптимизации производительности в последующих приложениях.

Проверка и дедупликация данных на серебряном уровне

Напомним, что на бронзовом уровне хранится весь журнал данных практически в исходном необработанном состоянии, а на серебряном уровне хранятся проверенная, обогащенная версия данных, которую можно передавать для последующей аналитики.

Несмотря на то, что в Databricks активно продвигают концепцию гибридного решения "хранилище и озеро данных", включающего таблицы на бронзовом, серебряном и золотом уровнях, уже только реализация серебряного уровня позволит сразу же получить множество потенциальных преимуществ гибридного решения.

Для любого конвейера данных серебряный уровень может содержать несколько таблиц.

Power Analytics с золотом уровнем

Эти данные на золотом уровне часто являются глубоко переработанными и агрегированными, это данные, которые предоставляют возможности аналитики, машинного обучения и рабочих приложений. Хотя все таблицы в подобном гибридном комплексе должны быть предназначены для решения важной задачи, золотые таблицы содержат данные, которые были преобразованы не просто в информацию, а в знания.

При выполнении своих основных обязанностей аналитики в основном используют золотые таблицы, а данные, к которым предоставляют доступ клиентам, редко хранятся за пределами этого уровня.

Обновления в этих таблицах выполняются в рамках регулярно запланированных рабочих нагрузок, что помогает контролировать затраты и позволяет устанавливать соглашения об уровне обслуживания для обеспечения актуальности данных.

Хотя в lakehouse нет одинаковых проблем взаимоблокировки, которые могут возникнуть в корпоративном хранилище данных, золотые таблицы часто хранятся в отдельном контейнере хранилища, чтобы избежать ограничений облака на запросы данных.

Поскольку операции агрегирования, объединения и фильтрации обрабатываются до записи данных на золотой слой, пользователи должны видеть низкую задержку во время обработки запросов к данным в золотых таблицах.