Что такое хранилище данных в Azure Databricks?

Хранение данных относится к сбору и хранению данных из нескольких источников, что позволяет быстро получать доступ к бизнес-аналитике и отчетности. В этой статье содержатся основные понятия для создания хранилища данных в озере данных.

Хранение данных в озерном доме

Архитектура lakehouse и Databricks SQL позволяют создавать облачные хранилища данных в озера данных. Используя знакомые структуры данных, отношения и средства управления, вы можете моделировать высокопроизводительное, экономичное хранилище данных, которое работает непосредственно в озере данных. Дополнительные сведения см. в разделе "Что такое озера данных"?

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

Как и в случае с традиционным хранилищем данных, вы моделиируете данные в соответствии с бизнес-требованиями, а затем обслуживаете их конечным пользователям для аналитики и отчетов. В отличие от традиционного хранилища данных, можно избежать разведения данных бизнес-аналитики или создания избыточных копий, которые быстро становятся устаревшими.

Создание хранилища данных в lakehouse позволяет перенести все данные в одну систему и воспользоваться преимуществами таких функций, как каталог Unity и Delta Lake.

Каталог Unity добавляет единую модель управления, чтобы обеспечить безопасность и аудит доступа к данным и предоставить сведения о происхождении в подчиненных таблицах. Delta Lake добавляет транзакции ACID и эволюцию схемы, среди других мощных средств для обеспечения надежности, масштабирования и высокого качества данных.

Что такое Databricks SQL?

Примечание.

Databricks SQL Serverless недоступна в Azure Для Китая. Databricks SQL недоступна в Azure для государственных организаций регионах.

Databricks SQL — это коллекция служб, которые приносят возможности хранения данных и производительность в существующие озера данных. Databricks SQL поддерживает открытые форматы и стандартный SQL ANSI. Редактор SQL на платформе и средства мониторинга позволяют участникам команды сотрудничать с другими пользователями Databricks непосредственно в рабочей области. Databricks SQL также интегрируется с различными инструментами, чтобы аналитики могли создавать запросы и панели мониторинга в своих любимых средах без настройки новой платформы.

Databricks SQL предоставляет общие вычислительные ресурсы, выполняемые в таблицах в lakehouse. Databricks SQL работает на базе хранилищ SQL, предлагая масштабируемые вычислительные ресурсы SQL, отложенные от хранилища.

Дополнительные сведения о параметрах и параметрах хранилища SQL см. в статье "Что такое хранилище SQL".

Databricks SQL интегрируется с каталогом Unity, чтобы можно было обнаруживать, проверять и управлять ресурсами данных из одного места. Дополнительные сведения см. в разделе "Что такое каталог Unity"

Моделирование данных в Azure Databricks

Lakehouse поддерживает различные стили моделирования. На следующем рисунке показано, как данные курируются и моделироваются по мере перемещения по разным слоям озера.

A diagram showing various data models at each level of the medallion lakehouse archtecture.

Архитектура медальона

Архитектура медальона — это шаблон проектирования данных, описывающий ряд добавочных слоев данных, которые обеспечивают базовую структуру в lakehouse. Бронзовые, серебряные и золотые слои свидетельствуют о повышении качества данных на каждом уровне с золотом, представляющим наивысшее качество. Дополнительные сведения см. в разделе "Что такое архитектура medallion lakehouse?".

В озерном доме каждый слой может содержать одну или несколько таблиц. Хранилище данных моделиируется на серебряном слое и передает специализированные киоски данных на золотом слое.

Бронзовый слой

Данные могут входить в озеро в любом формате и с помощью любого сочетания пакетных или паровых транзакций. Бронзовый слой предоставляет целевое пространство для всех необработанных данных в исходном формате. Эти данные преобразуются в таблицы Delta.

Серебряный слой

Серебряный слой объединяет данные из разных источников. В рамках бизнеса, в котором основное внимание уделяется приложениям для обработки и машинного обучения и обработки и анализа данных, вы начинаете курировать значимые ресурсы данных. Этот процесс часто отмечается акцентом на скорости и гибкости.

Серебряный слой также позволяет тщательно интегрировать данные из разных источников для создания хранилища данных в соответствии с существующими бизнес-процессами. Часто эти данные соответствуют модели третьего нормального типа (3NF) или Data Vault. Указание ограничений первичного и внешнего ключа позволяет конечным пользователям понимать связи таблиц при использовании каталога Unity. Хранилище данных должно служить единственным источником истины для ваших киосков данных.

Само хранилище данных — это схема по записи и атомарная. Он оптимизирован для изменения, поэтому вы можете быстро изменить хранилище данных в соответствии с текущими потребностями при изменении или развитии бизнес-процессов.

Золотой слой

Золотой слой — это слой презентации, который может содержать один или несколько мартов данных. Часто метрики данных представляют собой трехмерные модели в виде набора связанных таблиц, которые фиксируют определенную бизнес-перспективу.

Золотой слой также содержит песочницы отдела и обработки и анализа данных, чтобы обеспечить самостоятельную аналитику и обработку и обработку данных на предприятии. Предоставление этих песочниц и собственных отдельных вычислительных кластеров запрещает группам бизнеса создавать копии данных за пределами lakehouse.

Следующий шаг

Дополнительные сведения о принципах и рекомендациях по реализации и эксплуатации lakehouse с помощью Databricks см. в статье "Общие сведения о хорошо спроектированном озере данных".