Продукты данных аналитики в масштабе облака в Azure

Продукты данных — это данные, предоставляемые как продукт и вычисляемые, сохраненные и обслуживаемые службами полиглотовой сохраняемости, которые могут потребоваться в некоторых вариантах использования. Процесс создания и обслуживания продукта данных может потребовать служб и технологий, которые не включены в основные службы целевой зоны данных . Примером этого может служить отчетность с нишевыми требованиями, такими как соответствие требованиям и налоговая отчетность.

Рекомендации по проектированию

Целевая зона данных может обслуживаться несколькими продуктами данных, созданными путем приема данных из одной целевой зоны данных или из нескольких целевых зон данных. Это показано на следующей схеме.

Схема использования целевых зон между данными.

В приведенном выше примере показано следующее:

  • Использование данных интразоны:
    • Продукт данных Б использует данные из продукта данных A и других данных или продуктов данных, существующих в озере данных в пределах его собственной целевой зоны.
    • Продукты данных C и D используют данные только из собственных целевых зон данных.
  • Использование данных интерзоны:
    • Продукт данных B также использует данные из продукта данных C и данных в озере данных целевой зоны 3.

Важно!

В случае использования данных между зонами, так как продукт данных B создается путем чтения из целевой зоны данных 3, этот доступ на чтение требует утверждения от групп операций целевой зоны данных и операций интеграции целевой зоны данных 3.

Важно!

Продукт данных B использует данные из продуктов данных A и C. Прежде чем это может произойти, продукт данных Б должен зарегистрировать свое потребление продуктов данных с помощью соглашений о совместном использовании данных. Это соглашение о совместном использовании данных должно обновлять происхождение от продукта данных А до продукта данных B и от продукта данных С до продукта данных B.

Группа ресурсов для продукта данных включает все службы, необходимые для его создания и обслуживания. Эту группу ресурсов можно назвать приложением данных. Примеры служб, которые могут быть частью приложения данных: Функции Azure, Служба приложений Azure, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Машинное обучение Azure, база данных Azure SQL. База данных Azure для MySQL и Azure Cosmos DB. Дополнительные сведения см. в разделе Примеры приложений данных.

Продукты данных содержат данные из источников данных READ , в которых были применены некоторые преобразования данных. Примерами могут быть недавно проверенный набор данных или отчет бизнес-аналитики.

Рекомендации по проектированию

Создавайте продукты данных в целевой зоне данных, придерживаясь принципов разработки, которые позволяют масштабироваться с помощью управления данными. В следующих разделах приведены рекомендации по проектированию, которые помогут вам спланировать экосистему приложений данных.

Развертывание нескольких групп ресурсов

Каждое приложение данных является группой ресурсов. Так как приложения данных являются вычислительными службами, службами полиглотовой сохраняемости или и тем, и другим, они могут потребоваться только в зависимости от определенных вариантов использования. Таким образом, они считаются необязательным компонентом целевой зоны данных. В случае, когда вам нужны приложения данных, создайте несколько групп ресурсов по приложениям данных, как показано на следующей схеме.

Схема групп ресурсов приложения данных.

Установка ограничений

Политика Azure управляет конфигурацией служб по умолчанию в целевой зоне данных. Операционная аналитика — это несколько групп ресурсов, которые команда разработчиков данных может запросить из стандартного каталога служб. С помощью Политика Azure можно настроить границу безопасности и необходимый набор функций.

Важно!

Чтобы обеспечить согласованность, настройте одну Политика Azure для каждого приложения данных.

Использование данных из нескольких мест

Приложения для работы с данными управляют и упорядочивают данные из нескольких ресурсов данных, а также представляют полученные аналитические сведения. Продукт данных является результатом данных из одного или нескольких приложений данных в целевых зонах данных. При необходимости разрешите приложениям получать доступ к данным из нескольких и различных источников.

Масштабирование по мере необходимости

Службы, составляющие приложения данных, являются добавочными развертываниями в целевой зоне данных. Масштабируйте приложения данных по мере необходимости.

Включение обнаружения данных

Автоматическая регистрация продуктов данных в каталоге данных, например Azure Purview , чтобы разрешить сканирование данных.

Определение своих продуктов данных

При планировании целевой зоны данных определите, как много продуктов данных (и приложений данных, которые выводят и поддерживают их) по мере необходимости, чтобы помочь управлять архитектурой приложений продукта данных. Соответствие реализованной системе управления платформой должно играть самую большую роль в ваших решениях.

Сосредоточьтесь на том, как приложения данных являются производителями и потребителями данных для других пользователей. Например, предположим, что вы определили набор продуктов данных (A, B, C и D), которые создаются и потребляются данными. Вам требуются продукты данных A и D в качестве источников данных в приложении данных B для продукта данных B. Продукт данных B создается на основе данных, которые приложение данных Б использует из продуктов данных A и D. Приложение данных B выступает в качестве самого производителя данных, а также создает данные для продукта данных C.

Схема производителя и потребителей данных.

Управление средой приложения данных с помощью инфраструктуры как кода

Управление и инфраструктура как код должны управлять средой приложения данных в экосистеме продуктов данных, как показано на предыдущей схеме.

Публикация моделей данных

Команды по обработке и анализу данных должны публиковать свои модели данных в репозитории моделирования.

Установка ожиданий для пользователей продукта данных

Обновите контракты на предоставление общего доступа к данным с помощью соглашений об уровне обслуживания и сертификации для продуктов данных, чтобы вы точно доносить ожидания для потенциальных пользователей продукта данных.

Сбор информации о происхождении данных

Если продукт данных B создается на основе данных, поступающих из продуктов данных A и D, происхождение данных должно быть записано из A и D в B. Дополнительные данные о происхождении данных также должны быть записаны для продукта данных C, так как он создается с использованием данных из продукта B. Обновленные данные о происхождении данных должны записываться в приложении для происхождения данных перед каждым выпуском продукта данных.

Примечание

Использование Azure Pipelines позволяет создавать шлюзы утверждения и вызывать функции, которые могут обеспечить регистрацию метаданных, происхождения данных и соглашений об уровне обслуживания в правильной службе управления.

Определение архитектуры приложения данных

Необходимо создать подробную архитектуру для каждого продукта данных, которая полностью определяет его связь с другими продуктами данных, его зависимости и требования к доступу.

Пример сценария проектирования

Чтобы понять процесс определения архитектуры, изучите следующий пример финансового учреждения и его продукта данных для мониторинга кредитов.

Подробная схема архитектуры define-data-product.

Продукт данных кредитного мониторинга, показанный на этой схеме, использует данные из хранилища данных для чтения , которое было приняты группой операций интеграции. Он создает продукты данных, которые также используются двумя другими продуктами данных.

Примечание

Источник данных для чтения или хранилище также называется золотым источником записей. Эти источники данных были очищены, но к ним не применены какие-либо преобразования.

Команда по продуктам для мониторинга кредитов запрашивает доступ на чтение к хранилищам данных для чтения, которые необходимы для создания продукта данных. Их запросы направляются владельцам данных для утверждения. Получив утверждение, команда разработчиков может приступить к созданию приложения данных.

Данные из источника данных для чтения преобразуются в продукты данных кредитного мониторинга. Все новые продукты данных хранятся в курируемом слое озера данных. Эти новые продукты данных и новое происхождение данных должны быть зарегистрированы в процессе развертывания DevOps. Функция может проверка зарегистрированные метаданные с физической структурой ресурса данных. Он должен регистрировать зависимость от ресурсов и продуктов данных источника данных для чтения.

Группа разработчиков данных об утверждении кредита зависит от некоторых продуктов данных для мониторинга кредитов. Специалисты по утверждению кредитов могут запрашивать доступ на чтение к продуктам данных для мониторинга кредитов, необходимых для своих продуктов данных. После выпуска продукта данных утверждения кредита и его приложения данных все ресурсы, происхождение и модели продуктов данных должны быть зарегистрированы в соответствующих службах управления.

Примеры приложений для работы с данными

В следующих разделах содержатся примеры приложений для работы с данными, чтобы проиллюстрировать сценарии применения данных.

Аналитика данных и приложение для обработки и анализа данных

Приложение для аналитики данных и обработки и анализа данных может содержать службы, показанные в примере приложения product-analytics-rgданных .

Схема, на которую показаны возможные службы, которые можно выбрать для развертывания приложения данных аналитики.

Примечание

Приведенное выше приложение данных доступно в виде шаблона, который развертывает набор служб, которые можно использовать для аналитики данных и обработки и анализа данных. Как и все наши шаблоны, этот шаблон приложения продукта данных является схемой, с помощью этой схемы можно быстро развернуть среды для кроссфункциональными командами. Все службы, которые вам не требуются, должны быть явно отключены.

Шаблон Data Product Analytics содержит все шаблоны для развертывания продукта данных для аналитики и обработки и анализа данных в целевой зоне данных сценария аналитики облачного масштаба.

Артефакты развертывания и кода включают следующие службы:

Пакетное приложение данных

Шаблон "Приложение пакетных данных" содержит все шаблоны для развертывания продукта данных для пакетной обработки данных в целевой зоне данных сценария облачной аналитики.

Артефакты развертывания и кода включают следующие службы:

Схема, на которую показаны возможные службы, которые можно выбрать для развертывания приложения для пакетных данных.

Приложение потоковой передачи данных

Шаблон Приложения потоковых данных содержит все шаблоны для развертывания продукта данных для обработки данных в режиме реального времени в целевой зоне данных сценария облачной аналитики.

Артефакты развертывания и кода включают следующие службы:

Схема, на которую показаны возможные службы, которые можно выбрать для развертывания приложения потоковой передачи данных.

Чтобы найти репозитории, содержащие упомянутые ранее шаблоны развертывания, см. шаблоны развертывания для аналитики в масштабе облака.

Дальнейшие действия

Приложения данных (с выравниванием по источнику)