Управление данными в Azure Data Lake с помощью Microsoft Purview

Фабрика данных Azure
Microsoft Purview
Azure Data Lake Storage
Azure Synapse Analytics
Power BI

Идеи решения

Эта статья является идеей решения. Если вы хотите расширить содержимое с дополнительными сведениями, такими как потенциальные варианты использования, альтернативные службы, рекомендации по реализации или рекомендации по ценам, сообщите нам, предоставив отзыв GitHub.

В этой статье описывается решение, использующее Azure Purview для создания основы для управления данными и управления ими, которое может создавать и доставлять высококачественные доверенные данные.

Архитектура

Architecture diagram that shows how Azure Purview scans and classifies data.

Схема, на которую показано, как Azure Purview сканирует и классифицирует данные. Data Lake служба хранилища подключается к Azure Purview с помощью современной платформы данных. Azure Purview также подключается к Power BI. На схеме также показана интеграция между этими службами и идентификатором Microsoft Entra, Azure Monitor и Azure Key Vault.

Скачайте файл Visio для этой архитектуры.

Поток данных

Azure Purview предоставляет единую единую службу управления данными для данных из всех источников, в озере данных и в конечных средствах отчетности.

Сценарии подключения Azure Purview к службам Data Lake:

  1. Azure Purview обеспечивает улучшенное подключение к приему озера данных, хранилищу и конвейерам аналитики для автоматического каталога ресурсов данных. Он также предоставляет происхождение между этими службами. К определенным службам Azure относятся Фабрика данных, Data Lake служба хранилища и Azure Synapse Analytics.

  2. Azure Purview изначально подключается к Power BI и другим средствам создания отчетов и визуализации. В нем показано происхождение данных, используемых в конечных отчетах. Кроме того, он предоставляет общие сведения о конфиденциальности из ресурсов Power BI, чтобы предотвратить неправильное использование данных.

Важно!

Сведения, передаваемые из источников в Azure Purview, — это метаданные, описывающие данные в сканированных источниках. Фактические данные не передаются из источников в Azure Purview.

Возможности

  • Каталог. Каталог данных Azure Purview может автоматически записывать и описывать основные характеристики данных в источнике, включая схему, технические свойства и расположение. Глоссарий Azure Purview позволяет создать понятное для бизнеса определение данных, которые можно развернуть поверх, чтобы улучшить поиск и обнаружение.

  • Классификация. Azure Purview автоматически классифицирует наборы данных и элементы данных с 100 предопределенными классификациями конфиденциальных данных. Он также позволяет определять собственные пользовательские схемы классификации, которые можно применять вручную и автоматически.

  • Происхождение. Схема Azure Purview визуально визуализирует происхождение в фабрике данных, Azure Synapse Analytics и конвейерах Power BI. Эти визуализации показывают сквозной поток данных на детальном уровне.

  • Контроль доступа. Политика управления доступом Azure Purview позволяет определять и предоставлять доступ к ресурсам данных из каталога непосредственно в базовых источниках.

  • Право собственности. Azure Purview позволяет применять владение данными и управление ими к ресурсам данных и элементам глоссария в каталоге.

  • Аналитические сведения. Аналитика в Azure Purview предоставляют несколько предопределенных отчетов, которые помогают специалистам по управлению данными, специалистам по управлению данными получить подробное представление о ландшафте данных.

Компоненты

  • Azure Purview — это единый каталог данных, который управляет локальными, многооблачными и программными средствами как услугами (SaaS). Эта служба управления данными поддерживает карты ландшафта данных. К функциям относятся автоматическое обнаружение данных, классификация конфиденциальных данных и происхождение данных.

  • Фабрика данных — это полностью управляемая, бессерверная служба интеграции данных, которая помогает создавать процессы ETL и ELT.

  • Data Lake служба хранилища предоставляет масштабируемое, высокобезопасное и экономичное облачное хранилище для высокопроизводительных рабочих нагрузок аналитики.

  • Azure Synapse Analytics — это безграничная служба аналитики, которая объединяет интеграцию данных, хранение корпоративных данных и аналитику больших данных.

  • Power BI — это коллекция программных служб и приложений. Эти службы создают и совместно используют отчеты, которые подключают и визуализируют несколько источников данных. При использовании Power BI с Azure Purview он может каталогизировать и классифицировать данные и предоставлять детализированное происхождение, иллюстрированное с конца.

  • Приватный канал Azure обеспечивает частное подключение из виртуальной сети к службам Платформы Azure как услуга (PaaS), службам, принадлежащим вам или партнерским службам Майкрософт.

  • Azure Key Vault хранит и управляет доступом к секретам, таким как токены, пароли и ключи API. Key Vault также создает и контролирует ключи шифрования и управляет сертификатами безопасности.

  • Идентификатор Microsoft Entra предлагает облачные службы управления удостоверениями и доступом. Эти функции позволяют пользователям входить и получать доступ к ресурсам.

  • Azure Monitor собирает и анализирует данные в средах и ресурсах Azure. Эти данные включают данные телеметрии приложений, такие как метрики производительности и журналы действий.

Подробности сценария

При загрузке дополнительных данных в Azure также растет необходимость правильного управления данными и управления ими во всех источниках данных и потребителей данных.

Если у вас нет высококачественных данных в хранилище данных Azure, бизнес-ценность Azure уменьшается. Решение заключается в создании основы для управления данными и управления, которые могут создавать и предоставлять высококачественные надежные данные.

Данные должны управляться в большом масштабе в локальном, облачном и многооблачном хранилище, чтобы обеспечить соответствие требованиям к безопасности, конфиденциальности и использованию. Хорошо управляемые данные также могут улучшить самостоятельное обнаружение, общий доступ к данным и качество данных, что улучшает использование данных в приложениях и аналитике.

Azure Purview обеспечивает управление для поиска, классификации, определения и применения политик и стандартов в данных. Его можно использовать для применения определений, классификаций и процессов управления в разных данных. Он каталогирует все источники данных, определяет любую конфиденциальную информацию и определяет происхождение данных. Она предоставляет центральную платформу, в которой можно применять определения и владение данными. С одним представлением отчетов и аналитических сведений вы можете создать стандарты данных, которые должны применяться к данным.

Работа с другими службами Azure, Azure Purview может автоматически обнаруживать, каталогировать, классифицировать и управлять данными в предложениях Azure Data Lake и партнерских службах.

Потенциальные варианты использования

Требования к управлению данными отличаются в разных отраслях. Для всех отраслей потребность в управлении данными в масштабе увеличилась по мере увеличения размера и сложности архитектур данных и данных. Это подходит для организаций, которые будут воспользоваться следующими результатами хорошо управляемых данных:

  • Автоматическое обнаружение данных для ускорения внедрения облака.
  • Улучшена безопасность данных для соответствия законам и нормативным требованиям.
  • Улучшен доступ, обнаружение и качество управляемых данных для улучшения аналитики.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

  • Isabel Arevalo | Старший архитектор облачных решений

Следующие шаги