Руководство по настройке пакета продуктов данных
В этом руководстве описано, как настроить службы продуктов данных, которые уже развернуты. Используйте Фабрика данных Azure для интеграции и оркестрации данных и использования Microsoft Purview для обнаружения, управления и управления ресурсами данных.
Вы узнаете, как выполнять следующие задачи:
- Создание и развертывание необходимых ресурсов
- Назначение ролей и разрешений на доступ
- Подключение ресурсы для интеграции данных
В этом руководстве вы узнаете о службах, развернутых в <DMLZ-prefix>-dev-dp001
примере группы ресурсов продукта данных. Узнайте, как службы Azure работают друг с другом и какие меры безопасности существуют.
При развертывании новых компонентов вы сможете изучить, как Purview подключает систему управления службами для создания целостной, актуальной карты ландшафта данных. Результатом является автоматическое обнаружение данных, классификация конфиденциальных данных и сквозная происхождения данных.
Необходимые компоненты
Прежде чем приступить к настройке пакета продуктов данных, убедитесь, что выполнены следующие предварительные требования:
Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись Azure сегодня.
Разрешения на подписку Azure. Чтобы настроить Purview и Azure Synapse Analytics для развертывания, необходимо иметь роль пользователя Администратор istrator или роль владельца в подписке Azure. В этом руководстве вы настроите дополнительные назначения ролей для служб и субъектов-служб.
Развернутые ресурсы. Чтобы завершить работу с руководством, эти ресурсы должны быть уже развернуты в подписке Azure:
- Целевая зона управления данными. Дополнительные сведения см. в репозитории GitHub целевой зоны управления данными.
- Целевая зона данных. Дополнительные сведения см. в репозитории GitHub целевой зоны данных.
- Пакет продукта данных. Дополнительные сведения см. в репозитории пакетной службы продуктов данных GitHub.
Учетная запись Microsoft Purview. Учетная запись создается в рамках развертывания целевой зоны управления данными.
Локальная среда выполнения интеграции. Среда выполнения создается в рамках развертывания целевой зоны данных.
Примечание.
В этом руководстве заполнители ссылаются на необходимые ресурсы, которые развертываются перед началом работы с руководством.
<DMLZ-prefix>
ссылается на префикс, введенный при создании целевой зоны управления данными.<DLZ-prefix>
ссылается на префикс, введенный при создании развертывания целевой зоны данных.<DP-prefix>
ссылается на префикс, введенный при создании пакетного развертывания продукта данных.
Создание экземпляров База данных SQL Azure
Чтобы начать работу с этим руководством, создайте два примера База данных SQL экземпляров. Базы данных будут использоваться для имитации источников данных CRM и ERP в последующих разделах.
В портал Azure на портале глобальных элементов управления выберите значок Cloud Shell, чтобы открыть терминал Azure Cloud Shell. Выберите Bash для типа терминала.
В Cloud Shell выполните следующий сценарий. Скрипт находит группу
<DLZ-prefix>-dev-dp001
ресурсов и<DP-prefix>-dev-sqlserver001
сервер SQL Azure, который находится в группе ресурсов. Затем скрипт создает два экземпляра База данных SQL на сервере<DP-prefix>-dev-sqlserver001
. Базы данных предварительно заполнены примерами данных AdventureWorks. Эти данные содержат таблицы, используемые в этом руководстве.Замените значение заполнителя параметра собственным идентификатором
subscription
подписки Azure.# Azure SQL Database instances setup # Create the AdatumCRM and AdatumERP databases to simulate customer and sales data. # Use the ID for the Azure subscription you used to deployed the data product. az account set --subscription "<your-subscription-ID>" # Get the resource group for the data product. resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, 'dp001')==\`true\`].name") # Get the existing Azure SQL Database server name. sqlServerName=$(az sql server list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'sqlserver001')==\`true\`].name") # Create the first SQL Database instance, AdatumCRM, to create the customer's data source. az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumCRM --service-objective Basic --sample-name AdventureWorksLT # Create the second SQL Database instance, AdatumERP, to create the sales data source. az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumERP --service-objective Basic --sample-name AdventureWorksLT
После завершения выполнения скрипта на сервере <DP-prefix>-dev-sqlserver001
SQL Azure у вас есть два новых экземпляра AdatumCRM
База данных SQL и AdatumERP
. Обе базы данных находятся на базовом уровне вычислений. Базы данных находятся в той же <DLZ-prefix>-dev-dp001
группе ресурсов, которую вы использовали для развертывания пакета продуктов данных.
Настройка Purview для каталогизации пакета продуктов данных
Затем выполните действия, чтобы настроить Purview для каталогизации пакета продуктов данных. Начните с создания субъекта-службы. Затем необходимо настроить необходимые ресурсы и назначить роли и разрешения на доступ.
Создание субъекта-службы
В портал Azure на портале глобальных элементов управления выберите значок Cloud Shell, чтобы открыть терминал Azure Cloud Shell. Выберите Bash для типа терминала.
Проверьте следующий сценарий:
- Замените значение заполнителя параметра собственным идентификатором
subscriptionId
подписки Azure. - Замените
spname
значение заполнителя параметра именем, которое вы хотите использовать для субъекта-службы. Имя субъекта-службы должно быть уникальным в подписке.
После обновления значений параметров запустите скрипт в Cloud Shell.
# Replace the parameter values with the name you want to use for your service principal name and your Azure subscription ID. spname="<your-service-principal-name>" subscriptionId="<your-subscription-id>" # Set the scope to the subscription. scope="/subscriptions/$subscriptionId" # Create the service principal. az ad sp create-for-rbac \ --name $spname \ --role "Contributor" \ --scope $scope
- Замените значение заполнителя параметра собственным идентификатором
Проверьте выходные данные JSON для результата, аналогичного следующему примеру. Запишите или скопируйте значения в выходных данных для использования в последующих шагах.
{ "appId": "<your-app-id>", "displayName": "<service-principal-display-name>", "name": "<your-service-principal-name>", "password": "<your-service-principal-password>", "tenant": "<your-tenant>" }
Настройка доступа и разрешений субъекта-службы
В выходных данных JSON, созданных на предыдущем шаге, получите следующие возвращаемые значения:
- Идентификатор субъекта-службы (
appId
) - Ключ субъекта-службы (
password
)
Субъект-служба должен иметь следующие разрешения:
- служба хранилища роль чтения данных BLOB-объектов в учетных записях хранения.
- Разрешения чтения данных для экземпляров База данных SQL.
Чтобы настроить субъект-службу с требуемой ролью и разрешениями, выполните следующие действия.
разрешения учетной записи служба хранилища Azure
В портал Azure перейдите к учетной
<DLZ-prefix>devraw
записи служба хранилища Azure. В меню ресурсов выберите контроль доступа (IAM).Выберите Добавить>Добавить назначение ролей.
На вкладке "Добавление назначения ролей" найдите и выберите служба хранилища средство чтения данных BLOB-объектов. Затем выберите Далее.
В разделе "Участники" выберите "Выбрать участников".
В разделе "Выбор участников" найдите имя созданного субъекта-службы.
В результатах поиска выберите субъект-службу и нажмите кнопку "Выбрать".
Чтобы завершить назначение роли, нажмите кнопку "Проверить и назначить дважды".
Повторите действия, описанные в этом разделе, для оставшихся учетных записей хранения:
<DLZ-prefix>devencur
<DLZ-prefix>devwork
разрешения База данных SQL
Чтобы задать разрешения База данных SQL, подключитесь к виртуальной машине SQL Azure с помощью редактора запросов. Так как все ресурсы находятся за частной конечной точкой, необходимо сначала войти в портал Azure с помощью виртуальной машины узла Бастиона Azure.
В портал Azure подключитесь к виртуальной машине, развернутой <DMLZ-prefix>-dev-bastion
в группе ресурсов. Если вы не знаете, как подключиться к виртуальной машине с помощью службы узла Бастиона, см. Подключение на виртуальную машину.
Чтобы добавить субъект-службу в качестве пользователя в базу данных, вам может потребоваться добавить себя в качестве администратора Microsoft Entra. В шагах 1 и 2 вы добавляете себя в качестве администратора Microsoft Entra. На шагах 3–5 вы предоставляете субъекту-службе разрешения для базы данных. При входе на портал из виртуальной машины узла Бастиона найдите виртуальные машины SQL Azure в портал Azure.
Перейдите на виртуальную
<DP-prefix>-dev-sqlserver001
машину SQL Azure. В меню ресурсов в Параметры выберите идентификатор Microsoft Entra.На панели команд выберите "Задать администратора". Найдите и выберите собственную учетную запись. Выберите Выбрать.
В меню ресурсов выберите базы данных SQL и выберите
AdatumCRM
базу данных.В меню ресурсов AdatumCRM выберите редактор запросов (предварительная версия). В разделе проверки подлинности Active Directory нажмите кнопку "Продолжить как ", чтобы войти.
В редакторе запросов измените следующие инструкции, чтобы заменить
<service principal name>
имя созданного субъекта-службы (например,purview-service-principal
). Затем выполните инструкции.CREATE USER [<service principal name>] FROM EXTERNAL PROVIDER GO EXEC sp_addrolemember 'db_datareader', [<service principal name>] GO
Повторите шаги 3–5 для AdatumERP
базы данных.
Настройка хранилища ключей
Purview считывает ключ субъекта-службы из экземпляра Azure Key Vault. Хранилище ключей создается в развертывании целевой зоны управления данными. Для настройки хранилища ключей необходимо выполнить следующие действия.
Добавьте ключ субъекта-службы в хранилище ключей в качестве секрета.
Предоставьте разрешения средства чтения секретов MSI Purview в хранилище ключей.
Добавьте хранилище ключей в Purview в качестве подключения к хранилищу ключей.
Создайте учетные данные в Purview, указывающие на секрет хранилища ключей.
Добавление разрешений для добавления секрета в хранилище ключей
В портал Azure перейдите в службу Azure Key Vault. Найдите хранилище ключей
<DMLZ-prefix>-dev-vault001
.В меню ресурсов выберите элемент управления доступом (IAM). На панели команд нажмите кнопку "Добавить", а затем выберите " Добавить назначение роли".
На вкладке "Роль" найдите и выберите key Vault Администратор istrator. Выберите Далее.
В разделе "Участники" выберите "Выбрать участников ", чтобы добавить учетную запись, вошедшего в систему.
В разделе "Выбор участников" выполните поиск учетной записи, вошедшего в систему. Выберите учетную запись и нажмите кнопку "Выбрать".
Чтобы завершить процесс назначения ролей, дважды нажмите кнопку "Проверить и назначить ".
Добавление секрета в хранилище ключей
Выполните следующие действия, чтобы войти в портал Azure из виртуальной машины узла Бастиона.
В меню ресурсов хранилища ключей
<DMLZ-prefix>-dev-vault001
выберите "Секреты". На панели команд выберите "Создать и импортировать ", чтобы создать новый секрет.В разделе "Создание секрета" выберите или введите следующие значения:
Параметр Действие Параметры отправки Выберите Вручную. Название Введите секрет субъекта-службы. Стоимость Введите пароль субъекта-службы, созданный ранее. Примечание.
На этом шаге создается секрет с именем
service-principal-secret
в хранилище ключей с помощью ключа пароля субъекта-службы. Purview использует секрет для подключения и проверки источников данных. Если ввести неверный пароль, вы не сможете выполнить следующие разделы.Выберите Создать.
Настройка разрешений Purview в хранилище ключей
Чтобы экземпляр Purview считывал секреты, хранящиеся в хранилище ключей, необходимо назначить Purview соответствующим разрешениям в хранилище ключей. Чтобы задать разрешения, добавьте управляемое удостоверение Purview в роль читателя секретов хранилища ключей.
В меню ресурсов хранилища ключей
<DMLZ-prefix>-dev-vault001
выберите элемент управления доступом (IAM).На панели команд нажмите кнопку "Добавить", а затем выберите " Добавить назначение роли".
В роли найдите и выберите пользователя секретов Key Vault. Выберите Далее.
В разделе "Участники" выберите "Выбрать участников".
<DMLZ-prefix>-dev-purview001
Найдите экземпляр Purview. Выберите экземпляр, чтобы добавить соответствующую учетную запись. Затем щелкните Выбрать.Чтобы завершить процесс назначения ролей, дважды нажмите кнопку "Проверить и назначить ".
Настройка подключения к хранилищу ключей в Purview
Чтобы настроить подключение хранилища ключей к Purview, необходимо войти в портал Azure с помощью виртуальной машины узла Бастиона Azure.
В портал Azure перейдите к учетной
<DMLZ-prefix>-dev-purview001
записи Purview. В разделе "Начало работы" на портале управления Microsoft Purview выберите "Открыть".В Purview Studio выберите "Учетные данные управления>". На панели команд "Учетные данные" выберите "Управление подключениями Key Vault" и нажмите кнопку "Создать".
В новом подключении к хранилищу ключей выберите или введите следующие сведения:
Параметр Действие Название Введите <DMLZ-prefix-dev-vault001>. Подписка на Azure Выберите подписку, в которую размещается хранилище ключей. Имя Key Vault Выберите хранилище ключей <DMLZ-prefix-dev-vault001>. Выберите Создать.
В разделе "Подтверждение предоставления доступа" нажмите кнопку "Подтвердить".
Создание учетных данных в Purview
Последним шагом настройки хранилища ключей является создание учетных данных в Purview, указывающее на секрет, созданный в хранилище ключей для субъекта-службы.
В Purview Studio выберите "Учетные данные управления>". На панели команд "Учетные данные" нажмите кнопку "Создать".
В разделе "Новые учетные данные" выберите или введите следующие сведения:
Параметр Действие Название Введите purviewServicePrincipal. метод проверки подлинности Выберите Субъект-служба. Идентификатор клиента Значение заполняется автоматически. Идентификатор субъекта-службы Введите идентификатор приложения или идентификатор клиента субъекта-службы. Подключение Key Vault Выберите подключение к хранилищу ключей, созданное в предыдущем разделе. Имя секрета Введите имя секрета в хранилище ключей (секрет субъекта-службы). Выберите Создать.
Регистрация источников данных
На этом этапе Purview может подключиться к субъекту-службе. Теперь можно зарегистрировать и настроить источники данных.
Регистрация учетных записей Azure Data Lake Storage 2-го поколения
Ниже описан процесс регистрации учетной записи хранения Azure Data Lake Storage 2-го поколения.
В Purview Studio щелкните значок карты данных, выберите источники и нажмите кнопку "Регистрация".
В разделе "Регистрация источников" выберите Azure Data Lake Storage 2-го поколения и нажмите кнопку "Продолжить".
В разделе "Регистрация источников" (Azure Data Lake Storage 2-го поколения)выберите или введите следующие сведения:
Параметр Действие Название Введите <DLZ-префикс>dldevraw. Подписка Azure Выберите подписку, на которую размещена учетная запись хранения. Имя учетной записи хранения Выберите соответствующую учетную запись хранения. Конечная точка Значение автоматически заполняется на основе выбранной учетной записи хранения. Выбор коллекции Выберите корневую коллекцию. Выберите "Регистрация", чтобы создать источник данных.
Повторите следующие действия для следующих учетных записей хранения:
<DMLZ-prefix>devencur
<DMLZ-prefix>devwork
Регистрация экземпляра База данных SQL в качестве источника данных
В Purview Studio щелкните значок карты данных, выберите "Источники" и нажмите кнопку "Регистрация".
В разделе "Регистрация источников" выберите База данных SQL Azure и нажмите кнопку "Продолжить".
В разделе "Регистрация источников" (База данных SQL Azure)выберите или введите следующие сведения:
Параметр Действие Название Введите SQLDatabase (имя базы данных, созданной в экземплярах создания База данных SQL Azure). Подписка Выберите подписку, на которую размещена база данных. Имя сервера Введите <DP-prefix-dev-sqlserver001>. Выберите Зарегистрировать.
Настройка проверок
Затем настройте сканирование источников данных.
Сканирование источника данных Data Lake Storage 2-го поколения
В Purview Studio перейдите на карту данных. В источнике данных выберите значок "Создать проверку ".
В новой области сканирования выберите или введите следующие сведения:
Параметр Действие Название Введите devraw Scan_<DLZ-prefix>. Подключение через среду выполнения интеграции Выберите локальную среду выполнения интеграции, развернутую с целевой зоной данных. Учетные данные Выберите субъект-службу, настроенный для Purview. Выберите "Проверить подключение", чтобы проверить подключение и наличие разрешений. Выберите Продолжить.
В области сканирования выберите всю учетную запись хранения в качестве область для сканирования и нажмите кнопку "Продолжить".
В разделе "Выбор набора правил сканирования" выберите AdlsGen2 и нажмите кнопку "Продолжить".
В разделе "Установка триггера сканирования" выберите "Один раз" и нажмите кнопку "Продолжить".
В разделе "Проверка сканирования" просмотрите параметры сканирования. Нажмите кнопку "Сохранить и запустить ", чтобы запустить проверку.
Повторите следующие действия для следующих учетных записей хранения:
<DMLZ-prefix>devencur
<DMLZ-prefix>devwork
Сканирование источника данных База данных SQL
В источнике данных База данных SQL Azure выберите "Создать сканирование".
В новой области сканирования выберите или введите следующие сведения:
Параметр Действие Название Введите Scan_Database001. Подключение через среду выполнения интеграции Выберите Purview-SHIR. Имя базы данных Выберите имя базы данных. Учетные данные Выберите учетные данные хранилища ключей, созданные в Purview. Извлечение происхождения (предварительная версия) Выберите Отключить. Выберите "Проверить подключение", чтобы проверить подключение и наличие разрешений. Выберите Продолжить.
Выберите область для проверки. Чтобы проверить всю базу данных, используйте значение по умолчанию.
В разделе "Выбор набора правил сканирования" выберите AzureSqlDatabase и нажмите кнопку "Продолжить".
В разделе "Установка триггера сканирования" выберите "Один раз" и нажмите кнопку "Продолжить".
В разделе "Проверка сканирования" просмотрите параметры сканирования. Нажмите кнопку "Сохранить и запустить ", чтобы запустить проверку.
Повторите эти действия для AdatumERP
базы данных.
Теперь Purview настроен для управления данными для зарегистрированных источников данных.
Копирование данных База данных SQL в Data Lake Storage 2-го поколения
В следующих шагах используется средство копирования данных в фабрике данных для создания конвейера для копирования таблиц из экземпляров AdatumCRM
База данных SQL и AdatumERP
CSV-файлов в <DLZ-prefix>devraw
учетной записи Data Lake Storage 2-го поколения.
Среда заблокирована для общедоступного доступа, поэтому сначала необходимо настроить частные конечные точки. Чтобы использовать частные конечные точки, вы войдите в портал Azure в локальном браузере, а затем подключитесь к виртуальной машине узла Бастиона для доступа к необходимым службам Azure.
Создание частных конечных точек
Чтобы настроить частные конечные точки для необходимых ресурсов, выполните следующие действия.
<DMLZ-prefix>-dev-bastion
В группе ресурсов выберите<DMLZ-prefix>-dev-vm001
.На панели команд выберите Подключение и выберите Бастион.
Введите имя пользователя и пароль виртуальной машины, а затем выберите Подключение.
В веб-браузере виртуальной машины перейдите к портал Azure. Перейдите в
<DLZ-prefix>-dev-shared-integration
группу ресурсов и откройте фабрику<DLZ-prefix>-dev-integration-datafactory001
данных.В разделе "Начало работы" в open Фабрика данных Azure Studio нажмите кнопку "Открыть".
В меню "Фабрика данных" выберите значок "Управление " (значок выглядит как квадратная панель элементов с меткой на ней). В меню ресурсов выберите управляемые частные конечные точки, чтобы создать частные конечные точки , необходимые для подключения Фабрики данных к другим защищенным службам Azure.
Утверждение запросов доступа для частных конечных точек рассматривается в следующем разделе. После утверждения запросов на доступ к частной конечной точке их состояние утверждения утверждено, как показано в следующем примере учетной
<DLZ-prefix>devencur
записи хранения.Перед утверждением подключений к частной конечной точке нажмите кнопку "Создать". Введите SQL Azure, чтобы найти соединитель База данных SQL Azure, используемый для создания новой управляемой частной конечной точки для виртуальной
<DP-prefix>-dev-sqlserver001
машины SQL Azure. Виртуальная машина содержит созданныеAdatumCRM
AdatumERP
ранее базы данных.В новой управляемой частной конечной точке (База данных SQL Azure)для имени введите data-product-dev-sqlserver001. Введите подписку Azure, используемую для создания ресурсов. Для имени сервера выберите
<DP-prefix>-dev-sqlserver001
, чтобы подключиться к нему из этой фабрики данных в следующих разделах.
Утверждение запросов на доступ к частной конечной точке
Чтобы предоставить фабрике данных доступ к частным конечным точкам для необходимых служб, у вас есть несколько вариантов:
Вариант 1. В каждой службе вы запрашиваете доступ к портал Azure, перейдите к параметру подключения к сети или частной конечной точке службы и утвердите запросы на доступ к частной конечной точке.
Вариант 2. Выполните следующие скрипты в Azure Cloud Shell в режиме Bash, чтобы утвердить все запросы доступа к необходимым частным конечным точкам одновременно.
# Storage managed private endpoint approval # devencur resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-storage')==\`true\`].name") storageAcctName=$(az storage account list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'devencur')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved" # devraw resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-storage')==\`true\`].name") storageAcctName=$(az storage account list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'devraw')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved" # SQL Database managed private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-dp001')==\`true\`].name") sqlServerName=$(az sql server list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'sqlserver001')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $sqlServerName --type Microsoft.Sql/servers -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $sqlServerName --type Microsoft.Sql/servers --description "Approved" # Key Vault private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-metadata')==\`true\`].name") keyVaultName=$(az keyvault list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'dev-vault001')==\`true\`].name") endPointConnectionID=$(az network private-endpoint-connection list -g $resourceGroupName -n $keyVaultName --type Microsoft.Keyvault/vaults -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].id") az network private-endpoint-connection approve -g $resourceGroupName --id $endPointConnectionID --resource-name $keyVaultName --type Microsoft.Keyvault/vaults --description "Approved" # Purview private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, 'dev-governance')==\`true\`].name") purviewAcctName=$(az purview account list -g $resourceGroupName -o tsv --query "[?contains(@.name, '-dev-purview001')==\`true\`].name") for epn in $(az network private-endpoint-connection list -g $resourceGroupName -n $purviewAcctName --type Microsoft.Purview/accounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") do az network private-endpoint-connection approve -g $resourceGroupName -n $epn --resource-name $purviewAcctName --type Microsoft.Purview/accounts --description "Approved" done
В следующем примере показано, как учетная запись хранения управляет запросами доступа к частной <DLZ-prefix>devraw
конечной точке. В меню ресурсов для учетной записи хранения выберите "Сеть". На панели команд выберите подключения к частной конечной точке.
Для некоторых ресурсов Azure в меню ресурсов выберите подключения к частной конечной точке. Пример сервера SQL Azure показан на следующем снимке экрана.
Чтобы утвердить запрос доступа к частной конечной точке, в подключениях к частной конечной точке выберите ожидающий запрос доступа и нажмите кнопку "Утвердить".
После утверждения запроса на доступ в каждой требуемой службе может потребоваться несколько минут, чтобы запрос отображалось как утвержденный в управляемых частных конечных точках в Студии данных. Даже если выбрать "Обновить" на панели команд, состояние утверждения может быть устаревшим в течение нескольких минут.
После завершения утверждения всех запросов доступа к необходимым службам в управляемых частных конечных точках значение состояния утверждения для всех служб утверждено:
Назначения ролей
После завершения утверждения запросов на доступ к частной конечной точке добавьте соответствующие разрешения роли для фабрики данных для доступа к этим ресурсам:
- База данных SQL экземпляры
AdatumCRM
иAdatumERP
на сервере<DP-prefix>-dev-sqlserver001
SQL Azure - служба хранилища учетные
<DLZ-prefix>devraw
записи ,<DLZ-prefix>devencur
и<DLZ-prefix>devwork
- Учетная запись Purview
<DMLZ-prefix>-dev-purview001
Виртуальная машина SQL Azure
Чтобы добавить назначения ролей, начните с виртуальной машины SQL Azure. В группе ресурсов перейдите
<DMLZ-prefix>-dev-dp001
в<DP-prefix>-dev-sqlserver001
раздел .В меню ресурсов выберите элемент управления доступом (IAM). На панели команд выберите "Добавить>назначение роли".
На вкладке "Роль" выберите "Участник" и нажмите кнопку "Далее".
В разделе "Участники" для назначения доступа выберите управляемое удостоверение. Для участников выберите "Выбрать участников".
В разделе "Выбор управляемых удостоверений" выберите подписку Azure. Для управляемого удостоверения выберите фабрику данных (V2), чтобы просмотреть доступные фабрики данных. В списке фабрик данных выберите Фабрика данных Azure DLZ-prefix-dev-integration-datafactory001>. < Выберите Выбрать.
Нажмите кнопку "Рецензирование" и " Назначить дважды", чтобы завершить процесс.
Учетные записи хранения
Затем назначьте необходимые роли <DLZ-prefix>devraw
<DLZ-prefix>devencur
учетным записям хранения и <DLZ-prefix>devwork
учетным записям хранения.
Чтобы назначить роли, выполните те же действия, которые использовались для создания назначения ролей SQL Azure. Но для роли выберите служба хранилища участник данных BLOB-объектов вместо участника.
После назначения ролей для всех трех учетных записей хранения фабрика данных может подключаться к учетным записям хранения и получать доступ к ним.
Microsoft Purview
Последним шагом добавления назначений ролей является добавление роли куратора данных Purview в Microsoft Purview в учетную запись управляемого удостоверения фабрики <DLZ-prefix>-dev-integration-datafactory001
данных. Выполните следующие действия, чтобы фабрика данных могла отправлять сведения о ресурсах каталога данных из нескольких источников данных в учетную запись Purview.
В группе
<DMLZ-prefix>-dev-governance
ресурсов перейдите к учетной<DMLZ-prefix>-dev-purview001
записи Purview.В Purview Studio щелкните значок карты данных и выберите коллекции.
Выберите вкладку "Назначения ролей" для коллекции. В разделе "Кураторы данных" добавьте управляемое удостоверение для
<DLZ-prefix>-dev-integration-datafactory001
:
фабрика данных Подключение в Purview
Заданы разрешения, и Purview теперь может видеть фабрику данных. Следующий шаг — подключение <DMLZ-prefix>-dev-purview001
к <DLZ-prefix>-dev-integration-datafactory001
.
В Purview Studio щелкните значок управления и выберите фабрику данных. Выберите "Создать" , чтобы создать подключение фабрики данных.
В области "Новые подключения фабрики данных" введите подписку Azure и выберите фабрику
<DLZ-prefix>-dev-integration-datafactory001
данных. Нажмите ОК.В экземпляре Фабрики
<DLZ-prefix>-dev-integration-datafactory001
данных в разделе "Управление>Azure Purview" обновите учетную запись Azure Purview.Теперь в
Data Lineage - Pipeline
интеграции отображается зеленый Подключение значок.
Создание конвейера ETL
Теперь, когда <DLZ-prefix>-dev-integration-datafactory001
у него есть необходимые разрешения на доступ, создайте действие копирования в Фабрике данных для перемещения данных из База данных SQL экземпляров в <DLZ-prefix>devraw
необработанную учетную запись хранения.
Использование средства копирования данных с помощью AdatumCRM
Этот процесс извлекает данные клиента из экземпляра AdatumCRM
База данных SQL и копирует его в хранилище Data Lake Storage 2-го поколения.
В Студии фабрики данных щелкните значок "Автор " и выберите "Ресурсы фабрики". Выберите знак плюса (+) и нажмите кнопку "Копировать данные".
Выполните каждый шаг в мастере средства копирования данных:
Чтобы создать триггер для запуска конвейера каждые 24 часа, выберите "Расписание".
Чтобы создать связанную службу для подключения фабрики данных к
AdatumCRM
экземпляру База данных SQL на сервере<DP-prefix>-dev-sqlserver001
(источник), выберите "Создать Подключение".Примечание.
Если возникают ошибки, связанные с подключением или доступом к данным в База данных SQL экземплярах или учетных записях хранения, просмотрите разрешения в подписке Azure. Убедитесь, что фабрика данных имеет необходимые учетные данные и разрешения на доступ к любому проблемном ресурсу.
Выберите следующие три таблицы:
SalesLT.Address
SalesLT.Customer
SalesLT.CustomerAddress
Создайте связанную службу для доступа к хранилищу
<DLZ-prefix>devraw
Azure Data Lake Storage 2-го поколения (назначение).Просмотрите папки в хранилище и выберите "Данные"
<DLZ-prefix>devraw
в качестве назначения.Измените суффикс имени файла на CSV и используйте другие параметры по умолчанию.
Перейдите к следующей области и выберите " Добавить заголовок в файл".
Завершив работу мастера, полная панель развертывания выглядит примерно так:
Новый конвейер указан в конвейерах.
Запуск конвейера
Этот процесс создает три CSV-файла в папке Data\CRM , по одному для каждой из выбранных таблиц в AdatumCRM
базе данных.
Переименуйте конвейер
CopyPipeline_CRM_to_Raw
.Переименуйте наборы
CRM_Raw_Storage
данных иCRM_DB
.На панели команд " Ресурсы фабрики " выберите "Опубликовать все".
CopyPipeline_CRM_to_Raw
Выберите конвейер и на панели команд конвейера выберите "Триггер", чтобы скопировать три таблицы из База данных SQL в Data Lake Storage 2-го поколения.
Использование средства копирования данных с AdatumERP
Затем извлеките данные из AdatumERP
базы данных. Данные представляют данные о продажах, поступающие из системы ERP.
По-прежнему в Data Factory Studio создайте новый конвейер с помощью средства копирования данных. На этот раз вы отправляете данные о продажах из
AdatumERP
папки данных учетной<DLZ-prefix>devraw
записи хранения так же, как и данные CRM. Выполните те же действия, но используйтеAdatumERP
базу данных в качестве источника.Создайте расписание для активации каждый час.
Создайте связанную службу для экземпляра
AdatumERP
База данных SQL.Выберите следующие семь таблиц:
SalesLT.Product
SalesLT.ProductCategory
SalesLT.ProductDescription
SalesLT.ProductModel
SalesLT.ProductModelProductDescription
SalesLT.SalesOrderDetail
SalesLT.SalesOrderHeader
Используйте существующую связанную службу с учетной
<DLZ-prefix>devraw
записью хранения и задайте для файла расширение CSV.Выберите " Добавить заголовок в файл".
Снова завершите работу мастера и переименуйте конвейер
CopyPipeline_ERP_to_DevRaw
. Затем на панели команд выберите "Опубликовать все". Наконец, запустите триггер в новом конвейере, чтобы скопировать семь выбранных таблиц из База данных SQL в Data Lake Storage 2-го поколения.
После выполнения этих действий 10 CSV-файлов находятся в <DLZ-prefix>devraw
хранилище Data Lake Storage 2-го поколения. В следующем разделе вы курируют файлы в <DLZ-prefix>devencur
хранилище Data Lake Storage 2-го поколения.
Курировать данные в Data Lake Storage 2-го поколения
После завершения создания 10 CSV-файлов в необработанном <DLZ-prefix>devraw
хранилище Data Lake Storage 2-го поколения преобразуйте эти файлы по мере необходимости при копировании их в курированное <DLZ-prefix>devencur
хранилище Data Lake Storage 2-го поколения.
Продолжайте использовать Фабрика данных Azure для создания этих новых конвейеров для оркестрации перемещения данных.
Курировать CRM для данных клиента
Создайте поток данных, который получает CSV-файлы в папке Data\CRM.<DLZ-prefix>devraw
Преобразуйте файлы и скопируйте преобразованные файлы в формате PARQUET в папку Data\Customer в <DLZ-prefix>devencur
папке .
В Фабрика данных Azure перейдите к фабрике данных и выберите Orchestrate.
Как правило, присвойте конвейеру
Pipeline_transform_CRM
имя.В области Действия разверните меню Перемещение и преобразование. Перетащите действие потока данных и удалите его на холст конвейера.
В разделе "Добавление Поток данных" выберите "Создать поток данных" и назовите поток
CRM_to_Customer
данных. Нажмите Готово.Примечание.
На панели команд холста конвейера включите отладку потока данных. В режиме отладки можно интерактивно протестировать логику преобразования в динамическом кластере Apache Spark. Кластеры потоков данных занимают 5–7 минут. Перед началом разработки потока данных рекомендуется включить отладку.
После завершения выбора параметров в потоке
CRM_to_Customer
Pipeline_transform_CRM
данных конвейер выглядит следующим образом:Поток данных выглядит следующим образом:
Затем измените эти параметры в потоке данных для
CRMAddress
источника:Создайте новый набор данных из Data Lake Storage 2-го поколения. Используйте формат Разделителя. Задайте набору данных имя
DevRaw_CRM_Address
.Подключение связанную службу
<DLZ-prefix>devraw
.Data\CRM\SalesLTAddress.csv
Выберите файл в качестве источника.
Измените эти параметры в потоке данных для парного приемника
CustAddress
:Создайте новый набор данных с именем
DevEncur_Cust_Address
.Выберите папку Data\Customer в
<DLZ-prefix>devencur
качестве приемника.В разделе Параметры\Output в один файл преобразуйте файл в Address.parquet.
В оставшейся части конфигурации потока данных используйте сведения в следующих таблицах для каждого компонента. Обратите внимание, что CRMAddress
и CustAddress
являются первыми двумя строками. Используйте их в качестве примеров для других объектов.
Элемент, который не находится в любой из следующих таблиц, является RemovePasswords
модификатором схемы. На предыдущем снимку экрана показано, что этот элемент проходит между CRMCustomer
и CustCustomer
. Чтобы добавить этот модификатор схемы, перейдите к разделу "Выбор параметров " и удалите PasswordHash и PasswordSalt.
CRMCustomer
возвращает схему 15-столбцов из CRV-файла. CustCustomer
записывает только 13 столбцов после того, как модификатор схемы удаляет два столбца паролей.
Полная таблица
Имя | Тип объекта | Имя набора данных | Хранилище данных | Тип формата | Связанные службы | Файл или папка |
---|---|---|---|---|---|---|
CRMAddress |
source | DevRaw_CRM_Address |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\CRM\SalesLTAddress.csv |
CustAddress |
sink | DevEncur_Cust_Address |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Customer\Address.parquet |
CRMCustomer |
source | DevRaw_CRM_Customer |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\CRM\SalesLTCustomer.csv |
CustCustomer |
sink | DevEncur_Cust_Customer |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Customer\Customer.parquet |
CRMCustomerAddress |
source | DevRaw_CRM_CustomerAddress |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\CRM\SalesLTCustomerAddress.csv |
CustCustomerAddress |
sink | DevEncur_Cust_CustomerAddress |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Customer\CustomerAddress.parquet |
Таблица erp to Sales
Теперь повторите аналогичные действия, чтобы создать Pipeline_transform_ERP
конвейер, создайте ERP_to_Sales
поток данных для преобразования CSV-файлов в папке <DLZ-prefix>devraw
Data\ERP и скопируйте преобразованные файлы в папку Data\Sales в <DLZ-prefix>devencur
.
В следующей таблице вы найдете объекты для создания в потоке ERP_to_Sales
данных и параметры, которые необходимо изменить для каждого объекта. Каждый CSV-файл сопоставляется с приемником PARQUET .
Имя | Тип объекта | Имя набора данных | Хранилище данных | Тип формата | Связанные службы | Файл или папка |
---|---|---|---|---|---|---|
ERPProduct |
source | DevRaw_ERP_Product |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\ERP\SalesLTProduct.csv |
SalesProduct |
sink | DevEncur_Sales_Product |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Sales\Product.parquet |
ERPProductCategory |
source | DevRaw_ERP_ProductCategory |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\ERP\SalesLTProductCategory.csv |
SalesProductCategory |
sink | DevEncur_Sales_ProductCategory |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Sales\ProductCategory.parquet |
ERPProductDescription |
source | DevRaw_ERP_ProductDescription |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\ERP\SalesLTProductDescription.csv |
SalesProductDescription |
sink | DevEncur_Sales_ProductDescription |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Sales\ProductDescription.parquet |
ERPProductModel |
source | DevRaw_ERP_ProductModel |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\ERP\SalesLTProductModel.csv |
SalesProductModel |
sink | DevEncur_Sales_ProductModel |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Sales\ProductModel.parquet |
ERPProductModelProductDescription |
source | DevRaw_ERP_ProductModelProductDescription |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\ERP\SalesLTProductModelProductDescription.csv |
SalesProductModelProductDescription |
sink | DevEncur_Sales_ProductModelProductDescription |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Sales\ProductModelProductDescription.parquet |
ERPProductSalesOrderDetail |
source | DevRaw_ERP_ProductSalesOrderDetail |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\ERP\SalesLTProductSalesOrderDetail.csv |
SalesProductSalesOrderDetail |
sink | DevEncur_Sales_ProductSalesOrderDetail |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Sales\ProductSalesOrderDetail.parquet |
ERPProductSalesOrderHeader |
source | DevRaw_ERP_ProductSalesOrderHeader |
Azure Data Lake Storage 2-го поколения | Текст с разделителями | devraw |
Data\ERP\SalesLTProductSalesOrderHeader.csv |
SalesProductSalesOrderHeader |
sink | DevEncur_Sales_ProductSalesOrderHeader |
Azure Data Lake Storage 2-го поколения | Parquet | devencur |
Data\Sales\ProductSalesOrderHeader.parquet |