Руководство по настройке пакета продуктов данных

В этом руководстве описано, как настроить службы продуктов данных, которые уже развернуты. Используйте Фабрика данных Azure для интеграции и оркестрации данных и использования Microsoft Purview для обнаружения, управления и управления ресурсами данных.

Вы узнаете, как выполнять следующие задачи:

  • Создание и развертывание необходимых ресурсов
  • Назначение ролей и разрешений на доступ
  • Подключение ресурсы для интеграции данных

В этом руководстве вы узнаете о службах, развернутых в <DMLZ-prefix>-dev-dp001 примере группы ресурсов продукта данных. Узнайте, как службы Azure работают друг с другом и какие меры безопасности существуют.

При развертывании новых компонентов вы сможете изучить, как Purview подключает систему управления службами для создания целостной, актуальной карты ландшафта данных. Результатом является автоматическое обнаружение данных, классификация конфиденциальных данных и сквозная происхождения данных.

Необходимые компоненты

Прежде чем приступить к настройке пакета продуктов данных, убедитесь, что выполнены следующие предварительные требования:

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись Azure сегодня.

  • Разрешения на подписку Azure. Чтобы настроить Purview и Azure Synapse Analytics для развертывания, необходимо иметь роль пользователя Администратор istrator или роль владельца в подписке Azure. В этом руководстве вы настроите дополнительные назначения ролей для служб и субъектов-служб.

  • Развернутые ресурсы. Чтобы завершить работу с руководством, эти ресурсы должны быть уже развернуты в подписке Azure:

    • Целевая зона управления данными. Дополнительные сведения см. в репозитории GitHub целевой зоны управления данными.
    • Целевая зона данных. Дополнительные сведения см. в репозитории GitHub целевой зоны данных.
    • Пакет продукта данных. Дополнительные сведения см. в репозитории пакетной службы продуктов данных GitHub.
  • Учетная запись Microsoft Purview. Учетная запись создается в рамках развертывания целевой зоны управления данными.

  • Локальная среда выполнения интеграции. Среда выполнения создается в рамках развертывания целевой зоны данных.

Примечание.

В этом руководстве заполнители ссылаются на необходимые ресурсы, которые развертываются перед началом работы с руководством.

  • <DMLZ-prefix> ссылается на префикс, введенный при создании целевой зоны управления данными.
  • <DLZ-prefix> ссылается на префикс, введенный при создании развертывания целевой зоны данных.
  • <DP-prefix> ссылается на префикс, введенный при создании пакетного развертывания продукта данных.

Создание экземпляров База данных SQL Azure

Чтобы начать работу с этим руководством, создайте два примера База данных SQL экземпляров. Базы данных будут использоваться для имитации источников данных CRM и ERP в последующих разделах.

  1. В портал Azure на портале глобальных элементов управления выберите значок Cloud Shell, чтобы открыть терминал Azure Cloud Shell. Выберите Bash для типа терминала.

    Screenshot that shows the Cloud Shell icon in the Azure portal.

  2. В Cloud Shell выполните следующий сценарий. Скрипт находит группу <DLZ-prefix>-dev-dp001 ресурсов и <DP-prefix>-dev-sqlserver001 сервер SQL Azure, который находится в группе ресурсов. Затем скрипт создает два экземпляра База данных SQL на сервере<DP-prefix>-dev-sqlserver001. Базы данных предварительно заполнены примерами данных AdventureWorks. Эти данные содержат таблицы, используемые в этом руководстве.

    Замените значение заполнителя параметра собственным идентификатором subscription подписки Azure.

    # Azure SQL Database instances setup
    # Create the AdatumCRM and AdatumERP databases to simulate customer and sales data.
    
    # Use the ID for the Azure subscription you used to deployed the data product.
    az account set --subscription "<your-subscription-ID>"
    
    # Get the resource group for the data product.
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, 'dp001')==\`true\`].name")
    
    # Get the existing Azure SQL Database server name.
    sqlServerName=$(az sql server list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'sqlserver001')==\`true\`].name")
    
    # Create the first SQL Database instance, AdatumCRM, to create the customer's data source.
    az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumCRM --service-objective Basic --sample-name AdventureWorksLT
    
    # Create the second SQL Database instance, AdatumERP, to create the sales data source.
    az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumERP --service-objective Basic --sample-name AdventureWorksLT
    

После завершения выполнения скрипта на сервере <DP-prefix>-dev-sqlserver001 SQL Azure у вас есть два новых экземпляра AdatumCRM База данных SQL и AdatumERP. Обе базы данных находятся на базовом уровне вычислений. Базы данных находятся в той же <DLZ-prefix>-dev-dp001 группе ресурсов, которую вы использовали для развертывания пакета продуктов данных.

Настройка Purview для каталогизации пакета продуктов данных

Затем выполните действия, чтобы настроить Purview для каталогизации пакета продуктов данных. Начните с создания субъекта-службы. Затем необходимо настроить необходимые ресурсы и назначить роли и разрешения на доступ.

Создание субъекта-службы

  1. В портал Azure на портале глобальных элементов управления выберите значок Cloud Shell, чтобы открыть терминал Azure Cloud Shell. Выберите Bash для типа терминала.

  2. Проверьте следующий сценарий:

    • Замените значение заполнителя параметра собственным идентификатором subscriptionId подписки Azure.
    • Замените spname значение заполнителя параметра именем, которое вы хотите использовать для субъекта-службы. Имя субъекта-службы должно быть уникальным в подписке.

    После обновления значений параметров запустите скрипт в Cloud Shell.

    # Replace the parameter values with the name you want to use for your service principal name and your Azure subscription ID.
    spname="<your-service-principal-name>"
    subscriptionId="<your-subscription-id>"
    
    # Set the scope to the subscription.
    scope="/subscriptions/$subscriptionId"
    
    # Create the service principal.
    az ad sp create-for-rbac \
      --name $spname \
      --role "Contributor" \
      --scope $scope
    
  3. Проверьте выходные данные JSON для результата, аналогичного следующему примеру. Запишите или скопируйте значения в выходных данных для использования в последующих шагах.

    {
      "appId": "<your-app-id>",
      "displayName": "<service-principal-display-name>",
      "name": "<your-service-principal-name>",
      "password": "<your-service-principal-password>",
      "tenant": "<your-tenant>"
    }
    

Настройка доступа и разрешений субъекта-службы

В выходных данных JSON, созданных на предыдущем шаге, получите следующие возвращаемые значения:

  • Идентификатор субъекта-службы (appId)
  • Ключ субъекта-службы (password)

Субъект-служба должен иметь следующие разрешения:

  • служба хранилища роль чтения данных BLOB-объектов в учетных записях хранения.
  • Разрешения чтения данных для экземпляров База данных SQL.

Чтобы настроить субъект-службу с требуемой ролью и разрешениями, выполните следующие действия.

разрешения учетной записи служба хранилища Azure

  1. В портал Azure перейдите к учетной <DLZ-prefix>devraw записи служба хранилища Azure. В меню ресурсов выберите контроль доступа (IAM).

    Screenshot that shows the storage account service principal permissions pane, with Access Control highlighted.

  2. Выберите Добавить>Добавить назначение ролей.

    Screenshot that shows the storage account service principal Access Control pane that shows how to add a role assignment.

  3. На вкладке "Добавление назначения ролей" найдите и выберите служба хранилища средство чтения данных BLOB-объектов. Затем выберите Далее.

    Screenshot that shows searching for Storage Blob Data Reader under Add role assignment.

  4. В разделе "Участники" выберите "Выбрать участников".

    Screenshot that shows select members pane under add role assignment.

  5. В разделе "Выбор участников" найдите имя созданного субъекта-службы.

    Screenshot that shows how to search for a service principal name.

  6. В результатах поиска выберите субъект-службу и нажмите кнопку "Выбрать".

    Screenshot that shows the results pane after searching for a service principal name.

  7. Чтобы завершить назначение роли, нажмите кнопку "Проверить и назначить дважды".

Повторите действия, описанные в этом разделе, для оставшихся учетных записей хранения:

  • <DLZ-prefix>devencur
  • <DLZ-prefix>devwork

разрешения База данных SQL

Чтобы задать разрешения База данных SQL, подключитесь к виртуальной машине SQL Azure с помощью редактора запросов. Так как все ресурсы находятся за частной конечной точкой, необходимо сначала войти в портал Azure с помощью виртуальной машины узла Бастиона Azure.

В портал Azure подключитесь к виртуальной машине, развернутой <DMLZ-prefix>-dev-bastion в группе ресурсов. Если вы не знаете, как подключиться к виртуальной машине с помощью службы узла Бастиона, см. Подключение на виртуальную машину.

Чтобы добавить субъект-службу в качестве пользователя в базу данных, вам может потребоваться добавить себя в качестве администратора Microsoft Entra. В шагах 1 и 2 вы добавляете себя в качестве администратора Microsoft Entra. На шагах 3–5 вы предоставляете субъекту-службе разрешения для базы данных. При входе на портал из виртуальной машины узла Бастиона найдите виртуальные машины SQL Azure в портал Azure.

  1. Перейдите на виртуальную <DP-prefix>-dev-sqlserver001 машину SQL Azure. В меню ресурсов в Параметры выберите идентификатор Microsoft Entra.

    Screenshot that shows the Microsoft Entra pane in Azure SQL Database Server.

  2. На панели команд выберите "Задать администратора". Найдите и выберите собственную учетную запись. Выберите Выбрать.

    Screenshot that shows how to search for an account to make a user an admin.

  3. В меню ресурсов выберите базы данных SQL и выберите AdatumCRM базу данных.

    Screenshot that shows a search for the correct database, with AdatumCRM highlighted.

  4. В меню ресурсов AdatumCRM выберите редактор запросов (предварительная версия). В разделе проверки подлинности Active Directory нажмите кнопку "Продолжить как ", чтобы войти.

    Screenshot that shows how to sign in to the query editor by using Active Directory authentication.

  5. В редакторе запросов измените следующие инструкции, чтобы заменить <service principal name> имя созданного субъекта-службы (например, purview-service-principal). Затем выполните инструкции.

    
    CREATE USER [<service principal name>] FROM EXTERNAL PROVIDER
    GO
    
    EXEC sp_addrolemember 'db_datareader', [<service principal name>]
    GO
    
    

    Screenshot that shows how to execute statements in the query editor.

Повторите шаги 3–5 для AdatumERP базы данных.

Настройка хранилища ключей

Purview считывает ключ субъекта-службы из экземпляра Azure Key Vault. Хранилище ключей создается в развертывании целевой зоны управления данными. Для настройки хранилища ключей необходимо выполнить следующие действия.

  1. Добавьте ключ субъекта-службы в хранилище ключей в качестве секрета.

  2. Предоставьте разрешения средства чтения секретов MSI Purview в хранилище ключей.

  3. Добавьте хранилище ключей в Purview в качестве подключения к хранилищу ключей.

  4. Создайте учетные данные в Purview, указывающие на секрет хранилища ключей.

Добавление разрешений для добавления секрета в хранилище ключей

  1. В портал Azure перейдите в службу Azure Key Vault. Найдите хранилище ключей <DMLZ-prefix>-dev-vault001 .

    Screenshot that shows the Access Control Key Vault pane.

  2. В меню ресурсов выберите элемент управления доступом (IAM). На панели команд нажмите кнопку "Добавить", а затем выберите " Добавить назначение роли".

    Screenshot that shows adding a role assignment in Purview.

  3. На вкладке "Роль" найдите и выберите key Vault Администратор istrator. Выберите Далее.

    Screenshot that shows how to search for the Key Vault Administrator role.

  4. В разделе "Участники" выберите "Выбрать участников ", чтобы добавить учетную запись, вошедшего в систему.

    Screenshot that shows the Select members button highlighted.

  5. В разделе "Выбор участников" выполните поиск учетной записи, вошедшего в систему. Выберите учетную запись и нажмите кнопку "Выбрать".

    Screenshot that shows the select member search box.

  6. Чтобы завершить процесс назначения ролей, дважды нажмите кнопку "Проверить и назначить ".

Добавление секрета в хранилище ключей

Выполните следующие действия, чтобы войти в портал Azure из виртуальной машины узла Бастиона.

  1. В меню ресурсов хранилища ключей <DMLZ-prefix>-dev-vault001 выберите "Секреты". На панели команд выберите "Создать и импортировать ", чтобы создать новый секрет.

    Screenshot that shows the key vault Generate/Import button highlighted.

  2. В разделе "Создание секрета" выберите или введите следующие значения:

    Параметр Действие
    Параметры отправки Выберите Вручную.
    Название Введите секрет субъекта-службы.
    Стоимость Введите пароль субъекта-службы, созданный ранее.

    Screenshot that shows the key vault Create a secret pane.

    Примечание.

    На этом шаге создается секрет с именем service-principal-secret в хранилище ключей с помощью ключа пароля субъекта-службы. Purview использует секрет для подключения и проверки источников данных. Если ввести неверный пароль, вы не сможете выполнить следующие разделы.

  3. Выберите Создать.

Настройка разрешений Purview в хранилище ключей

Чтобы экземпляр Purview считывал секреты, хранящиеся в хранилище ключей, необходимо назначить Purview соответствующим разрешениям в хранилище ключей. Чтобы задать разрешения, добавьте управляемое удостоверение Purview в роль читателя секретов хранилища ключей.

  1. В меню ресурсов хранилища ключей <DMLZ-prefix>-dev-vault001 выберите элемент управления доступом (IAM).

  2. На панели команд нажмите кнопку "Добавить", а затем выберите " Добавить назначение роли".

    Screenshot that shows the Access Control pane, with the add role assignment button highlighted.

  3. В роли найдите и выберите пользователя секретов Key Vault. Выберите Далее.

    Screenshot that shows the search for Key Vault Secret User pane.

  4. В разделе "Участники" выберите "Выбрать участников".

    Screenshot that shows the add role assignment pane with the select member button highlighted.

  5. <DMLZ-prefix>-dev-purview001 Найдите экземпляр Purview. Выберите экземпляр, чтобы добавить соответствующую учетную запись. Затем щелкните Выбрать.

    Screenshot that shows the search box for the Purview instance name.

  6. Чтобы завершить процесс назначения ролей, дважды нажмите кнопку "Проверить и назначить ".

    Screenshot that shows how to complete a role assignment.

Настройка подключения к хранилищу ключей в Purview

Чтобы настроить подключение хранилища ключей к Purview, необходимо войти в портал Azure с помощью виртуальной машины узла Бастиона Azure.

  1. В портал Azure перейдите к учетной <DMLZ-prefix>-dev-purview001 записи Purview. В разделе "Начало работы" на портале управления Microsoft Purview выберите "Открыть".

    Screenshot that shows the Microsoft Purview account overview.

  2. В Purview Studio выберите "Учетные данные управления>". На панели команд "Учетные данные" выберите "Управление подключениями Key Vault" и нажмите кнопку "Создать".

    Screenshot that shows the Manage Key Vault connections button.

  3. В новом подключении к хранилищу ключей выберите или введите следующие сведения:

    Параметр Действие
    Название Введите <DMLZ-prefix-dev-vault001>.
    Подписка на Azure Выберите подписку, в которую размещается хранилище ключей.
    Имя Key Vault Выберите хранилище ключей <DMLZ-prefix-dev-vault001>.

    Screenshot that shows the new Key Vault connections pane.

  4. Выберите Создать.

  5. В разделе "Подтверждение предоставления доступа" нажмите кнопку "Подтвердить".

Создание учетных данных в Purview

Последним шагом настройки хранилища ключей является создание учетных данных в Purview, указывающее на секрет, созданный в хранилище ключей для субъекта-службы.

  1. В Purview Studio выберите "Учетные данные управления>". На панели команд "Учетные данные" нажмите кнопку "Создать".

    Screenshot that shows the new Purview Credentials pane.

  2. В разделе "Новые учетные данные" выберите или введите следующие сведения:

    Параметр Действие
    Название Введите purviewServicePrincipal.
    метод проверки подлинности Выберите Субъект-служба.
    Идентификатор клиента Значение заполняется автоматически.
    Идентификатор субъекта-службы Введите идентификатор приложения или идентификатор клиента субъекта-службы.
    Подключение Key Vault Выберите подключение к хранилищу ключей, созданное в предыдущем разделе.
    Имя секрета Введите имя секрета в хранилище ключей (секрет субъекта-службы).

    Screenshot that shows the new credentials form, with values highlighted.

  3. Выберите Создать.

Регистрация источников данных

На этом этапе Purview может подключиться к субъекту-службе. Теперь можно зарегистрировать и настроить источники данных.

Регистрация учетных записей Azure Data Lake Storage 2-го поколения

Ниже описан процесс регистрации учетной записи хранения Azure Data Lake Storage 2-го поколения.

  1. В Purview Studio щелкните значок карты данных, выберите источники и нажмите кнопку "Регистрация".

    Screenshot that shows the data map button highlighted in Purview.

  2. В разделе "Регистрация источников" выберите Azure Data Lake Storage 2-го поколения и нажмите кнопку "Продолжить".

    Screenshot that shows the Azure Data Lake Storage Gen2 registration source.

  3. В разделе "Регистрация источников" (Azure Data Lake Storage 2-го поколения)выберите или введите следующие сведения:

    Параметр Действие
    Название Введите <DLZ-префикс>dldevraw.
    Подписка Azure Выберите подписку, на которую размещена учетная запись хранения.
    Имя учетной записи хранения Выберите соответствующую учетную запись хранения.
    Конечная точка Значение автоматически заполняется на основе выбранной учетной записи хранения.
    Выбор коллекции Выберите корневую коллекцию.

    Screenshot that shows the Register Azure Data Lake Storage Gen2 pane, with values highlighted.

  4. Выберите "Регистрация", чтобы создать источник данных.

Повторите следующие действия для следующих учетных записей хранения:

  • <DMLZ-prefix>devencur
  • <DMLZ-prefix>devwork

Регистрация экземпляра База данных SQL в качестве источника данных

  1. В Purview Studio щелкните значок карты данных, выберите "Источники" и нажмите кнопку "Регистрация".

    Screenshot that shows the data map button highlighted in the Purview interface.

  2. В разделе "Регистрация источников" выберите База данных SQL Azure и нажмите кнопку "Продолжить".

    Screenshot that shows the Azure SQL Database registration source.

  3. В разделе "Регистрация источников" (База данных SQL Azure)выберите или введите следующие сведения:

    Параметр Действие
    Название Введите SQLDatabase (имя базы данных, созданной в экземплярах создания База данных SQL Azure).
    Подписка Выберите подписку, на которую размещена база данных.
    Имя сервера Введите <DP-prefix-dev-sqlserver001>.

    Screenshot that shows the Register SQL Database form, with values highlighted.

  4. Выберите Зарегистрировать.

Настройка проверок

Затем настройте сканирование источников данных.

Сканирование источника данных Data Lake Storage 2-го поколения

  1. В Purview Studio перейдите на карту данных. В источнике данных выберите значок "Создать проверку ".

    Screenshot that shows how to set up a new Data Lake Storage Gen2 scan.

  2. В новой области сканирования выберите или введите следующие сведения:

    Параметр Действие
    Название Введите devraw Scan_<DLZ-prefix>.
    Подключение через среду выполнения интеграции Выберите локальную среду выполнения интеграции, развернутую с целевой зоной данных.
    Учетные данные Выберите субъект-службу, настроенный для Purview.

    Screenshot that shows the scan Data Lake Storage Gen2 credential form with values entered.

  3. Выберите "Проверить подключение", чтобы проверить подключение и наличие разрешений. Выберите Продолжить.

  4. В области сканирования выберите всю учетную запись хранения в качестве область для сканирования и нажмите кнопку "Продолжить".

    Screenshot that shows the Scope your scan pane with storage accounts selected.

  5. В разделе "Выбор набора правил сканирования" выберите AdlsGen2 и нажмите кнопку "Продолжить".

    Screenshot that shows the Data Lake Storage Gen2 scan rule set selection.

  6. В разделе "Установка триггера сканирования" выберите "Один раз" и нажмите кнопку "Продолжить".

    Screenshot that shows the set a scan Trigger pane, with Once selected.

  7. В разделе "Проверка сканирования" просмотрите параметры сканирования. Нажмите кнопку "Сохранить и запустить ", чтобы запустить проверку.

    Screenshot that shows reviewing your scan before you save and run it.

Повторите следующие действия для следующих учетных записей хранения:

  • <DMLZ-prefix>devencur
  • <DMLZ-prefix>devwork

Сканирование источника данных База данных SQL

  1. В источнике данных База данных SQL Azure выберите "Создать сканирование".

    Screenshot that shows how to create a new SQL Database scan.

  2. В новой области сканирования выберите или введите следующие сведения:

    Параметр Действие
    Название Введите Scan_Database001.
    Подключение через среду выполнения интеграции Выберите Purview-SHIR.
    Имя базы данных Выберите имя базы данных.
    Учетные данные Выберите учетные данные хранилища ключей, созданные в Purview.
    Извлечение происхождения (предварительная версия) Выберите Отключить.

    Screenshot that shows the scan credential form, with values entered.

  3. Выберите "Проверить подключение", чтобы проверить подключение и наличие разрешений. Выберите Продолжить.

  4. Выберите область для проверки. Чтобы проверить всю базу данных, используйте значение по умолчанию.

    Screenshot that shows how to set the scope for the scan to the whole database.

  5. В разделе "Выбор набора правил сканирования" выберите AzureSqlDatabase и нажмите кнопку "Продолжить".

    Screenshot that shows the SQL Database scan rule set selection.

  6. В разделе "Установка триггера сканирования" выберите "Один раз" и нажмите кнопку "Продолжить".

    Screenshot that shows the set a scan to run pane with once selected.

  7. В разделе "Проверка сканирования" просмотрите параметры сканирования. Нажмите кнопку "Сохранить и запустить ", чтобы запустить проверку.

Повторите эти действия для AdatumERP базы данных.

Теперь Purview настроен для управления данными для зарегистрированных источников данных.

Копирование данных База данных SQL в Data Lake Storage 2-го поколения

В следующих шагах используется средство копирования данных в фабрике данных для создания конвейера для копирования таблиц из экземпляров AdatumCRM База данных SQL и AdatumERP CSV-файлов в <DLZ-prefix>devraw учетной записи Data Lake Storage 2-го поколения.

Среда заблокирована для общедоступного доступа, поэтому сначала необходимо настроить частные конечные точки. Чтобы использовать частные конечные точки, вы войдите в портал Azure в локальном браузере, а затем подключитесь к виртуальной машине узла Бастиона для доступа к необходимым службам Azure.

Создание частных конечных точек

Чтобы настроить частные конечные точки для необходимых ресурсов, выполните следующие действия.

  1. <DMLZ-prefix>-dev-bastion В группе ресурсов выберите <DMLZ-prefix>-dev-vm001.

    Screenshot that shows the resource groups for connecting to the bastion host virtual machine.

  2. На панели команд выберите Подключение и выберите Бастион.

    Screenshot that shows the connect to bastion selection pane.

  3. Введите имя пользователя и пароль виртуальной машины, а затем выберите Подключение.

    Screenshot that shows the username and password entry pane.

  4. В веб-браузере виртуальной машины перейдите к портал Azure. Перейдите в <DLZ-prefix>-dev-shared-integration группу ресурсов и откройте фабрику <DLZ-prefix>-dev-integration-datafactory001 данных.

    Screenshot that shows how to go to a different resource group to open Azure Data Factory.

  5. В разделе "Начало работы" в open Фабрика данных Azure Studio нажмите кнопку "Открыть".

    Screenshot that shows how to open Azure Data Factory Studio.

  6. В меню "Фабрика данных" выберите значок "Управление " (значок выглядит как квадратная панель элементов с меткой на ней). В меню ресурсов выберите управляемые частные конечные точки, чтобы создать частные конечные точки , необходимые для подключения Фабрики данных к другим защищенным службам Azure.

    Утверждение запросов доступа для частных конечных точек рассматривается в следующем разделе. После утверждения запросов на доступ к частной конечной точке их состояние утверждения утверждено, как показано в следующем примере учетной <DLZ-prefix>devencur записи хранения.

    Screenshot that shows how to go to the Manage Private Endpoints pane.

  7. Перед утверждением подключений к частной конечной точке нажмите кнопку "Создать". Введите SQL Azure, чтобы найти соединитель База данных SQL Azure, используемый для создания новой управляемой частной конечной точки для виртуальной <DP-prefix>-dev-sqlserver001 машины SQL Azure. Виртуальная машина содержит созданные AdatumCRMAdatumERP ранее базы данных.

  8. В новой управляемой частной конечной точке (База данных SQL Azure)для имени введите data-product-dev-sqlserver001. Введите подписку Azure, используемую для создания ресурсов. Для имени сервера выберите <DP-prefix>-dev-sqlserver001 , чтобы подключиться к нему из этой фабрики данных в следующих разделах.

    Screenshot that shows how to name the new private endpoint.

Утверждение запросов на доступ к частной конечной точке

Чтобы предоставить фабрике данных доступ к частным конечным точкам для необходимых служб, у вас есть несколько вариантов:

  • Вариант 1. В каждой службе вы запрашиваете доступ к портал Azure, перейдите к параметру подключения к сети или частной конечной точке службы и утвердите запросы на доступ к частной конечной точке.

  • Вариант 2. Выполните следующие скрипты в Azure Cloud Shell в режиме Bash, чтобы утвердить все запросы доступа к необходимым частным конечным точкам одновременно.

    
    # Storage managed private endpoint approval
    
    # devencur
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-storage')==\`true\`].name")
    storageAcctName=$(az storage account list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'devencur')==\`true\`].name")
    endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    
    az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved"
    
    # devraw
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-storage')==\`true\`].name")
    storageAcctName=$(az storage account list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'devraw')==\`true\`].name")
    endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved"
    
    # SQL Database managed private endpoint approval
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-dp001')==\`true\`].name")
    sqlServerName=$(az sql server list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'sqlserver001')==\`true\`].name")
    endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $sqlServerName --type Microsoft.Sql/servers -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $sqlServerName --type Microsoft.Sql/servers --description "Approved"
    
    # Key Vault private endpoint approval
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, '-dev-metadata')==\`true\`].name")
    keyVaultName=$(az keyvault list -g $resourceGroupName -o tsv  --query "[?contains(@.name, 'dev-vault001')==\`true\`].name")
    endPointConnectionID=$(az network private-endpoint-connection list -g $resourceGroupName -n $keyVaultName --type Microsoft.Keyvault/vaults -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].id")
    az network private-endpoint-connection approve -g $resourceGroupName --id $endPointConnectionID --resource-name $keyVaultName --type Microsoft.Keyvault/vaults --description "Approved"
    
    # Purview private endpoint approval
    resourceGroupName=$(az group list -o tsv  --query "[?contains(@.name, 'dev-governance')==\`true\`].name")
    purviewAcctName=$(az purview account list -g $resourceGroupName -o tsv  --query "[?contains(@.name, '-dev-purview001')==\`true\`].name")
    for epn in $(az network private-endpoint-connection list -g $resourceGroupName -n $purviewAcctName --type Microsoft.Purview/accounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name")
    do
        az network private-endpoint-connection approve -g $resourceGroupName -n $epn --resource-name $purviewAcctName --type Microsoft.Purview/accounts --description "Approved"
    done
    
    

В следующем примере показано, как учетная запись хранения управляет запросами доступа к частной <DLZ-prefix>devraw конечной точке. В меню ресурсов для учетной записи хранения выберите "Сеть". На панели команд выберите подключения к частной конечной точке.

Screenshot that shows how to go to the Private endpoint connections pane.

Для некоторых ресурсов Azure в меню ресурсов выберите подключения к частной конечной точке. Пример сервера SQL Azure показан на следующем снимке экрана.

Чтобы утвердить запрос доступа к частной конечной точке, в подключениях к частной конечной точке выберите ожидающий запрос доступа и нажмите кнопку "Утвердить".

Screenshot that shows to approve a private endpoint access request.

После утверждения запроса на доступ в каждой требуемой службе может потребоваться несколько минут, чтобы запрос отображалось как утвержденный в управляемых частных конечных точках в Студии данных. Даже если выбрать "Обновить" на панели команд, состояние утверждения может быть устаревшим в течение нескольких минут.

После завершения утверждения всех запросов доступа к необходимым службам в управляемых частных конечных точках значение состояния утверждения для всех служб утверждено:

Screenshot that shows the private endpoint SQL connections as Approved.

Назначения ролей

После завершения утверждения запросов на доступ к частной конечной точке добавьте соответствующие разрешения роли для фабрики данных для доступа к этим ресурсам:

  • База данных SQL экземпляры AdatumCRM и AdatumERP на сервере <DP-prefix>-dev-sqlserver001 SQL Azure
  • служба хранилища учетные <DLZ-prefix>devrawзаписи , <DLZ-prefix>devencurи<DLZ-prefix>devwork
  • Учетная запись Purview <DMLZ-prefix>-dev-purview001

Виртуальная машина SQL Azure

  1. Чтобы добавить назначения ролей, начните с виртуальной машины SQL Azure. В группе ресурсов перейдите <DMLZ-prefix>-dev-dp001 в <DP-prefix>-dev-sqlserver001раздел .

  2. В меню ресурсов выберите элемент управления доступом (IAM). На панели команд выберите "Добавить>назначение роли".

  3. На вкладке "Роль" выберите "Участник" и нажмите кнопку "Далее".

    Screenshot that shows the Contributor role selection pane.

  4. В разделе "Участники" для назначения доступа выберите управляемое удостоверение. Для участников выберите "Выбрать участников".

    Screenshot that shows the select Managed Identity Members pane.

  5. В разделе "Выбор управляемых удостоверений" выберите подписку Azure. Для управляемого удостоверения выберите фабрику данных (V2), чтобы просмотреть доступные фабрики данных. В списке фабрик данных выберите Фабрика данных Azure DLZ-prefix-dev-integration-datafactory001>. < Выберите Выбрать.

    Screenshot that shows the role assignment completion pane.

  6. Нажмите кнопку "Рецензирование" и " Назначить дважды", чтобы завершить процесс.

Учетные записи хранения

Затем назначьте необходимые роли <DLZ-prefix>devraw<DLZ-prefix>devencurучетным записям хранения и <DLZ-prefix>devwork учетным записям хранения.

Чтобы назначить роли, выполните те же действия, которые использовались для создания назначения ролей SQL Azure. Но для роли выберите служба хранилища участник данных BLOB-объектов вместо участника.

После назначения ролей для всех трех учетных записей хранения фабрика данных может подключаться к учетным записям хранения и получать доступ к ним.

Microsoft Purview

Последним шагом добавления назначений ролей является добавление роли куратора данных Purview в Microsoft Purview в учетную запись управляемого удостоверения фабрики <DLZ-prefix>-dev-integration-datafactory001 данных. Выполните следующие действия, чтобы фабрика данных могла отправлять сведения о ресурсах каталога данных из нескольких источников данных в учетную запись Purview.

  1. В группе <DMLZ-prefix>-dev-governanceресурсов перейдите к учетной <DMLZ-prefix>-dev-purview001 записи Purview.

  2. В Purview Studio щелкните значок карты данных и выберите коллекции.

  3. Выберите вкладку "Назначения ролей" для коллекции. В разделе "Кураторы данных" добавьте управляемое удостоверение для <DLZ-prefix>-dev-integration-datafactory001:

    Screenshot that shows how to add data curators to your Purview role assignment.

фабрика данных Подключение в Purview

Заданы разрешения, и Purview теперь может видеть фабрику данных. Следующий шаг — подключение <DMLZ-prefix>-dev-purview001 к <DLZ-prefix>-dev-integration-datafactory001.

  1. В Purview Studio щелкните значок управления и выберите фабрику данных. Выберите "Создать" , чтобы создать подключение фабрики данных.

  2. В области "Новые подключения фабрики данных" введите подписку Azure и выберите фабрику <DLZ-prefix>-dev-integration-datafactory001 данных. Нажмите ОК.

    Screenshot that shows what the Purview Studio pane looks like while selecting a new connection.

  3. В экземпляре Фабрики <DLZ-prefix>-dev-integration-datafactory001 данных в разделе "Управление>Azure Purview" обновите учетную запись Azure Purview.

    Теперь в Data Lineage - Pipeline интеграции отображается зеленый Подключение значок.

    Screenshot that shows the Azure Data Factory Purview account pane with the data lineage pipeline connected.

Создание конвейера ETL

Теперь, когда <DLZ-prefix>-dev-integration-datafactory001 у него есть необходимые разрешения на доступ, создайте действие копирования в Фабрике данных для перемещения данных из База данных SQL экземпляров в <DLZ-prefix>devraw необработанную учетную запись хранения.

Использование средства копирования данных с помощью AdatumCRM

Этот процесс извлекает данные клиента из экземпляра AdatumCRM База данных SQL и копирует его в хранилище Data Lake Storage 2-го поколения.

  1. В Студии фабрики данных щелкните значок "Автор " и выберите "Ресурсы фабрики". Выберите знак плюса (+) и нажмите кнопку "Копировать данные".

    Screenshot that shows the Copy Data tool under factory resources.

    Выполните каждый шаг в мастере средства копирования данных:

    1. Чтобы создать триггер для запуска конвейера каждые 24 часа, выберите "Расписание".

      Screenshot that shows how to schedule a Trigger to run periodically in CRM.

    2. Чтобы создать связанную службу для подключения фабрики данных к AdatumCRM экземпляру База данных SQL на сервере <DP-prefix>-dev-sqlserver001 (источник), выберите "Создать Подключение".

      Screenshot that shows connecting to the AdatumCRM database.

      Примечание.

      Если возникают ошибки, связанные с подключением или доступом к данным в База данных SQL экземплярах или учетных записях хранения, просмотрите разрешения в подписке Azure. Убедитесь, что фабрика данных имеет необходимые учетные данные и разрешения на доступ к любому проблемном ресурсу.

    3. Выберите следующие три таблицы:

      • SalesLT.Address
      • SalesLT.Customer
      • SalesLT.CustomerAddress

      Screenshot that shows the select tables pane with tables highlighted.

    4. Создайте связанную службу для доступа к хранилищу <DLZ-prefix>devraw Azure Data Lake Storage 2-го поколения (назначение).

      Screenshot that shows the raw storage connection.

    5. Просмотрите папки в хранилище и выберите "Данные" <DLZ-prefix>devraw в качестве назначения.

      Screenshot that shows the destination as raw data.

    6. Измените суффикс имени файла на CSV и используйте другие параметры по умолчанию.

      Screenshot that shows the file name suffix field with CSV entered.

    7. Перейдите к следующей области и выберите " Добавить заголовок в файл".

      Screenshot that shows how to add a header to a file.

    8. Завершив работу мастера, полная панель развертывания выглядит примерно так:

      Screenshot that shows the Copy Data tool deployment completed.

Новый конвейер указан в конвейерах.

Запуск конвейера

Этот процесс создает три CSV-файла в папке Data\CRM , по одному для каждой из выбранных таблиц в AdatumCRM базе данных.

  1. Переименуйте конвейер CopyPipeline_CRM_to_Raw.

  2. Переименуйте наборы CRM_Raw_Storage данных и CRM_DB.

  3. На панели команд " Ресурсы фабрики " выберите "Опубликовать все".

  4. CopyPipeline_CRM_to_Raw Выберите конвейер и на панели команд конвейера выберите "Триггер", чтобы скопировать три таблицы из База данных SQL в Data Lake Storage 2-го поколения.

    Screenshot that shows how to use the trigger tool to copy data from the SQL Database to Data Lake Storage Gen2.

Использование средства копирования данных с AdatumERP

Затем извлеките данные из AdatumERP базы данных. Данные представляют данные о продажах, поступающие из системы ERP.

  1. По-прежнему в Data Factory Studio создайте новый конвейер с помощью средства копирования данных. На этот раз вы отправляете данные о продажах из AdatumERP папки данных учетной <DLZ-prefix>devraw записи хранения так же, как и данные CRM. Выполните те же действия, но используйте AdatumERP базу данных в качестве источника.

    1. Создайте расписание для активации каждый час.

    2. Создайте связанную службу для экземпляра AdatumERP База данных SQL.

      Screenshot that shows the Adatum ERP connection pane completed.

    3. Выберите следующие семь таблиц:

      • SalesLT.Product
      • SalesLT.ProductCategory
      • SalesLT.ProductDescription
      • SalesLT.ProductModel
      • SalesLT.ProductModelProductDescription
      • SalesLT.SalesOrderDetail
      • SalesLT.SalesOrderHeader

      Screenshot that shows Adatum ERP Table options.

    4. Используйте существующую связанную службу с учетной <DLZ-prefix>devraw записью хранения и задайте для файла расширение CSV.

      Screenshot that shows a raw storage account with the file extension set to CSV.

    5. Выберите " Добавить заголовок в файл".

      Screenshot that shows adding a header to a file under File format settings.

    6. Снова завершите работу мастера и переименуйте конвейер CopyPipeline_ERP_to_DevRaw. Затем на панели команд выберите "Опубликовать все". Наконец, запустите триггер в новом конвейере, чтобы скопировать семь выбранных таблиц из База данных SQL в Data Lake Storage 2-го поколения.

После выполнения этих действий 10 CSV-файлов находятся в <DLZ-prefix>devraw хранилище Data Lake Storage 2-го поколения. В следующем разделе вы курируют файлы в <DLZ-prefix>devencur хранилище Data Lake Storage 2-го поколения.

Курировать данные в Data Lake Storage 2-го поколения

После завершения создания 10 CSV-файлов в необработанном <DLZ-prefix>devraw хранилище Data Lake Storage 2-го поколения преобразуйте эти файлы по мере необходимости при копировании их в курированное <DLZ-prefix>devencur хранилище Data Lake Storage 2-го поколения.

Продолжайте использовать Фабрика данных Azure для создания этих новых конвейеров для оркестрации перемещения данных.

Курировать CRM для данных клиента

Создайте поток данных, который получает CSV-файлы в папке Data\CRM.<DLZ-prefix>devraw Преобразуйте файлы и скопируйте преобразованные файлы в формате PARQUET в папку Data\Customer в <DLZ-prefix>devencurпапке .

  1. В Фабрика данных Azure перейдите к фабрике данных и выберите Orchestrate.

    Screenshot that shows the Orchestrate button in Azure Data Factory.

  2. Как правило, присвойте конвейеру Pipeline_transform_CRMимя.

  3. В области Действия разверните меню Перемещение и преобразование. Перетащите действие потока данных и удалите его на холст конвейера.

    Screenshot that shows the Activities pane and Move and transform highlighted.

  4. В разделе "Добавление Поток данных" выберите "Создать поток данных" и назовите поток CRM_to_Customer данных. Нажмите Готово.

    Примечание.

    На панели команд холста конвейера включите отладку потока данных. В режиме отладки можно интерактивно протестировать логику преобразования в динамическом кластере Apache Spark. Кластеры потоков данных занимают 5–7 минут. Перед началом разработки потока данных рекомендуется включить отладку.

    Screenshot that shows the Open Data Flow button.

    После завершения выбора параметров в потоке CRM_to_CustomerPipeline_transform_CRM данных конвейер выглядит следующим образом:

    Screenshot that shows the pipeline transform CRM.

    Поток данных выглядит следующим образом:

    Screenshot that shows the CRM to Customer data flow.

  5. Затем измените эти параметры в потоке данных для CRMAddress источника:

    1. Создайте новый набор данных из Data Lake Storage 2-го поколения. Используйте формат Разделителя. Задайте набору данных имя DevRaw_CRM_Address.

    2. Подключение связанную службу<DLZ-prefix>devraw.

    3. Data\CRM\SalesLTAddress.csv Выберите файл в качестве источника.

  6. Измените эти параметры в потоке данных для парного приемника CustAddress :

    1. Создайте новый набор данных с именем DevEncur_Cust_Address.

    2. Выберите папку Data\Customer в <DLZ-prefix>devencur качестве приемника.

    3. В разделе Параметры\Output в один файл преобразуйте файл в Address.parquet.

В оставшейся части конфигурации потока данных используйте сведения в следующих таблицах для каждого компонента. Обратите внимание, что CRMAddress и CustAddress являются первыми двумя строками. Используйте их в качестве примеров для других объектов.

Элемент, который не находится в любой из следующих таблиц, является RemovePasswords модификатором схемы. На предыдущем снимку экрана показано, что этот элемент проходит между CRMCustomer и CustCustomer. Чтобы добавить этот модификатор схемы, перейдите к разделу "Выбор параметров " и удалите PasswordHash и PasswordSalt.

CRMCustomer возвращает схему 15-столбцов из CRV-файла. CustCustomer записывает только 13 столбцов после того, как модификатор схемы удаляет два столбца паролей.

Полная таблица

Имя Тип объекта Имя набора данных Хранилище данных Тип формата Связанные службы Файл или папка
CRMAddress source DevRaw_CRM_Address Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\CRM\SalesLTAddress.csv
CustAddress sink DevEncur_Cust_Address Azure Data Lake Storage 2-го поколения Parquet devencur Data\Customer\Address.parquet
CRMCustomer source DevRaw_CRM_Customer Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\CRM\SalesLTCustomer.csv
CustCustomer sink DevEncur_Cust_Customer Azure Data Lake Storage 2-го поколения Parquet devencur Data\Customer\Customer.parquet
CRMCustomerAddress source DevRaw_CRM_CustomerAddress Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\CRM\SalesLTCustomerAddress.csv
CustCustomerAddress sink DevEncur_Cust_CustomerAddress Azure Data Lake Storage 2-го поколения Parquet devencur Data\Customer\CustomerAddress.parquet

Таблица erp to Sales

Теперь повторите аналогичные действия, чтобы создать Pipeline_transform_ERP конвейер, создайте ERP_to_Sales поток данных для преобразования CSV-файлов в папке <DLZ-prefix>devrawData\ERP и скопируйте преобразованные файлы в папку Data\Sales в <DLZ-prefix>devencur.

В следующей таблице вы найдете объекты для создания в потоке ERP_to_Sales данных и параметры, которые необходимо изменить для каждого объекта. Каждый CSV-файл сопоставляется с приемником PARQUET .

Имя Тип объекта Имя набора данных Хранилище данных Тип формата Связанные службы Файл или папка
ERPProduct source DevRaw_ERP_Product Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\ERP\SalesLTProduct.csv
SalesProduct sink DevEncur_Sales_Product Azure Data Lake Storage 2-го поколения Parquet devencur Data\Sales\Product.parquet
ERPProductCategory source DevRaw_ERP_ProductCategory Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\ERP\SalesLTProductCategory.csv
SalesProductCategory sink DevEncur_Sales_ProductCategory Azure Data Lake Storage 2-го поколения Parquet devencur Data\Sales\ProductCategory.parquet
ERPProductDescription source DevRaw_ERP_ProductDescription Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\ERP\SalesLTProductDescription.csv
SalesProductDescription sink DevEncur_Sales_ProductDescription Azure Data Lake Storage 2-го поколения Parquet devencur Data\Sales\ProductDescription.parquet
ERPProductModel source DevRaw_ERP_ProductModel Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\ERP\SalesLTProductModel.csv
SalesProductModel sink DevEncur_Sales_ProductModel Azure Data Lake Storage 2-го поколения Parquet devencur Data\Sales\ProductModel.parquet
ERPProductModelProductDescription source DevRaw_ERP_ProductModelProductDescription Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\ERP\SalesLTProductModelProductDescription.csv
SalesProductModelProductDescription sink DevEncur_Sales_ProductModelProductDescription Azure Data Lake Storage 2-го поколения Parquet devencur Data\Sales\ProductModelProductDescription.parquet
ERPProductSalesOrderDetail source DevRaw_ERP_ProductSalesOrderDetail Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\ERP\SalesLTProductSalesOrderDetail.csv
SalesProductSalesOrderDetail sink DevEncur_Sales_ProductSalesOrderDetail Azure Data Lake Storage 2-го поколения Parquet devencur Data\Sales\ProductSalesOrderDetail.parquet
ERPProductSalesOrderHeader source DevRaw_ERP_ProductSalesOrderHeader Azure Data Lake Storage 2-го поколения Текст с разделителями devraw Data\ERP\SalesLTProductSalesOrderHeader.csv
SalesProductSalesOrderHeader sink DevEncur_Sales_ProductSalesOrderHeader Azure Data Lake Storage 2-го поколения Parquet devencur Data\Sales\ProductSalesOrderHeader.parquet

Следующие шаги