Подключение к Azure Databricks и управление ими в Microsoft Purview (предварительная версия)

В этой статье описывается, как зарегистрировать Azure Databricks, а также как выполнять проверку подлинности и взаимодействовать с Azure Databricks в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.

Важно!

Сейчас эта функция доступна в предварительной версии. Дополнительные условия использования предварительных версий Microsoft Azure включают дополнительные юридические условия, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или еще не выпущены в общедоступной версии.

Поддерживаемые возможности

Извлечение метаданных Полная проверка Добавочное сканирование Сканирование с заданной областью Классификация Присвоение подписей Политика доступа Линии Общий доступ к данным Динамическое представление
Да Да Нет Да Нет Нет Нет Да Нет Нет

Примечание.

Этот соединитель приносит метаданные из хранилища метаданных Hive в рабочей области Azure Databricks. Чтобы проверить метаданные в каталоге Azure Databricks Unity, обратитесь к соединителю каталога Unity Azure Databricks.

При проверке хранилища метаданных Hive Azure Databricks Microsoft Purview поддерживает:

  • Извлечение технических метаданных, включая:

    • Рабочая область Azure Databricks
    • Сервер Hive
    • Databases
    • Таблицы, включая столбцы, внешние ключи, уникальные ограничения и описание хранилища
    • Представления, включая столбцы и описание хранилища
  • Получение связи между внешними таблицами и ресурсами Azure Data Lake Storage 2-го поколения/BLOB-объектов Azure (внешние расположения).

  • Получение статического происхождения данных между таблицами и представлениями на основе определения представления.

При настройке проверки можно выбрать проверку всего хранилища метаданных Hive или область проверку в подмножество схем.

Сравнение с проверкой через универсальный соединитель хранилища метаданных Hive на случай, если вы использовали его для сканирования Azure Databricks ранее:

  • Вы можете напрямую настроить проверку рабочих областей Azure Databricks без прямого доступа HMS. Он использует личный маркер доступа Databricks для проверки подлинности и подключается к кластеру для выполнения сканирования.
  • Данные рабочей области Databricks записываются.
  • Связь между таблицами и ресурсами хранилища фиксируется.

Известные ограничения

При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.

Предварительные требования

Регистрация

В этом разделе описывается, как зарегистрировать рабочую область Azure Databricks в Microsoft Purview с помощью портала управления Microsoft Purview.

  1. Перейдите к учетной записи Microsoft Purview.

  2. Выберите Карта данных в левой области.

  3. Нажмите Зарегистрировать.

  4. В разделе Регистрация источников выберите Azure Databricks>Continue.

  5. На экране Регистрация источников (Azure Databricks) выполните следующие действия.

    1. В поле Имя введите имя, которое Microsoft Purview будет отображать в качестве источника данных.

    2. В полях Подписка Azure и Имя рабочей области Databricks выберите подписку и рабочую область, которые нужно проверить, в раскрывающемся списке. URL-адрес рабочей области Databricks заполняется автоматически.

    3. В поле Выберите коллекцию выберите коллекцию из списка или создайте новую. Это действие необязательно.

    Снимок экрана: регистрация источника Azure Databricks.

  6. Нажмите Готово.

Проверка

Совет

Чтобы устранить неполадки со сканированием, выполните указанные ниже действия.

  1. Убедитесь, что выполнены все предварительные требования.
  2. Ознакомьтесь с нашей документацией по устранению неполадок сканирования.

Выполните следующие действия, чтобы проверить Azure Databricks для автоматической идентификации ресурсов. Дополнительные сведения о сканировании в целом см. в статье Сканирование и прием данных в Microsoft Purview.

  1. В Центре управления выберите среды выполнения интеграции. Убедитесь, что настроена локальная среда выполнения интеграции. Если она не настроена, выполните действия, описанные в статье Создание локальной среды выполнения интеграции и управление ею.

  2. Перейдите в раздел Источники.

  3. Выберите зарегистрированный объект Azure Databricks.

  4. Выберите + Создать сканирование.

  5. Укажите следующие сведения.

    1. Имя. Введите имя проверки.

    2. Метод извлечения: Указывает на извлечение метаданных из хранилища метаданных Hive или каталога Unity. Выберите Хранилище метаданных Hive.

    3. Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции.

    4. Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:

      • Выберите Проверка подлинности маркера доступа при создании учетных данных.
      • Укажите имя секрета личного маркера доступа, созданного в разделе Предварительные требования , в соответствующем поле.

      Дополнительные сведения см. в разделе Учетные данные для проверки подлинности источника в Microsoft Purview.

    5. Идентификатор кластера. Укажите идентификатор кластера, к которому подключается Microsoft Purview, и выполняет проверку. Его можно найти в рабочей области Azure Databricks —> вычисление —> кластер —> теги —> автоматически добавленные теги .>ClusterId

    6. Точки подключения. Укажите точку подключения и строку исходного расположения службы хранилища Azure при наличии внешнего хранилища, подключенного к Databricks вручную. Используйте формат /mnt/<path>=abfss://<container>@<adls_gen2_storage_account>.dfs.core.windows.net/;/mnt/<path>=wasbs://<container>@<blob_storage_account>.blob.core.windows.net. Он используется для отслеживания связи между таблицами и соответствующими ресурсами хранилища в Microsoft Purview. Этот параметр является необязательным. Если он не указан, такая связь не извлекается.

      Список точек подключения в рабочей области Databricks можно получить, выполнив следующую команду Python в записной книжке:

      dbutils.fs.mounts()
      

      Он выводит все точки подключения, как показано ниже:

      [MountInfo(mountPoint='/databricks-datasets', source='databricks-datasets', encryptionType=''),
      MountInfo(mountPoint='/mnt/ADLS2', source='abfss://samplelocation1@azurestorage1.dfs.core.windows.net/', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-tracking', source='databricks/mlflow-tracking', encryptionType=''), 
      MountInfo(mountPoint='/mnt/Blob', source='wasbs://samplelocation2@azurestorage2.blob.core.windows.net', encryptionType=''),
      MountInfo(mountPoint='/databricks-results', source='databricks-results', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-registry', source='databricks/mlflow-registry', encryptionType=''), MountInfo(mountPoint='/', source='DatabricksRoot', encryptionType='')]  
      

      В этом примере укажите следующие точки подключения:

      /mnt/ADLS2=abfss://samplelocation1@azurestorage1.dfs.core.windows.net/;/mnt/Blob=wasbs://samplelocation2@azurestorage2.blob.core.windows.net

    7. Схема: подмножество схем для импорта, выраженное в виде списка схем, разделенных точкой с запятой. Например, schema1; schema2. Все пользовательские схемы импортируются, если этот список пуст. Все системные схемы и объекты по умолчанию игнорируются.

      Допустимые шаблоны имен схемы с использованием синтаксиса выражений SQL LIKE включают использование %. Пример: A%; %B; %C%; D

      • Начните с A или
      • Заканчивается на B или
      • Содержать C или
      • Равный D

      Использование символов NOT и специальных символов недопустимо.

      Примечание.

      Этот фильтр схемы поддерживается в локальном Integration Runtime версии 5.32.8597.1 и выше.

    8. Максимальный объем доступной памяти: максимальный объем памяти (в гигабайтах), доступный на компьютере клиента для используемых процессов сканирования. Это значение зависит от размера Проверяемого объекта Azure Databricks.

      Примечание.

      Как правило, укажите 1 ГБ памяти для каждых 1000 таблиц.

    Снимок экрана: настройка проверки Azure Databricks.

  6. Нажмите Продолжить.

  7. В поле Триггер сканирования укажите, следует ли настроить расписание или запустить проверку один раз.

  8. Просмотрите проверку и выберите Сохранить и запустить.

После успешного завершения сканирования узнайте, как просматривать и искать ресурсы Azure Databricks.

Просмотр проверок и запусков сканирования

Чтобы просмотреть существующие проверки, выполните приведенные далее действия.

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.
  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
  3. Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
  4. Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.

Управление проверками

Чтобы изменить, отменить или удалить сканирование:

  1. Перейдите на портал управления Microsoft Purview. В левой области выберите Карта данных.

  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .

  3. Выберите проверку, которой вы хотите управлять. Далее вы можете:

    • Измените сканирование, выбрав Изменить проверку.
    • Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
    • Удалите сканирование, выбрав Удалить сканирование.

Примечание.

  • При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.
  • Ресурс больше не будет обновляться с изменениями схемы, если исходная таблица изменилась и вы повторно просканируете исходную таблицу после изменения описания на вкладке Схема Microsoft Purview.

Обзор и поиск ресурсов

После сканирования Azure Databricks можно просмотреть каталог данных или выполнить поиск в каталоге данных , чтобы просмотреть сведения об активе.

В ресурсе рабочей области Databricks можно найти связанное хранилище метаданных Hive и таблицы и представления, которые также применяются обратно.

Снимок экрана: просмотр ресурсов по типу источника.

Снимок экрана: переход к сведениям об исходном ресурсе Azure Databricks.

Снимок экрана: поиск связанного хранилища метаданных Hive с источником Azure Databricks.

Линии

Сведения о поддерживаемых сценариях Azure Databricks см. в разделе поддерживаемых возможностей . Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.

Перейдите на вкладку Таблица или просмотр ресурса Hive —> происхождение, где можно увидеть связь активов, если это применимо. Для связи между таблицами и внешними ресурсами хранилища вы увидите, что ресурс таблицы Hive и ресурс хранения напрямую связаны двунаправленно, так как они взаимно влияют друг на друга. Если в инструкции create table используется точка подключения, необходимо указать сведения о точке подключения в параметрах сканирования , чтобы извлечь такую связь.

Снимок экрана: пример происхождения данных Azure Databricks.

Дальнейшие действия

Теперь, когда вы зарегистрировали источник, используйте следующие руководства, чтобы узнать больше о Microsoft Purview и ваших данных: