Часто задаваемые вопросы об Azure Databricks

В этой статье перечислены самые популярные вопросы, которые могут возникнуть в связи с Azure Databricks. Также здесь указаны некоторые распространенные проблемы, которые могут возникать при использовании Databricks. Дополнительные сведения см. в статье Что такое Azure Databricks?

Можно ли использовать Azure Key Vault для хранения ключей (секретов), используемых в Azure Databricks?

Да. Azure Key Vault можно использовать для хранения ключей (секретов), используемых в Azure Databricks. Дополнительные сведения см. в документации по Create an Azure Key Vault-backed secret scope (Создании секретной области в Azure Key Vault).

Можно ли использовать виртуальные сети Azure в Azure Databricks?

Да. Виртуальные сети Azure можно использовать в Azure Databricks. Дополнительные сведения см. в статье Deploying Azure Databricks in your Azure Virtual Network (Preview) (Развертывание Azure Databricks в виртуальной сети Azure (предварительная версия)).

Как получить доступ к Azure Data Lake Storage из записной книжки?

Выполните следующие действия:

  1. В идентификаторе Microsoft Entra (ранее — Azure Active Directory) подготовьте субъект-службу и запишите его ключ.
  2. Назначьте в Data Lake Storage необходимые разрешения для этого субъекта-службы.
  3. Чтобы открыть файл из Data Lake Storage, укажите в Notebook учетные данные субъекта-службы.

Дополнительные сведения см. в статье Использование Azure Data Lake Storage с Azure Databricks.

Устранение распространенных проблем

Здесь описаны несколько проблем, которые могут возникнуть при работе с Databricks.

Проблема. Эта подписка не зарегистрирована для использования пространства имен Microsoft.Databricks

Сообщение об ошибке

Эта подписка не зарегистрирована для использования пространства имен Microsoft.Databricks. Чтобы узнать больше о регистрации подписок, перейдите на страницу https://aka.ms/rps-not-found . (Код: MissingSubscriptionRegistration)

Решение

  1. Переход на портал Azure.
  2. Выберите элемент Подписки, затем используемую подписку и щелкните Поставщики ресурсов.
  3. В списке поставщиков ресурсов выберите действие Зарегистрировать рядом с элементом Microsoft.Databricks. Чтобы зарегистрировать поставщика ресурсов, нужно иметь в подписке роль участника или владельца.

Проблема. Для вашей учетной записи {email} не назначена роль владельца или участника в ресурсе рабочей области Databricks на портале Azure

Сообщение об ошибке

"Your account {email} does not have Owner or Contributor role on the Databricks workspace resource in the Azure portal" (Для вашей учетной записи {адрес электронной почты} не назначена роль владельца или участника в ресурсе рабочей области Databricks на портале Azure). Это сообщение об ошибке может отображаться также для гостевых пользователей клиента. Обратитесь к администратору, чтобы он предоставил вам доступ или добавил вас в качестве пользователя непосредственно в рабочей области Databricks. (Код: AADSTS90015)

Решение

Ниже приведено несколько решений для этой проблемы.

Если вы являетесь пользователем Azure Databricks без роли владельца или участника в ресурсе рабочей области Databricks и хотите просто получить доступ к рабочей области, сделайте следующее:

  • Обратитесь к рабочей области напрямую, используя URL-адрес (например, https://adb-5555555555555555.19.azuredatabricks.net). Не используйте кнопку "Запустить рабочую область" на портале Azure.

Если в ресурсе рабочей области вы должны распознаваться как владелец или участник, сделайте следующее:

  • Чтобы инициализировать клиент, нужно войти от имени обычного (не гостевого) пользователя этого клиента. У вас также должна быть роль участника или владельца для ресурса рабочей области Databricks. Администратор может предоставить пользователю роль с помощью вкладки Управление доступом (IAM) в рабочей области Azure Databricks на портале Azure.

  • Эта ошибка также может возникнуть, если доменное имя электронной почты назначено нескольким каталогам в идентификаторе Microsoft Entra (ранее — Azure Active Directory). Чтобы обойти эту проблему, создайте нового пользователя в каталоге, который содержит подписку с рабочей областью Databricks.

    a. В портал Azure перейдите к идентификатору Microsoft Entra (ранее — Azure Active Directory). Выберите Пользователи и группы, а затем — >Добавить пользователя.

    b. Добавьте пользователя с адресом электронной почты в формате @<tenant-name>.onmicrosoft.com вместо @<your-domain>. Этот параметр можно найти в пользовательских доменах в разделе Идентификатор Microsoft Entra (ранее Azure Active Directory) в портал Azure.

    c. Назначьте новому пользователю роль участника для ресурса рабочей области Databricks.

    d. Войдите на портал Azure с учетными данными нового пользователя и найдите нужную рабочую область Databricks.

    д) Запустите рабочую область Databricks от имени этого пользователя.

Проблема. Ваша учетная запись {адрес электронной почты} не зарегистрирована в Databricks

Решение

Если вы не создавали эту рабочую область, вас нужно добавить в качестве пользователя. Для этого обратитесь к создателю рабочей области. Попросите добавить вас с помощью консоли администрирования Azure Databricks. Эта процедура описана в статье Adding and managing users (Добавление пользователей и управление ими). Если вы получаете такое сообщение, когда сами создавали эту рабочую область, попробуйте еще раз выполнить действие Инициализация рабочей области на портале Azure.

Проблема. Сбой запуска поставщика облачных служб при настройке кластера (PublicIPCountLimitReached)

Сообщение об ошибке

"Cloud Provider Launch Failure: A cloud provider error was encountered while setting up the cluster" (Сбой запуска поставщика облачных служб: при настройке кластера произошла ошибка поставщика облачных служб). Дополнительные сведения см. в руководстве по Databricks. Код ошибки Azure: PublicIPCountLimitReached. Сообщение об ошибке Azure: "Cannot create more than 10 public IP addresses for this subscription in this region" (Нельзя создать более 10 общедоступных IP-адресов для этой подписки в этом регионе).

Общие сведения

Для кластеров Databricks используется один общедоступный IP-адрес на узел (включая узел драйвера). В подписках Azure ограничено число общедоступных IP-адресов на регион. Поэтому операции создания и масштабирования кластера могут завершиться ошибкой, если будет превышено предельное число общедоступных IP-адресов, выделенных для этой подписки в определенном регионе. Это ограничение также распространяется на общедоступные IP-адреса, выделенные не для использования с Databricks, например для настраиваемых пользовательских виртуальных машин.

Как правило, кластеры используют общедоступные IP-адреса только в период активности. Но ошибка PublicIPCountLimitReached может отображаться в течение короткого периода времени даже после завершения работы других кластеров. Это связано с тем, что Databricks временно кэширует ресурсы Azure при завершении работы кластера. Кэширование ресурсов выполняется по умолчанию, так как оно позволяет значительно сократить задержку при запуске кластера и автоматическом масштабировании во многих распространенных сценариях.

Решение

Если для подписки достигнуто ограничение на число общедоступных IP-адресов в определенном регионе, выполните одно из следующих действий:

  • Создайте кластеры в другой рабочей области Databricks. Другая рабочая область должна находиться в регионе, в котором для вашей подписки не достигнуто ограничение на число общедоступных IP-адресов.
  • Запросите увеличение предельного числа общедоступных IP-адресов. Выберите значение Квоты для параметра Тип проблемы и значение Сети: ARM для параметра Тип квоты. В области Сведения сформулируйте просьбу увеличить квоту на общедоступные IP-адреса. Например, если установлен лимит 60, а вам нужно создать кластер на 100 узлов, попросите увеличить лимит до 160.

Проблема. Второй тип сбоя запуска поставщика облачных служб при настройке кластера (MissingSubscriptionRegistration)

Сообщение об ошибке

"Cloud Provider Launch Failure: A cloud provider error was encountered while setting up the cluster" (Сбой запуска поставщика облачных служб: при настройке кластера произошла ошибка поставщика облачных служб). Дополнительные сведения см. в руководстве по Databricks. Код ошибки Azure: MissingSubscriptionRegistration. Сообщение об ошибке Azure: The subscription is not registered to use namespace 'Microsoft.Compute' (Эта подписка не зарегистрирована для использования пространства имен Microsoft.Compute). Чтобы узнать больше о регистрации подписок, перейдите на страницу https://aka.ms/rps-not-found .

Решение

  1. Переход на портал Azure.
  2. Выберите элемент Подписки, затем используемую подписку и щелкните Поставщики ресурсов.
  3. В списке поставщиков ресурсов выберите действие Зарегистрировать рядом с Microsoft.Compute. Чтобы зарегистрировать поставщика ресурсов, нужно иметь в подписке роль участника или владельца.

Подробные инструкции см. в статье Поставщики и типы ресурсов.

Проблема. Azure Databricks требуются разрешения на доступ к ресурсам в вашей организации, которые может предоставить только администратор

Общие сведения

Azure Databricks интегрирован с идентификатором Microsoft Entra (ранее — Azure Active Directory). Разрешения можно задать в Azure Databricks (например, в записных книжках или кластерах), указав пользователей из идентификатора Microsoft Entra (ранее — Azure Active Directory). Чтобы Azure Databricks мог перечислить имена пользователей из идентификатора Microsoft Entra (ранее Azure Active Directory), требуется разрешение на чтение этой информации и согласие. Если оно недоступно, возникнет ошибка.

Решение

Войдите на портал Azure как глобальный администратор. Для идентификатора Microsoft Entra (ранее Azure Active Directory) перейдите на вкладку Параметры и убедитесь, что пользователи могут согласиться на доступ к данным компании от их имени.

Проблема. Azure Databricks не поддерживает создание рабочей области в группах ресурсов Azure, созданных с использованием китайских иероглифов.

Решение

Поддержка проверки для этого сценария в рамках создания рабочей области будет добавлена в следующем выпуске.

Следующие шаги