Подключение в облачное хранилище объектов с помощью каталога Unity

В этой статье приведен обзор конфигураций подключения к облачному хранилищу, необходимых для работы с данными с помощью каталога Unity.

Databricks рекомендует использовать каталог Unity для управления доступом ко всем данным, хранящимся в облачном хранилище объектов. Каталог Unity предоставляет набор средств для настройки безопасных подключений к облачному хранилищу объектов. Эти подключения предоставляют доступ для выполнения следующих действий:

  • Прием необработанных данных в лейкхаус.
  • Создание и чтение управляемых таблиц в защищенном облачном хранилище.
  • Зарегистрируйте или создайте внешние таблицы, содержащие табличные данные.
  • Чтение и запись неструктурированных данных.

Предупреждение

Не предоставляйте конечным пользователям доступ на уровне хранилища к управляемым таблицам или томам каталога Unity. Это компрометирует безопасность и управление данными.

Предоставление пользователям прямого доступа на уровне хранилища к хранилищу внешних расположений в Azure Data Lake Storage 2-го поколения не учитывает предоставленные разрешения или аудиты, поддерживаемые каталогом Unity. Прямой доступ будет обходить аудит, происхождение и другие функции безопасности и мониторинга каталога Unity, включая управление доступом и разрешения. Вы несете ответственность за управление прямым доступом к хранилищу с помощью Azure Data Lake Storage 2-го поколения и обеспечение того, чтобы пользователи имели соответствующие разрешения, предоставленные через Fabric.

Избегайте всех сценариев, которые предоставляют прямой доступ на запись на уровне хранилища для контейнеров, в котором хранятся управляемые таблицы Databricks. Изменение, удаление или развитие объектов непосредственно с помощью хранилища, управляемого каталогом Unity, может привести к повреждению данных.

Примечание.

Если рабочая область была создана до 9 ноября 2023 г., возможно, она не включена для каталога Unity. Администратор учетной записи должен включить каталог Unity для рабочей области. См. раздел Включение рабочей области для каталога Unity.

Как каталог Unity подключает хранилище объектов к Azure Databricks?

Azure Databricks поддерживает контейнеры Azure Data Lake Storage 2-го поколения и контейнеры Cloudflare R2 (общедоступная предварительная версия) в качестве расположений облачного хранилища для ресурсов данных и ИИ, зарегистрированных в каталоге Unity. R2 предназначен в основном для вариантов использования, в которых требуется избежать исходящего трафика данных, таких как разностный общий доступ между облаками и регионами. Дополнительные сведения см. в статье Use Cloudflare R2 реплика s or migrate storage to R2.

Для управления доступом к базовому облачному хранилищу, в котором хранятся таблицы и тома, каталог Unity использует следующие типы объектов:

  • Учетные данные хранилища представляют механизм проверки подлинности и авторизации для доступа к данным, хранящимся в облачном клиенте, с помощью управляемого удостоверения Azure или субъекта-службы для контейнеров Azure Data Lake Storage 2-го поколения или маркера API R2 для контейнеров Cloudflare R2. На каждую единицу учетных данных хранилища распространяются политики управления доступом каталога Unity, которые определяют, какие пользователи и группы могут получить доступ к учетным данным. Если у пользователя нет доступа к учетным данным хранилища в Unity Catalog, запрос завершится ошибкой, а Unity Catalog не попытается пройти проверку подлинности в облачном клиенте от имени пользователя. Разрешение на создание учетных данных хранилища должно быть предоставлено только пользователям, которым необходимо определить внешние расположения. Сведения о создании учетных данных хранения для подключения к Azure Data Lake Storage 2-го поколения и создании учетных данных хранилища для подключения к Cloudflare R2.

  • Внешнее расположение — это объект, в котором путь к облачному хранилищу объединен с учетными данными хранилища, обеспечивающими доступ к этому пути к облачному хранилищу. На каждое место хранения распространяются политики управления доступом Unity Catalog, которые определяют, какие пользователи и группы могут получить доступ к учетным данным. Если у пользователя нет доступа к месту хранения в Unity Catalog, запрос завершится ошибкой, а Unity Catalog не попытается пройти проверку подлинности в облачном клиенте от имени пользователя. Разрешение на создание и использование внешних расположений должно быть предоставлено только пользователям, которым необходимо создать внешние таблицы, внешние тома или управляемые расположения хранилища. См. статью "Создание внешнего расположения для подключения облачного хранилища к Azure Databricks".

    Внешние расположения используются как для внешних ресурсов данных, таких как внешние таблицы и внешние тома, так и для управляемых ресурсов данных, таких как управляемые таблицы и управляемые тома. Дополнительные сведения о различиях см. в разделе "Таблицы и тома".

    Если внешнее расположение используется для хранения управляемых таблиц и управляемых томов, оно называется управляемым расположением хранилища. Управляемые расположения хранилища могут существовать на уровне хранилища метаданных, каталога или схемы. Databricks рекомендует настраивать управляемые расположения хранилища на уровне каталога. Если вам нужна более подробная изоляция, можно указать расположения управляемого хранилища на уровне схемы. Рабочие области, включенные для каталога Unity, автоматически не имеют хранилища на уровне хранилища метаданных по умолчанию, но можно указать управляемое расположение хранилища на уровне хранилища метаданных, чтобы предоставить хранилище по умолчанию, если хранилище уровня каталога не определено. Рабочие области, включенные для каталога Unity, вручную получают управляемое хранилище метаданных по умолчанию. Ознакомьтесь с рекомендациями по указанию расположения управляемого хранилища в каталоге Unity и каталоге Unity.

Тома — это защищаемый объект, который большинство пользователей Azure Databricks должны использовать для взаимодействия непосредственно с не табличными данными в облачном хранилище объектов. См. статью "Создание и работа с томами".

Примечание.

Хотя каталог Unity поддерживает доступ на основе путей к внешним таблицам и внешним томам с помощью URI облачного хранилища, Databricks рекомендует пользователям читать и записывать все таблицы каталога Unity с помощью имен таблиц и доступа к данным в томах с помощью /Volumes путей.

Следующие шаги

Если вы только начинаете работу с каталогом Unity в качестве администратора, см. статью "Настройка каталога Unity" и управление ими.

Если вы новый пользователь и ваша рабочая область уже включена для каталога Unity, см . руководство. Создание таблиц и предоставление привилегий в каталоге Unity.