Подключение к источникам данных

Статья
03/18/2024

В этой статье приводятся рекомендации по настройке подключений между Azure Databricks и источниками данных администраторами и другими пользователями. Если вы пытаетесь определить, есть ли у вас доступ к данным чтения из внешней системы, сначала просмотрите данные, к которым у вас есть доступ к рабочей области. См. статью " Обнаружение данных".

Вы можете подключить учетную запись Azure Databricks к таким источникам данных, как облачное хранилище объектов, системы управления реляционными базами данных, службы потоковых данных и корпоративные платформы, такие как CRM. Определенные привилегии, необходимые для настройки подключений, зависят от источника данных, способа настройки разрешений в рабочей области Azure Databricks, необходимых разрешений для взаимодействия с данными в источнике, модели управления данными и предпочитаемого метода подключения.

Большинство методов требуют повышенных привилегий как в источнике данных, так и в рабочей области Azure Databricks, чтобы настроить необходимые разрешения для интеграции систем. Пользователи без этих разрешений должны запрашивать справку. См. статью "Запрос доступа к источникам данных".

Настройка подключений к хранилищу объектов

Облачное хранилище объектов предоставляет основу для хранения большинства данных в Azure Databricks. Дополнительные сведения о облачном хранилище объектов и о том, где Azure Databricks хранит данные, см. в статье "Где azure Databricks записывает данные?".

Databricks рекомендует использовать каталог Unity для настройки доступа к облачному хранилищу объектов. Каталог Unity предоставляет управление данными для структурированных и неструктурированных данных в облачном хранилище объектов. См. Подключение в облачное хранилище объектов с помощью каталога Unity.

Клиенты, не использующие каталог Unity, должны настраивать подключения с помощью устаревших методов. Сведения о настройке доступа к облачному хранилищу объектов для Azure Databricks.

Сведения о настройке сети в облачном хранилище объектов см. в разделе "Сеть".

Настройка подключений к внешним системам данных

Databricks рекомендует несколько вариантов настройки подключений к внешним системам данных в зависимости от ваших потребностей. В следующей таблице представлен общий обзор этих параметров:

Вариант	Описание
Федерация Lakehouse	Предоставляет доступ только для чтения к данным в корпоративных системах данных. Подключение настраиваются с помощью каталога Unity на уровне каталога или схемы, синхронизируя несколько таблиц с одной конфигурацией. См. статью "Что такое Федерация Lakehouse".
Подключение участника	Использует технологические решения для подключения к внешним источникам данных и автоматизации приема данных в lakehouse. Некоторые решения также включают обратный ETL и прямой доступ к данным Lakehouse из внешних систем. См. сведения о том, что такое Подключение партнера Databricks?
Драйверы	Azure Databricks включает драйверы для внешних систем данных в каждой среде выполнения Databricks. При необходимости можно установить сторонние драйверы для доступа к данным в других системах. Необходимо настроить подключения для каждой таблицы. Некоторые драйверы включают доступ на запись. См. Подключение внешних систем.
JDBC	Несколько включенных драйверов для внешних систем, базируемых на основе поддержки JDBC, и параметр JDBC предоставляет расширяемые параметры настройки подключений к другим системам. Необходимо настроить подключения для каждой таблицы. См. статью "Запросы баз данных с помощью JDBC".

Подключение потоковой передачи источников данных

Azure Databricks предоставляет оптимизированные соединители для многих систем потоковой передачи данных.

Для всех источников данных потоковой передачи необходимо создать учетные данные, которые предоставляют доступ и загружают эти учетные данные в Azure Databricks. Databricks рекомендует хранить учетные данные с помощью секретов, так как вы можете использовать секреты для всех параметров конфигурации и во всех режимах доступа.

Все соединители данных для источников потоковой передачи поддерживают передачу учетных данных с помощью параметров при определении потоковых запросов. См. раздел "Настройка источников данных потоковой передачи".

Запрос доступа к источникам данных

Во многих организациях большинство пользователей не имеют достаточных привилегий в Azure Databricks или внешних источниках данных для настройки подключений к данным.

Возможно, ваша организация уже настроили доступ к источнику данных с помощью одного из шаблонов, описанных в статьях, связанных с этой страницей. Если у вашей организации есть четко определенный процесс запроса доступа к данным, Databricks рекомендует выполнить этот процесс.

Если вы не уверены, как получить доступ к источнику данных, эта процедура может помочь вам:

Используйте Обозреватель каталога для просмотра таблиц и томов, к которым можно получить доступ. См. раздел "Что такое каталог Обозреватель?".
Попросите своих товарищей по команде или менеджеров о источниках данных, к которым они могут получить доступ.
- Большинство организаций используют группы, синхронизированные с поставщиком удостоверений (например, okta или Идентификатор Microsoft Entra (ранее Azure Active Directory)) для управления разрешениями для пользователей рабочей области. Если другие члены вашей команды могут получить доступ к источникам данных, к которым требуется доступ, администратор рабочей области добавит вас в правильную группу, чтобы предоставить вам доступ.
- Если определенная таблица, том или источник данных была настроена коллегой, то у этого человека должны быть разрешения на предоставление доступа к данным.
Некоторые организации настраивают разрешения доступа к данным с помощью параметров вычислительных кластеров и хранилищ SQL.
- Доступ к источникам данных может отличаться по вычислениям.
- Вы можете просмотреть создателя вычислений на вкладке "Вычисления ". Обратитесь к создателю, чтобы узнать о источниках данных, которые должны быть доступны.