Базы данных SQL, использующие соединитель Apache Spark

Соединитель Apache Spark для базы данных SQL Azure и SQL Server позволяет этим базам данных выполнять роли источников входных данных и приемников выходных данных для заданий Apache Spark. Это позволяет использовать данные о транзакциях в реальном времени при анализе больших данных и сохранять результаты нерегламентированных запросов или отчетов.

По сравнению со встроенным соединителем JDBC этот соединитель обеспечивает возможность массовой вставки данных в базы данных SQL. Он может в 10–20 раз превосходить по производительности вставку по строкам. Соединитель Spark для SQL Server и База данных SQL Azure также поддерживает проверку подлинности Microsoft Entra ID (ранее Azure Active Directory), что позволяет безопасно подключаться к базам данных SQL Azure из Azure Databricks с помощью учетной записи идентификатора Microsoft Entra. Он предоставляет интерфейсы, аналогичные встроенному соединителю JDBC. Имеющиеся задания Spark можно легко перенести, чтобы использовать этот соединитель.

Requirements

Существует две версии соединителя Spark для SQL Server: одна для Spark 2.4 и одна для Spark 3.x. Для соединителя Spark 3.x требуется Databricks Runtime 7.x или более поздней версии. Соединитель поддерживается сообществом и не включает поддержку Соглашения об уровне обслуживания Майкрософт. Регистрируйте любые проблемы на GitHub, чтобы обратиться за помощью к сообществу.

Компонент Поддерживаемые версии
Apache Spark 3.0.x и 2.4x
Databricks Runtime Соединитель Apache Spark 3.0: Databricks Runtime 7.x и более поздних версий
Scala Соединитель Apache Spark 3.0: 2.12

Соединитель Apache Spark 2.4: 2.11
Драйвер Microsoft JDBC для SQL Server 8.2
Microsoft SQL Server SQL Server 2008 и более поздних версий
База данных SQL Azure Поддерживается

Использование соединителя Spark

Инструкции по использованию соединителя Spark см. в разделе "Соединитель Apache Spark: SQL Server и SQL Azure".