Базы данных SQL, использующие соединитель Apache Spark

Соединитель Apache Spark для базы данных SQL Azure и SQL Server позволяет этим базам данных выполнять роли источников входных данных и приемников выходных данных для заданий Apache Spark. Это позволяет использовать данные о транзакциях в реальном времени при анализе больших данных и сохранять результаты нерегламентированных запросов или отчетов.

По сравнению со встроенным соединителем JDBC этот соединитель обеспечивает возможность массовой вставки данных в базы данных SQL. Он может в 10–20 раз превосходить по производительности вставку по строкам. Соединитель Spark для SQL Server и базы данных SQL Azure также поддерживает проверку подлинности Azure Active Directory (Azure AD), что обеспечивает безопасное подключение к базам данных SQL Azure из Azure Databricks с помощью учетной записи Azure AD. Он предоставляет интерфейсы, аналогичные встроенному соединителю JDBC. Имеющиеся задания Spark можно легко перенести, чтобы использовать этот соединитель.

Требования

Существует две версии соединителя Spark для SQL Server: одна для Spark 2.4 и одна для Spark 3.x. Для соединителя Spark 3.x требуется Databricks Runtime 7.x или более поздней версии. Соединитель поддерживается сообществом и не включает поддержку Соглашения об уровне обслуживания Майкрософт. Регистрируйте любые проблемы на GitHub, чтобы обратиться за помощью к сообществу.

Компонент Поддерживаемые версии
Apache Spark 3.0.x и 2.4x
Среда выполнения Databricks Соединитель Apache Spark 3.0: Databricks Runtime 7.x и более поздних версий

Соединитель Apache Spark 2.4: Databricks Runtime 5.5 LTS и более поздних версий
Scala Соединитель Apache Spark 3.0: 2.12

Соединитель Apache Spark 2.4: 2.11
Microsoft JDBC Driver для SQL Server 8.2
Microsoft SQL Server SQL Server 2008 и более поздних версий
База данных SQL Azure Поддерживается

Использование соединителя Spark

Инструкции по использованию соединителя Spark см. в разделе Соединитель Apache Spark: SQL Server &Azure SQL.