Apache Spark コネクタを使用した SQL Database

[アーティクル]
03/01/2024

Azure SQL Database と SQL Server 用の Apache Spark コネクタを使用すると、これらのデータベースを Apache Spark ジョブの入力データソースおよび出力データシンクとして機能させることができます。ビッグデータ分析の中でリアルタイムトランザクションデータを利用でき、アドホッククエリの結果やレポートを保持できます。

組み込みの JDBC コネクタに比べて、このコネクタには、SQL データベースにデータを一括挿入する機能があります。行単位の挿入に比べ、パフォーマンスを 10 倍から 20 倍も向上させることができます。 SQL Server および Azure SQL Database 用の Spark コネクタは、Microsoft Entra ID (旧称 Azure Active Directory) 認証もサポートしています。この機能を使用すると、Azure Databricks から Azure AD アカウントを使用して Azure SQL データベースに安全に接続できます。組み込みの JDBC コネクタに似たインターフェイスを提供します。このコネクタを使用するための既存の Spark ジョブの移行は簡単に実行できます。

必要条件

SQL Server 用の Spark コネクタには 2 つのバージョンがあります。1 つは Spark 2.4 用で、もう 1 つは Spark 3.x 用です。 Spark 3.x コネクタには、Databricks Runtime 7.x 以降が必要です。コネクタはコミュニティでサポートされており、Microsoft の SLA サポートは含まれていません。支援が必要な場合は、GitHub で問題を報告してコミュニティの協力を仰いでください。

コンポーネント	サポートされているバージョン
Apache Spark	3.0.x および 2.4x
Databricks ランタイム	Apache Spark 3.0 コネクタ: Databricks Runtime 7.x 以降
Scala	Apache Spark 3.0 コネクタ: 2.12 Apache Spark 2.4 コネクタ: 2.11
SQL Server 用 Microsoft JDBC ドライバー	8.2
Microsoft SQL Server	SQL Server 2008 以降
Azure SQL Database	サポートされています

Spark コネクタを使用する

Spark コネクタの使い方については、「Apache Spark コネクタ: SQL Server と Azure SQL」をご覧ください。

次の方法で共有

Apache Spark コネクタを使用した SQL Database

必要条件

Spark コネクタを使用する

その他のリソース