データ ソースに接続する

この記事では、管理者やその他のパワー ユーザーが Azure Databricks とデータ ソースの間の接続をどのように構成するかについて、規定された推奨事項を紹介します。 外部システムからデータを読み取るアクセス権があるかどうかを確認しようとしている場合は、まずワークスペースで自分がアクセス権を持つデータを確認します。 「データの検出」を参照してください。

Azure Databricks アカウントをデータ ソース (たとえば、クラウド オブジェクト ストレージ、リレーショナル データベース管理システム、ストリーミング データ サービス、CRM などのエンタープライズ プラットフォーム) に接続できます。 接続の構成に必要な具体的な特権は、データ ソース、Azure Databricks ワークスペースでのアクセス許可の構成方法、ソース内のデータの操作に必要なアクセス許可、データ ガバナンス モデル、推奨される接続方法によって異なります。

ほとんどの方法では、システムの統合に必要なアクセス許可を構成するために、データ ソースと Azure Databricks ワークスペースの両方に対する昇格された特権が必要です。 これらのアクセス許可を持たないユーザーは、支援を求める必要があります。 「データ ソースへのアクセスを要求する」を参照してください。

オブジェクト ストレージ接続を構成する

クラウド オブジェクト ストレージは、ほとんどのデータを Azure Databricks に保存する基盤となります。 クラウド オブジェクト ストレージおよび Azure Databricks でのデータの保存場所の詳細については、「Azure Databricks ではどこにデータが書き込まれますか?」を参照してください。

Databricks では、Unity Catalog を使用して、クラウド オブジェクト ストレージへのアクセスを構成することをお勧めしています。 Unity Catalog では、クラウド オブジェクト ストレージ内の構造化および非構造化の両方のデータに対するデータ ガバナンスを提供します。 「Unity Catalog を使用してクラウド オブジェクト ストレージに接続する」を参照してください。

Unity Catalog を使用しない顧客は、別の方法を使用して接続を構成する必要があります。 Azure Databricks のクラウド オブジェクト ストレージへのアクセスの構成に関するページを参照してください。

クラウド オブジェクト ストレージへのネットワークを構成するには、「ネットワーク」を参照してください。

外部データ システムへの接続を構成する

Databricks では、ニーズに応じて外部データ システムへの接続を構成するためのオプションを、いくつかお勧めしています。 次の表は、これらのオプションの概要を示しています。

オプション 説明
Lakehouse フェデレーション エンタープライズ データ システム内のデータへの読み取り専用アクセスを提供します。 接続は、Unity Catalog を介してカタログまたはスキーマ レベルで構成され、複数のテーブルが 1 つの構成と同期されます。 「Lakehouse フェデレーションとは」を参照してください。
Partner Connect テクノロジ パートナー ソリューションを活用して外部データ ソースに接続し、レイクハウスへのデータの取り込みを自動化します。 一部のソリューションには、外部システムからレイクハウス データへのリバース ETL と直接アクセスも含まれています。 「Databricks Partner Connect とは」を参照してください
ドライバー Azure Databricks には、各 Databricks Runtime の外部データ システム用のドライバーが含まれています。 必要に応じて、サードパーティ製ドライバーをインストールして、他のシステムのデータにアクセスすることもできます。 接続はテーブルごとに構成する必要があります。 一部のドライバーには書き込みアクセスが含まれています。 「外部システムに接続する」を参照してください。
JDBC 外部システム用に含まれているいくつかのドライバーは、JDBC のネイティブ サポートに基づいて構築され、JDBC のオプションには、他のシステムへの接続を構成するための拡張可能なオプションが用意されています。 接続はテーブルごとに構成する必要があります。 「JDBC を使用したデータベースのクエリ」を参照してください。

ストリーミング データ ソースに接続する

Azure Databricks には、多くのストリーミング データ システム用に最適化されたコネクタが用意されています。

すべてのストリーミング データ ソースに対し、アクセスを提供する資格情報を生成し、これらの資格情報を Azure Databricks に読み込む必要があります。 Databricks では、シークレットを使用して資格情報を保存することをお勧めしています。シークレットはすべての構成オプションとすべてのアクセス モードで使用できるためです。

ストリーミング ソースのすべてのデータ コネクタでは、ストリーミング クエリを定義するときにオプションを使用して資格情報を渡すことができます。 「ストリーミング データ ソースを構成する」を参照してください。

データ ソースへのアクセスを要求する

多くの組織では、ほとんどのユーザーは、データ接続を構成するための十分な特権を Azure Databricks または外部データ ソースに対して持っていません。

組織では、このページからリンクされている記事で説明されたパターンのいずれかを使用して、データ ソースへのアクセスを既に構成している場合があります。 組織で、データへのアクセスを要求するためのプロセスが明確に定義されている場合、Databricks ではそのプロセスに従うことをお勧めします。

データ ソースにアクセスする方法が明確でない場合は、次の手順が役立つ可能性があります。

  1. カタログ エクスプローラーを使用して、自分がアクセスできるテーブルとボリュームを表示します。 「カタログ エクスプローラーとは」を参照してください。
  2. チームメイトやマネージャーに、アクセスできるデータ ソースについて尋ねます。
    • ほとんどの組織では、ID プロバイダー (Okta や Microsoft Entra ID (旧称 Azure Active Directory) など) から同期されたグループを使用して、ワークスペース ユーザーのアクセス許可を管理します。 チームの他のメンバーが自分がアクセス権を必要とするデータ ソースにアクセスできる場合、ワークスペース管理者に依頼して、アクセス権が付与される正しいグループに追加してもらいます。
    • 特定のテーブル、ボリューム、またはデータ ソースが同僚によって構成されている場合、その人がデータへのアクセスを許可するアクセス許可を持っているはずです。
  3. 一部の組織では、コンピューティング クラスターと SQL ウェアハウスの設定を通じてデータへのアクセス許可を構成しています。
    • データ ソースへのアクセスは、コンピューティングによって異なる場合があります。
    • コンピューティングの作成者は、[コンピューティング] タブで表示できます。その作成者に連絡して、アクセス可能にする必要があるデータ ソースについて尋ねます。