データソースに接続する

[アーティクル]
03/01/2024

この記事では、管理者やその他のパワーユーザーが Azure Databricks とデータソースの間の接続をどのように構成するかについて、規定された推奨事項を紹介します。外部システムからデータを読み取るアクセス権があるかどうかを確認しようとしている場合は、まずワークスペースで自分がアクセス権を持つデータを確認します。「データの検出」を参照してください。

Azure Databricks アカウントをデータソース (たとえば、クラウドオブジェクトストレージ、リレーショナルデータベース管理システム、ストリーミングデータサービス、CRM などのエンタープライズプラットフォーム) に接続できます。接続の構成に必要な具体的な特権は、データソース、Azure Databricks ワークスペースでのアクセス許可の構成方法、ソース内のデータの操作に必要なアクセス許可、データガバナンスモデル、推奨される接続方法によって異なります。

ほとんどの方法では、システムの統合に必要なアクセス許可を構成するために、データソースと Azure Databricks ワークスペースの両方に対する昇格された特権が必要です。これらのアクセス許可を持たないユーザーは、支援を求める必要があります。「データソースへのアクセスを要求する」を参照してください。

オブジェクトストレージ接続を構成する

クラウドオブジェクトストレージは、ほとんどのデータを Azure Databricks に保存する基盤となります。クラウドオブジェクトストレージおよび Azure Databricks でのデータの保存場所の詳細については、「Azure Databricks ではどこにデータが書き込まれますか?」を参照してください。

Databricks では、Unity Catalog を使用して、クラウドオブジェクトストレージへのアクセスを構成することをお勧めしています。 Unity Catalog では、クラウドオブジェクトストレージ内の構造化および非構造化の両方のデータに対するデータガバナンスを提供します。「Unity Catalog を使用してクラウドオブジェクトストレージに接続する」を参照してください。

Unity Catalog を使用しない顧客は、別の方法を使用して接続を構成する必要があります。 Azure Databricks のクラウドオブジェクトストレージへのアクセスの構成に関するページを参照してください。

クラウドオブジェクトストレージへのネットワークを構成するには、「ネットワーク」を参照してください。

外部データシステムへの接続を構成する

Databricks では、ニーズに応じて外部データシステムへの接続を構成するためのオプションを、いくつかお勧めしています。次の表は、これらのオプションの概要を示しています。

オプション	説明
Lakehouse フェデレーション	エンタープライズデータシステム内のデータへの読み取り専用アクセスを提供します。接続は、Unity Catalog を介してカタログまたはスキーマレベルで構成され、複数のテーブルが 1 つの構成と同期されます。「Lakehouse フェデレーションとは」を参照してください。
Partner Connect	テクノロジパートナーソリューションを活用して外部データソースに接続し、レイクハウスへのデータの取り込みを自動化します。一部のソリューションには、外部システムからレイクハウスデータへのリバース ETL と直接アクセスも含まれています。「Databricks Partner Connect とは」を参照してください
ドライバー	Azure Databricks には、各 Databricks Runtime の外部データシステム用のドライバーが含まれています。必要に応じて、サードパーティ製ドライバーをインストールして、他のシステムのデータにアクセスすることもできます。接続はテーブルごとに構成する必要があります。一部のドライバーには書き込みアクセスが含まれています。「外部システムに接続する」を参照してください。
JDBC	外部システム用に含まれているいくつかのドライバーは、JDBC のネイティブサポートに基づいて構築され、JDBC のオプションには、他のシステムへの接続を構成するための拡張可能なオプションが用意されています。接続はテーブルごとに構成する必要があります。「JDBC を使用したデータベースのクエリ」を参照してください。

ストリーミングデータソースに接続する

Azure Databricks には、多くのストリーミングデータシステム用に最適化されたコネクタが用意されています。

すべてのストリーミングデータソースに対し、アクセスを提供する資格情報を生成し、これらの資格情報を Azure Databricks に読み込む必要があります。 Databricks では、シークレットを使用して資格情報を保存することをお勧めしています。シークレットはすべての構成オプションとすべてのアクセスモードで使用できるためです。

ストリーミングソースのすべてのデータコネクタでは、ストリーミングクエリを定義するときにオプションを使用して資格情報を渡すことができます。「ストリーミングデータソースを構成する」を参照してください。

データソースへのアクセスを要求する

多くの組織では、ほとんどのユーザーは、データ接続を構成するための十分な特権を Azure Databricks または外部データソースに対して持っていません。

組織では、このページからリンクされている記事で説明されたパターンのいずれかを使用して、データソースへのアクセスを既に構成している場合があります。組織で、データへのアクセスを要求するためのプロセスが明確に定義されている場合、Databricks ではそのプロセスに従うことをお勧めします。

データソースにアクセスする方法が明確でない場合は、次の手順が役立つ可能性があります。

カタログエクスプローラーを使用して、自分がアクセスできるテーブルとボリュームを表示します。「カタログエクスプローラーとは」を参照してください。
チームメイトやマネージャーに、アクセスできるデータソースについて尋ねます。
- ほとんどの組織では、ID プロバイダー (Okta や Microsoft Entra ID (旧称 Azure Active Directory) など) から同期されたグループを使用して、ワークスペースユーザーのアクセス許可を管理します。チームの他のメンバーが自分がアクセス権を必要とするデータソースにアクセスできる場合、ワークスペース管理者に依頼して、アクセス権が付与される正しいグループに追加してもらいます。
- 特定のテーブル、ボリューム、またはデータソースが同僚によって構成されている場合、その人がデータへのアクセスを許可するアクセス許可を持っているはずです。
一部の組織では、コンピューティングクラスターと SQL ウェアハウスの設定を通じてデータへのアクセス許可を構成しています。
- データソースへのアクセスは、コンピューティングによって異なる場合があります。
- コンピューティングの作成者は、[コンピューティング] タブで表示できます。その作成者に連絡して、アクセス可能にする必要があるデータソースについて尋ねます。

データ ソースに接続する

オブジェクト ストレージ接続を構成する

外部データ システムへの接続を構成する

ストリーミング データ ソースに接続する

データ ソースへのアクセスを要求する

その他のリソース

データソースに接続する

オブジェクトストレージ接続を構成する

外部データシステムへの接続を構成する

ストリーミングデータソースに接続する

データソースへのアクセスを要求する