StreamSets の統合StreamSets integration


この機能はパブリック プレビュー段階にあります。This feature is in Public Preview.

StreamSets は、データフローをライフサイクル全体で管理および監視するのに役立ちます。StreamSets helps you to manage and monitor your data flow throughout its lifecycle. StreamSets Azure Databricks とデルタ Lake とのネイティブ統合により、さまざまなソースからデータを取得し、パイプラインを簡単に管理できます。StreamSets native integration with Azure Databricks and Delta Lake allows you to pull data from various sources and manage your pipelines easily.

Azure Databricks で StreamSets を使用する手順を次に示します。Here are the steps for using StreamSets with Azure Databricks.

手順 1: Databricks 個人用アクセストークンを生成する Step 1: Generate a Databricks personal access token

StreamSets は、Azure Databricks 個人用アクセストークンを使用して Azure Databricks で認証されます。StreamSets authenticates with Azure Databricks using an Azure Databricks personal access token. 個人用アクセストークンを生成するには、「 個人用アクセストークンを生成する」の手順に従います。To generate a personal access token, follow the instructions in Generate a personal access token.

手順 2: 統合のニーズをサポートするようにクラスターを設定する Step 2: Set up a cluster to support integration needs

StreamSets は Azure Data Lake Storage パスにデータを書き込み、Azure Databricks 統合クラスターはその場所からデータを読み取ります。StreamSets will write data to an Azure Data Lake Storage path and the Azure Databricks integration cluster will read data from that location. そのため、統合クラスターは、Azure Data Lake Storage パスへのセキュリティで保護されたアクセスを必要とします。Therefore the integration cluster requires secure access to the Azure Data Lake Storage path.

Azure Data Lake Storage パスへのアクセスをセキュリティで保護するSecure access to an Azure Data Lake Storage path

Azure Data Lake Storage (ADLS) のデータへのアクセスをセキュリティで保護するには、Azure ストレージアカウントのアクセスキー (推奨) または Azure サービスプリンシパルを使用できます。To secure access to data in Azure Data Lake Storage (ADLS) you can use an Azure storage account access key (recommended) or an Azure service principal.

Azure ストレージアカウントのアクセスキーを使用するUse an Azure storage account access key

Spark 構成の一部として、統合クラスターでストレージアカウントのアクセスキーを構成できます。You can configure a storage account access key on the integration cluster as part of the Spark configuration. ストレージアカウントが、ステージングデータに使用される ADLS コンテナーとファイルシステム、およびデルタレイクテーブルを書き込む ADLS コンテナーとファイルシステムにアクセスできることを確認します。Ensure that the storage account has access to the ADLS container and file system used for staging data and the ADLS container and file system where you want to write the Delta Lake tables. キーを使用するように統合クラスターを構成するには、「 Azure Data Lake Storage Gen2 の概要」の手順に従います。To configure the integration cluster to use the key, follow the steps in Get started with Azure Data Lake Storage Gen2.

Azure サービスプリンシパルを使用するUse an Azure service principal

Azure Databricks 統合クラスターで、Spark 構成の一部としてサービスプリンシパルを構成できます。You can configure a service principal on the Azure Databricks integration cluster as part of the Spark configuration. サービスプリンシパルが、ステージングデータに使用される ADLS コンテナーと、デルタテーブルを書き込む ADLS コンテナーにアクセスできることを確認します。Ensure that the service principal has access to the ADLS container used for staging data and the ADLS container where you want to write the Delta tables. サービスプリンシパルを使用するように統合クラスターを構成するには、「サービスプリンシパルを使用し たアクセス ADLS Gen2 」または「 サービスプリンシパルを使用したアクセス ADLS Gen1」の手順に従います。To configure the integration cluster to use the service principal, follow the steps in Access ADLS Gen2 with service principal or Access ADLS Gen1 with service principal.

クラスター構成の指定Specify the cluster configuration

  1. [クラスター モード] ドロップダウンで、 [標準] を選択します。In the Cluster Mode drop-down, select Standard.

  2. [ Databricks Runtime のバージョン ] ドロップダウンで、[ランタイム: 6.3 以上] を選択します。In the Databricks Runtime Version drop-down, select Runtime: 6.3 or above.

  3. Spark 構成に次のプロパティを追加して、自動最適化をオンにします。Turn on Auto Optimize by adding the following properties to your Spark configuration: true true
  4. 統合とスケーリングのニーズに応じて、クラスターを構成します。Configure your cluster depending on your integration and scaling needs.

クラスター構成の詳細については、「クラスターの構成」を参照してください。For cluster configuration details, see Configure clusters.

JDBC URL と HTTP パスを取得する手順については、「 Get server hostname」、「port」、「http path」、および「JDBC url 」を参照してください。See Get server hostname, port, HTTP path, and JDBC URL for the steps to obtain the JDBC URL and HTTP path.

手順 3: JDBC および ODBC 接続の詳細を取得してクラスターに接続する Step 3: Obtain JDBC and ODBC connection details to connect to a cluster

Azure Databricks クラスターを StreamSets に接続するには、次の JDBC/ODBC 接続プロパティが必要です。To connect an Azure Databricks cluster to StreamSets you need the following JDBC/ODBC connection properties:

  • HTTP パスHTTP Path

手順 4: Azure Databricks の StreamSets を取得するStep 4: Get StreamSets for Azure Databricks

Azure で Databricks の Streamsetsを登録して起動します。Register and start up StreamSets for Databricks on Azure.

手順 5: StreamSets を使用して Delta Lake にデータを読み込む方法について説明します。Step 5: Learn how to use StreamSets to load data into Delta Lake

サンプルパイプラインを使用するか、 Streamsets ソリューション をチェックアウトして、データを Delta Lake に取り込みするパイプラインを構築する方法を学習します。Start with a sample pipeline or check out StreamSets solutions to learn how to build a pipeline that ingests data into Delta Lake.