Infoworks 統合Infoworks integration


この機能はパブリック プレビュー段階にあります。This feature is in Public Preview.

Infoworks DataFoundry は、Azure Databricks でネイティブに実行される自動化されたエンタープライズデータ操作およびオーケストレーションシステムであり、Azure Databricks の全機能を活用して、データをオンボードするための簡単なソリューションを提供します。これは、data lake を運用するための重要な第一歩です。Infoworks DataFoundry is an automated enterprise data operations and orchestration system that runs natively on Azure Databricks and leverages the full power of Azure Databricks to deliver a easy solution for data onboarding—an important first step in operationalizing your data lake. DataFoundry は、データインジェストを自動化するだけでなく、分析の基礎を確立するためにインジェストに付随する重要な機能も自動化します。DataFoundry not only automates data ingestion, but also automates the key functionality that must accompany ingestion to establish a foundation for analytics. DataFoundry を使用したデータオンボードの自動化:Data onboarding with DataFoundry automates:

  • データインジェスト: すべてのエンタープライズおよび外部データソースからData ingestion: from all enterprise and external data sources
  • データ同期: データとソースの同期を維持するための CDCData synchronization: CDC to keep data synchronized with the source
  • データガバナンス: カタログ、系列、メタデータの管理、監査、および履歴Data governance: cataloging, lineage, metadata management, audit, and history

ここでは、Azure Databricks で Infoworks を使用する手順について説明します。Here are the steps for using Infoworks with Azure Databricks.

手順 1: Databricks 個人用アクセストークンを生成する Step 1: Generate a Databricks personal access token

Infoworks は、Azure Databricks 個人用アクセストークンを使用して Azure Databricks で認証します。Infoworks authenticates with Azure Databricks using an Azure Databricks personal access token. 個人用アクセストークンを生成するには、「 個人用アクセストークンを生成する」の手順に従います。To generate a personal access token, follow the instructions in Generate a personal access token.

手順 2: 統合のニーズをサポートするようにクラスターを設定する Step 2: Set up a cluster to support integration needs

Infoworks は Azure Data Lake Storage パスにデータを書き込み、Azure Databricks 統合クラスターはその場所からデータを読み取ります。Infoworks will write data to an Azure Data Lake Storage path and the Azure Databricks integration cluster will read data from that location. そのため、統合クラスターは、Azure Data Lake Storage パスへのセキュリティで保護されたアクセスを必要とします。Therefore the integration cluster requires secure access to the Azure Data Lake Storage path.

Azure Data Lake Storage パスへのアクセスをセキュリティで保護するSecure access to an Azure Data Lake Storage path

Azure Data Lake Storage (ADLS) のデータへのアクセスをセキュリティで保護するには、Azure ストレージアカウントのアクセスキー (推奨) または Azure サービスプリンシパルを使用できます。To secure access to data in Azure Data Lake Storage (ADLS) you can use an Azure storage account access key (recommended) or an Azure service principal.

Azure ストレージアカウントのアクセスキーを使用するUse an Azure storage account access key

Spark 構成の一部として、統合クラスターでストレージアカウントのアクセスキーを構成できます。You can configure a storage account access key on the integration cluster as part of the Spark configuration. ストレージアカウントが、ステージングデータに使用される ADLS コンテナーとファイルシステム、およびデルタレイクテーブルを書き込む ADLS コンテナーとファイルシステムにアクセスできることを確認します。Ensure that the storage account has access to the ADLS container and file system used for staging data and the ADLS container and file system where you want to write the Delta Lake tables. キーを使用するように統合クラスターを構成するには、「 Azure Data Lake Storage Gen2 の概要」の手順に従います。To configure the integration cluster to use the key, follow the steps in Get started with Azure Data Lake Storage Gen2.

Azure サービスプリンシパルを使用するUse an Azure service principal

Azure Databricks 統合クラスターで、Spark 構成の一部としてサービスプリンシパルを構成できます。You can configure a service principal on the Azure Databricks integration cluster as part of the Spark configuration. サービスプリンシパルが、ステージングデータに使用される ADLS コンテナーと、デルタテーブルを書き込む ADLS コンテナーにアクセスできることを確認します。Ensure that the service principal has access to the ADLS container used for staging data and the ADLS container where you want to write the Delta tables. サービスプリンシパルを使用するように統合クラスターを構成するには、「サービスプリンシパルを使用し たアクセス ADLS Gen2 」または「 サービスプリンシパルを使用したアクセス ADLS Gen1」の手順に従います。To configure the integration cluster to use the service principal, follow the steps in Access ADLS Gen2 with service principal or Access ADLS Gen1 with service principal.

クラスター構成の指定Specify the cluster configuration

  1. [クラスター モード] ドロップダウンで、 [標準] を選択します。In the Cluster Mode drop-down, select Standard.

  2. [Databricks Runtime のバージョン] ドロップダウンで、Databricks Runtime のバージョンを選択します。In the Databricks Runtime Version drop-down, select a Databricks runtime version.

  3. Spark 構成に次のプロパティを追加して、自動最適化をオンにします。Turn on Auto Optimize by adding the following properties to your Spark configuration: true true
  4. 統合とスケーリングのニーズに応じて、クラスターを構成します。Configure your cluster depending on your integration and scaling needs.

クラスター構成の詳細については、「クラスターの構成」を参照してください。For cluster configuration details, see Configure clusters.

JDBC URL と HTTP パスを取得する手順については、「 Get server hostname」、「port」、「http path」、および「JDBC url 」を参照してください。See Get server hostname, port, HTTP path, and JDBC URL for the steps to obtain the JDBC URL and HTTP path.

手順 3: JDBC および ODBC 接続の詳細を取得してクラスターに接続する Step 3: Obtain JDBC and ODBC connection details to connect to a cluster

Azure Databricks クラスターを Infoworks に接続するには、次の JDBC/ODBC 接続プロパティが必要です。To connect an Azure Databricks cluster to Infoworks you need the following JDBC/ODBC connection properties:

  • HTTP パスHTTP Path

手順 4: Azure Databricks のインフォ機能を取得するStep 4: Get Infoworks for Azure Databricks

詳細については、「 インフォ works 」を参照してください。Go to Infoworks to learn more and get a demo.