Azure Data Factory と Synapse パイプラインでサポートされるコンピューティング環境

[アーティクル]
10/20/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

重要

Azure Machine Learning スタジオ (クラシック) のサポートは、2024 年 8 月 31 日に終了します。その日までに、Azure Machine Learning に切り替えることをおすすめします。

2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービスプラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning スタジオ (クラシック) の実験と Web サービスを引き続き使用できます。詳細については、以下を参照してください:

Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

この記事では、データの処理または変換に利用できるさまざまなコンピューティング環境について説明します。これらのコンピューティング環境をリンクするリンクサービスの構成時にサポートされる、さまざまな構成 (オンデマンドと Bring Your Own の比較) に関する詳細も説明します。

次の表は、サポートされているコンピューティング環境と、その環境で実行できるアクティビティの一覧です。

Compute 環境	Activities
On-demand HDInsight クラスターまたは独自の HDInsight クラスター	Hive、Pig、Spark、MapReduce、Hadoop Streaming
Azure Batch	Custom
ML Studio (クラシック)	ML Studio (クラシック) のアクティビティ: Batch Execution と更新リソース
Azure Machine Learning	Azure Machine Learning 実行パイプライン
Azure Data Lake Analytics	Data Lake Analytics U-SQL
Azure SQL、Azure Synapse Analytics、SQL Server	ストアドプロシージャ
Azure Databricks	Notebook、Jar、Python
Azure Synapse Analytics (Artifacts)	Synapse Notebook アクティビティ、Synapse Spark ジョブ定義
Azure 関数	Azure 関数アクティビティ

HDInsight コンピューティング環境

オンデマンドおよび BYOC (Bring Your Own Compute) 環境内の構成でサポートされるストレージのリンクされたサービスの種類についての詳細は、以下の表を参照してください。

コンピューティングのリンクされたサービス	プロパティ名	説明	BLOB	ADLS Gen2	Azure SQL DB	ADLS Gen 1
オンデマンド	linkedServiceName	データを保存し、処理するためにオンデマンドクラスターで使用される Azure Storage のリンクされたサービスです。	はい	はい	いいえ	いいえ
	additionalLinkedServiceNames	サービスがユーザーに代わって登録できるように、HDInsight のリンクサービスの追加ストレージアカウントを指定します。	はい	いいえ	番号	いいえ
	hcatalogLinkedServiceName	HCatalog データベースを指す Azure SQL のリンクされたサービスの名前。オンデマンド HDInsight クラスターは、Azure SQL データベースを metastore として使用して作成されます。	いいえ	番号	有効	いいえ
BYOC	linkedServiceName	Azure Storage のリンクされたサービスの参照。	はい	はい	いいえ	いいえ
	additionalLinkedServiceNames	サービスがユーザーに代わって登録できるように、HDInsight のリンクサービスの追加ストレージアカウントを指定します。	いいえ	番号	番号	いいえ
	hcatalogLinkedServiceName	HCatalog データベースを指す Azure SQL のリンクされたサービスの参照。	いいえ	番号	番号	いいえ

Azure HDInsight のオンデマンドのリンクされたサービス

この種類の構成では、コンピューティング環境はサービスによって完全に管理されます。データを処理するためのジョブが送信される前にサービスにより自動的に作成され、ジョブの完了時に削除されます。オンデマンドのコンピューティング環境のために「リンクされたサービス」を作成し、構成し、ジョブ実行、クラスター管理、ブートストラップアクションの詳細設定を制御できます。

Note

オンデマンド構成は現在のところ、Azure HDInsight クラスターにのみ対応しています。 Azure Databricks も、ジョブクラスターを使用したオンデマンドジョブをサポートしています。詳細については、「Azure Databricks のリンクされたサービス」を参照してください。

サービスにより、データを処理するためのオンデマンド HDInsight クラスターが自動的に作成されます。このクラスターはクラスターに関連付けられているストレージアカウント (JSON の linkedServiceName プロパティ) と同じリージョンで作成されます。ストレージアカウントは、汎用の Standard Azure Storage アカウントである必要があります。

オンデマンド HDInsight のリンクされたサービスに関する次の 重要な 点に注意してください。

オンデマンド HDInsight クラスターは Azure サブスクリプションのもとで作成されます。クラスターが稼働している場合、Azure ポータルでクラスターを確認できます。
オンデマンド HDInsight クラスターで実行されるジョブのログは HDInsight クラスターに関連付けられているストレージアカウントにコピーされます。リンクされたサービス定義で定義されている ClusterUserName、clusterPassword、clusterSshUserName、clusterSshPassword は、クラスターのライフサイクル中に詳細なトラブルシューティングのためにクラスターにログインするときに使用されます。
HDInsight クラスターが稼動し、ジョブを実行している時間に対してのみ課金されます。
HDInsight のオンデマンドのリンクされたサービスでは、スクリプト操作を使用できません。

重要

オンデマンドで Azure HDInsight クラスターをプロビジョニングするには一般的に 20 分以上かかります。

例

次の JSON は、Linux ベースのオンデマンド HDInsight のリンクされたサービスを定義します。必要なアクティビティを処理するため、サービスにより Linux ベースの HDInsight クラスターが自動的に作成されます。

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

重要

HDInsight クラスターは、JSON (linkedServiceName) で指定した BLOB ストレージに既定のコンテナーを作成します。クラスターを削除しても、HDInsight はこのコンテナーを削除しません。この動作は仕様です。オンデマンド HDInsight のリンクされたサービスでは、既存のライブクラスター (timeToLive) がある場合を除き、スライスを処理する必要があるたびに HDInsight クラスターが作成され、処理が終了すると削除されます。

実行するアクティビティが多いほど、Azure BLOB ストレージ内のコンテナーも増えます。ジョブのトラブルシューティングのためにコンテナーが必要ない場合、コンテナーを削除してストレージコストを削減できます。これらのコンテナーの名前は、adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp 形式になります。 Azure Blob Storage 内のコンテナーを削除するには、Microsoft Azure Storage Explorer などのツールを使用します。

Properties

Property	内容	必須
type	type プロパティは HDInsightOnDemandに設定されます。	はい
clusterSize	クラスター内の worker/データノードの数です。このプロパティで指定した worker ノード数と共に 2 つのヘッドノードを使用して HDInsight クラスターが作成されます。ノードのサイズは Standard_D3 (4 コア) であるため、4 worker ノードクラスターのコアは 24 個になります (worker ノード用に 44 = 16 個のコアと、ヘッドノード用に 24 = 8 個のコア)。詳細については、Hadoop、Spark、Kafka などの HDInsight クラスターのセットアップに関する記事を参照してください。	はい
linkedServiceName	データを保存し、処理するためにオンデマンドクラスターで使用される Azure Storage のリンクされたサービスです。 HDInsight クラスターは、この Azure Storage アカウントと同じリージョンに作成されます。 Azure HDInsight には、サポートされる各 Azure リージョンで使用できるコアの合計数に制限があります。必要な clusterSize を満たせるだけ十分なコアクォータが、その Azure リージョンに存在することを確認してください。詳細については、Hadoop、Spark、Kafka などの HDInsight クラスターのセットアップに関する記事を参照してください現時点では、Azure Data Lake Storage (Gen 2) をストレージとして使用するオンデマンド HDInsight クラスターを作成することはできません。 HDInsight 処理の結果データを Azure Data Lake Storage (Gen 2) に保存する必要がある場合は、コピーアクティビティを使用して、Azure Blob Storage から Azure Data Lake Storage (Gen 2) にデータをコピーします。	はい
clusterResourceGroup	HDInsight クラスターは、このリソースグループに作成されます。	はい
timetolive	オンデマンド HDInsight クラスターに許可されるアイドル時間です。他のアクティブなジョブがクラスターにない場合、アクティビティ実行の完了後にオンデマンド HDInsight クラスターが起動状態を維持する時間を指定します。最小許容値は 5 分 (00:05:00) です。たとえば、アクティビティ実行に 6 分かかるときに timetolive が 5 分に設定されている場合、アクティビティ実行の 6 分間の処理の後、クラスターが起動状態を 5 分間維持します。別のアクティビティ実行が 6 分の時間枠で実行される場合、それは同じクラスターで処理されます。オンデマンド HDInsight クラスターの作成はコストが高い (時間がかかる可能性がある) 操作であるためため、オンデマンド HDInsight クラスターを再利用し、サービスのパフォーマンスを向上させるために、必要に応じてこの設定を使用します。 timetolive 値を 0 に設定した場合、アクティビティ実行の完了直後にクラスターが削除されます。ただし、高い値を設定した場合、クラスターは、何らかのトラブルシューティングの目的でログオンできるようにアイドル状態を維持できますが、その結果コストが高くなる可能性があります。そのため、ニーズに合わせて適切な値を設定することが重要です。 timetolive プロパティ値が適切に設定されている場合、複数のパイプラインでオンデマンド HDInsight クラスターのインスタンスを共有できます。	はい
clusterType	作成する HDInsight クラスターの種類。許可される値は "hadoop" および "spark" です。指定しない場合は、既定値の hadoop が使用されます。 Enterprise セキュリティパッケージ対応のクラスターをオンデマンドで作成することはできません。代わりに既存のクラスターを使用するか、自分のコンピューティングを持ち込んでください。	いいえ
version	HDInsight クラスターのバージョン。指定しない場合、現在の HDInsight 定義の既定バージョンを使用します。	いいえ
hostSubscriptionId	HDInsight クラスターを作成するために使用する Azure サブスクリプション ID です。指定されていない場合は、Azure のログインコンテキストのサブスクリプション ID を使用します。	いいえ
clusterNamePrefix	HDI クラスター名のプレフィックス (クラスター名の末尾にタイムスタンプが自動的に追加されます)	いいえ
sparkVersion	クラスターの種類が "Spark" の場合の Spark のバージョンです	いいえ
additionalLinkedServiceNames	サービスがユーザーに代わって登録できるように、HDInsight のリンクサービスの追加ストレージアカウントを指定します。これらのストレージアカウントは、linkedServiceName で指定されたストレージアカウントと同じリージョンに作成されている HDInsight クラスターと同じリージョンにある必要があります。	いいえ
osType	オペレーティングシステムの種類。使用可能な値: Linux と Windows (HDInsight 3.3 の場合のみ)。既定値は Linux です。	いいえ
hcatalogLinkedServiceName	HCatalog データベースを指す Azure SQL のリンクされたサービスの名前。オンデマンド HDInsight クラスターは、Azure SQL Database をメタストアとして使用して作成されます。	いいえ
connectVia	この HDInsight リンクサービスにアクティビティをディスパッチするために使用される統合ランタイムです。オンデマンド HDInsight リンクサービスの場合、Azure 統合ランタイムだけをサポートします。指定されていない場合は、既定の Azure 統合ランタイムが使用されます。	いいえ
clusterUserName	クラスターにアクセスするユーザー名。	いいえ
clusterPassword	クラスターにアクセスするセキュリティで保護された文字列の種類のパスワード。	いいえ
clusterSshUserName	クラスターのノードにリモートで接続する SSH のユーザー名 (Linux の場合)。	いいえ
clusterSshPassword	クラスターのノードにリモートで接続する SSH のセキュリティで保護された文字列の種類のパスワード (Linux の場合)。	いいえ
scriptActions	オンデマンドクラスター作成中に HDInsight クラスターのカスタマイズのスクリプトを指定します。現在、UI 作成ツールは 1 つのスクリプト操作のみの指定をサポートしていますが、JSON でこの制限に対応できます (JSON で複数のスクリプト操作を指定できます)。	いいえ

重要

HDInsight は、デプロイできる Hadoop クラスターバージョンを複数サポートしています。各バージョンを選択すると、特定のバージョンの Hortonworks Data Platform (HDP) ディストリビューションと、そのディストリビューションに含まれるコンポーネントが作成されます。 HDInsight のサポートされるバージョンの一覧を常に更新して、最新の Hadoop エコシステムコンポーネントと修正プログラムを提供しています。 HDInsight のサポートされているバージョンを確実に使用するために、HDInsight のサポートされているバージョンと OS の種類に関する最新情報を常に参照してください。

重要

現在、HDInsight のリンクされたサービスは、HBase、Interactive Query (Hive LLAP)、Storm をサポートしていません。

additionalLinkedServiceNames JSON の例

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

サービスプリンシパルの認証

オンデマンドの HDInsight リンクサービスでは、ユーザーに代わって HDInsight クラスターを作成するためにサービスプリンシパル認証が必要になります。サービスプリンシパルの認証を使用するには、Microsoft Entra ID でアプリケーションエンティティを登録し、サブスクリプションの、または HDInsight クラスターが作成されるリソースグループの共同作成者のロールを付与します。詳細な手順については、「リソースにアクセスできる Microsoft Entra アプリケーションとサービスプリンシパルをポータルで作成する」を参照してください。次の値を記録しておきます。リンクされたサービスを定義するときに使います。

アプリケーション ID
アプリケーションキー
テナント ID

次のプロパティを指定して、サービスプリンシパル認証を使います。

プロパティ	内容	必須
servicePrincipalId	アプリケーションのクライアント ID を取得します。	はい
servicePrincipalKey	アプリケーションのキーを取得します。	はい
tenant	アプリケーションが存在するテナントの情報 (ドメイン名またはテナント ID) を指定します。 Azure Portal の右上隅をマウスでポイントすることにより取得できます。	はい

高度なプロパティ

次のプロパティを指定し、オンデマンド HDInsight クラスターを詳細に設定することもできます。

プロパティ	内容	必須
coreConfiguration	作成する HDInsight クラスターに core 構成パラメーター (core-site.xml と同じ) を指定します。	いいえ
hBaseConfiguration	HDInsight クラスターに HBase 構成パラメーター (hbase-site.xml) を指定します。	いいえ
hdfsConfiguration	HDInsight クラスターに HDFS 構成パラメーター (hdfs-site.xml) を指定します。	いいえ
hiveConfiguration	HDInsight クラスターに hive 構成パラメーター (hive-site.xml) を指定します。	いいえ
mapReduceConfiguration	HDInsight クラスターに MapReduce 構成パラメーター (mapred-site.xml) を指定します。	いいえ
oozieConfiguration	HDInsight クラスターに Oozie 構成パラメーター (oozie-site.xml) を指定します。	いいえ
stormConfiguration	HDInsight クラスターに Storm 構成パラメーター (storm-site.xml) を指定します。	いいえ
yarnConfiguration	HDInsight クラスターに Yarn 構成パラメーター (yarn-site.xml) を指定します。	いいえ

例 - オンデマンド HDInsight クラスター構成と詳細なプロパティ

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

ノードのサイズ

次のプロパティを使用して、ヘッドノード、データノード、Zookeeper ノードのサイズを指定できます。

プロパティ	内容	必須
headNodeSize	ヘッドノードのサイズを指定します。既定値は Standard_D3 です。詳細については、「ノードのサイズの指定」をご覧ください。	いいえ
dataNodeSize	データノードのサイズを指定します。既定値は Standard_D3 です。	いいえ
zookeeperNodeSize	Zookeeper ノードのサイズを指定します。既定値は Standard_D3 です。	いいえ

ノードサイズの指定。前のセクションで説明したプロパティで指定する必要がある文字列値については、仮想マシンのサイズに関する記事を参照してください。値は、この記事に記載されているコマンドレットと API に準拠する必要があります。この記事に示すように、Large (既定値) サイズのデータノードのメモリ容量は 7 GB ですが、シナリオによってはこれでは不十分な場合があります。

D4 サイズのヘッドノードとワーカーノードを作成する場合は、headNodeSize プロパティと dataNodeSize プロパティの値として Standard_D4 を指定します。

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

これらのプロパティに間違った値を指定すると、次のエラーが発生します。エラー: クラスターを作成できませんでした。例外:クラスター作成操作を完了できません。コード '400' で操作が失敗しました。取り残されたクラスターの状態: 'Error'。メッセージ:'PreClusterCreationValidationFailure'。このエラーが発生した場合は、仮想マシンのサイズに関する記事の表に記載されているコマンドレットと API の名前を使用していることを確認してください。

Bring Your Own のコンピューティング環境

この種類の構成では、既存のコンピューティング環境をリンクサービスとして登録できます。このコンピューティング環境はユーザーにより管理され、サービスではこれを使用してアクティビティを実行します。

この種類の構成は次のコンピューティング環境でサポートされています。

Azure HDInsight
Azure Batch
Azure Machine Learning
Azure Data Lake Analytics
Azure SQL DB、Azure Synapse Analytics、SQL Server

Azure HDInsight のリンクされたサービス

Azure HDInsight のリンクサービスを作成し、独自の HDInsight クラスターをデータファクトリまたは Synapse ワークスペースに登録できます。

例

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property	内容	必須
type	type プロパティは HDInsightに設定されます。	はい
clusterUri	HDInsight クラスターの URI です。	はい
username	既存の HDInsight クラスターに接続するために使用されるユーザーの名前を指定します。	はい
password	ユーザーアカウントのパスワードを指定します。	はい
linkedServiceName	HDInsight クラスターで使われる Azure Blob Storage を参照する Azure Storage のリンクされたサービスの名前です。現在は、Azure Data Lake Storage (Gen 2) のリンクされたサービスをこのプロパティに指定することはできません。 HDInsight クラスターが Data Lake Store にアクセスできる場合、Hive または Pig スクリプトから Azure Data Lake Storage (Gen 2) 内のデータにアクセスできます。	はい
isEspEnabled	HDInsight クラスターが Enterprise セキュリティパッケージ対応の場合は、'true' を指定します。既定値は 'false' です。	いいえ
connectVia	このリンクサービスにアクティビティをディスパッチするために使用される統合ランタイムです。 Azure 統合ランタイムまたは自己ホスト型統合ランタイムを使用することができます。指定されていない場合は、既定の Azure 統合ランタイムが使用されます。 Enterprise セキュリティパッケージ (ESP) 対応の HDInsight クラスターには、クラスターへの通信経路があるセルフホステッド統合ランタイムを使用するか、ESP HDInsight クラスターと同じ仮想ネットワーク内にデプロイする必要があります。	いいえ

重要

現在、HDInsight のリンクされたサービスは、HBase、Interactive Query (Hive LLAP)、Storm をサポートしていません。

Azure Batch のリンクされたサービス

Note

Azure を操作するには、Azure Az PowerShell モジュールを使用することをお勧めします。作業を開始するには、Azure PowerShell のインストールに関する記事を参照してください。 Az PowerShell モジュールに移行する方法については、「AzureRM から Az への Azure PowerShell の移行」を参照してください。

Azure Batch のリンクサービスを作成し、仮想マシン (VM) の Batch プールをデータまたは Synapse ワークスペースに登録できます。 Azure Batch を使用してカスタムアクティビティを実行することができます。

Azure Batch サービスを初めて利用する場合は、次の記事をご覧ください。

Azure Batch の基本」をご覧ください。
Azure Batch アカウントの作成方法については、New-AzBatchAccount コマンドレットをご覧ください。Azure portal を使用した Azure Batch アカウントの作成方法については、Azure portal をご覧ください。このコマンドレットの使用方法の詳細については、PowerShell を使用した Azure Batch アカウントの管理に関する記事をご覧ください。
Azure Batch プールの作成方法については、New-AzBatchPool コマンドレットをご覧ください。

重要

新しい Azure Batch プールを作成するときは、'CloudServiceConfiguration' ではなく 'VirtualMachineConfiguration' を使用する必要があります。詳細については、Azure Batch プールの移行に関するガイダンスを参照してください。

例

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property	内容	必須
type	type プロパティは AzureBatchに設定されます。	はい
accountName	Azure Batch アカウントの名前です。	はい
accessKey	Azure Batch アカウントのアクセスキーです。	はい
batchUri	https://batchaccountname.region.batch.azure.com の形式の Azure Batch アカウントへの URL です。	はい
poolName	仮想マシンのプールの名前です。	はい
linkedServiceName	この Azure Batch の「リンクされたサービス」に関連付けられている Azure Storage の「リンクされたサービス」の名前です。この「リンクされたサービス」はアクティビティの実行に必要なファイルのステージングに利用されます。	はい
connectVia	このリンクサービスにアクティビティをディスパッチするために使用される統合ランタイムです。 Azure 統合ランタイムまたは自己ホスト型統合ランタイムを使用することができます。指定されていない場合は、既定の Azure 統合ランタイムが使用されます。	いいえ

Machine Learning スタジオ (クラシック) のリンクサービス

重要

Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

Machine Learning スタジオ (クラシック) のリンクサービスを作成して、Machine Learning スタジオ (クラシック) のバッチスコアリングエンドポイントをデータファクトリまたは Synapse ワークスペースに登録します。

例

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property	内容	必須
Type	type プロパティは次の値に設定されます。AzureML。	はい
mlEndpoint	バッチスコアリング URL です。	はい
apiKey	公開されたワークスペースモデルの API です。	はい
updateResourceEndpoint	トレーニング済みモデルファイルを使用した予測 Web サービスの更新に使用される ML Studio (クラシック) Web サービスエンドポイントの更新リソース URL です	いいえ
servicePrincipalId	アプリケーションのクライアント ID を取得します。	UpdateResourceEndpoint が指定されている場合は必須です
servicePrincipalKey	アプリケーションのキーを取得します。	UpdateResourceEndpoint が指定されている場合は必須です
tenant	アプリケーションが存在するテナントの情報 (ドメイン名またはテナント ID) を指定します。 Azure Portal の右上隅をマウスでポイントすることにより取得できます。	UpdateResourceEndpoint が指定されている場合は必須です
connectVia	このリンクサービスにアクティビティをディスパッチするために使用される統合ランタイムです。 Azure 統合ランタイムまたは自己ホスト型統合ランタイムを使用することができます。指定されていない場合は、既定の Azure 統合ランタイムが使用されます。	いいえ

Azure Machine Learning のリンクされたサービス

Azure Machine Learning のリンクサービスを作成して、Azure Machine Learning ワークスペースをデータファクトリまたは Synapse ワークスペースに接続します。

Note

現在、Azure Machine Learning のリンクされたサービスでは、サービスプリンシパル認証のみがサポートされています。

例

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	内容	必須
Type	type プロパティは次の値に設定されます。AzureMLService。	はい
subscriptionId	Azure サブスクリプション ID	はい
resourceGroupName	name	はい
mlWorkspaceName	Azure Machine Learning ワークスペースの名前	はい
servicePrincipalId	アプリケーションのクライアント ID を取得します。	はい
servicePrincipalKey	アプリケーションのキーを取得します。	はい
tenant	アプリケーションが存在するテナントの情報 (ドメイン名またはテナント ID) を指定します。 Azure Portal の右上隅をマウスでポイントすることにより取得できます。	UpdateResourceEndpoint が指定されている場合は必須です
connectVia	このリンクサービスにアクティビティをディスパッチするために使用される統合ランタイムです。 Azure 統合ランタイムまたは自己ホスト型統合ランタイムを使用することができます。指定されていない場合は、既定の Azure 統合ランタイムが使用されます。	いいえ

Azure Data Lake Analytics リンクサービス

Azure Data Lake Analytics リンクサービスを作成して、Azure Data Lake Analytics コンピューティングサービスをデータファクトリまたは Synapse ワークスペースにリンクします。パイプラインの Data Lake Analytics U-SQL アクティビティは、このリンクサービスを参照します。

例

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property	内容	必須
type	type プロパティは次の値に設定されます。AzureDataLakeAnalytics。	はい
accountName	Azure Data Lake Analytics アカウント名。	はい
dataLakeAnalyticsUri	Azure Data Lake Analytics URI。	いいえ
subscriptionId	Azure サブスクリプション ID	いいえ
resourceGroupName	Azure リソースグループ名	いいえ
servicePrincipalId	アプリケーションのクライアント ID を取得します。	はい
servicePrincipalKey	アプリケーションのキーを取得します。	はい
tenant	アプリケーションが存在するテナントの情報 (ドメイン名またはテナント ID) を指定します。 Azure Portal の右上隅をマウスでポイントすることにより取得できます。	はい
connectVia	このリンクサービスにアクティビティをディスパッチするために使用される統合ランタイムです。 Azure 統合ランタイムまたは自己ホスト型統合ランタイムを使用することができます。指定されていない場合は、既定の Azure 統合ランタイムが使用されます。	いいえ

Azure Databricks のリンクされたサービス

Azure Databricks のリンクされたサービスを作成して、Databricks ワークロード (Notebook、Jar、Phthon) の実行に使用する Databricks ワークスペースを登録できます。

重要

Databricks のリンクされたサービスでは、インスタンスプールとシステムによって割り当てられたマネージド ID 認証がサポートされています。

例 - Databricks で新しいジョブクラスターの使用

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "dapif33c9c721144c3a790b35000b57f7124f"
            }
        }
    }
}

例 - Databricks で対話型の既存クラスターの使用

{
    "name": " AzureDataBricksLinedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "dapif33c9c72344c3a790b35000b57f7124f"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property	内容	必須
name	リンクされたサービスの名前	はい
type	type プロパティは次の値に設定されます。Azure Databricks。	はい
domain	Databricks ワークスペースのリージョンに基づき Azure リージョンを指定します。例: https://eastus.azuredatabricks.net	はい
accessToken	サービスの Azure Databricks の認証にはアクセストークンが必要です。アクセストークンは、Databricks ワークスペースから生成する必要があります。アクセストークンを見つける詳細な手順については、こちらを参照してください。	いいえ
MSI	サービスのマネージド ID (システム割り当て) を使用して、Azure Databricks に対する認証を行います。 'MSI' 認証を使用する場合、アクセストークンは必要ありません。マネージド ID 認証の詳細については、こちらを参照してください	いいえ
existingClusterId	このすべてのジョブを実行する既存のクラスターのクラスター ID。これは作成済みの対話型クラスターでなければなりません。応答が停止した場合は、クラスターの手動再起動が必要になることがあります。 Databricks では、信頼性を高めるために新しいクラスターでジョブを実行することをお勧めします。対話型クラスターのクラスター ID は Databricks ワークスペース -> クラスター -> 対話型クラスター名 -> 構成 -> タグで見つけることができます。 [詳細]	いいえ
instancePoolId	Databricks ワークスペース内の既存のプールのインスタンスプール ID。	いいえ
newClusterVersion	クラスターの Spark バージョン。 Databricks にジョブクラスターを作成します。	いいえ
newClusterNumOfWorker	このクラスターに属する worker ノードの数。 1 つのクラスターには 1 つの Spark ドライバーと num_workers Executor、全体では num_workers + 1 Spark ノードになります。文字列は Int32 で設定されます。たとえば、"1" は、numOfWorker が 1 であること、"1:10" は、最小が 1 で最大が 10 の自動スケーリングを意味します。	いいえ
newClusterNodeType	このフィールドは、単一の値を通じて使用されるリソースをこのクラスターのそれぞれの Spark ノードにエンコードします。たとえば、Spark ノードはメモリまたはコンピューティング集約型ワークロード用にプロビジョニングされ、最適化されます。このフィールドは、新しいクラスターに必須です。	いいえ
newClusterSparkConf	省略可能なユーザー指定の Spark 構成キーと値のペアのセット。ユーザーは、余分な JVM オプションの文字列をドライバーと Executor にそれぞれ spark.driver.extraJavaOptions および spark.executor.extraJavaOptions を介して渡すこともできます。	いいえ
newClusterInitScripts	新しいクラスター用のユーザーが定義した省略可能な初期化スクリプトのセット。 init スクリプトは、ワークスペースファイル (推奨) または DBFS パス (レガシ) を使用して指定できます。	いいえ

Azure SQL Database のリンクされたサービス

Azure SQL リンクサービスを作成し、それをストアドプロシージャアクティビティで使用して、パイプラインからストアドプロシージャを起動します。このリンクされたサービスの詳細については、 Azure SQL コネクタに関する記事を参照してください。

Azure Synapse Analytics のリンクされたサービス

Azure Synapse Analytics リンクサービスを作成し、それをストアドプロシージャアクティビティで使用して、パイプラインからストアドプロシージャを起動します。このリンクされたサービスの詳細については、Azure Synapse Analytics コネクタに関する記事を参照してください。

SQL Server のリンクされたサービス

SQL Server リンクサービスを作成し、それをストアドプロシージャアクティビティで使用して、パイプラインからストアドプロシージャを起動します。このリンクされたサービスの詳細については、 SQL Server コネクタに関する記事をご覧ください。

Azure Synapse Analytics (Artifacts) のリンクサービス

Azure Synapse Analytics (Artifacts) のリンクサービスを作成し、それを Synapse Notebook アクティビティおよび Synapse Spark ジョブ定義のアクティビティで使用します。

例

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

Properties

プロパティ	説明	必須
name	リンクされたサービスの名前	はい
description	リンクサービスの説明	いいえ
annotations	リンクサービスの注釈	いいえ
type	type プロパティは AzureSynapseArtifacts に設定する必要があります	はい
endpoint	Azure Synapse Analytics URL	はい
認証	既定の設定はシステム割り当てマネージド ID です	はい
workspaceResourceId	ワークスペースのリソース ID	はい
connectVia	データストアに接続するために使用される統合ランタイム。 Azure Integration Runtime を使用できます。指定されていない場合は、既定の Azure 統合ランタイムが使用されます。セルフホステッド統合ランタイムは現在サポートされていません。	はい

Azure 関数のリンクされたサービス

Azure 関数のリンクサービスを作成し、それを Azure 関数アクティビティで使用して、パイプラインで Azure Functions を実行します。 Azure 関数の戻り値の型は、有効な JObject である必要があります。 (JArray は JObject では "ない" ことに留意してください。)JObject以外の戻り値の型が失敗し、ユーザーエラー応答コンテンツは有効な JObject ではないが発生します。

プロパティ	説明	必須
type	type プロパティは、次のように設定する必要があります:AzureFunction	はい
function app url	Azure 関数アプリの URL。形式は `https://<accountname>.azurewebsites.net` です。この URL は、Azure portal で関数アプリを表示した際に URL セクションに表示される値です	はい
function key	Azure 関数のアクセスキーです。それぞれの関数の [管理] セクションをクリックし、ファンクションキーまたはホストキーをコピーします。詳しくは、次の記事をご覧ください:Azure Functions の HTTP トリガーとバインド	はい

サポートされている変換アクティビティの一覧については、データの変換に関する記事を参照してください。

Azure Data Factory と Synapse パイプラインでサポートされるコンピューティング環境

HDInsight コンピューティング環境

Azure HDInsight のオンデマンドのリンクされたサービス

例

Properties

サービス プリンシパルの認証

高度なプロパティ

ノードのサイズ

Bring Your Own のコンピューティング環境

Azure HDInsight のリンクされたサービス

例

Properties

Azure Batch のリンクされたサービス

例

Properties

Machine Learning スタジオ (クラシック) のリンク サービス

例

Properties

Azure Machine Learning のリンクされたサービス

例

Properties

Azure Data Lake Analytics リンク サービス

例

Properties

Azure Databricks のリンクされたサービス

例 - Databricks で新しいジョブ クラスターの使用

例 - Databricks で対話型の既存クラスターの使用

Properties

Azure SQL Database のリンクされたサービス

Azure Synapse Analytics のリンクされたサービス

SQL Server のリンクされたサービス

Azure Synapse Analytics (Artifacts) のリンク サービス

例

Properties

Azure 関数のリンクされたサービス

関連するコンテンツ

その他のリソース

サービスプリンシパルの認証

Machine Learning スタジオ (クラシック) のリンクサービス

Azure Data Lake Analytics リンクサービス

例 - Databricks で新しいジョブクラスターの使用

Azure Synapse Analytics (Artifacts) のリンクサービス