Azure Data Factory および Azure Synapse Analytics でデータを変換する

[アーティクル]
08/10/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

重要

Azure Machine Learning スタジオ (クラシック) のサポートは、2024 年 8 月 31 日に終了します。その日までに、Azure Machine Learning に切り替えることをおすすめします。

2021 年 12 月 1 日の時点で、新しい Machine Learning Studio (クラシック) リソース (ワークスペースと Web サービスプラン) を作成することはできません。 2024 年 8 月 31 日まで、既存の Machine Learning スタジオ (クラシック) の実験と Web サービスを引き続き使用できます。詳細については、以下を参照してください:

Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

概要

この記事では、Azure Data Factory および Synapse パイプラインでのデータ変換アクティビティについて説明します。これを使用すると、大規模な生データを予測と分析情報に変換して処理することができます。変換アクティビティは、Azure Databricks や Azure HDInsight などのコンピューティング環境で実行されます。各変換アクティビティの詳細情報に関する記事へのリンクが提供されています。

このサービスは、次のデータ変換アクティビティをサポートしています。これらは、個別にまたは他のアクティビティと連結してパイプラインに追加できます。

データフローを使用して Azure Data Factory および Azure Synapse Analytics でネイティブに変換する

データフローのマッピング

マッピングデータフローは、Azure Data Factory および Azure Synapse における視覚的に設計されたデータ変換です。データフローを使用すると、データエンジニアは、コードを記述することなくグラフィカルなデータ変換ロジックを開発できます。生成されたデータフローは、スケールアウトされた Spark クラスターを使用するパイプライン内のアクティビティとして実行されます。データフローアクティビティは、サービス内の既存のスケジュール設定、制御、フロー、および監視機能を通して運用化できます。詳細については、マッピングデータフローに関するページを参照してください。

データラングリング

Azure Data Factory の Power Query を使用すると、クラウド規模のデータラングリングを実行できます。これにより、コード不要のデータ準備をクラウド規模で反復的に実行できます。データラングリングは Power Query Online と統合されており、Spark の実行によりクラウド規模で Power Query M 関数をデータラングリングに使用できるようにします。詳細については、「Azure Data Factory でのデータラングリング」を参照してください。

注意

Power Query は現在、Azure Data Factory でのみサポートされ、Azure Synapse ではサポートされていません。各サービスでサポートされている具体的な機能の一覧については、Azure Data Factory および Azure Synapse Analytics のパイプラインで使用できる機能に関する記事を参照してください。

外部での変換

必要に応じて、変換を手動でコーディングし、外部のコンピューティング環境を自分で管理することもできます。

HDInsight Hive アクティビティ

パイプラインの HDInsight Hive アクティビティでは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Hive クエリを実行します。このアクティビティの詳細については、Hive アクティビティに関する記事をご覧ください。

HDInsight Pig アクティビティ

パイプラインの HDInsight Pig アクティビティでは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Pig クエリを実行します。このアクティビティの詳細については、Pig アクティビティに関する記事をご覧ください。

HDInsight MapReduce アクティビティ

パイプラインの HDInsight MapReduce アクティビティは、独自の、またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで MapReduce プログラムを実行します。このアクティビティの詳細については、MapReduce アクティビティに関する記事をご覧ください。

HDInsight Streaming アクティビティ

パイプラインの HDInsight Streaming アクティビティは、独自の、またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Hadoop Streaming プログラムを実行します。このアクティビティの詳細については、記事「 HDInsight Streaming アクティビティ」を参照してください。

HDInsight Spark アクティビティ

パイプラインの HDInsight Spark アクティビティでは、独自の HDInsight クラスターで Spark プログラムを実行します。詳細については、Azure Data Factory またはor Azure Synapse Analytics で Spark プログラムを呼び出すことに関する記事を参照してください。

ML Studio (クラシック) アクティビティ

重要

Machine Learning Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。

このサービスを使用すると、公開された ML Studio (クラシック) Web サービスを利用して予測分析を行うパイプラインを簡単に作成できます。パイプライン内で Batch Execution アクティビティを使用すると、Studio (クラシック) Web サービスを呼び出して、データの予測を一括で行うことができます。

時間の経過と共に、スタジオ (クラシック) スコア付け実験の予測モデルには、新しい入力データセットを使用した再トレーニングが必要になります。再トレーニングが完了したら、再トレーニング済みの機械学習モデルでスコア付け Web サービスを更新する必要があります。更新リソースアクティビティを使用して、新しくトレーニングを行ったモデルで Web サービスを更新します。

これらの Studio (クラシック) アクティビティの詳細については、ML Studio (クラシック) アクティビティの使用に関するページを参照してください。

ストアドプロシージャアクティビティ

SQL Server ストアドプロシージャアクティビティを Data Factory のパイプライン内で使用して、次のいずれかのデータストア内のストアドプロシージャを呼び出すことができます。企業または Azure VM 内の Azure SQL Database、Azure Synapse Analytics、SQL Server データベース。詳細については、ストアドプロシージャアクティビティに関する記事をご覧ください。

Data Lake Analytics U-SQL アクティビティ

Data Lake Analytics U-SQL アクティビティは、Azure Data Lake Analytics クラスターで U-SQL スクリプトを実行します。詳細については、Data Analytics U-SQL アクティビティに関する記事をご覧ください。

Azure Synapse Notebook アクティビティ

Synapse パイプラインの Synapse Azure Synapse Notebook アクティビティは、Azure Synapse ワークスペースの Synapse Notebook を実行します。 Azure Synapse Notebook を実行してデータを変換することに関する記事を参照してください。

Databricks Notebook アクティビティ

パイプラインの Azure Databricks Notebook アクティビティは、Azure Databricks ワークスペースで Databricks ノートブックを実行します。 Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。「Databricks Notebook を実行してデータを変換する」を参照してください。

Databricks Jar アクティビティ

パイプラインの Azure Databricks Jar アクティビティは、Azure Databricks クラスターで Spark Jar を実行します。 Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。「Azure Databricks で Jar アクティビティを実行してデータを変換する」を参照してください。

Databricks Python アクティビティ

パイプラインの Azure Databricks Python アクティビティは、Azure Databricks クラスターで Python ファイルを実行します。 Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。「Azure Databricks で Python アクティビティを実行してデータを変換する」を参照してください。

カスタムアクティビティ

Data Factory でサポートされていない方法でデータを変換する必要がある場合は、独自のデータ処理ロジックを使用するカスタムアクティビティを作成し、パイプラインでそのアクティビティを使用できます。 Azure Batch サービスまたは Azure HDInsight クラスターを使用して実行するようにカスタム .NET アクティビティを構成できます。 Use custom activities (カスタムアクティビティの使用) を参照してください。

カスタムアクティビティを作成して、R がインストールされている HDInsight クラスターで R スクリプトを実行することができます。 Azure Data Factory および Synapse パイプラインを使用した R スクリプトの実行に関するトピックを参照してください。

コンピューティング環境

変換アクティビティを定義するときには、コンピューティング環境のリンクされたサービスを作成したうえで、そのサービスを使用します。サポートされているコンピューティング環境は 2 種類あります。

オンデマンド: この場合、コンピューティング環境はサービスで完全に管理されます。データを処理するためのジョブが送信される前にサービスにより自動的に作成され、ジョブの完了時に削除されます。ユーザーは、ジョブの実行、クラスターの管理、ブートストラップアクションなどについて、オンデマンドのコンピューティング環境の詳細設定を構成および制御できます。
独自の環境を使用する: この場合、独自のコンピューティング環境 (HDInsight クラスターなど) をリンクサービスとして登録できます。このコンピューティング環境はユーザーにより管理され、サービスではこの環境を使用してアクティビティを実行します。

サポートされるコンピューティングサービスの詳細については、「コンピューティングのリンクされたサービス」を参照してください。

変換アクティビティの使用例については、次のチュートリアルをご覧ください: チュートリアル: Spark を使用してデータを変換する