Azure Data Factory でデータを変換するTransform data in Azure Data Factory

概要Overview

この記事では、Azure Data Factory でのデータ変換アクティビティについて説明します。このアクティビティにより、生データを変換および処理することで、予測や把握が容易になります。This article explains data transformation activities in Azure Data Factory that you can use to transform and processes your raw data into predictions and insights. 変換アクティビティは、Azure HDInsight クラスターや Azure Batch などのコンピューティング環境で実行されます。A transformation activity executes in a computing environment such as Azure HDInsight cluster or an Azure Batch. 各変換アクティビティの詳細情報に関する記事へのリンクが提供されています。It provides links to articles with detailed information on each transformation activity.

Data Factory は、次のデータ変換アクティビティをサポートしています。これらのアクティビティは、個別または他のアクティビティと連結した状態でパイプラインに追加できます。Data Factory supports the following data transformation activities that can be added to pipelines either individually or chained with another activity.

データ フローを使用して Azure Data Factory でネイティブに変換するTransform natively in Azure Data Factory with data flows

データ フローのマッピングMapping data flows

マッピング データ フローは、Azure Data Factory での視覚的に設計されたデータ変換です。Mapping data flows are visually designed data transformations in Azure Data Factory. データ フローを使用すると、データ エンジニアは、コードを記述することなくグラフィカルなデータ変換ロジックを開発できます。Data flows allow data engineers to develop graphical data transformation logic without writing code. 生成されたデータ フローは、スケールアウトされた Spark クラスターを使用する Azure Data Factory パイプライン内のアクティビティとして実行されます。The resulting data flows are executed as activities within Azure Data Factory pipelines that use scaled-out Spark clusters. データ フロー アクティビティは、既存の Data Factory のスケジュール設定、制御、フロー、および監視機能を通して運用可能にすることができます。Data flow activities can be operationalized via existing Data Factory scheduling, control, flow, and monitoring capabilities. 詳細については、マッピング データ フローに関するページを参照してください。For more information, see mapping data flows.

ラングリング データ フローWrangling data flows

Azure Data Factory のラングリング データ フローを使用すると、コードなしのデータ準備をクラウド規模で繰り返し実行できます。Wrangling data flows in Azure Data Factory allow you to do code-free data preparation at cloud scale iteratively. ラングリング データ フローは Power Query Online と統合されており、Spark 実行を通して Power Query M 関数をデータ ラングリングに対してクラウド規模で使用可能にします。Wrangling data flows integrate with Power Query Online and makes Power Query M functions available for data wrangling at cloud scale via spark execution. 詳細については、ラングリング データ フローに関するページを参照してください。For more information, see wrangling data flows.

外部での変換External transformations

HDInsight Hive アクティビティHDInsight Hive activity

Data Factory パイプラインの HDInsight Hive アクティビティでは、独自またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Hive クエリを実行します。The HDInsight Hive activity in a Data Factory pipeline executes Hive queries on your own or on-demand Windows/Linux-based HDInsight cluster. このアクティビティの詳細については、Hive アクティビティに関する記事をご覧ください。See Hive activity article for details about this activity.

HDInsight Pig アクティビティHDInsight Pig activity

Data Factory パイプラインの HDInsight Pig アクティビティでは、独自またはオンデマンドの Windows/Linux ベースのHDInsight クラスターで Pig クエリを実行します。The HDInsight Pig activity in a Data Factory pipeline executes Pig queries on your own or on-demand Windows/Linux-based HDInsight cluster. このアクティビティの詳細については、Pig アクティビティに関する記事をご覧ください。See Pig activity article for details about this activity.

HDInsight MapReduce アクティビティHDInsight MapReduce activity

Data Factory パイプラインの HDInsight MapReduce アクティビティは、独自の、またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで MapReduce プログラムを実行します。The HDInsight MapReduce activity in a Data Factory pipeline executes MapReduce programs on your own or on-demand Windows/Linux-based HDInsight cluster. このアクティビティの詳細については、MapReduce アクティビティに関する記事をご覧ください。See MapReduce activity article for details about this activity.

HDInsight Streaming アクティビティHDInsight Streaming activity

Data Factory パイプラインの HDInsight Streaming アクティビティは、独自の、またはオンデマンドの Windows/Linux ベースの HDInsight クラスターで Hadoop Streaming プログラムを実行します。The HDInsight Streaming activity in a Data Factory pipeline executes Hadoop Streaming programs on your own or on-demand Windows/Linux-based HDInsight cluster. このアクティビティの詳細については、記事「 HDInsight Streaming アクティビティ 」を参照してください。See HDInsight Streaming activity for details about this activity.

HDInsight Spark アクティビティHDInsight Spark activity

Data Factory パイプラインの HDInsight Spark アクティビティでは、独自の HDInsight クラスターで Spark プログラムを実行します。The HDInsight Spark activity in a Data Factory pipeline executes Spark programs on your own HDInsight cluster. 詳細については、「Data Factory から Spark プログラムを起動する」を参照してください。For details, see Invoke Spark programs from Azure Data Factory.

Machine Learning アクティビティMachine Learning activities

Azure Data Factory を使用すると、公開された Azure Machine Learning Web サービスを利用して予測分析を行うパイプラインを簡単に作成できます。Azure Data Factory enables you to easily create pipelines that use a published Azure Machine Learning web service for predictive analytics. Azure Data Factory パイプラインでバッチ実行アクティビティを使用すると、Machine Learning Web サービスを呼び出して、データの予測をバッチで行うことができます。Using the Batch Execution activity in an Azure Data Factory pipeline, you can invoke a Machine Learning web service to make predictions on the data in batch.

時間の経過と共に、Machine Learning スコア付け実験の予測モデルには、新しい入力データセットを使用した再トレーニングが必要になります。Over time, the predictive models in the Machine Learning scoring experiments need to be retrained using new input datasets. 再トレーニングが完了したら、再トレーニング済みの Machine Learning モデルでスコア付け Web サービスを更新する必要があります。After you are done with retraining, you want to update the scoring web service with the retrained Machine Learning model. 更新リソース アクティビティを使用して、新しくトレーニングを行ったモデルで Web サービスを更新します。You can use the Update Resource activity to update the web service with the newly trained model.

これらの Machine Learning アクティビティの詳細については、 Azure Machine Learning アクティビティの使用 に関する記事を参照してください。See Use Machine Learning activities for details about these Machine Learning activities.

ストアド プロシージャ アクティビティStored procedure activity

SQL Server ストアド プロシージャ アクティビティを Data Factory のパイプライン内で使用して、次のいずれかのデータ ストア内のストアド プロシージャを呼び出すことができます。企業または Azure VM 内の Azure SQL Database、Azure SQL Data Warehouse、SQL Server データベース。You can use the SQL Server Stored Procedure activity in a Data Factory pipeline to invoke a stored procedure in one of the following data stores: Azure SQL Database, Azure SQL Data Warehouse, SQL Server Database in your enterprise or an Azure VM. 詳細については、ストアド プロシージャ アクティビティに関する記事をご覧ください。See Stored Procedure activity article for details.

Data Lake Analytics U-SQL アクティビティData Lake Analytics U-SQL activity

Data Lake Analytics U-SQL アクティビティは、Azure Data Lake Analytics クラスターで U-SQL スクリプトを実行します。Data Lake Analytics U-SQL activity runs a U-SQL script on an Azure Data Lake Analytics cluster. 詳細については、Data Analytics U-SQL アクティビティに関する記事をご覧ください。See Data Analytics U-SQL activity article for details.

Databricks Notebook アクティビティDatabricks Notebook activity

Data Factory パイプラインの Azure Databricks Notebook アクティビティは、Azure Databricks ワークスペースで Databricks Notebook を実行します。Azure Databricks は、Apache Spark を実行するためのマネージド プラットフォームです。The Azure Databricks Notebook Activity in a Data Factory pipeline runs a Databricks notebook in your Azure Databricks workspace.Azure Databricks is a managed platform for running Apache Spark. Databricks Notebook を実行してデータを変換する」を参照してください。See Transform data by running a Databricks notebook.

Databricks Jar アクティビティDatabricks Jar activity

Data Factory パイプラインの Azure Databricks Jar アクティビティは、Azure Databricks クラスターで Spark Jar を実行します。The Azure Databricks Jar Activity in a Data Factory pipeline runs a Spark Jar in your Azure Databricks cluster. Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。Azure Databricks is a managed platform for running Apache Spark. Azure Databricks で Jar アクティビティを実行してデータを変換する」を参照してください。See Transform data by running a Jar activity in Azure Databricks.

Databricks Python アクティビティDatabricks Python activity

Data Factory パイプラインの Azure Databricks Python アクティビティは、Azure Databricks クラスターで Python ファイルを実行します。The Azure Databricks Python Activity in a Data Factory pipeline runs a Python file in your Azure Databricks cluster. Azure Databricks は、Apache Spark を実行するための管理されたプラットフォームです。Azure Databricks is a managed platform for running Apache Spark. Azure Databricks で Python アクティビティを実行してデータを変換する」を参照してください。See Transform data by running a Python activity in Azure Databricks.

カスタム アクティビティCustom activity

Data Factory でサポートされていない方法でデータを変換する必要がある場合は、独自のデータ処理ロジックを使用するカスタム アクティビティを作成し、パイプラインでそのアクティビティを使用できます。If you need to transform data in a way that is not supported by Data Factory, you can create a custom activity with your own data processing logic and use the activity in the pipeline. Azure Batch サービスまたは Azure HDInsight クラスターを使用して実行するようにカスタム .NET アクティビティを構成できます。You can configure the custom .NET activity to run using either an Azure Batch service or an Azure HDInsight cluster. Use custom activities (カスタム アクティビティの使用) を参照してください。See Use custom activities article for details.

カスタム アクティビティを作成して、R がインストールされている HDInsight クラスターで R スクリプトを実行することができます。You can create a custom activity to run R scripts on your HDInsight cluster with R installed. Azure Data Factory を使用した R スクリプトの実行に関するトピックを参照してください。See Run R Script using Azure Data Factory.

コンピューティング環境Compute environments

変換アクティビティを定義するときには、コンピューティング環境のリンクされたサービスを作成したうえで、そのサービスを使用します。You create a linked service for the compute environment and then use the linked service when defining a transformation activity. Data Factory でサポートされているコンピューティング環境は 2 種類あります。There are two types of compute environments supported by Data Factory.

  • オンデマンド: この場合、コンピューティング環境は Data Factory によって完全に管理されます。On-Demand: In this case, the computing environment is fully managed by Data Factory. データを処理するためのジョブが送信される前に Data Factory サービスにより自動的に作成され、ジョブの完了時に削除されます。It is automatically created by the Data Factory service before a job is submitted to process data and removed when the job is completed. ユーザーは、ジョブの実行、クラスターの管理、ブートストラップ アクションなどについて、オンデマンドのコンピューティング環境の詳細設定を構成および制御できます。You can configure and control granular settings of the on-demand compute environment for job execution, cluster management, and bootstrapping actions.
  • 独自の環境を使用する: この場合、Data Factory のリンクされたサービスとして、独自のコンピューティング環境 (HDInsight クラスターなど) を登録できます。Bring Your Own: In this case, you can register your own computing environment (for example HDInsight cluster) as a linked service in Data Factory. このコンピューティング環境はユーザーが自分で管理することになります。Data Factory サービスは、アクティビティを実行にこの環境を使用します。The computing environment is managed by you and the Data Factory service uses it to execute the activities.

Data Factory でサポートされているコンピューティング サービスの詳細については、記事「 コンピューティングのリンクされたサービス 」を参照してください。See Compute Linked Services article to learn about compute services supported by Data Factory.

次の手順Next steps

変換アクティビティの使用例については、次のチュートリアルをご覧ください。チュートリアル: Spark を使用してデータを変換するSee the following tutorial for an example of using a transformation activity: Tutorial: transform data using Spark