クイック スタート:Azure Data Factory UI を使用してデータ ファクトリを作成する

適用対象: Azure Data Factory Azure Synapse Analytics

このクイックスタートでは、Azure Data Factory UI を使用してデータ ファクトリを作成および監視する方法について説明します。 このデータ ファクトリに作成したパイプラインは、データを Azure Blob Storage 内のあるフォルダーから別のフォルダーに "コピー" します。 Azure Data Factory を使用してデータを "変換" するには、マッピング データ フローに関するページを参照してください。

注意

Azure Data Factory を初めて使用する場合は、このクイック スタートを実行する前に、「Azure Data Factory の概要」を参照してください。

前提条件

Azure サブスクリプション

Azure サブスクリプションをお持ちでない場合は、開始する前に 無料アカウント を作成してください。

Azure ロール

Data Factory インスタンスを作成するには、Azure へのサインインに使用するユーザー アカウントが、"共同作成者" ロールまたは "所有者" ロールのメンバーであるか、Azure サブスクリプションの "管理者" である必要があります。 サブスクリプションで自分が持っているアクセス許可を表示するには、Azure portal に移動し、右上にあるユーザー名を選択してください。" ... " アイコンを選択してその他のオプションを表示し、 [アクセス許可] を選択します。 複数のサブスクリプションにアクセスできる場合は、適切なサブスクリプションを選択します。

データセット、リンクされたサービス、パイプライン、トリガー、および統合ランタイムを含む Data Factory の子リソースを作成および管理するには、次の要件が適用されます。

  • Azure portal で子リソースを作成および管理するには、リソース グループ レベル以上で Data Factory 共同作成者 ロールに属している必要があります。
  • PowerShell または SDK を使用して子リソースを作成および管理する場合は、リソース レベル以上での 共同作成者 ロールで十分です。

ロールにユーザーを追加する方法に関するサンプル手順については、ロールの追加に関する記事を参照してください。

詳細については、次の記事を参照してください。

Azure ストレージ アカウント

このクイックスタートでは、"ソース" データ ストアと "コピー先" データ ストアの両方に汎用の Azure Storage アカウント (具体的には Blob Storage) を使用します。 汎用の Azure Storage アカウントがない場合、作成方法については、ストレージ アカウントの作成に関するページを参照してください。

ストレージ アカウント名を取得する

このクイックスタートには、Azure Storage アカウントの名前が必要です。 以下の手順に従って、ご利用のストレージ アカウントの名前を取得してください。

  1. Web ブラウザーで Azure portal にアクセスし、Azure のユーザー名とパスワードを使用してサインインします。
  2. [Azure portal] メニューで [すべてのサービス] を選択してから、 [ストレージ] > [ストレージ アカウント] の順に選択します。 また、任意のページから検索して、 [ストレージ アカウント] を選択することもできます。
  3. [ストレージ アカウント] ページで、ご利用のストレージ アカウントを (必要に応じて) フィルターで抽出し、該当するストレージ アカウントを選択します。

また、任意のページから検索して、 [ストレージ アカウント] を選択することもできます。

BLOB コンテナーを作成する

このセクションでは、adftutorial という名前の BLOB コンテナーを Azure Blob Storage に作成します。

  1. ストレージ アカウント ページで、 [概要] > [コンテナー] を選択します。

  2. <Account name> - [コンテナー] ページのツールバーで、 [コンテナー] を選択します。

  3. [新しいコンテナー] ダイアログ ボックスで、名前に「adftutorial」と入力し、 [OK] を選択します。 <Account name> - [コンテナー] ページが更新され、コンテナーの一覧に adftutorial が含まれるようになります。

    コンテナーの一覧

BLOB コンテナーの入力フォルダーとファイルを追加する

このセクションでは、作成したコンテナーに input という名前のフォルダーを作成し、入力フォルダーにサンプル ファイルをアップロードします。 開始する前に、メモ帳 などのテキスト エディターを開き、次の内容を含む emp.txt という名前のファイルを作成します。

John, Doe
Jane, Doe

C:\ADFv2QuickStartPSH フォルダーにファイルを保存します (フォルダーがまだ存在しない場合は作成します)。Azure portal に戻り、次の手順を実行します。

  1. 中断した <Account name> - [コンテナー] ページで、コンテナーの更新された一覧から [adftutorial] を選択します。

    1. ウィンドウを閉じた場合、または別のページに移動した場合は、[Azure portal] にもう一度サインインします。
    2. [Azure portal] メニューで [すべてのサービス] を選択してから、 [ストレージ] > [ストレージ アカウント] の順に選択します。 また、任意のページから検索して、 [ストレージ アカウント] を選択することもできます。
    3. ストレージ アカウントを選択してから、 [コンテナー] > [adftutorial] を選択します。
  2. adftutorial コンテナー ページのツールバーで、 [アップロード] を選択します。

  3. [BLOB のアップロード] ページで、 [ファイル] ボックスを選択し、emp.txt ファイルを参照して選択します。

  4. [詳細設定] の見出しを展開します。 次のようにページが表示されます。

    [詳細設定] リンクの選択

  5. [アップロード先のフォルダー] ボックスに「input」と入力します。

  6. [アップロード] ボタンを選択します。 一覧に emp.txt ファイルとアップロードの状態が表示されます。

  7. [閉じる] アイコン (X) を選択して、 [BLOB のアップロード] ページを閉じます。

adftutorial コンテナーのページを開いたままにしておきます。 このクイックスタートの最後で、このページを使用して出力を確認します。

ビデオ

このビデオを視聴すると、Data Factory UI を理解できます。

Data Factory の作成

  1. Web ブラウザー (Microsoft Edge または Google Chrome) を起動します。 現在、Data Factory の UI がサポートされる Web ブラウザーは Microsoft Edge と Google Chrome だけです。

  2. Azure ポータルにアクセスします。

  3. Azure portal メニューから [リソースの作成] を選択します。

  4. [統合] を選択し、 [Data Factory] を選択します。

    [新規] ペインでの Data Factory の選択。

  5. [Create Data Factory](データ ファクトリの作成) ページの [基本] タブで、データ ファクトリを作成する Azure サブスクリプション を選択します。

  6. [リソース グループ] で、次の手順のいずれかを行います。

    a. ドロップダウン リストから既存のリソース グループを選択します。

    b. [新規作成] を選択し、新しいリソース グループの名前を入力します。

    リソース グループの詳細については、リソース グループを使用した Azure のリソースの管理に関するページを参照してください。

  7. [リージョン] で、データ ファクトリの場所を選択します。

    この一覧に表示されるのは、Data Factory でサポートされ、かつ Azure Data Factory のメタ データが格納される場所のみです。 Data Factory で使用する関連データ ストア (Azure Storage、Azure SQL Database など) やコンピューティング (Azure HDInsight など) は他のリージョンで実行できます。

  8. [名前] に「ADFTutorialDataFactory」と入力します。 Azure データ ファクトリの名前は グローバルに一意 にする必要があります。 次のエラーが発生した場合は、データ ファクトリの名前を変更して ( <yourname>ADFTutorialDataFactory など) 作成し直してください。 Data Factory アーティファクトの名前付け規則については、Data Factory の名前付け規則に関する記事を参照してください。

    重複する名前に関する、新しい Data Factory のエラーメッセージ。

  9. [バージョン] で、 [V2] を選択します。

  10. Next:Git configuration(次へ: Git の構成) を選択し、Configure Git later(後で Git を構成する) チェック ボックスをオンにします。

  11. [確認と作成] を選択し、検証に成功したら [作成] を選択します。 作成後、 [リソースに移動] を選択して、 [Data factory] ページに移動します。

  12. [Open Azure Data Factory Studio](Azure Data Factory Studio を開く) タイルで [開く] を選択して、別のブラウザー タブで Azure Data Factory ユーザー インターフェイス (UI) アプリケーションを起動します。

    [Open Azure Data Factory Studio] タイルを含む、Azure Data Factory のホーム ページ。

    注意

    Web ブラウザーが "承認中" でスタックしていることがわかったら、 [サードバーティの Cookie とサイト データをブロックする] チェック ボックスをオフにします。 または、オンにしたまま、login.microsoftonline.com の例外を作成してから、アプリを再度開いてみてください。

リンクされたサービスを作成する

この手順では、Azure Storage アカウントをデータ ファクトリにリンクするためのリンクされたサービスを作成します。 リンクされたサービスは、Data Factory サービスが実行時に接続するために使用する接続情報を持っています。

  1. Azure Data Factory UI ページで、左側のペインにある [管理] タブを開きます。

  2. [リンクされたサービス] ページの [+ 新規] を選択して、リンクされたサービスを新規作成します。

    新しいリンクされたサービス。

  3. [New Linked Service](新しいリンクされたサービス) ページで [Azure Blob Storage] を選択し、 [続行] を選択します。

  4. [New Linked Service (Azure Blob Storage)](新しいリンクされたサービス (Azure Blob Storage)) ページで、次の手順を行います。

    a. [名前] に「AzureStorageLinkedService」と入力します。

    b. [ストレージ アカウント名] で Azure Storage アカウントの名前を選択します。

    c. [テスト接続] を選択して、Data Factory サービスがストレージ アカウントに接続できることを確認します。

    d. [作成] を選択して、リンクされたサービスを保存します。

    リンクされたサービス。

データセットを作成する

この手順では、InputDatasetOutputDataset。 これらのデータセットの種類は、AzureBlob です。 これらは、前のセクションで作成した Azure Storage のリンクされたサービスを参照します。

入力データセットは、入力フォルダーのソース データを表します。 入力データセットの定義では、ソース データを格納している BLOB コンテナー (adftutorial)、フォルダー (input)、およびファイル (emp.txt) を指定します。

出力データセットは、ターゲットにコピーされるデータを表します。 出力データセットの定義では、データのコピー先の BLOB コンテナー (adftutorial)、フォルダー (output)、およびファイルを指定します。 パイプラインの各実行には、一意の ID が関連付けられます。 この ID には、システム変数 RunId を使用してアクセスできます。 出力ファイルの名前は、パイプラインの実行 ID に基づいて動的に評価されます。

リンクされたサービスの設定では、ソース データを含む Azure Storage アカウントを指定しました。 ソース データセットの設定では、ソース データがどこにあるかを正確に指定します (BLOB コンテナー、フォルダー、およびファイル)。 シンク データセットの設定では、データがどこにコピーされるかを指定します (BLOB コンテナー、フォルダー、およびファイル)。

  1. 左側のペインにある [作成者] タブを選択します。

  2. + (正符号) ボタンを選択し、 [データセット] を選択します。

    データセットを作成するためのメニュー。

  3. [新しいデータ セット] ページで [Azure Blob Storage] を選択し、 [続行] を選択します。

  4. [形式の選択] ページで、データの形式の種類を選択して、 [続行] を選択します。 この場合、コンテンツを解析せずに、ファイルをそのままコピーする場合は [バイナリ] を選択します。

    形式の選択。

  5. [プロパティの設定] ページで、次の手順を行います。

    a. [名前] に「InputDataset」と入力します。

    b. [リンクされたサービス][AzureStorageLinkedService] を選択します。

    c. [ファイル パス] で、 [参照] ボタンを選択します。

    d. [Choose a file or folder](ファイルまたはフォルダーの選択) ウィンドウで、adftutorial コンテナーの input フォルダーを参照し、emp.txt ファイルを選択して、 [OK] をクリックします。

    e. [OK] を選択します。

    InputDataset のプロパティを設定する。

  6. この手順を繰り返して、出力データセットを作成します。

    a. + (正符号) ボタンを選択し、 [データセット] を選択します。

    b. [新しいデータ セット] ページで [Azure Blob Storage] を選択し、 [続行] を選択します。

    c. [形式の選択] ページで、データの形式の種類を選択して、 [続行] を選択します。

    d. [プロパティの設定] ページで、名前に「OutputDataset」と指定します。 リンクされたサービスとして AzureStorageLinkedService を選択します。

    e. [ファイルのパス] に「adftutorial/output」と入力します。 output フォルダーが存在しない場合、コピー アクティビティにより実行時に作成されます。

    f. [OK] を選択します。

    OutputDataset のプロパティを設定する。

パイプラインを作成する

この手順では、入力データセットと出力データセットを使用するコピー アクティビティを持つパイプラインを作成および検証します。 コピー アクティビティにより、入力データセットの設定で指定されたファイルから、出力データセットの設定で指定されたファイルにデータがコピーされます。 入力データセットで、ファイル名を指定せず、フォルダーのみを指定すると、コピー アクティビティはソース フォルダーのすべてのファイルをターゲットにコピーします。

  1. + (正符号) ボタンを選択し、 [パイプライン] を選択します。

  2. [全般] パネルの [プロパティ] 下で、 [名前]CopyPipeline を指定します。 次に、右上隅にある [プロパティ] アイコンをクリックしてパネルを折りたたみます。

  3. [アクティビティ] ツールボックスで [Move & Transform](移動と変換) を展開します。 [アクティビティ] ツールボックスからパイプライン デザイナー画面に [データのコピー] アクティビティをドラッグします。 [アクティビティ] ツールボックスで、アクティビティを検索することもできます。 [名前] に「CopyFromBlobToBlob」と指定します。

    [データのコピー] アクティビティの作成。

  4. コピー アクティビティの設定で [ソース] タブに切り替えて、 [Source Dataset](ソース データセット)[InputDataset] を選択します。

  5. コピー アクティビティの設定で [シンク] タブに切り替えて、 [Sink Dataset](シンク データセット)[OutputDataset] を選択します。

  6. キャンバスの上にあるパイプライン ツール バーの [検証] をクリックして、パイプライン設定を検証します。 パイプラインが正常に検証されたことを確認します。 検証の出力を閉じるには、右上隅にある [検証] ボタンを選択します。

    パイプラインを検証する。

パイプラインのデバッグ

この手順では、パイプラインを Data Factory にデプロイする前にデバッグします。

  1. キャンバスの上にあるパイプライン ツール バーの [デバッグ] をクリックして、テスト実行をトリガーします。

  2. 一番下にあるパイプラインの設定の [出力] タブにパイプラインの実行の状態が表示されることを確認します。

    パイプラインの実行の出力

  3. adftutorial コンテナーの output フォルダーに出力ファイルがあることを確認します。 output フォルダーが存在しない場合は、Data Factory サービスによって自動的に作成されます。

パイプラインを手動でトリガーする

この手順では、Azure Data Factory にエンティティ (リンクされたサービス、データセット、パイプライン) をデプロイします。 次に、パイプラインの実行を手動でトリガーします。

  1. パイプラインをトリガーする前に、エンティティを Data Factory に発行する必要があります。 発行するには、上部にある [すべて発行] を選択します。

    すべて発行。

  2. パイプラインを手動でトリガーするには、パイプライン ツール バーの [トリガーの追加] を選択し、 [Trigger Now](今すぐトリガー) を選択します。 [Pipeline Run](パイプラインの実行) ページで [OK] を選択します。

パイプラインの監視

  1. 左側で [監視] タブに切り替えます。 [最新の情報に更新] ボタンを使用して、一覧を更新します。

    パイプラインの実行を監視するタブ

  2. [CopyPipeline] リンクを選択します。コピー アクティビティの実行の状態が、このページに表示されます。

  3. コピー操作の詳細を確認するには、 [詳細] (眼鏡アイコン) リンクを選択します。 プロパティの詳細については、コピー アクティビティの概要に関するページを参照してください。

    コピー操作の詳細。

  4. output フォルダーに新しいファイルが表示されていることを確認します。

  5. [すべてのパイプラインの実行] リンクを選択すると、 [アクティビティの実行] ビューから [パイプラインの実行] ビューに戻ることができます。

スケジュールに基づいてパイプラインをトリガーする

この手順は、このチュートリアルでは省略できます。 "スケジューラ トリガー" を作成して、パイプラインを定期的 (毎時、毎日など) に実行するようにスケジュールすることができます。 この手順では、指定した終了日時まで毎分実行するようにトリガーを作成します。

  1. [作成者] タブに切り替えます。

  2. パイプラインに移動し、パイプライン ツール バーの [トリガーの追加] を選択し、 [New/Edit](新規作成/編集) を選択します。

  3. [Add Triggers](トリガーの追加) ページで、 [Choose trigger](トリガーの選択) を選択し、 [新規] を選択します。

  4. [新しいトリガー] ページの [終了][指定日] を選択し、終了時刻として現在から数分後を指定して、 [OK] を選択します。

    各パイプラインの実行にはコストがかかります。そのため、開始時刻からほんの数分後の終了時刻を指定してください。 同じ日であることを確認します。 ただし、発行時から終了時刻までにパイプラインを実行できる十分な時間があるようにします。 トリガーは、UI でトリガーを保存したときではなく、Data Factory にソリューションを発行した後で有効になります。

  5. [新しいトリガー] ページで、 [アクティブ化済み] チェック ボックスをオンにし、 [OK] を選択します。

    新しいトリガーの設定。

  6. 警告メッセージを確認し、 [OK] を選択します。

  7. [すべて発行] をクリックして、変更を Data Factory に発行します。

  8. 左側で [監視] タブに切り替えます。 [最新の情報に更新] を選択して、一覧を更新します。 発行時刻から終了時刻まで、毎分 1 回パイプラインが実行されることがわかります。

    [トリガー元] 列の値に注意してください。 手動のトリガー実行は、前に行った手順 ( [Trigger Now](今すぐトリガー) ) によるものでした。

  9. [Trigger runs](トリガーの実行) ビューに切り替えます。

  10. output フォルダー内に、指定した終了日時までパイプラインが実行されるたびに出力ファイルが作成されていることを確認します。

次のステップ

このサンプルのパイプラインは、Azure Blob Storage 内のある場所から別の場所にデータをコピーします。 より多くのシナリオで Data Factory を使用する方法については、チュートリアルを参照してください。