変更データ キャプチャ リソースを使用して、Azure Data Lake Storage Gen2 から Azure SQL Database に変更されたデータをキャプチャする

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

この記事では、Azure Data Factory ユーザー インターフェイスを使用して、変更データ キャプチャ (CDC) リソースを作成します。 このリソースは、Azure Data Lake Storage Gen2 ソースから変更されたデータを取得し、それをリアルタイムで Azure SQL Database に追加します。

この記事では、次のことについて説明します。

  • CDC リソースを作成します。
  • CDC アクティビティを監視します。

この記事では、構成パターンを変更および展開できます。

前提条件

この記事の手順を実行する前に、次のリソースがあることを確認してください。

  • Azure サブスクリプション。 Azure のサブスクリプションがない場合は、Azure の無料アカウントを作成します。
  • SQL データベース。 ソース データ ストアとして Azure SQL Database を使用します。 SQL データベースがない場合は、Azure portal に作成します。
  • ストレージ アカウント。 Azure Data Lake Storage Gen2 に格納されている Delta Lake をターゲット データ ストアとして使用します。 ストレージ アカウントがない場合の作成手順については、「ストレージ アカウントの作成」を参照してください。

CDC 成果物を作成する

  1. データ ファクトリの [作成者] ペインに移動します。 [パイプライン] の下に、[変更データ キャプチャ (プレビュー)] という新しい最上位レベルの成果物が表示されます。

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. 3 つのドットが表示されるまで、変更データ キャプチャ (プレビュー) の上にカーソルを合わせます。 その後、[Change Data Capture (preview) Actions] (変更データ キャプチャ (プレビュー) アクション) を選択します。

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. [New CDC (preview)](新しい CDC (プレビュー)) を選択します。 これにより、ガイド付きプロセスを開始するためのポップアップが開きます。

    Screenshot of a list of change data capture actions.

  4. CDC リソースの名前を指定するように求められます。 既定では、名前は "adfcdc" で、数値は 1 ずつ増加します。 この既定の名前は、選択した名前に置き換えることができます。

    Screenshot of the text box to update the name of a resource.

  5. ドロップダウン リストを使用して、データ ソースを選択します。 この記事では、「DelimitedText」を選択します。

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. リンク サービスを選択するように求められます。 新しいリンク サービスを作成するか、既存のものを選択します。

    Screenshot of the box to choose or create a linked service.

  7. 必要に応じて、[ソース設定] 領域を使用して、列および行の区切り文字を含む高度なソース構成をオプションで設定します。

    Screenshot of advanced source settings to set delimiters.

    これらのソース設定を手動で編集しない場合は、既定値に設定されます。

  8. 参照ボタンを使用して、ソース データのフォルダーを選択します。

    Screenshot of a folder icon to browse for a folder path.

  9. フォルダー パスを選択したら、[続行] を選択してデータ ターゲットを設定します。

    Screenshot of the Continue button in the guided process to select data targets.

    プラス (+) ボタンを使用すると複数のソース フォルダーを追加できます。 他のソースでも、既に選択したものと同じリンク サービスを使用する必要があります。

  10. 候補リストを使用して、[ターゲットの種類] の値を選択します。 この記事では、[Azure SQL Database] を選択します。

    Screenshot of a dropdown menu of all data target types.

  11. リンク サービスを選択するように求められます。 新しいリンク サービスを作成するか、既存のものを選択します。

    Screenshot of the box to choose or create a linked service to your data target.

  12. [ターゲット テーブル] では、新しいターゲット テーブルを作成するか、既存のテーブルを選択できます。

    • ターゲット テーブルを作成するには、[新しいエンティティ] タブを選択し、[新しいテーブルの編集] を選択します。

      Screenshot of the tab to create new tables for your target.

    • 既存のテーブルを選択するには、[既存のエンティティ] タブを選択し、チェックボックスを使用してテーブルを選択します。 [プレビュー] ボタンを使用して、テーブル データを表示します。

      Screenshot of the tab to choose tables for your target.

    ターゲットの既存のテーブルの名前が一致する場合、既定で [既存のエンティティ] で選択されます。 そうでない場合は、一致する名前を持つ新しいテーブルが [新しいエンティティ] の下に作成されます。 さらに、[新しいテーブルの編集] ボタンを使用して新しいテーブルを編集できます。

  13. チェックボックスを使用して、SQL データベースから複数のターゲット テーブルを選択できます。 ターゲットテーブルの選択が完了したら、[続行] を選択します。

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. 変更データをキャプチャするための新しいタブが表示されます。 このタブは CDC Studio で、新しいリソースを構成できます。

    Screenshot of the change data capture studio.

    新しいマッピングが自動的に作成されます。 候補リストを使用して、マッピングのソース テーブルターゲット テーブルの選択を更新できます。

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. テーブルを選択すると、列は既定でマップされ、[自動マップ] トグルがオンになります。 自動マップでは、シンク内の名前によって列が自動的にマッピングされ、ソース スキーマが展開したときに新しい列の変更が取得され、サポートされているシンクの種類にこの情報が送られます。

    自動マップを使用し、列マッピングを変更しない場合は、ステップ 18 に直接進みます。

    Screenshot of the toggle for automatic mapping turned on.

    列マッピングを有効にする場合は、マッピングを選択し、[自動マップ] トグルをオフにします。 次に、[列マッピング] ボタンを選択して、マッピングを表示します。

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    [自動マップ] トグルをオンにすると、いつでも自動マッピングに戻すことができます。

  16. 列マッピングを表示します。 ドロップダウン リストを使用して、[マッピング方法][ソース列][ターゲット列] で列マッピングを編集します。

    Screenshot of the page for editing column mappings.

    このページからは、次のことを行うことができます。

    • [新しいマッピング] ボタンを使用して、列マッピングを追加します。 ドロップダウン リストを使用して、[マッピング方法][ソース列][ターゲット列] を選択します。
    • サポートされているシンク タイプの削除操作を追跡する場合は、[キー] 列を選択します。
    • [データ プレビュー] の下にある [更新] ボタンを選択して、ターゲットでデータがどのように見えるかを視覚化します。

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. マッピングが完了したら、矢印ボタンを選択してメインの CDC キャンバスに戻ります。

    Screenshot of the button to go back to the table mapping page.

  18. 1 つの CDC 成果物でターゲット マッピングにソースを追加できます。 [編集] ボタンを使用して、追加のデータ ソースとターゲットを追加します。 その後に、[新しいマッピング] を選択し、ドロップダウン リストを使用して新しいソースとターゲットを設定します。 これらのマッピングごとに、自動マップを個別にオンまたはオフにできます。

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. マッピングが完了したら、[Set Latency] (待機時間の設定) ボタンを使用して CDC の待機時間を設定します。

    Screenshot of the Set Latency button at the top of the canvas.

  20. CDC の待機時間を選択し、[適用] を選択して変更を行います。

    既定では、待機時間は 15 分に設定されています。 この記事の例では、待機時間に [リアルタイム] オプションを使用します。 リアルタイムの待機時間は、ソース データの変更を 1 分未満の間隔で継続的に取得し続けます。

    その他の待機時間 (たとえば、15 分を選択した場合)、変更データ キャプチャでソース データが処理され、最後に処理された時刻以降に変更されたデータが取得されます。

    Screenshot of the options for setting latency.

    Note

    サポートがストリーミング データ統合 (Azure Event Hubs および Kafka データ ソース) に拡張される場合、待機時間は既定で [リアルタイム] に設定されます。

  21. CDC の構成が完了したら、[すべてを公開] を選択して変更を公開します。

    Screenshot of the publish button at the top of the canvas.

    Note

    変更を公開しない場合、CDC リソースを開始できません。 次の手順の [開始] ボタンは使用できなくなります。

  22. [開始] を選択して、変更データ キャプチャの実行を開始します。

    Screenshot of the Start button at the top of the canvas.

変更データ キャプチャを監視する

  1. 次のいずれかの方法を使用して、[監視] ペインを開きます。

    • Azure portal で、[監視] を選択します。

      Screenshot of the Monitor button in the Azure portal.

    • CDC デザイナーから監視アイコンを選択します。

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. [変更データ キャプチャ (プレビュー)] を選択して、CDC リソースを表示します。

    Screenshot of the Change Data Capture button.

    [変更データ キャプチャ] ペインには、変更データ キャプチャのソースターゲット状態最後に処理された情報が表示されます。

    Screenshot of an overview of the change data capture monitoring page.

  3. CDC の名前を選択すると、詳細が表示されます。 読み書きされた変更 (挿入、更新、または削除) の数とその他の診断情報を確認できます。

    Screenshot of the detailed monitoring of a selected change data capture.

    変更データ キャプチャで複数のマッピングを設定した場合、各マッピングは異なる色で表示されます。 バーを選択して各マッピングの特定の詳細を表示するか、ペインの下部にある診断情報を使用します。

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.