最新のデータ ウェアハウスのインジェスト パターンを設計する

完了

データ インジェストは、いくつかの異なる方法で発生する場合があります。 Azure Synapse Analytics の、データを取り込むための主要なコンポーネントは、Azure Synapse パイプライン内で "データのコピー" アクティビティを使用します。 この種類のアクティビティは、通常、参照操作などの他の機能を持つ Execute Pipeline アクティビティ、または "データの分割" アクティビティ内に保持されます。

または、データ フロー内で、使用されるソース データベースを指す接続を作成できます。これが、データの取り込みと、追加の変換アクティビティ内でのデータの使用の開始点です。

以下に両方の例を示します。

データの取り込み

  1. [統合] ハブを選択します。

    Navigating hubs in Azure Synapse Studio

  2. [パイプライン] を展開し、[1 マスター パイプライン] (1) を選択します。 パイプラインに追加できる [アクティビティ] (2) をポイントし、右側に パイプライン キャンバス (3) を表示します。

    Viewing integration pipelines in Azure Synapse Studio

    この Synapse ワークスペースには、複数のソースからのデータに対する移動と変換の手順を調整できる、16 個のパイプラインが含まれています。

    [アクティビティ] の一覧には、右側のパイプライン キャンバスにドラッグ アンド ドロップできる多くのアクティビティが含まれています。

    ここでは、3 つの実行 (子) パイプラインがあることがわかります。

    Viewing a parent pipeline in Azure Synapse Studio

  3. [Execute Customize All Pipeline]\("すべてをカスタマイズ" パイプラインの実行\) アクティビティを選択します (1)[設定] (2) タブを選択します。呼び出されたパイプラインが [Customize All]\(すべてをカスタマイズ\) (3) であることが表示されるので、[開く] (4) を選択します。

    Viewing pipeline settings in Azure Synapse Studio

    見てわかるように、子パイプラインは 5 つあります。 この最初の "パイプラインの実行" アクティビティは、キャンペーン分析レポート用の新しい製造元キャンペーン データを消去して取り込みます。

  4. [キャンペーン分析] アクティビティを選択し (1)[設定] タブを選択して (2)、呼び出されたパイプラインとして [Customize All]\(すべてをカスタマイズ\) (3) が設定されていることを確認してから、[開く] (4) を選択します。

    Viewing a second pipeline settings in Azure Synapse Studio

  5. 各アクティビティをクリックして、パイプラインでクリーンアップと取り込みがどのように行われるかを確認します。

    An example of a parent pipeline in Azure Synapse Studio

  6. [開発] ハブを選択します。

    Navigating hubs in Azure Synapse Studio

  7. [データ フロー] を展開し、ingest_data_from_sap_hana_to_azure_synapse データ フローを選択します。

    View a data pipeline in Azure Synapse Studio

    前に説明したように、データ フローは Apache Spark の機能を使用する強力なデータ変換ワークフローですが、コードなしの GUI を使用して作成できます。 UI で行う作業は、マネージド Spark クラスターによって実行されるコードに自動的に変換されます。コードを記述したり、クラスターを管理したりする必要はありません。

    データ フローは、以下の機能を実行します。

    • SAP HANA データ ソースからデータを抽出します (DatafromSAPHANA ステップの選択)。
    • アップサート アクティビティのために、ShipDate 値が 2014-01-01 以降である行だけを取得します (Last5YearsData ステップの選択)。
    • 派生列アクティビティを使用して、ソース列のデータ型変換を実行します (上位 DerivedColumn アクティビティの選択)。
    • データ フローの先頭パスですべての列を選択し、AggregatedSales_SAPHANANew Synapse プール テーブルにデータを読み込みます (Selectallcolumns アクティビティと LoadtoAzureSynapse アクティビティの選択)。
    • データ フローの一番下のパスで、列のサブセットを選択します (SelectRequiredColumns アクティビティの選択)。
    • 次に、4 つの列でグループ化し (TotalSalesByYearMonthDay アクティビティの選択)、SalesAmount 列で合計と平均の集計を作成します ([集計] オプションの選択)。
    • 最後に、集計されたデータが AggregatedSales_SAPHANA Synapse プール テーブルに読み込まれます (LoadtoSynapse アクティビティの選択)。