使用 HDInsight 擷取、轉換和載入 (ETL)

Data Factory
Data Lake Storage Gen2
HDInsight

解決方案構想

如果您想要瞭解如何使用詳細資訊來擴充本文,例如可能的使用案例、替代服務、實行考慮或定價指引,請讓我們知道 GitHub 的意見反應!

搭配 Hadoop MapReduce 和 Apache Spark 來依需求擷取、轉換並載入您的巨量資料叢集。

潛在使用案例

Azure HDInsight 可在巨量資料處理的各種案例中使用。 它可以是歷程資料 (已收集及儲存的資料) 或即時資料 (從來源直接串流處理的資料)。 您可以在下列檔中摘要說明處理這類資料的案例, 例如使用 HDInsight 的案例。 此解決方案構想涵蓋 ETL 使用案例的資料流程。

架構

架構圖表

資料流程

資料會流經架構,如下所示:

  1. 使用 Azure Data Factory,建立 連結服務 至來源系統和資料存放區。 Azure Data Factory Pipelines 支援 90 + 連接器,這些連接器也包含無法使用原生連接器的資料來源的一般通訊協定。

  2. 使用 資料複製工具,將資料從來源系統載入至 Azure data lake。

  3. Azure Data Factory 能夠建立隨選 HDInsight 叢集。 首先,建立 隨選 HDInsight 連結服務。 接下來,根據所用的 Hadoop 架構 ((例如 Hive、MapReduce、) Spark 等),建立管線並使用適當的 HDInsight 活動。

  4. 在 Azure Data Factory 中觸發管線。 架構假設在步驟3中建立的 HDInsight 活動所執行的 Hadoop 腳本中,使用 Azure Data Lake 存放區做為檔案系統。 腳本將由隨選 HDInsight 叢集執行,該叢集會將資料寫入 data lake 的策劃區域。

單元

  • Azure Data Factory 雲端規模資料整合服務,可協調資料流程。
  • Azure Data Lake Storage可調整且符合成本效益的雲端儲存體,以進行大型資料處理。
  • Apache Hadoop -大型資料分散式處理架構
  • Apache Spark 海量資料分散式處理架構,可支援記憶體內部處理,以提升大型資料應用程式的效能。
  • Azure HDInsight -Hadoop 元件的雲端發佈。

下一步

深入瞭解元件技術:

探索相關的架構: