解決方案構想
本文是解決方案概念。 如果您想要使用詳細資訊來擴充內容,例如潛在的使用案例、替代服務、實作考慮或定價指引,請提供 GitHub 意見反應讓我們知道。
此解決方案概念說明如何使用Hadoop MapReduce和Apache Spark依需求擷取、轉換和載入巨量數據叢集。
架構
資料流程
數據流會流經架構,如下所示:
使用 Azure Data Factory,建立 來源系統和數據存放區的連結服務 。 Azure Data Factory 管線支援 90 個以上的連接器,這些連接器也包含原生連接器無法使用之數據源的一般通訊協定。
使用 複製資料工具,將數據從來源系統載入 Azure Data Lake。
Azure Data Factory 能夠建立隨選 HDInsight 叢集。 從建立 隨選 HDInsight 連結服務開始。 接下來, 根據所使用的Hadoop架構,建立管線 並使用適當的HDInsight活動(也就是Hive、MapReduce、Spark 等)。
在 Azure Data Factory 中觸發管線。 此架構假設 Azure Data Lake Store 會作為在步驟 3 中建立之 HDInsight 活動所執行的 Hadoop 腳本中的文件系統。 腳本將由隨選 HDInsight 叢集執行,該叢集會將數據寫入數據湖的策劃區域。
元件
- Azure Data Factory - 用於協調數據流的雲端規模數據整合服務。
- Azure Data Lake 儲存體 - 可調整且符合成本效益的雲端記憶體,以進行巨量數據處理。
- Apache Hadoop - 巨量數據分散式處理架構
- Apache Spark - 巨量數據分散式處理架構,可支援記憶體內部處理,以提升巨量數據應用程式的效能。
- Azure HDInsight - Hadoop 元件的雲端散發。
案例詳細資料
此解決方案概念描述 ETL 使用案例的數據流。
潛在的使用案例
您可以在巨量數據處理的各種案例中使用 Azure HDInsight。 其可以是歷程記錄資料 (已收集及儲存的資料) 或即時資料 (從來源直接串流處理的資料)。 如需處理這類數據的詳細資訊,請參閱 使用 HDInsight 的案例。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主體作者:
- Jon Dobrzeniecki |雲端解決方案架構師
若要查看非公用LinkedIn配置檔,請登入LinkedIn。
下一步
深入瞭解元件技術:
- 教學課程:使用 Azure Data Factory 在 HDInsight 中建立隨選 Apache Hadoop 叢集
- Azure Data Factory 簡介
- Azure Data Lake Storage Gen2 簡介
- 使用 Azure Data Factory 將數據載入 Azure Data Lake 儲存體 Gen2
- 什麼是 Azure HDInsight 中的 Apache Hadoop?
- 從 Data Factory 叫用 MapReduce 程式
- 搭配 MapReduce 與 HDInsight 上的 Apache Hadoop
- 什麼是 Azure HDInsight 中的 Apache Spark
相關資源
探索相關的架構: