什麼是 Azure HDInsight 中的 Apache Hadoop？

Apache Hadoop 是原始的開放原始碼架構，用於在叢集上分散式處理和分析巨量數據集。 Hadoop 生態系統包含相關的軟體和公用程式，其中包括 Apache Hive、Apache HBase、Spark、Kafka 等等。

Azure HDInsight 是企業雲端中完全受控、全方位、開放原始碼的分析服務。 Azure HDInsight 中的 Apache Hadoop 叢集類型可讓您使用 Apache Hadoop 分散式文件系統（HDFS）、 Apache Hadoop YARN 資源管理，以及簡單的 MapReduce 程式設計模型，以平行處理和分析批次數據。 HDInsight 中的 Hadoop 叢集與 Azure Blob 儲存體、Azure Data Lake 儲存體 Gen1 或 Azure Data Lake 儲存體 Gen2 相容。

若要查看 HDInsight 上可用的 Hadoop 技術堆疊元件，請參閱 HDInsight 可用的元件和版本。若要深入瞭解 HDInsight 中的 Hadoop，請參閱 HDInsight 的 Azure 功能頁面。

什麼是 MapReduce

Apache Hadoop MapReduce 是一種軟體架構，可用來撰寫處理大量數據的工作。輸入數據會分割成獨立的區塊。每個區塊會跨叢集中的節點平行處理。 MapReduce 作業包含兩個函式：

下圖說明基本字數 MapReduce 作業範例：

HDI.WordCountDiagram.

此作業的輸出是文字中每個單字發生次數的計數。

MapReduce 可以用各種語言實作。 Java 是最常見的實作，並用於本檔中的示範用途。

以 Java 和 Java 虛擬機為基礎的語言或架構可以直接以 MapReduce 作業的形式執行。本檔中使用的範例是 Java MapReduce 應用程式。非 Java 語言，例如 C#、Python 或獨立可執行文件，必須使用 Hadoop 串流。

Hadoop 串流會透過 STDIN 和 STDOUT 與對應器和歸納器進行通訊。對應器和歸納器會一次從 STDIN 讀取一行數據，並將輸出寫入 STDOUT。對應器和歸納器所讀取或發出的每一行都必須是索引鍵/值組的格式，並以製表符分隔：

[key]\t[value]

如需詳細資訊，請參閱 Hadoop 串流。

如需搭配 HDInsight 使用 Hadoop 串流的範例，請參閱下列檔：