快速入門:使用 Azure 入口網站 在 Azure HDInsight 中建立 Apache Hadoop 叢集

在本文中,您將瞭解如何使用 Azure 入口網站 在 HDInsight 中建立 Apache Hadoop 叢集,然後在 HDInsight 中執行 Apache Hive 作業。 大部分的Hadoop作業都是批次作業。 您可以建立叢集、執行一些作業,然後刪除叢集。 在本文中,您會執行這三項工作。 如需可用組態的深入說明,請參閱 在 HDInsight 中設定叢集。 如需有關使用入口網站建立叢集的詳細資訊,請參閱 在入口網站中建立叢集。

在本快速入門中,您會使用 Azure 入口網站 來建立 HDInsight Hadoop 叢集。 您也可以使用 Azure Resource Manager 範本建立叢集。

HDInsight 目前隨附 七種不同的叢集類型。 每種叢集類型都支援一組不同的元件。 所有叢集類型都支援 Hive。 如需 HDInsight 中支援的元件清單,請參閱 HDInsight 提供的 Apache Hadoop 叢集版本有哪些新功能?

如尚未擁有 Azure 訂用帳戶,請在開始之前先建立免費帳戶

建立 Apache Hadoop 叢集

在本節中,您會使用 Azure 入口網站 在 HDInsight 中建立 Hadoop 叢集。

  1. 登入 Azure 入口網站

  2. 從頂部功能表選取 [+建立資源]

    Create a resource HDInsight cluster.

  3. 選取 [分析>Azure HDInsight ] 以移至 [ 建立 HDInsight 叢集 ] 頁面。

  4. 從 [ 基本] 索引 標籤,提供下列資訊:

    屬性 描述
    訂用帳戶 從下拉式清單中,選取用於此叢集的 Azure 訂用帳戶。
    資源群組 從下拉式清單中選取現有資源群組,或選取 [新建]。
    叢集名稱 輸入全域唯一名稱。 名稱最多可以包含 59 個字元,包括字母、數位和連字元。 名稱的第一個字元和最後一個字元不能是連字元。
    區域 從下拉式清單中,選取叢集建立所在的區域。 選擇更接近您的位置,以提升效能。
    叢集類型 選取 [ 選取叢集類型]。 然後選取 [Hadoop ] 作為叢集類型。
    版本 從下拉式清單中,選取 版本。 如果您不知道該選擇什麼,請使用預設版本。
    叢集登入用戶名稱和密碼 默認登入名稱為 admin。密碼長度必須至少為 10 個字元,且必須包含至少一個數位、一個大寫字母和一個小寫字母、一個非英數位元(字元除外 ' ` ")。 請確定您 未提供 常見的密碼,例如「Pass@word1」。
    安全殼層 (SSH) 使用者名稱 預設的使用者名稱為 sshuser。 您可以為 SSH 使用者名稱提供另一個名稱。
    使用 SSH 的叢集登入密碼 選取此複選框,即可針對 SSH 使用者使用與您為叢集登入使用者所提供的密碼相同的密碼。

    HDInsight Linux get started provide cluster basic values.

    選取 [下一步:儲存體>>],以前進到記憶體設定。

  5. 從 [儲存體] 索引標籤,提供下列值:

    屬性 說明
    主要儲存體類型 使用預設值 Azure 儲存體
    選取方法 使用預設值 [從列表中選取]。
    主要儲存體帳戶 使用下拉式清單來選取現有的記憶體帳戶,或選取 [ 新建]。 如果您建立新的帳戶,名稱長度必須介於 3 到 24 個字元之間,而且只能包含數位和小寫字母
    容器 使用自動填入的值。

    HDInsight Linux get started provide cluster storage values.

    每個叢集都有 Azure 儲存體 帳戶Azure Data Lake Gen1Azure Data Lake Storage Gen2相依性。 也稱為預設儲存體帳戶。 HDInsight 叢集及其預設記憶體帳戶必須共置在相同的 Azure 區域中。 刪除叢集並不會刪除儲存體帳戶。

    選取 [檢閱 + 建立] 索引標籤。

  6. 從 [ 檢閱 + 建立] 索引標籤中,確認您在先前步驟中選取的值。

    Screenshot showing HDInsight Linux get started cluster summary.

  7. 選取 建立。 大約需要 20 分鐘的時間來建立叢集。

    建立叢集之後,您會在 Azure 入口網站 中看到叢集概觀頁面。

    Screenshot showing HDInsight Linux get started cluster settings.

執行 Apache Hive 查詢

Apache Hive 是 HDInsight 中最常用的元件。 在 HDInsight 中執行 Hive 作業有許多方式。 在本快速入門中,您會從入口網站使用Ambari Hive 檢視。 如需提交Hive作業的其他方法,請參閱 在 HDInsight 中使用Hive。

注意

HDInsight 4.0 中無法使用 Apache Hive 檢視。

  1. 若要開啟Ambari,請從上一個螢幕快照中選取 [ 叢集儀錶板]。 您也可以瀏覽至 https://ClusterName.azurehdinsight.net 您在上一節中建立的叢集位置 ClusterName

    Screenshot showing HDInsight Linux get started cluster dashboard.

  2. 輸入您在建立叢集時指定的 Hadoop 使用者名稱和密碼。 預設的使用者名稱為 admin

  3. 開啟 Hive檢視 ,如下列螢幕快照所示:

    Selecting Hive View from Ambari.

  4. 在 [查詢] 索引標籤中,將下列 HiveQL 語句貼到工作表中:

    SHOW TABLES;
    

    HDInsight Hive View Query Editor.

  5. 選取 [執行]。 [結果] 索引標籤會出現在 [查詢] 索引標籤下方,並顯示作業的相關信息。

    查詢完成後,[ 查詢 ] 索引標籤會顯示作業的結果。 您應該會看到一個稱為 hivesampletable的數據表。 此範例 Hive 數據表隨附所有 HDInsight 叢集。

    HDInsight Apache Hive view results.

  6. 重複步驟 4 和步驟 5 以執行下列查詢:

    SELECT * FROM hivesampletable;
    
  7. 您也可以儲存查詢的結果。 選取右側的功能表按鈕,並指定您要將結果下載為 CSV 檔案,或將其儲存至與叢集相關聯的記憶體帳戶。

    Save result of Apache Hive query.

完成Hive作業之後,您可以將結果匯出至 Azure SQL 資料庫 或 SQL Server 資料庫,也可以使用 Excel 將結果可視化。 如需在 HDInsight 中使用 Hive 的詳細資訊,請參閱 在 HDInsight 中搭配 Apache Hadoop 使用 Apache Hive 和 HiveQL 來分析範例 Apache log4j 檔案

清除資源

完成此快速入門之後,您可以刪除叢集。 利用 HDInsight,您的資料會儲存在 Azure 儲存體中,以便您在未使用叢集時安全地刪除該叢集。 您也需支付 HDInsight 叢集的費用 (即使未使用該叢集)。 由於叢集費用是儲存體費用的許多倍,所以刪除未使用的叢集符合經濟效益。

注意

如果您 立即 繼續進行下一篇文章,瞭解如何使用 HDInsight 上的 Hadoop 執行 ETL 作業,您可能想要讓叢集保持執行。 這是因為在教學課程中,您必須重新建立 Hadoop 叢集。 不過,如果您未立即進行下一篇文章,則必須立即刪除叢集。

刪除叢集和/或預設記憶體帳戶

  1. 返回您擁有 Azure 入口網站 的瀏覽器索引標籤。 您應該位於叢集概觀頁面上。 如果您只想要刪除叢集,但保留預設記憶體帳戶,請選取 [ 刪除]。

    Azure HDInsight delete cluster.

  2. 如果您想要刪除叢集和預設記憶體帳戶,請選取資源組名(在上一個螢幕快照中反白顯示),以開啟資源群組頁面。

  3. 選取 [ 刪除資源群組 ] 以移除包含叢集和預設記憶體帳戶的資源群組。 請注意,刪除資源群組會刪除記憶體帳戶。 如果您想要保留記憶體帳戶,請選擇只刪除叢集。

下一步

在本快速入門中,您已瞭解如何使用 Resource Manager 範本建立以 Linux 為基礎的 HDInsight 叢集,以及如何執行基本 Hive 查詢。 在下一篇文章中,您將了解如何使用 HDInsight 上的 Hadoop 來執行擷取、轉換及載入 (ETL) 作業。