封存的版本資訊

摘要

Azure HDInsight 是最受企業客戶歡迎的其中一項服務,可供 Azure 上的開放原始碼分析使用。 訂閱 HDInsight 版本資訊,以取得關於 HDInsight 和所有 HDInsight 版本的最新資訊。

若要訂閱,請按兩下橫幅中的「監看式」按鈕,並注意 HDInsight 版本

版本資訊

發行日期:2024 年 2 月 15 日

此版本適用於 HDInsight 4.x 和 5.x 版。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此版本適用於映像編號 2401250802如何檢查映像編號?

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.1:Ubuntu 18.04.5 LTS Linux Kernel 5.4

注意

Ubuntu 18.04 由 Azure Linux 小組的延伸安全性維護 (ESM) 支援 2023 年 7 月 Azure HDInsight 及更新版本。

如需工作負載特定版本,請參閱

新功能

  • Apache Ranger 在 Spark 3.3.0 (HDInsight 5.1 版) 中使用企業安全性套件支援 Spark SQL。 在此深入了解。

已修正的問題

  • Ambari 和 Oozie 元件的安全性修正

即將推出

  • 基本 VM 和標準 A 系列 VM 淘汰。
    • 我們會在 2024 年 8 月 31 日,淘汰基本和標準的 A 系列 VM。 在該日期之前,您必須將工作負載遷移至 Av2 系列 VM,此系列可提供每個 vCPU 更多的記憶體,以及在固態硬碟上 (SSD) 提供更快速的儲存體。
    • 為了避免服務中斷,請在 2024 年 8 月 31 日之前移轉工作負載,從基本和標準 A 系列 VM 移轉至 Av2 系列 VM。

若您還有任何其他疑問,請連絡 Azure 支援

您隨時可以在 Azure HDInsight - Microsoft Q&A 上向我們詢問 HDInsight 相關資訊

我們會持續聽取您的意見:歡迎您在這裡新增更多想法和其他主題並投票 - HDInsight Ideas,並追蹤我們以取得更多 AzureHDInsight 社群的更新

注意

我們建議客戶使用最新版的 HDInsight 映像,因為其能充分利用開放原始碼更新、Azure 更新和安全性修正。 如需詳細資訊,請參閱最佳做法

下一步

Azure HDInsight 是最受企業客戶歡迎的其中一項服務,可供 Azure 上的開放原始碼分析使用。 如果您要訂閱版本資訊,請在此 GitHub 存放庫上觀看發行版本。

發行日期:2024 年 1 月 10 日

此 Hotfix 版本適用於 HDInsight 4.x 和 5.x 版。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此版本適用於映像編號 2401030422如何檢查映像編號?

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.1:Ubuntu 18.04.5 LTS Linux Kernel 5.4

注意

Ubuntu 18.04 由 Azure Linux 小組的延伸安全性維護 (ESM) 支援 2023 年 7 月 Azure HDInsight 及更新版本。

如需工作負載特定版本,請參閱

已修正的問題

  • Ambari 和 Oozie 元件的安全性修正

即將推出

  • 基本 VM 和標準 A 系列 VM 淘汰。
    • 我們會在 2024 年 8 月 31 日,淘汰基本和標準的 A 系列 VM。 在該日期之前,您必須將工作負載遷移至 Av2 系列 VM,此系列可提供每個 vCPU 更多的記憶體,以及在固態硬碟上 (SSD) 提供更快速的儲存體。
    • 為了避免服務中斷,請在 2024 年 8 月 31 日之前移轉工作負載,從基本和標準 A 系列 VM 移轉至 Av2 系列 VM。

若您還有任何其他疑問,請連絡 Azure 支援

您隨時可以在 Azure HDInsight - Microsoft Q&A 上向我們詢問 HDInsight 相關資訊

我們會持續聽取您的意見:歡迎您在這裡新增更多想法和其他主題並投票 - HDInsight Ideas,並追蹤我們以取得更多 AzureHDInsight 社群的更新

注意

我們建議客戶使用最新版的 HDInsight 映像,因為其能充分利用開放原始碼更新、Azure 更新和安全性修正。 如需詳細資訊,請參閱最佳做法

發行日期:2023 年 10 月 26 日

此版本適用於 HDInsight 4.x 和 5.x HDInsight 版本,將可在數天內供所有區域使用。 此版本適用於映像編號 2310140056如何檢查映像編號?

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.1:Ubuntu 18.04.5 LTS Linux Kernel 5.4

如需工作負載特定版本,請參閱

最新功能

  • HDInsight 宣佈從 2023 年 11 月 1 日起正式發行 HDInsight 5.1。 此版本針對開放原始碼元件推出 Microsoft 提供的完整堆疊重新整理以及整合。

    • 最新開放原始碼版本 – HDInsight 5.1 隨附最新的穩定開放原始碼版本。 客戶可受益於所有最新的開放原始碼功能、Microsoft 效能改進和錯誤修正。
    • 安全 – 最新版本隨附最新的安全性修正,包括開放原始碼安全性修正和 Microsoft 提供的安全性改進。
    • TCO 較低 – 客戶可以透過效能增強功能,以及增強型自動調整來降低營運成本。
  • 安全記憶體的叢集權限

    • 客戶可以 (在建立叢集期間) 指定安全通道是否應該用於 HDInsight 叢集節點,以連線記憶體帳戶。
  • 使用自訂 VNet 建立 HDInsight 叢集。

    • 若要改善 HDInsight 叢集的整體安全性態勢,使用自訂 VNET 的 HDInsight 叢集必須確保使用者必須具備 Microsoft Network/virtualNetworks/subnets/join/action 權限,才能執行建立作業。 如果未啟用此檢查,客戶可能會面臨建立失敗。
  • 非 ESP ABFS 叢集 [Word 可讀取叢集權限]

    • 非 ESP ABFS 叢集會限制非 Hadoop 群組使用者執行記憶體作業的 Hadoop 命令。 這項變更可改善叢集安全性態勢。
  • 內嵌配額更新。

    • 現在,您可以直接從 [我的配額] 頁面要求增加配額,並搭配直接 API 呼叫,速度會大幅提升。 如果 API 呼叫失敗,您可以建立增加配額的新支援要求。

即將推出

  • 叢集名稱的最大長度將從 59 個字元變更為 45 個字元,以改善叢集的安全性態勢。 從即將發行的發行版本開始,這項變更將會推出到所有區域。

  • 基本 VM 和標準 A 系列 VM 淘汰。

    • 我們會在 2024 年 8 月 31 日,淘汰基本和標準的 A 系列 VM。 在該日期之前,您必須將工作負載遷移至 Av2 系列 VM,此系列可提供每個 vCPU 更多的記憶體,以及在固態硬碟上 (SSD) 提供更快速的儲存體。
    • 為了避免服務中斷,請在 2024 年 8 月 31 日之前移轉工作負載,從基本和標準 A 系列 VM 移轉至 Av2 系列 VM。

若您還有任何其他疑問,請連絡 Azure 支援

您隨時可以在 Azure HDInsight - Microsoft Q&A 上向我們詢問 HDInsight 相關資訊

我們會持續聽取您的意見:歡迎您在這裡新增更多想法和其他主題並投票 - HDInsight Ideas,並追蹤我們以取得更多 AzureHDInsight 社群的更新

注意

此版本說明 MSRC 在 2023 年 9 月 12 日發行的下列 CVE。 動作是更新至最新的映像 2308221128 或 2310140056。 建議客戶據以進行規劃。

CVE 嚴重性 CVE 標題 備註
CVE-2023-38156 重要 Azure HDInsight Apache Ambari 權限提高弱點 包含在映像 2308221128 或 2310140056
CVE-2023-36419 重要 Azure HDInsight Apache Oozie 工作流程排程器權限提高弱點 在叢集上套用指令碼動作,或更新為 2310140056 映像

注意

我們建議客戶使用最新版的 HDInsight 映像,因為其能充分利用開放原始碼更新、Azure 更新和安全性修正。 如需詳細資訊,請參閱最佳做法

發行日期:2023 年 9 月 7 日

此版本適用於 HDInsight 4.x 和 5.x HDInsight 版本,將可在數天內供所有區域使用。 此版本適用於映像編號 2308221128如何檢查映像編號?

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.1:Ubuntu 18.04.5 LTS Linux Kernel 5.4

如需工作負載特定版本,請參閱

重要

此版本說明 MSRC 在 2023 年 9 月 12 日發行的下列 CVE。 動作是更新至最新的映像 2308221128。 建議客戶據以進行規劃。

CVE 嚴重性 CVE 標題 備註
CVE-2023-38156 重要 Azure HDInsight Apache Ambari 權限提高弱點 包含在 2308221128 映像上
CVE-2023-36419 重要 Azure HDInsight Apache Oozie 工作流程排程器權限提高弱點 在叢集上套用指令碼動作

即將推出

  • 叢集名稱的最大長度將從 59 個字元變更為 45 個字元,以改善叢集的安全性態勢。 這項變更將於 2023 年 9 月 30 日實施。
  • 安全記憶體的叢集權限
    • 客戶可以 (在建立叢集期間) 指定安全通道是否應該用於 HDInsight 叢集節點,以連絡記憶體帳戶。
  • 內嵌配額更新。
    • 要求配額會直接從 [我的配額] 頁面增加,這會是直接 API 呼叫,速度較快。 如果 APdI 呼叫失敗,則客戶必須建立配額增加的新支援要求。
  • 使用自訂 VNet 建立 HDInsight 叢集。
    • 若要改善 HDInsight 叢集的整體安全性態勢,使用自訂 VNET 的 HDInsight 叢集必須確保使用者必須具備 Microsoft Network/virtualNetworks/subnets/join/action 權限,才能執行建立作業。 客戶必須據以進行規劃,因為這項變更是必要檢查,以避免在 2023 年 9 月 30 日之前發生叢集建立失敗。 
  • 基本 VM 和標準 A 系列 VM 淘汰。
    • 我們會在 2024 年 8 月 31 日,淘汰基本和標準的 A 系列 VM。 在該日期之前,您必須將工作負載遷移至 Av2 系列 VM,此系列可提供每個 vCPU 更多的記憶體,以及在固態硬碟上 (SSD) 提供更快速的儲存體。 為了避免服務中斷,請在 2024 年 8 月 31 日之前移轉工作負載,從基本和標準 A 系列 VM 移轉至 Av2 系列 VM。
  • 非 ESP ABFS 叢集 [Word 可讀取的叢集權限]
    • 規劃在非 ESP ABFS 叢集中引進變更,會限制非 Hadoop 群組使用者執行記憶體作業的 Hadoop 命令。 這項變更可改善叢集安全性態勢。 客戶必須在 2023 年 9 月 30 日之前規劃更新。 

若您還有任何其他疑問,請連絡 Azure 支援

您隨時可以在 Azure HDInsight - Microsoft Q&A 上向我們詢問 HDInsight 相關資訊

歡迎在這裡新增更多提案和想法及其他主題,並進行投票 - HDInsight 社群 (azure.com)

注意

我們建議客戶使用最新版的 HDInsight 映像,因為其能充分利用開放原始碼更新、Azure 更新和安全性修正。 如需詳細資訊,請參閱最佳做法

發行日期:2023 年 7 月 25 日

此版本適用於 HDInsight 4.x 和 5.x HDInsight 版本,將可在數天內供所有區域使用。 此版本適用於映像編號 2307201242如何檢查映像編號?

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.1:Ubuntu 18.04.5 LTS Linux Kernel 5.4

如需工作負載特定版本,請參閱

新功能

  • ESP 叢集現在支援 HDInsight 5.1。
  • 升級版本的 Ranger 2.3.0 和 Oozie 5.2.1 現在屬於 HDInsight 5.1
  • Spark 3.3.1 (HDInsight 5.1) 叢集隨附 Hive Warehouse Connector (HWC) 2.1,可與 Interactive Query (HDInsight 5.1) 叢集搭配運作。
  • Ubuntu 18.04 由 Azure Linux 小組的 ESM (延伸安全性維護) 支援 2023 年 7 月 Azure HDInsight 及更新版本。

重要

此版本說明 MSRC 在 2023 年 8 月 8 日發行的下列 CVE。 動作是更新至最新的映像 2307201242。 建議客戶據以進行規劃。

CVE 嚴重性 CVE 標題
CVE-2023-35393 重要 Azure Apache Hive 詐騙弱點
CVE-2023-35394 重要 Azure HDInsight Jupyter Notebook 詐騙弱點
CVE-2023-36877 重要 Azure Apache Oozie 詐騙弱點
CVE-2023-36881 重要 Azure Apache Ambari 詐騙弱點
CVE-2023-38188 重要 Azure Apache Hadoop 詐騙弱點

即將推出

  • 叢集名稱的最大長度將從 59 個字元變更為 45 個字元,以改善叢集的安全性態勢。 客戶必須在 2023 年 9 月 30 日之前規劃更新。
  • 安全記憶體的叢集權限
    • 客戶可以 (在建立叢集期間) 指定安全通道是否應該用於 HDInsight 叢集節點,以連絡記憶體帳戶。
  • 內嵌配額更新。
    • 要求配額會直接從 [我的配額] 頁面增加,這會是直接 API 呼叫,速度較快。 如果 API 呼叫失敗,則客戶必須建立配額增加的新支援要求。
  • 使用自訂 VNet 建立 HDInsight 叢集。
    • 若要改善 HDInsight 叢集的整體安全性態勢,使用自訂 VNET 的 HDInsight 叢集必須確保使用者必須具備 Microsoft Network/virtualNetworks/subnets/join/action 權限,才能執行建立作業。 客戶必須據以進行規劃,因為這項變更是必要檢查,以避免在 2023 年 9 月 30 日之前發生叢集建立失敗。 
  • 基本 VM 和標準 A 系列 VM 淘汰。
    • 我們會在 2024 年 8 月 31 日,淘汰基本和標準的 A 系列 VM。 在該日期之前,您必須將工作負載遷移至 Av2 系列 VM,此系列可提供每個 vCPU 更多的記憶體,以及在固態硬碟上 (SSD) 提供更快速的儲存體。 為了避免服務中斷,請在 2024 年 8 月 31 日之前移轉工作負載,從基本和標準 A 系列 VM 移轉至 Av2 系列 VM。
  • 非 ESP ABFS 叢集 [Word 可讀取的叢集權限]
    • 規劃在非 ESP ABFS 叢集中引進變更,會限制非 Hadoop 群組使用者執行記憶體作業的 Hadoop 命令。 這項變更可改善叢集安全性態勢。 客戶必須在 2023 年 9 月 30 日之前規劃更新。 

若您還有任何其他疑問,請連絡 Azure 支援

您隨時可以在 Azure HDInsight - Microsoft Q&A 上向我們詢問 HDInsight 相關資訊

歡迎在這裡新增更多提案和想法及其他主題,並進行投票 - HDInsight 社群 (azure.com) 並在 Twitter 上追蹤我們以取得更多更新

注意

我們建議客戶使用最新版的 HDInsight 映像,因為其能充分利用開放原始碼更新、Azure 更新和安全性修正。 如需詳細資訊,請參閱最佳做法

發行日期:2023 年 5 月 08 日

此版本適用於 HDInsight 4.x 和 5.x HDInsight 版本,可在數天內供所有區域使用。 此版本適用於映像編號 2304280205如何檢查映像編號?

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4

如需工作負載特定版本,請參閱

顯示以文字更新的圖示。

  1. 已更新 Azure HDInsight 5.1 與

    1. Apache HBase 2.4.11
    2. Apache Phoenix 5.1.2
    3. Apache Hive 3.1.2
    4. Apache Spark 3.3.1
    5. Apache Tez 0.9.1
    6. Apache Zeppelin 0.10.1
    7. Apache Livy 0.5
    8. Apache Kafka 3.2.0

    注意

    • 所有元件都與 Hadoop 3.3.4 和 ZK 3.6.3 整合
    • 上述所有升級的元件現在都可在非 ESP 叢集中取得公開預覽。

顯示具有文字新功能的圖示。

  1. HDInsight 的增強自動調整

    Azure HDInsight 已大幅改善自動調整的穩定性和延遲,基本變更包括改善的調整決策意見反應迴圈、調整延遲的大幅改善,以及支援將已解除委任的節點重新委任、深入了解增強功能、如何自訂設定叢集,並將叢集移轉至增強自動調整。 在所有支援的區域中,增強的自動調整功能將於 2023 年 5 月 17 日生效。

  2. 適用於 Apache Kafka 2.4.1 的 Azure HDInsight ESP 現已正式推出

    Azure HDInsight ESP for Apache Kafka 2.4.1 自 2022 年 4 月起持續處於公開預覽狀態。 在 CVE 修正和穩定性的顯著改善之後,Azure HDInsight ESP Kafka 2.4.1 現在已正式推出,並針對生產環境工作負載進行準備,深入了解如何設定移轉

  3. HDInsight 配額管理

    HDInsight 目前會將配額配置給區域層級的客戶訂用帳戶。 配置給客戶的核心為泛型,而不是分類在 VM 系列層級 (例如,Dv2Ev3Eav4 等)。

    HDInsight 引進了改良的檢視,可提供系列層級 VM 配額的詳細資料和分類,此功能可讓客戶檢視 VM 系列層級區域的目前和剩餘配額。 透過增強的檢視,客戶對於規劃配額具有更豐富的可見度,以及較佳的使用者經驗。 此功能目前適用於美國東部 EUAP 區域的 HDInsight 4.x 和 5.x。 稍後要遵循的其他區域。

    如需詳細資訊,請參閱Azure HDInsight 中的叢集容量規劃 | Microsoft Learn

顯示以文字新增之新區域的圖示。

  • 波蘭中部

  • 叢集名稱的最大長度會從 59 個字元變更為 45 個字元,以改善叢集的安全性態勢。
  • 安全記憶體的叢集權限
    • 客戶可以 (在建立叢集期間) 指定安全通道是否應該用於 HDInsight 叢集節點,以連絡記憶體帳戶。
  • 內嵌配額更新。
    • 要求配額會直接從 [我的配額] 頁面增加,這是直接 API 呼叫,速度較快。 如果 API 呼叫失敗,則客戶必須建立配額增加的新支援要求。
  • 使用自訂 VNet 建立 HDInsight 叢集。
    • 若要改善 HDInsight 叢集的整體安全性態勢,使用自訂 VNET 的 HDInsight 叢集必須確保使用者必須具備 Microsoft Network/virtualNetworks/subnets/join/action 權限,才能執行建立作業。 客戶必須據以進行規劃,因為這是必要檢查,以避免發生叢集建立失敗。
  • 基本 VM 和標準 A 系列 VM 淘汰。
    • 我們會在 2024 年 8 月 31 日,淘汰基本和標準的 A 系列 VM。 在該日期之前,您必須將工作負載遷移至 Av2 系列 VM,此系列可提供每個 vCPU 更多的記憶體,以及在固態硬碟上 (SSD) 提供更快速的儲存體。 為了避免服務中斷,請在 2024 年 8 月 31 日之前移轉工作負載,從基本和標準 A 系列 VM 移轉至 Av2 系列 VM。
  • 非 ESP ABFS 叢集 [Word 可讀取的叢集權限]
    • 規劃在非 ESP ABFS 叢集中引進變更,會限制非 Hadoop 群組使用者執行記憶體作業的 Hadoop 命令。 這項變更可改善叢集安全性態勢。 客戶必須規劃更新。

發行日期:2023 年 2 月 28 日

此版本適用於 HDInsight 4.0。 和 5.0、5.1。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此版本適用於映像編號 2302250400如何檢查映像編號?

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4

如需工作負載特定版本,請參閱

重要

Microsoft 已發行 CVE-2023-23408,目前版本已進行修正,建議客戶將其叢集升級至最新的映像。 

顯示具有文字新功能的圖示。

HDInsight 5.1

我們已開始推出新版本的 HDInsight 5.1。 所有新的開放原始碼版本都會新增為 HDInsight 5.1 上的累加版本。

如需詳細資訊,請參閱 HDInsight 5.1.0 版

顯示以文字更新的圖示。

Kafka 3.2.0 升級 (預覽)

  • Kafka 3.2.0 包含數個重要的新功能/改善項目。
    • 已將 Zookeeper 升級至 3.6.3
    • Kafka Streams 支援
    • 預設會針對 Kafka 產生者啟用更強的傳遞保證。
    • log4j 1.x 會取代為 reload4j
    • 將提示傳送至分割區負責人以復原分割區。
    • JoinGroupRequestLeaveGroupRequest 已附加原因。
    • 已新增 Broker 計數計量 8。
    • 鏡像 Maker2 改進項目。

HBase 2.4.11 升級 (預覽)

  • 此版本有新功能,例如新增區塊快取的新快取機制類型、能夠改變 hbase:meta table 以及從 HBase WEB UI 檢視 hbase:meta 資料表。

Phoenix 5.1.2 升級 (預覽)

  • Phoenix 版本在此版本中已升級至 5.1.2。 此升級包含 Phoenix Query Server。 Phoenix Query Server 會 Proxy 標準 Phoenix JDBC 驅動程式,並提供回溯相容的有線通訊協定來叫用該 JDBC 驅動程式。

Ambari CVE

  • 已修正多個 Ambari CVE。

注意

ESP 在此版本中不支援 Kafka 和 HBase。

顯示文字支持結束的圖示。

Spark 2.4 上的 Azure HDInsight 叢集已於 2024 年 2 月 10 日起終止支援。 如需詳細資訊,請參閱 Azure HDInsight 中支援的 Spark 版本

下一步是什麼

  • Autoscale
    • 已改善延遲和數項改善的自動調整
  • 叢集名稱變更限制
    • 公開、Azure 中國和 Azure Government 中的叢集名稱最大長度會從 59 個變更為 45。
  • 安全記憶體的叢集權限
    • 客戶可以 (在建立叢集期間) 指定安全通道是否應該用於 HDInsight 叢集節點,以連絡記憶體帳戶。
  • 非 ESP ABFS 叢集 [Word 可讀取的叢集權限]
    • 規劃在非 ESP ABFS 叢集中引進變更,會限制非 Hadoop 群組使用者執行記憶體作業的 Hadoop 命令。 這項變更可改善叢集安全性態勢。 客戶必須規劃更新。
  • 開放原始碼升級
    • Apache Spark 3.3.0 和 Hadoop 3.3.4 正在 HDInsight 5.1 上進行開發,並包含數個顯著的新功能、效能和其他改善。

注意

我們建議客戶使用最新版的 HDInsight 映像,因為其能充分利用開放原始碼更新、Azure 更新和安全性修正。 如需詳細資訊,請參閱最佳做法

發行日期:2022 年 12 月 12 日

此版本適用於 HDInsight 4.0。 在數天內,所有區域都可以使用 5.0 HDInsight 發行版本。

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

作業系統版本

  • HDInsight 4.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4
  • HDInsight 5.0:Ubuntu 18.04.5 LTS Linux Kernel 5.4

如需工作負載特定版本,請參閱這裡

顯示具有文字新功能的圖示。

  • Log Analytics - 客戶可以啟用傳統監視,以取得最新的 OMS 14.19 版。 若要移除舊版,請停用並啟用傳統監視。
  • Ambari 使用者因為非使用狀態而自動 UI 登出。 如需詳細資訊,請參閱這裡
  • Spark - 此發行版本中包含 Spark 3.1.3 的新版本和最佳化版本。 我們已使用 TPC-DS 基準測試了 Apache Spark 3.1.2 (舊版) 和 Apache Spark 3.1.3 (目前版本)。 測試是針對 1 TB 工作負載上的 Apache Spark 使用 E8 V3 SKU 進行。 針對使用相同硬體規格的 TPC-DS 查詢,Apache Spark 3.1.3 (目前版本) 總查詢執行階段的效能勝過 Apache Spark 3.1.2 (舊版) 超過 40%。 Microsoft Spark 小組已使用 Azure HDInsight 新增了可在 Azure Synapse 中使用的最佳化。 如需詳細資訊,請參閱 在 Azure Synapse 中使用 Apache Spark 3.1.2 效能更新來加速資料工作負載

顯示以文字新增之新區域的圖示。

  • 卡達中部
  • 德國北部

顯示文字變更項目圖示。

  • HDInsight 已從 Azul Zulu Java JDK 8 移轉至 Adoptium Temurin JDK 8,其支援高品質的 TCK 認證執行階段,以及跨 Java 生態系統使用的相關技術。

  • HDInsight 已移轉至 reload4jlog4j 變更適用於

    • Apache Hadoop \(英文\)
    • Apache Zookeeper
    • Apache Oozie
    • Apache Ranger
    • Apache Sqoop
    • Apache Pig
    • Apache Ambari
    • Apache Kafka
    • Apache Spark
    • Apache Zeppelin
    • Apache Livy
    • Apache Rubix
    • Apache Hive
    • Apache Tez
    • Apache HBase
    • OMI
    • Apache Pheonix

顯示以文字更新的圖示。

HDInsight 會持續實作 TLS1.2,而舊版會在平台上進行更新。 如果您是在 HDInsight 上執行任何應用程式,且這些應用程式使用 TLS 1.0 和 1.1,請升級至 TLS 1.2,以避免服務中斷。

如需詳細資訊,請參閱如何啟用傳輸層安全性 (TLS)

顯示文字支持結束的圖示。

Ubuntu 16.04 LTS 上的 Azure HDInsight 叢集自 2022 年 11 月 30 日起已終止支援。 HDInsight 自 2021 年 6 月 27 日起開始使用 Ubuntu 18.04 發行叢集映像。 建議使用 Ubuntu 16.04 執行叢集的客戶在 2022 年 11 月 30 日前使用最新的 HDInsight 映像重建其叢集。

如需如何檢查 Ubuntu 版本叢集的詳細資訊,請參閱這裡

  1. 在終端機中執行命令 “lsb_release -a”。

  2. 如果輸出中 “Description” 屬性的值是 “Ubuntu 16.04 LTS”,則此更新適用於叢集。

顯示文字錯誤修正的圖示。

  • 支援 Kafka 和 HBase (寫入存取) 叢集的可用性區域選取項目。

開放原始碼錯誤 (bug) 修正

Hive Bug 修正

錯誤修正 Apache JIRA
HIVE-26127 INSERT OVERWRITE 錯誤 - 找不到檔案
HIVE-24957 當子查詢在相互關聯述詞中包含 COALESCE 時發生錯誤的結果
HIVE-24999 HiveSubQueryRemoveRule 針對具有多個相互關聯的 IN 子查詢產生無效的計劃
HIVE-24322 如果有直接插入,則在讀取資訊清單失敗時,必須檢查嘗試識別碼
HIVE-23363 將 DataNucleus 相依性升級至 5.2
HIVE-26412 建立介面以擷取可用的位置並新增預設值
HIVE-26173 將 derby 升級至 10.14.2.0
HIVE-25920 Xerce2 改為 2.12.2。
HIVE-26300 將 Jackson 資料繫結版本升級至 2.12.6.1+ 以避免 CVE-2020-36518

發行日期:2022/08/10

此版本適用於 HDInsight 4.0。  在數天內,所有區域都可以使用 HDInsight 發行版本。

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

Icon_showing_new_features。

新功能

1.在 HDI Hadoop/Spark 叢集中連結外部磁碟

HDInsight 叢集隨附以 SKU 為基礎的預先定義磁碟空間。 在大型作業案例中,此空間可能不足。

這項新功能可讓您在叢集中新增更多磁碟,以做為節點管理員本機目錄使用。 在 HIVE 和 Spark 叢集建立期間,將磁碟數目新增至背景工作節點,而選取的磁碟為節點管理員本機目錄的一部分。

注意

新增的磁碟只會針對節點管理員本機目錄進行設定。

如需詳細資訊,請參閱這裡

2.選擇性記錄分析

選擇性記錄分析現已在所有區域提供公開預覽版。 您可以將叢集連線到 Log Analytics 工作區。 啟用之後,您可以看到 HDInsight 安全性記錄、Yarn Resource Manager、系統計量等記錄和計量。您可以監視工作負載,並查看其如何影響叢集穩定性。 選擇性記錄可讓您啟用/停用所有資料表,或啟用 Log Analytics 工作區中的選擇性資料表。 您可以調整每個資料表的來源類型,因為新版的 Geneva 監視中,一個資料表有多個來源。

  1. Geneva 監視系統使用 mdsd (MDS 精靈) 這個監視代理程式,並使用 fluentd 以透過整合記錄層來收集記錄。
  2. 選擇性記錄會使用指令碼動作來停用/啟用資料表及其記錄類型。 因為它不會開啟任何新的連接埠,或變更任何現有的安全性設定,因此沒有任何安全性變更。
  3. 指令碼動作會在所有指定的節點上平行執行,並變更停用/啟用資料表及其記錄類型的組態檔。

如需詳細資訊,請參閱這裡

Icon_showing_bug_fixes。

已修正

記錄分析

與執行 OMS 第 13 版的 Azure HDInsight 整合的 Log Analytics 需要升級至 OMS 第 14 版,才能套用最新的安全性更新。 使用舊版叢集搭配 OMS 第 13 版的客戶必須安裝 OMS 第 14 版,以符合安全性需求。 (如何檢查目前的版本並安裝第 14 版)

如何檢查您目前的 OMS 版本

  1. 使用 SSH 登入叢集。
  2. 在 SSH 用戶端中執行下列命令。
sudo /opt/omi/bin/ominiserver/ --version

顯示如何檢查 OMS 升級的螢幕快照。

如何將 OMS 版本從 13 升級至 14

  1. 登入 Azure 入口網站
  2. 從資源群組中,選取 HDInsight 叢集資源
  3. 選取 [指令碼動作]
  4. 在 [提交指令碼動作] 面板中,選擇 [自訂] 作為 [指令碼類型]
  5. 在 [Bash 指令碼 URL] 方塊中,貼上下列連結 https://hdiconfigactions.blob.core.windows.net/log-analytics-patch/OMSUPGRADE14.1/omsagent-vulnerability-fix-1.14.12-0.sh
  6. 選取 [節點類型]
  7. 選取 [建立]

顯示如何進行 OMS 升級的螢幕快照。

  1. 使用下列步驟確認修補檔安裝成功:

  2. 使用 SSH 登入叢集。

  3. 在 SSH 用戶端中執行下列命令。

sudo /opt/omi/bin/ominiserver/ --version

其他錯誤 (bug) 修正

  1. 如果有任何 TFile 損毀或空白,Yarn 記錄的 CLI 就無法擷取記錄。
  2. 已解決從 Azure Active Directory 取得 OAuth 權杖時發生的服務主體詳細資料無效錯誤。
  3. 已改善設定超過 100 個工作節點時的叢集建立可靠性。

開放原始碼錯誤 (bug) 修正

TEZ Bug 修正

錯誤修正 Apache JIRA
Tez 建置失敗:找不到 FileSaver.js TEZ-4411
倉儲和 scratchdir 位於不同 FS 時的 FS 例外狀況不正確 TEZ-4406
大於 32 MB 的組態上的 TezUtils.createConfFromByteString 會擲回 com.google.protobuf.CodedInputStream 例外狀況 TEZ-4142
TezUtils::createByteStringFromConf 應使用 snappy 而不是 DeflaterOutputStream TEZ-4113
將 protobuf 相依性更新為 3.x TEZ-4363

Hive Bug 修正

錯誤修正 Apache JIRA
ORC 分割產生中的效能最佳化 HIVE-21457
當資料表名稱以 "delta" 開頭,但資料表並非交易式,且使用 BI 分割策略時,避免將資料表讀取為 ACID HIVE-22582
從 AcidUtils#getLogicalLength 中移除 FS#exists 呼叫 HIVE-23533
向量化 OrcAcidRowBatchReader.computeOffset 和貯體最佳化 HIVE-17917

已知問題

HDInsight 與 Apache HIVE 3.1.2 相容。 由於此版本的錯誤 (bug),Hive 版本在 Hive 介面中會顯示為 3.1.0。 但其功能不受影響。

發行日期:2022/08/10

此版本適用於 HDInsight 4.0。  在數天內,所有區域都可以使用 HDInsight 發行版本。

HDInsight 使用涉及逐步區域部署的安全部署做法。 最多可能需要 10 個工作天,才能在所有區域中使用新發行或新版本。

Icon_showing_new_features。

新功能

1.在 HDI Hadoop/Spark 叢集中連結外部磁碟

HDInsight 叢集隨附以 SKU 為基礎的預先定義磁碟空間。 在大型作業案例中,此空間可能不足。

這項新功能可讓您在叢集中新增更多磁碟,以作為節點管理員本機目錄使用。 在 HIVE 和 Spark 叢集建立期間,將磁碟數目新增至背景工作節點,而選取的磁碟為節點管理員本機目錄的一部分。

注意

新增的磁碟只會針對節點管理員本機目錄進行設定。

如需詳細資訊,請參閱這裡

2.選擇性記錄分析

選擇性記錄分析現已在所有區域提供公開預覽版。 您可以將叢集連線到 Log Analytics 工作區。 啟用之後,您可以看到 HDInsight 安全性記錄、Yarn Resource Manager、系統計量等記錄和計量。您可以監視工作負載,並查看其如何影響叢集穩定性。 選擇性記錄可讓您啟用/停用所有資料表,或啟用 Log Analytics 工作區中的選擇性資料表。 您可以調整每個資料表的來源類型,因為新版的 Geneva 監視中,一個資料表有多個來源。

  1. Geneva 監視系統使用 mdsd (MDS 精靈) 這個監視代理程式,並使用 fluentd 以透過整合記錄層來收集記錄。
  2. 選擇性記錄會使用指令碼動作來停用/啟用資料表及其記錄類型。 因為它不會開啟任何新的連接埠,或變更任何現有的安全性設定,因此沒有任何安全性變更。
  3. 指令碼動作會在所有指定的節點上平行執行,並變更停用/啟用資料表及其記錄類型的組態檔。

如需詳細資訊,請參閱這裡

Icon_showing_bug_fixes。

已修正

記錄分析

與執行 OMS 第 13 版的 Azure HDInsight 整合的 Log Analytics 需要升級至 OMS 第 14 版,才能套用最新的安全性更新。 使用舊版叢集搭配 OMS 第 13 版的客戶必須安裝 OMS 第 14 版,以符合安全性需求。 (如何檢查目前的版本並安裝第 14 版)

如何檢查您目前的 OMS 版本

  1. 使用 SSH 登入叢集。
  2. 在 SSH 用戶端中執行下列命令。
sudo /opt/omi/bin/ominiserver/ --version

顯示如何檢查 OMS 升級的螢幕快照。

如何將 OMS 版本從 13 升級至 14

  1. 登入 Azure 入口網站
  2. 從資源群組中,選取 HDInsight 叢集資源
  3. 選取 [指令碼動作]
  4. 在 [提交指令碼動作] 面板中,選擇 [自訂] 作為 [指令碼類型]
  5. 在 [Bash 指令碼 URL] 方塊中,貼上下列連結 https://hdiconfigactions.blob.core.windows.net/log-analytics-patch/OMSUPGRADE14.1/omsagent-vulnerability-fix-1.14.12-0.sh
  6. 選取 [節點類型]
  7. 選取 [建立]

顯示如何進行 OMS 升級的螢幕快照。

  1. 使用下列步驟確認修補檔安裝成功:

  2. 使用 SSH 登入叢集。

  3. 在 SSH 用戶端中執行下列命令。

sudo /opt/omi/bin/ominiserver/ --version

其他錯誤 (bug) 修正

  1. 如果有任何 TFile 損毀或空白,Yarn 記錄的 CLI 就無法擷取記錄。
  2. 已解決從 Azure Active Directory 取得 OAuth 權杖時發生的服務主體詳細資料無效錯誤。
  3. 已改善設定超過 100 個工作節點時的叢集建立可靠性。

開放原始碼錯誤 (bug) 修正

TEZ Bug 修正

錯誤修正 Apache JIRA
Tez 建置失敗:找不到 FileSaver.js TEZ-4411
倉儲和 scratchdir 位於不同 FS 時的 FS 例外狀況不正確 TEZ-4406
大於 32 MB 的組態上的 TezUtils.createConfFromByteString 會擲回 com.google.protobuf.CodedInputStream 例外狀況 TEZ-4142
TezUtils::createByteStringFromConf 應使用 snappy 而不是 DeflaterOutputStream TEZ-4113
將 protobuf 相依性更新為 3.x TEZ-4363

Hive Bug 修正

錯誤修正 Apache JIRA
ORC 分割產生中的效能最佳化 HIVE-21457
當資料表名稱以 "delta" 開頭,但資料表並非交易式,且使用 BI 分割策略時,避免將資料表讀取為 ACID HIVE-22582
從 AcidUtils#getLogicalLength 中移除 FS#exists 呼叫 HIVE-23533
向量化 OrcAcidRowBatchReader.computeOffset 和貯體最佳化 HIVE-17917

已知問題

HDInsight 與 Apache HIVE 3.1.2 相容。 由於此版本的錯誤 (bug),Hive 版本在 Hive 介面中會顯示為 3.1.0。 但其功能不受影響。

發行日期:06/03/2022

此發行版本適用於 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

版本要點

Spark v3.1.2 上的 Hive Warehouse Connector (HWC)

Hive Warehouse Connector (HWC) 可讓您利用 Hive 和 Spark 的獨特功能來建置功能強大的巨量資料應用程式。 HWC 目前僅支援 Spark v2.4。 此功能可藉由使用 Spark 在 Hive 資料表上允許 ACID 交易來增加商業價值。 此功能適用於在資料資產中使用 Hive 和 Spark 的客戶。 如需詳細資訊,請參閱 Apache Spark & Hive - Hive Warehouse Connector - Azure HDInsight | Microsoft Docs

Ambari

  • 調整和佈建改善變更
  • HDI Hive 現在與 OSS 版本 3.1.2 相容

HDI Hive 3.1 版本已升級至 OSS Hive 3.1.2。 此版本具有開放原始碼 Hive 3.1.2 版本中可用的所有修正和功能。

注意

Spark

  • 如果您使用 Azure 使用者介面來建立適用於 HDInsight 的 Spark 叢集,您將會在下拉式清單中看到其他版本 Spark 3.1.(HDI 5.0) 以及較舊的版本。 此版本是 Spark 3.1.(HDI 4.0) 已重新命名的版本。 這只是 UI 層級變更,這不會影響現有使用者和已在使用 ARM 範本的使用者。

Screenshot_of HDI 5.0 的spark 3.1。

注意

互動式查詢

  • 如果您要建立 Interactive Query 叢集,您會在下拉式清單中看到其他版本為 Interactive Query 3.1 (HDI 5.0)。
  • 如果您要使用 Spark 3.1 版本搭配需要 ACID 支援的 Hive,您必須選取此版本 Interactive Query 3.1 (HDI 5.0)。

Screenshot_of HDI 5.0 的互動式查詢 3.1。

TEZ Bug 修正

錯誤修正 Apache JIRA
大於 32 MB 的組態上的 TezUtils.createConfFromByteString 會擲回 com.google.protobuf.CodedInputStream 例外狀況 TEZ-4142
TezUtils createByteStringFromConf 應該使用 snappy 而不是 DeflaterOutputStream TEZ-4113

HBase Bug 修正

錯誤修正 Apache JIRA
TableSnapshotInputFormat 應該針對掃描 HFiles 使用 ReadType.STREAM HBASE-26273
新增選項以在 TableSnapshotInputFormat 中停用 scanMetrics HBASE-26330
執行平衡器時 ArrayIndexOutOfBoundsException 的修正 HBASE-22739

Hive Bug 修正

錯誤修正 Apache JIRA
使用 'distribute by' 子句搭配動態部分排序最佳化插入資料時發生 NPE HIVE-18284
卸載分割區時,具有分割區篩選的 MSCK REPAIR 命令失敗 HIVE-23851
如果 capacity<=0,則擲回錯誤的例外狀況 HIVE-25446
支援 HastTables - 介面的平行載入 HIVE-25583
預設在 HiveServer2 中包含 MultiDelimitSerDe HIVE-20619
從 jdbc-standalone jar 移除 glassfish.jersey 和 mssql-jdbc 類別 HIVE-22134
針對 MM 資料表執行壓縮時發生 Null 指標例外狀況。 HIVE-21280
透過 knox 的大型 Hive 查詢失敗,發生中斷管道寫入失敗 HIVE-22231
新增使用者設定繫結使用者的能力 HIVE-21009
實作 UDF,以使用其內部標記法和西曆混合式行事曆來解譯日期/時間戳記 HIVE-22241
顯示/不顯示執行報表的 Beeline 選項 HIVE-22204
Tez:SplitGenerator 嘗試尋找對 Tez 不存在的計劃檔案 HIVE-22169
從 LLAP 快取 hotpath 移除成本高昂的記錄 HIVE-22168
UDF:FunctionRegistry 在 org.apache.hadoop.hive.ql.udf.UDFType 類別上同步 HIVE-22161
如果屬性設為 false,則防止查詢路由附加器的建立 HIVE-22115
移除 partition-eval 的跨查詢同步 HIVE-22106
在規劃期間略過設定 Hive 暫存目錄 HIVE-21182
如果 RPC 開啟,則略過為 tez 建立暫存目錄 HIVE-21171
將 Hive UDF 切換為使用 Re2J RegEx 引擎 HIVE-19661
在 hive 3 上使用 bucketing_version 1 移轉的叢集資料表會使用 bucketing_version 2 插入 HIVE-22429
貯體:貯體版本 1 分割資料不正確 HIVE-21167
將 ASF 授權標頭新增至新增的檔案 HIVE-22498
支援 mergeCatalog 的結構描述工具增強功能 HIVE-22498
具有 TEZ UNION ALL 和 UDTF 的 Hive 會導致資料遺失 HIVE-21915
即使頁首/頁尾存在,還是分割文字檔 HIVE-21924
當載入的檔案的資料行超過資料表結構描述中一次出現的數量時,MultiDelimitSerDe 會在最後一個資料行傳回錯誤的結果 HIVE-22360
LLAP 外部用戶端 - 需要減少 LlapBaseInputFormat#getSplits() 使用量 HIVE-22221
查詢若具有聯結資料表,其遮罩資料行重新寫入時 (透過 Zoltan Haindrich 的 Zoltan Matyus),不會逸出具有保留關鍵字的資料行名稱 HIVE-22208
在發生 AMReporter 相關 RuntimeException 時防止 LLAP 關閉 HIVE-22113
LLAP 狀態服務驅動程式可能會因為錯誤的 Yarn 應用程式識別碼而停滯 HIVE-21866
OperationManager.queryIdOperation 無法正確清除多個 queryId HIVE-22275
將節點管理員關閉會封鎖 LLAP 服務的重新啟動 HIVE-22219
卸載許多分割區時發生 StackOverflowError HIVE-15956
移除暫存目錄時,存取檢查失敗 HIVE-22273
修正特定界限條件上左方外部聯結中的錯誤結果/ArrayOutOfBound 例外狀況 HIVE-22120
從 pom.xml 移除散發管理標記 HIVE-19667
如果有深層巢狀子查詢,剖析時間可能會很高 HIVE-21980
針對 ALTER TABLE t SET TBLPROPERTIES ('EXTERNAL'='TRUE');TBL_TYPE 屬性變更不會對非 CAPS 反映 HIVE-20057
JDBC:HiveConnection 遮蔽 log4j 介面 HIVE-18874
更新 poms - branch 3.1 版本中的存放庫 URL HIVE-21786
主要和 branch-3.1 上的 DBInstall 測試中斷 HIVE-21758
將資料載入貯體資料表會忽略分割區規格,並將資料載入預設分割區 HIVE-21564
查詢的聯結條件若具有時間戳記或時間戳記具有本機時區常值時,會擲出 SemanticException HIVE-21613
分析保留在 HDFS 上暫存目錄的資料行的計算統計資料 HIVE-21342
Hive 貯體計算中不相容的變更 HIVE-21376
當沒有其他授權者使用中時,提供後援授權者 HIVE-20420
某些 alterPartitions 叫用擲回 'NumberFormatException: null' HIVE-18767
HiveServer2:在某些情況下,http 傳輸的預先驗證主體不會針對 http 通訊的整個期間保留 HIVE-20555

發行日期:2022/03/10

此發行版本適用於 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

此發行版本的 OS 版本如下:

  • HDInsight 4.0:Ubuntu 18.04.5

Spark 3.1 現已正式推出

HDInsight 4.0 版本現在已正式推出 Spark 3.1。 此版本包括

  • 彈性查詢執行,
  • 將排序合併聯結轉換為廣播雜湊聯結,
  • Spark Catalyst 最佳化工具,
  • 動態資料分割剪除,
  • 客戶將能夠建立新的 Spark 3.1 叢集,而不是 Spark 3.0 (預覽) 叢集。

如需詳細資訊,請參閱 HDInsight - Microsoft Tech Community 現已正式推出的 Apache Spark 3.1

如需完整的改善清單,請參閱 Apache Spark 3.1 版本資訊。

如需移轉的詳細資訊,請參閱移轉指南

Kafka 2.4 現已正式推出

Kafka 2.4.1 現已正式推出。 如需詳細資訊,請參閱 Kafka 2.4.1 版本資訊。其他功能包括 MirrorMaker 2 可用性、新的計量類別 AtMinIsr 主題分割、改進透過延遲隨選索引檔案的 mmap 訊息代理程式啟動時間、更多取用者計量來觀察使用者輪詢行為。

HDInsight 4.0 現在支援 HWC 中的對應資料類型

此版本包含 HWC 1.0 (Spark 2.4) 的 Map Datatype Support (透過 Spark-shell 應用程式,以及 HWC 所支援的其他所有 Spark 用戶端)。 如同任何其他資料類型,包含下列改善:

使用者可以

  • 使用包含 Map 資料類型的任何資料行來建立 Hive 資料表、將資料插入其中,並從中讀取結果。
  • 使用對應類型來建立 Apache Spark 資料框架,並執行批次/串流讀取和寫入。

新區域

HDInsight 現在已將其地理位置擴充至兩個新區域:中國東部 3 和中國北部 3。

OSS 向後移植變更

Hive 中包含的 OSS 向後移植,包括支援 Map 資料類型的 HWC 1.0 (Spark 2.4)。

以下是此發行版本的 OSS 向下移植 Apache JIRA:

受影響的功能 Apache JIRA
使用 IN/(NOT IN) 的中繼存放區直接 SQL 查詢,應該根據 SQL DB 所允許的最大參數進行分割 HIVE-25659
log4j 2.16.0 升級至 2.17.0 HIVE-25825
更新 Flatbuffer 版本 HIVE-22827
以箭號格式原生支援 Map 資料類型 HIVE-25553
LLAP 外部用戶端 - 當父結構為 Null 時,處理巢狀值 HIVE-25243
將箭號版本升級至 0.11.0 HIVE-23987

取代通知

HDInsight 上的 Azure 虛擬機器擴展集

HDInsight 將不再使用 Azure 虛擬機器擴展集來佈建叢集,預期不會有任何重大變更。 虛擬機器擴展集上的現有 HDInsight 叢集不會有任何影響,任何最新映像上的新叢集將不再使用虛擬機器擴展集。

現在僅支援使用手動調整來調整 Azure HDInsight HBase 工作負載

從 2022 年 3 月 1 日開始,HDInsight 僅支援 HBase 的手動調整,而執行中的叢集將沒有任何影響。 新的 HBase 叢集將無法啟用以排程為基礎的自動調整。 如需如何手動調整 HBase 叢集的詳細資訊,請參閱手動調整 Azure HDInsight 叢集上的文件

發行日期:2021/12/27

此發行版本適用於 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

此發行版本的 OS 版本如下:

  • HDInsight 4.0:Ubuntu 18.04.5 LTS

HDInsight 4.0 映像已更新,以緩解 Microsoft 對 CVE-2021-44228 Apache Log4j 2 的回應中所述的 Log4j 弱點。

注意

  • 在 2021 年 12 月 27 日 00:00 UTC 之後建立的任何 HDI 4.0 叢集都是使用映像的更新版本所建立,其可緩解 log4j 弱點。 因此,客戶無需修補/重新啟動這些叢集。
  • 對於 2021 年 12 月 16 日 01:15 UTC 和 2021 年 12 月 27 日 00:00 UTC 之間建立的新 HDInsight 4.0 叢集,HDInsight 3.6 或 2021 年 12 月 16 日之後的固定訂用帳戶,修補檔將在建立叢集的一小時內自動套用,但客戶必須重新啟動其節點,以完成修補 (自動重新啟動的 Kafka Management 節點除外)。

發行日期:2021/7/27

此發行適用於 HDInsight 3.6 和 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

此發行版本的 OS 版本如下:

  • HDInsight 3.6:Ubuntu 16.04.7 LTS
  • HDInsight 4.0:Ubuntu 18.04.5 LTS

新功能

Azure HDInsight 對受限公用連線能力的支援將於 2021 年 10 月 15 日正式推出

Azure HDInsight 現在支援所有區域的受限公共連線能力。 以下是此功能的一些主要重點:

  • 能夠反轉資源提供者到叢集的通訊,使其從叢集輸出到資源提供者
  • 支援為 HDInsight 叢集帶來您自己的 Private Link 啟用資源 (例如儲存體、SQL、金鑰保存庫),以便僅透過專用網路訪問資源
  • 未佈建任何公用 IP 位址資源

透過使用新功能,您還可以跳過 HDInsight 管理 IP 的輸入網路安全性群組 (NSG) 服務標籤規則。 深入了解限制公用連線能力

您現在可以使用私人端點以透過私人連結連線到 HDInsight 叢集。 在無法使用或未啟用 VNET 對等的跨 VNET 場景中,可以利用私人連結。

Azure Private Link 可讓您存取各項 Azure PaaS 服務 (例如 Azure 儲存體和 SQL Database),並透過虛擬網路中的私人端點裝載 Azure 的客戶擁有/合作夥伴服務。

虛擬網路及服務 (在 Microsoft 骨幹網路中傳遞) 之間的流量。 您的服務不再需要向公用網際網路公開。

如需更多內容,請參閱啟用私人連結。 

全新 Azure 監視器整合體驗 (預覽)

全新 Azure 監視器整合體驗將隨此發行版本在美國東部和西歐進行預覽。 在此處了解有關全新 Azure 監視體驗的更多詳細資料。

棄用

HDInsight 3.6 版本已於 2022 年 10 月 1 日淘汰。

行為變更

HDInsight Interactive Query 僅支援以排程為基礎的自動調整

隨著客戶案例變得更加成熟且多樣化,我們已識別 Interactive Query (LLAP) 以負載為基礎自動調整的一些限制。 這些限制是由 LLAP 查詢動態的性質、未來負載預測正確性問題以及 LLAP 排程器任務重新分配中的問題所造成。 由於這些限制,當啟用自動調整時,使用者可能會看到他們的查詢在 LLAP 叢集上執行較慢。 對效能的影響可能超過自動調整的成本效益。

自 2021 年 7 月開始,HDInsight 中的 Interactive Query 工作負載僅支援以排程為基礎的自動調整。 您無法再對新的 Interactive Query 叢集啟用以負載為基礎的自動調整。 現有正在執行的叢集可在上述已知限制的情況下繼續執行。

Microsoft 建議您移至以排程為基礎的 LLAP 自動調整。 您可以透過 Grafana Hive 儀表板分析叢集的目前使用模式。 如需詳細資訊,請參閱自動調整 Azure HDInsight 叢集

即將推出的變更

即將發行的版本中將會發生下列變更。

ESP Spark 叢集中的內建 LLAP 元件將遭到移除

HDInsight 4.0 ESP Spark 叢集具有在兩個前端節點上執行的內建 LLAP 元件。 ESP Spark 叢集中的 LLAP 元件最初是為 HDInsight 3.6 ESP Spark 所新增,但沒有 HDInsight 4.0 ESP Spark 的實際使用案例。 在排程於 2021 年 9 月發行的下一個版本中,HDInsight 將從 HDInsight 4.0 ESP Spark 叢集中移除內建 LLAP 元件。 此變更將有助於卸載前端節點的工作負載,並避免 ESP Spark 和 ESP Interactive Hive 叢集類型之間的混淆。

新區域

  • 美國西部 3
  • Jio 印度西部
  • 澳大利亞中部

元件版本變更

以下元件版本已隨此發行版本變更:

  • ORC 版本從 1.5.1 至 1.5.9

您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

向下移植 JIRA

以下是此發行版本的向下移植 Apache JIRA:

受影響的功能 Apache JIRA
日期 / 時間戳記 HIVE-25104
HIVE-24074
HIVE-22840
HIVE-22589
HIVE-22405
HIVE-21729
HIVE-21291
HIVE-21290
UDF HIVE-25268
HIVE-25093
HIVE-22099
HIVE-24113
HIVE-22170
HIVE-22331
ORC HIVE-21991
HIVE-21815
HIVE-21862
資料表結構描述 HIVE-20437
HIVE-22941
HIVE-21784
HIVE-21714
HIVE-18702
HIVE-21799
HIVE-21296
工作負載管理 HIVE-24201
壓縮 HIVE-24882
HIVE-23058
HIVE-23046
具體化檢視 HIVE-22566

HDInsight Dv2 虛擬機器的定價修正

2021 年 4 月 25 日,針對 HDInsight 上的 Dv2 VM 系列修正了定價錯誤。 定價錯誤導致某些客戶在 4 月 25 日之前的帳單費用有所減少,並且透過修正,定價現在與 HDInsight 定價頁面和 HDInsight 定價計算機上的公告相符。 定價錯誤影響了以下區域使用 Dv2 VM 的客戶:

  • 加拿大中部
  • 加拿大東部
  • 東亞
  • 南非北部
  • 東南亞
  • 阿拉伯聯合大公國中部

自 2021 年 4 月 25 日開始,Dv2 VM 的修正金額將由您承擔。 客戶通知在變更之前已傳送給訂用帳戶擁有者。 您可以使用定價計算機、HDInsight 定價頁面或 Azure 入口網站中的 [建立 HDInsight 叢集] 刀鋒視窗查看您所在區域 Dv2 VM 的修正成本。

您無需採取其他動作。 價格修正僅適用於 2021 年 4 月 25 日當天或之後在指定區域的使用方式,而不適用於該日期之前的任何使用方式。 為了確保您擁有最具效能和成本效益的解決方案,建議您檢閱 Dv2 叢集的定價、VCPU 和 RAM,並將 Dv2 規格與 Ev3 VM 進行比較,以查看您的解決方案是否會從使用一個較新的 VM 系列中受益。

發行日期:2021/6/02

此發行適用於 HDInsight 3.6 和 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

此發行版本的 OS 版本如下:

  • HDInsight 3.6:Ubuntu 16.04.7 LTS
  • HDInsight 4.0:Ubuntu 18.04.5 LTS

新功能

OS 版本升級

正如 Ubuntu 的發行版本週期所提到,Ubuntu 16.04 核心將於 2021 年 4 月達到生命週期結束 (EOL)。 我們開始推出執行在 Ubuntu 18.04 上的新 HDInsight 4.0 叢集映像。 一旦可用後,新建立的 HDInsight 4.0 叢集預設會在 Ubuntu 18.04 上執行。 Ubuntu 16.04 上的現有叢集會以完整支援的形式執行。

HDInsight 3.6 將繼續在 Ubuntu 16.04 上執行。 自 2021 年 7 月 1 日開始,其將變更為基本支援 (從標準支援變更)。 如需日期和支援選項的詳細資訊,請參閱 Azure HDInsight 版本。 HDInsight 3.6 不支援 Ubuntu 18.04。 如果您想要使用 Ubuntu 18.04,您需要將叢集移轉至 HDInsight 4.0。

如果您想要將現有的 HDInsight 4.0 叢集移至 Ubuntu 18.04,您需要卸除並重新建立您的叢集。 計劃在 Ubuntu 18.04 支援可供使用後建立或重新建立叢集。

建立新叢集後,您可以透過 SSH 連線到您的叢集並執行 sudo lsb_release -a,以驗證其是否會在 Ubuntu 18.04 上執行。 我們建議您在移至生產環境之前,首先在測試訂用帳戶中測試應用程式。

HBase 加速寫入叢集的調整最佳化

HDInsight 對 HBase 加速可寫入叢集的調整進行一些改善和最佳化。 深入了解 HBase 加速寫入

棄用

此版本中沒有淘汰。

行為變更

停用 Stardard_A5 VM 大小作為 HDInsight 4.0 的前端節點

HDInsight 叢集前端節點負責初始化和管理叢集。 Standard_A5 VM 大小作為 HDInsight 4.0 的前端節點存有可靠性問題。 從此發行版本開始,客戶無法使用 Standard_A5 VM 大小作為前端節點建立新叢集。 您可以使用其他雙核心 VM,如 E2_v3 或 E2s_v3。 現有叢集將按原樣執行。 強烈建議前端節點使用四核心 VM,以確保生產 HDInsight 叢集的高可用性和可靠性。

在 Azure 虛擬機器擴展集上執行的叢集看不到網路介面資源

HDInsight 正逐漸移轉至 Azure 虛擬機器擴展集。 對於使用 Azure 虛擬機器擴展集的叢集,客戶不再可以看到虛擬機器的網路介面。

即將推出的變更

即將發行的版本中將會發生下列變更。

HDInsight Interactive Query 僅支援以排程為基礎的自動調整

隨著客戶案例變得更加成熟且多樣化,我們已識別 Interactive Query (LLAP) 以負載為基礎自動調整的一些限制。 這些限制是由 LLAP 查詢動態的性質、未來負載預測正確性問題以及 LLAP 排程器任務重新分配中的問題所造成。 由於這些限制,當啟用自動調整時,使用者可能會看到他們的查詢在 LLAP 叢集上執行較慢。 對效能的影響可能超過自動調整的成本效益。

自 2021 年 7 月開始,HDInsight 中的 Interactive Query 工作負載僅支援以排程為基礎的自動調整。 您無法再對新的 Interactive Query 叢集啟用自動調整。 現有正在執行的叢集可在上述已知限制的情況下繼續執行。

Microsoft 建議您移至以排程為基礎的 LLAP 自動調整。 您可以透過 Grafana Hive 儀表板分析叢集的目前使用模式。 如需詳細資訊,請參閱自動調整 Azure HDInsight 叢集

VM 主機命名將於 2021 年 7 月 1 日變更

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 此服務正逐漸移轉至 Azure 虛擬機器擴展集。 此移轉將變更叢集主機名稱 FQDN 名稱格式,並且不保證主機名稱中的數字按順序排列。 如果您想要取得每個節點的 FQDN 名稱,請參閱尋找叢集節點的主機名稱

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 此服務將逐漸移轉至 Azure 虛擬機器擴展集。 整個流程可能需要幾個月的時間。 移轉區域和訂用帳戶後,新建立的 HDInsight 叢集將在虛擬機器擴展集上執行,而無需客戶動作。 預計不會發生中斷性變更。

發行日期:2021/3/24

新功能

Spark 3.0 預覽

HDInsight 將 Spark 3.0.0 支援作為預覽功能新增到 HDInsight 4.0。

Kafka 2.4 預覽

HDInsight 將 Kafka 2.4.1 支援作為預覽功能新增到 HDInsight 4.0。

Eav4 系列支援

HDInsight 在此發行版本中已新增 Eav4 系列支援。

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 此服務正逐漸移轉至 Azure 虛擬機器擴展集。 整個流程可能需要幾個月的時間。 移轉區域和訂用帳戶後,新建立的 HDInsight 叢集將在虛擬機器擴展集上執行,而無需客戶動作。 預計不會發生中斷性變更。

棄用

此版本中沒有淘汰。

行為變更

預設叢集版本已變更為 4.0

HDInsight 叢集的預設版本從 3.6 變更為 4.0。 如需可用版本的詳細資訊,請參閱可用的版本。 深入了解 HDInsight 4.0 的新增功能。

預設叢集 VM 大小已變更為 Ev3 系列

預設叢集 VM 大小從 D 系列變更為 Ev3 系列。 此變更適用於前端節點和背景工作角色節點。 為了避免此變更影響您的測試工作流程,請指定要在 ARM 範本中使用的 VM 大小。

在 Azure 虛擬機器擴展集上執行的叢集看不到網路介面資源

HDInsight 正逐漸移轉至 Azure 虛擬機器擴展集。 對於使用 Azure 虛擬機器擴展集的叢集,客戶不再可以看到虛擬機器的網路介面。

即將推出的變更

即將發行的版本中將會發生下列變更。

HDInsight Interactive Query 僅支援以排程為基礎的自動調整

隨著客戶案例變得更加成熟且多樣化,我們已識別 Interactive Query (LLAP) 以負載為基礎自動調整的一些限制。 這些限制是由 LLAP 查詢動態的性質、未來負載預測正確性問題以及 LLAP 排程器任務重新分配中的問題所造成。 由於這些限制,當啟用自動調整時,使用者可能會看到他們的查詢在 LLAP 叢集上執行較慢。 對效能的影響可能超過自動調整的成本效益。

自 2021 年 7 月開始,HDInsight 中的 Interactive Query 工作負載僅支援以排程為基礎的自動調整。 您無法再對新的 Interactive Query 叢集啟用自動調整。 現有正在執行的叢集可在上述已知限制的情況下繼續執行。

Microsoft 建議您移至以排程為基礎的 LLAP 自動調整。 您可以透過 Grafana Hive 儀表板分析叢集的目前使用模式。 如需詳細資訊,請參閱自動調整 Azure HDInsight 叢集

OS 版本升級

HDInsight 叢集目前正在 Ubuntu 16.04 LTS 上執行。 正如 Ubuntu 的發行版本週期所提到, Ubuntu 16.04 核心將於 2021 年 4 月達到生命週期結束 (EOL)。 我們將於 2021 年 5 月開始推出在 Ubuntu 18.04 上執行的新 HDInsight 4.0 叢集映像。 新建立的 HDInsight 4.0 叢集預設會在 Ubuntu 18.04 上執行一次。 Ubuntu 16.04 上的現有叢集將會以完整支援的形式執行。

HDInsight 3.6 將繼續在 Ubuntu 16.04 上執行。 其將於 2021 年 6 月 30 日終止標準支援,並自 2021 年 7 月 1 日開始變更為基本支援。 如需日期和支援選項的詳細資訊,請參閱 Azure HDInsight 版本。 HDInsight 3.6 不支援 Ubuntu 18.04。 如果您想要使用 Ubuntu 18.04,您必須將叢集移轉至 HDInsight 4.0。

如果您想要將現有的叢集移至 Ubuntu 18.04,則需要卸除並重新建立您的叢集。 請計劃在 Ubuntu 18.04 支援可供使用後,建立或重新建立叢集。 新映像在所有區域可供使用後,我們將傳送另一個通知。

強烈建議您提前測試部署在 Ubuntu 18.04 虛擬機器 (VM) 邊緣節點上的指令碼動作和自訂用程式。 您可以在 18.04-LTS 上建立 Ubuntu Linux VM,然後在 VM 上建立並使用安全殼層 (SSH) 金鑰組來執行和測試部署在邊緣節點上的指令碼動作和自訂用程式。

停用 Stardard_A5 VM 大小作為 HDInsight 4.0 的前端節點

HDInsight 叢集前端節點負責初始化和管理叢集。 Standard_A5 VM 大小作為 HDInsight 4.0 的前端節點存有可靠性問題。 從 2021 年 5 月的下一個發行版本開始,客戶將無法使用 Standard_A5 VM 大小作為前端節點建立新叢集。 您可以使用其他雙核心 VM,如 E2_v3 或 E2s_v3。 現有叢集將按原樣執行。 強烈建議前端節點使用 4 核心 VM,以確保生產 HDInsight 叢集的高可用性和可靠性。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

元件版本變更

已新增對 Spark 3.0.0 和 Kafka 2.4.1 作為預覽的支援。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2021/2/05

此發行適用於 HDInsight 3.6 和 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

Dav4 系列支援

HDInsight 在此發行版本中已新增 Dav4 系列支援。 在此處深入了解 Dav4 系列

Kafka REST Proxy GA

Kafka REST Proxy 可讓您使用 REST API 透過 HTTP 與您的 Kafka 叢集互動。 從此發行版本開始,Kafka REST Proxy 正式推出。 在此處深入了解 Kafka REST Proxy

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 此服務正逐漸移轉至 Azure 虛擬機器擴展集。 整個流程可能需要幾個月的時間。 移轉區域和訂用帳戶後,新建立的 HDInsight 叢集將在虛擬機器擴展集上執行,而無需客戶動作。 預計不會發生中斷性變更。

棄用

停用的 VM 大小

自 2021 年 1 月 9 日開始,HDInsight 將封鎖所有客戶使用 standand_A8、standand_A9、standand_A10 和 standand_A11 VM 大小建立叢集。 現有叢集將按原樣執行。 請考慮移至 HDInsight 4.0 以避免潛在的系統/支援中斷。

行為變更

預設叢集 VM 大小變更為 Ev3 系列

預設叢集 VM 大小將從 D 系列變更為 Ev3 系列。 此變更適用於前端節點和背景工作角色節點。 為了避免此變更影響您的測試工作流程,請指定要在 ARM 範本中使用的 VM 大小。

在 Azure 虛擬機器擴展集上執行的叢集看不到網路介面資源

HDInsight 正逐漸移轉至 Azure 虛擬機器擴展集。 對於使用 Azure 虛擬機器擴展集的叢集,客戶不再可以看到虛擬機器的網路介面。

即將推出的變更

即將發行的版本中將會發生下列變更。

預設叢集版本將變更為 4.0

自 2021 年 2 月開始,HDInsight 叢集的預設版本將從 3.6 變更為 4.0。 如需可用版本的詳細資訊,請參閱可用的版本。 深入了解 HDInsight 4.0 的新增功能。

OS 版本升級

HDInsight 正在將 OS 版本從 Ubuntu 16.04 升級至 18.04。 升級將於 2021 年 4 月之前完成。

HDInsight 3.6 於 2021 年 6 月 30 日終止支援

HDInsight 3.6 將終止支援。 自 2021 年 6 月 30 日開始,客戶無法建立新的 HDInsight 3.6 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮移至 HDInsight 4.0 以避免潛在的系統/支援中斷。

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2020/11/18

此發行適用於 HDInsight 3.6 和 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

待用客戶受控金鑰加密的自動金鑰輪替

從此版本開始,客戶可以使用 Azure KeyValut 版本低於加密金鑰 URL 進行待用客戶受控金鑰加密。 HDInsight 將在金鑰過期或取代為新版本時自動輪替金鑰。 如需詳細資訊,請參閱此處

能夠為 Spark、Hadoop 和 ML 服務選擇不同的 Zookeeper 虛擬機器大小

HDInsight 以前不支援為 Spark、Hadoop 和 ML 服務叢集類型自訂 Zookeeper 節點大小。 其預設為免費提供的 A2_v2/A2 虛擬機器大小。 在此版本中,您可以選取最適合您案例的 Zookeeper 虛擬機器大小。 虛擬機器大小不是 A2_v2/A2 的 Zookeeper 節點將予以收取費用。 A2_v2 和 A2 虛擬機器仍免費提供。

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 從此版本開始,此服務將逐漸移轉至 Azure 虛擬機器擴展集。 整個流程可能需要幾個月的時間。 移轉區域和訂用帳戶後,新建立的 HDInsight 叢集將在虛擬機器擴展集上執行,而無需客戶動作。 預計不會發生中斷性變更。

棄用

淘汰 HDInsight 3.6 ML 服務叢集

HDInsight 3.6 ML 服務叢集類型將於 2020 年 12 月 31 日終止支援。 客戶將無法在 2020 年 12 月 31 日之後建立新的 3.6 ML 服務叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請在此處查看 HDInsight 版本和叢集類型的支援到期日。

停用的 VM 大小

自 2020 年 11 月 16 日開始,HDInsight 將封鎖新客戶使用 standand_A8、standand_A9、standand_A10 和 standand_A11 VM 大小建立叢集。 在過去三個月內使用過這些 VM 大小的現有客戶不會受到影響。 自 2021 年 1 月 9 日開始,HDInsight 將封鎖所有客戶使用 standand_A8、standand_A9、standand_A10 和 standand_A11 VM 大小建立叢集。 現有叢集將按原樣執行。 請考慮移至 HDInsight 4.0 以避免潛在的系統/支援中斷。

行為變更

在調整作業之前新增 NSG 規則檢查

HDInsight 已新增網路安全性群組 (NSG) 和使用者定義路由 (UDR) 檢查並進行調整作業。 除了建立叢集外,還對叢集調整進行相同的驗證。 此驗證有助於防止不可預期的錯誤。 如果驗證未通過,則調整失敗。 深入了解如何正確設定 NSG 和 UDR,請參閱 HDInsight 管理 IP 位址

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2020/11/09

此發行適用於 HDInsight 3.6 和 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

HDInsight Identity Broker (HIB) 現已正式發行

HDInsight Identity Broker (HIB),此版本現已正式推出適用於 ESP 叢集的 OAuth 驗證。 在此版本之後建立的 HIB 叢集將具有最新的 HIB 功能:

  • 高可用性 (HA)
  • 支援多重要素驗證 (MFA)
  • 同盟使用者登入時不需要密碼雜湊同步到 AAD-DS 如需詳細資訊,請參閱 HIB 文件

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 從此版本開始,此服務將逐漸移轉至 Azure 虛擬機器擴展集。 整個流程可能需要幾個月的時間。 移轉區域和訂用帳戶後,新建立的 HDInsight 叢集將在虛擬機器擴展集上執行,而無需客戶動作。 預計不會發生中斷性變更。

棄用

淘汰 HDInsight 3.6 ML 服務叢集

HDInsight 3.6 ML 服務叢集類型將於 2020 年 12 月 31 日終止支援。 客戶將不會在 2020 年 12 月 31 日之後建立新的 3.6 ML 服務叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請在此處查看 HDInsight 版本和叢集類型的支援到期日。

停用的 VM 大小

自 2020 年 11 月 16 日開始,HDInsight 將封鎖新客戶使用 standand_A8、standand_A9、standand_A10 和 standand_A11 VM 大小建立叢集。 在過去三個月內使用過這些 VM 大小的現有客戶不會受到影響。 自 2021 年 1 月 9 日開始,HDInsight 將封鎖所有客戶使用 standand_A8、standand_A9、standand_A10 和 standand_A11 VM 大小建立叢集。 現有叢集將按原樣執行。 請考慮移至 HDInsight 4.0 以避免潛在的系統/支援中斷。

行為變更

此發行版本沒有任何行為變更。

即將推出的變更

即將發行的版本中將會發生下列變更。

能夠為 Spark、Hadoop 和 ML 服務選擇不同的 Zookeeper 虛擬機器大小

HDInsight 目前不支援為 Spark、Hadoop 和 ML 服務叢集類型自訂 Zookeeper 節點大小。 其預設為免費提供的 A2_v2/A2 虛擬機器大小。 在即將推出的版本中,您可以選取最適合您案例的 Zookeeper 虛擬機器大小。 虛擬機器大小不是 A2_v2/A2 的 Zookeeper 節點將予以收取費用。 A2_v2 和 A2 虛擬機器仍免費提供。

預設叢集版本將變更為 4.0

自 2021 年 2 月開始,HDInsight 叢集的預設版本將從 3.6 變更為 4.0。 如需可用版本的詳細資訊,請參閱受支援的版本。 深入了解 HDInsight 4.0 的新增功能

HDInsight 3.6 於 2021 年 6 月 30 日終止支援

HDInsight 3.6 將終止支援。 自 2021 年 6 月 30 日開始,客戶無法建立新的 HDInsight 3.6 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮移至 HDInsight 4.0 以避免潛在的系統/支援中斷。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

修正在叢集中重新啟動 VM 的問題

已修正在叢集中重新啟動 VM 的問題,您可以使用 PowerShell 或 REST API 再次重新啟動叢集中的節點

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2020/10/08

此發行適用於 HDInsight 3.6 和 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

HDInsight 現在支援在預覽中建立無公用 IP 和私人連結存取叢集的叢集。 客戶可以使用新的進階網路設定建立無公用 IP 的完全隔離叢集,並使用自己的私人端點存取叢集。

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 從此版本開始,此服務將逐漸移轉至 Azure 虛擬機器擴展集。 整個流程可能需要幾個月的時間。 移轉區域和訂用帳戶後,新建立的 HDInsight 叢集將在虛擬機器擴展集上執行,而無需客戶動作。 預計不會發生中斷性變更。

棄用

淘汰 HDInsight 3.6 ML 服務叢集

HDInsight 3.6 ML 服務叢集類型將於 2020 年 12 月 31 日終止支援。 此後,客戶將不會建立新的 3.6 ML 服務叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請在此處查看 HDInsight 版本和叢集類型的支援到期日。

行為變更

此發行版本沒有任何行為變更。

即將推出的變更

即將發行的版本中將會發生下列變更。

能夠為 Spark、Hadoop 和 ML 服務選擇不同的 Zookeeper 虛擬機器大小

HDInsight 目前不支援為 Spark、Hadoop 和 ML 服務叢集類型自訂 Zookeeper 節點大小。 其預設為免費提供的 A2_v2/A2 虛擬機器大小。 在即將推出的版本中,您可以選取最適合您案例的 Zookeeper 虛擬機器大小。 虛擬機器大小不是 A2_v2/A2 的 Zookeeper 節點將予以收取費用。 A2_v2 和 A2 虛擬機器仍免費提供。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2020/9/28

此發行適用於 HDInsight 3.6 和 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

使用 HDInsight 4.0 自動調整 Interactive Query 現已正式推出

HDInsight 4.0 現已推出 (GA) Interactive Query 叢集類型的自動調整功能。 2020 年 8 月 27 日之後建立的所有 Interactive Query 4.0 叢集將有自動調整的 GA 支援。

HBase 叢集支援進階 ADLS Gen2

HDInsight 現在支援進階 ADLS Gen2 作為 HDInsight HBase 3.6 和 4.0 叢集的主要儲存體帳戶。 搭配加速寫入,您可以為 HBase 叢集取得更好的效能。

Azure 容錯網域上的 Kafka 分割散發

容錯網域是 Azure 資料中心內基礎硬體的邏輯群組。 每個容錯網域會共用通用電源和網路交換器。 在 HDInsight 之前,Kafka 可能會將所有分割區複本儲存在相同的容錯網域中。 從此版本開始,HDInsight 現在支援根據 Azure 容錯網域自動散發 Kafka 分割。

傳輸中加密

客戶可以使用帶有平台代控金鑰的 IPSec 加密在叢集節點之間啟用加密。 此選項可以在叢集建立時啟用。 請參閱如何啟用傳輸中加密的詳細資訊。

主機上的加密

當您啟用主機上的加密時,儲存在 VM 主機上的資料會在待用時加密,並將流量加密至儲存體服務。 從此版本開始,您可以在建立叢集時,於臨時資料磁碟上的主機上啟用加密。 主機加密僅在有限區域中的某些 VM SKU 上受支援。 HDInsight 支援以下節點設定和 SKU。 請參閱如何啟用主機上的加密詳細資訊。

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 從此版本開始,此服務將逐漸移轉至 Azure 虛擬機器擴展集。 整個流程可能需要幾個月的時間。 移轉區域和訂用帳戶後,新建立的 HDInsight 叢集將在虛擬機器擴展集上執行,而無需客戶動作。 預計不會發生中斷性變更。

棄用

此發行版本沒有淘汰任何功能。

行為變更

此發行版本沒有任何行為變更。

即將推出的變更

即將發行的版本中將會發生下列變更。

能夠為 Spark、Hadoop 和 ML 服務選取不同的 Zookeeper SKU

HDInsight 目前不支援為 Spark、Hadoop 和 ML 服務叢集類型變更 Zookeeper SKU。 其會針對 Zookeeper 節點使用 A2_v2/A2 SKU,並且不向客戶收費。 在即將推出的版本中,客戶可以視需要變更 Spark、Hadoop 和 ML 服務的 Zookeeper SKU。 SKU 不是 A2_v2/A2 的 Zookeeper 節點將予以收費。 預設 SKU 仍是 A2_V2/A2 且是免費的。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2020/8/09

此發行版本僅適用於 HDInsight 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

支援 SparkCruise

SparkCruise 是 Spark 的自動計算重複使用系統。 其根據過去的查詢工作負載選取要具體化的通用子運算式。 SparkCruise 將這些子運算式具體化為查詢處理的一部分,並在背景中自動套用計算重複使用。 您可以從 SparkCruise 中受益,而無需對 Spark 程式碼進行任何修改。

支援 HDInsight 4.0 的 Hive 檢視

Apache Ambari Hive 檢視旨在協助您從 Web 瀏覽器撰寫、最佳化和執行 Hive 查詢。 從此版本開始,HDInsight 4.0 叢集原生支援 Hive 檢視。 其不適用於現有的叢集。 您需要卸除並重新建立叢集以取得內建 Hive 檢視。

支援 HDInsight 4.0 的 Tez 檢視

Apache Tez 檢視用於追蹤和偵錯 Hive Tez 工作的執行。 從此版本開始,HDInsight 4.0 原生支援 Tez 檢視。 其不適用於現有的叢集。 您需要卸除並重新建立叢集以取得內建 Tez 檢視。

棄用

淘汰 HDInsight 3.6 Spark 叢集中的 Spark 2.1 與 2.2

自 2020 年 7 月 1 日開始,客戶不能在 HDInsight 3.6 上使用 Spark 2.1 和 2.2 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 3.6 上移至 Spark 2.3,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Spark 叢集中的 Spark 2.3 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶不能在 HDInsight 4.0 上使用 Spark 2.3 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Spark 2.4,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Kafka 叢集中的 Kafka 1.1 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶無法在 HDInsight 4.0 上使用 Kafka 1.1 建立新的 Kafka 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Kafka 2.1,以避免潛在的系統/支援中斷。

行為變更

Ambari 堆疊版本變更

在此版本中,Ambari 版本會從 2.x.x.x 變更為 4.1。 您可以在 Ambari:Ambari > 使用者 > 版本中驗證堆疊版本 (HDInsight 4.1)。

即將推出的變更

沒有您需要注意即將發生的中斷性變更。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

下列 JIRA 已針對 Hive 向下移植:

下列 JIRA 已針對 HBase 向下移植:

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

已知問題

已修正 Azure 入口網站中的問題,在此問題中,使用者在使用 SSH 驗證類型的公開金鑰建立 Azure HDInsight 叢集時會遇到錯誤。 當使用者按一下 [檢閱 + 建立] 時,會收到「不得包含來自 SSH 使用者名稱的任何三個連續字元」錯誤。已修正此問題,但您可能需要按下 CTRL + F5 來載入更正的檢視,以重新整理瀏覽器快取。 此問題的因應措施是使用 ARM 範本建立叢集。

發行日期:2020/7/13

此發行適用於 HDInsight 3.6 和 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

支援 Microsoft Azure 的客戶加密箱

Azure HDInsight 現在支援 Azure 客戶加密箱。 其為客戶提供檢閱及核准或拒絕客戶資料存取要求的介面。 當 Microsoft 工程師必須於支援要求期間存取客戶資料時,便會使用此功能。 如需詳細資訊,請參閱 Microsoft Azure 的客戶加密箱

儲存體的服務端點原則

客戶現在可以在 HDInsight 叢集子網路上使用服務端點原則 (SEP)。 深入了解 Azure 服務端點原則

棄用

淘汰 HDInsight 3.6 Spark 叢集中的 Spark 2.1 與 2.2

自 2020 年 7 月 1 日開始,客戶不能在 HDInsight 3.6 上使用 Spark 2.1 和 2.2 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 3.6 上移至 Spark 2.3,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Spark 叢集中的 Spark 2.3 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶不能在 HDInsight 4.0 上使用 Spark 2.3 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Spark 2.4,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Kafka 叢集中的 Kafka 1.1 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶無法在 HDInsight 4.0 上使用 Kafka 1.1 建立新的 Kafka 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Kafka 2.1,以避免潛在的系統/支援中斷。

行為變更

您無需注意任何行為變更。

即將推出的變更

即將發行的版本中將會發生下列變更。

能夠為 Spark、Hadoop 和 ML 服務選取不同的 Zookeeper SKU

HDInsight 目前不支援為 Spark、Hadoop 和 ML 服務叢集類型變更 Zookeeper SKU。 其會針對 Zookeeper 節點使用 A2_v2/A2 SKU,並且不向客戶收費。 在即將推出的版本中,客戶將能夠視需要變更 Spark、Hadoop 和 ML 服務的 Zookeeper SKU。 SKU 不是 A2_v2/A2 的 Zookeeper 節點將予以收費。 預設 SKU 仍是 A2_V2/A2 且是免費的。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

已修正 Hive Warehouse Connector 問題

在先前的版本中存在 Hive Warehouse 連接器可用性問題。 已修正此問題。

已修正 Zeppelin 筆記本截斷前置零的問題

Zeppelin 錯誤地截斷字串格式的表格輸出中的前置零。 我們已在此版本中修正問題。

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此文件中尋找 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2020/6/11

此發行適用於 HDInsight 3.6 和 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

移至 Azure 虛擬機器擴展集

HDInsight 現在使用 Azure 虛擬機器來佈建叢集。 從此版本開始,新建立的 HDInsight 叢集開始使用 Azure 虛擬機器擴展集。 此變更會逐漸推出。 您不應該期望有中斷性變更。 深入了解 Azure 虛擬機器擴展集

重新啟動 HDInsight 叢集中的 VM

在此版本中,我們支援在 HDInsight 叢集中重新啟動 VM 以重新啟動沒有回應的節點。 目前,您只能透過 API、PowerShell 和 CLI 支援來執行此操作。 如需有關此 API 的詳細資訊,請參閱此文件

棄用

淘汰 HDInsight 3.6 Spark 叢集中的 Spark 2.1 與 2.2

自 2020 年 7 月 1 日開始,客戶不能在 HDInsight 3.6 上使用 Spark 2.1 和 2.2 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 3.6 上移至 Spark 2.3,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Spark 叢集中的 Spark 2.3 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶不能在 HDInsight 4.0 上使用 Spark 2.3 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Spark 2.4,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Kafka 叢集中的 Kafka 1.1 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶無法在 HDInsight 4.0 上使用 Kafka 1.1 建立新的 Kafka 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Kafka 2.1,以避免潛在的系統/支援中斷。

行為變更

ESP Spark 叢集前端節點大小變更

ESP Spark 叢集允許的最小前端節點大小變更為 Standard_D13_V2。 由於 CPU 和記憶體容量相對較低,作為前端節點的核心和記憶體較低的 VM 可能會導致 ESP 叢集問題。 從發行版本開始,使用高於 Standard_D13_V2 和 Standard_E16_V3 的 SKU 作為 ESP Spark 叢集的前端節點。

前端節點必須至少有 4 核心 VM

前端節點必須至少有 4 核心 VM,才能確保 HDInsight 叢集的高可用性和可靠性。 自 2020 年 4 月 6 日起,客戶只能選擇 4 核心或以上的 VM 作為新 HDInsight 叢集的前端節點。 現有的叢集將會如預期般繼續執行。

叢集背景工作角色節點佈建變更

當 80% 的背景工作角色節點準備就緒時,叢集進入作業階段。 在此階段,客戶可以執行所有資料平面作業,如執行指令碼和工作。 但客戶無法執行任何控制平面作業,如放大/縮小。 僅支援刪除。

作業階段之後,叢集會再等候 60 分鐘以等待剩餘 20% 的背景工作角色節點。 在此 60 分鐘期間結束時,叢集會移動至執行階段,即使所有背景工作節點仍然不可使用。 一旦叢集進入執行階段,您就可以如常使用。 已接受控制方案作業 (如放大/縮小) 和資料方案作業 (如執行指令碼和工作)。 如果某些要求的背景工作角色節點不可使用,則叢集將標記為部分成功。 您需要為成功部署的節點付費。

透過 HDInsight 建立新的服務主體

先前,透過建立叢集,客戶可以建立新的服務主體來存取 Azure 入口網站中已連接的 ADLS Gen 1 帳戶。 自 2020 年 6 月 15 日開始,無法在 HDInsight 建立工作流程中建立新的服務主體,僅支援現有的服務主體。 請參閱使用 Azure Active Directory 建立服務主體和證書

叢集建立的指令碼動作逾時

HDInsight 支援透過叢集建立執行指令碼動作。 在此版本中,所有叢集建立的指令碼動作必須在 60 分鐘內完成,否則將逾時。提交至執行中叢集的指令碼動作不會受到影響。 如需詳細資訊,請參閱此處

即將推出的變更

沒有您需要注意即將發生的中斷性變更。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

元件版本變更

HBase 2.0 升級至 2.1.6

HBase 版本從 2.0 升級至 2.1.6。

Spark 2.4.0 升級至 2.4.4

Spark 版本從 2.4.0 升級至 2.4.4。

Kafka 2.1.0 升級至 2.1.1

Kafka 版本從 2.1.0 升級至 2.1.1。

您可以在此文件中尋找 HDInsight 4.0 廣告 HDInsight 3.6 的目前元件版本

已知問題

Hive Warehouse Connector 問題

此版本中的 Hive Warehouse Connector 存在問題。 此修正將包含在下一個發行版本中。 在此版本之前建立的現有叢集不受影響。 請盡可能避免卸除和重新建立叢集。 如需要進一步的說明,請開啟支援票證。

發行日期:01/09/2020

此發行適用於 HDInsight 3.6 和 4.0。 在數天內,所有區域都可以使用 HDInsight 發行版本。 此處的發行日期為第一個區域發行日期。 如果您沒有看到下列變更,請稍做等待,幾天後將在您的區域發行。

新功能

TLS 1.2 強制執行

傳輸層安全性 (TLS) 和安全通訊端層 (SSL) 是密碼編譯通訊協定,可透過電腦網路提供通訊安全性。 進一步了解 TLS。 HDInsight 在公用 HTTP 端點上使用 TLS 1.2,但仍支援 TLS 1.1 以提供回溯相容性。

在此發行版本中,客戶只能對所有透過公用叢集端點的連線加入宣告 TLS 1.2。 為了支援這一點,引進 了新的屬性 minSupportedTlsVersion,並可在叢集建立期間指定。 如未設定此屬性,叢集仍然支援 TLS 1.0、1.1 和 1.2,如同目前的行為。 客戶可以將此屬性的值設定為 "1.2",這表示叢集僅支援 TLS 1.2 和更新版本。 如需詳細資訊,請參閱傳輸層安全性

攜帶您自己的金鑰進行磁碟加密

HDInsight 中的所有受控磁碟都會使用 Azure 儲存體服務加密 (SSE) 來加以保護。 根據預設,這些磁碟上的資料會使用 Microsoft 所管理的金鑰來加密。 從這個發行版本開始,您可以攜帶您自己的金鑰 (BYOK) 進行磁碟加密,並使用 Azure Key Vault 管理它。 BYOK 加密是單步驟設定,可在叢集建立期間免費進行。 只要使用 Azure Key Vault 將 HDInsight 註冊為受控識別,並在建立叢集時新增加密金鑰即可。 如需詳細資訊,請參閱客戶管理的金鑰磁碟加密

棄用

此發行版本沒有淘汰任何功能。 若要為近期將發生的淘汰做準備,請參閱即將推出的變更

行為變更

此發行版本沒有任何行為變更。 若要為近期將發生的變更做準備,請參閱即將推出的變更

即將推出的變更

即將發行的版本中將會發生下列變更。

淘汰 HDInsight 3.6 Spark 叢集中的 Spark 2.1 與 2.2

自 2020 年 7 月 1 日開始,客戶無法在 HDInsight 3.6 上使用 Spark 2.1 與 2.2 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 3.6 上移至 Spark 2.3,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Spark 叢集中的 Spark 2.3 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶無法在 HDInsight 4.0 上使用 Spark 2.3 建立新的 Spark 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Spark 2.4,以避免潛在的系統/支援中斷。

淘汰 HDInsight 4.0 Kafka 叢集中的 Kafka 1.1 \(部分機器翻譯\)

自 2020 年 7 月 1 日開始,客戶無法在 HDInsight 4.0 上使用 Kafka 1.1 建立新的 Kafka 叢集。 現有的叢集將會以現狀執行,不再有 Microsoft 支援。 請考慮在 2020 年 6 月 30 日前於 HDInsight 4.0 上移至 Kafka 2.1,以避免潛在的系統/支援中斷。 如需更多資訊,請參閱將 Apache Kafka 工作負載遷移至 Azure HDInsight 4.0

HBase 2.0 升級至 2.1.6

在即將推出的 HDInsight 4.0 發行版本中,HBase 版本將從 2.0 版升級至2.1.6。

Spark 2.4.0 升級至 2.4.4

在即將推出的 HDInsight 4.0 發行版本中,Spark 版本將從 2.4.0 版升級至2.4.4。

Kafka 2.1.0 升級至 2.1.1

在即將推出的 HDInsight 4.0 發行版本中,Kafka 版本將從 2.1.0 版升級至2.1.1。

前端節點必須至少有 4 核心 VM

前端節點必須至少有 4 核心 VM,才能確保 HDInsight 叢集的高可用性和可靠性。 自 2020 年 4 月 6 日起,客戶只能選擇 4 核心或以上的 VM 作為新 HDInsight 叢集的前端節點。 現有的叢集將會如預期般繼續執行。

ESP Spark 叢集節點大小變更

在即將推出的發行版本中,ESP Spark 叢集允許的最小節點大小會變更為 Standard_D13_V2。 A 系列 VM 因為 CPU 和記憶體容量相對較低,可能會造成 ESP 叢集問題。 未來將無法再使用 A 系列 VM建立新的 ESP 叢集。

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 在即將推出的發行版本中,HDInsight 會改為使用 Azure 虛擬機器擴展集。 請深入了解 Azure 虛擬機器擴展集。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在這裡找到 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2019/12/17

此發行適用於 HDInsight 3.6 和 4.0。

新功能

服務標籤

服務標籤讓您能夠輕鬆限制對 Azure 服務的網路存取,從而簡化 Azure 虛擬機器和 Azure 虛擬網路的安全性。 您可以在網路安全性群組 (NSG) 規則中使用服務標籤來允許或拒絕特定 Azure 服務的全域或每個 Azure 區域的流量。 Azure 提供對每個標籤下的 IP 位址維護。 網路安全性群組 (NSG) 的 HDInsight 服務標籤是健康情況和管理服務的 IP 位址群組。 這些群組有助於將建立安全性規則的複雜度降到最低。 HDInsight 客戶可以透過 Azure 入口網站、PowerShell 和 REST API 啟用服務標籤。 如需詳細資訊,請參閱 Azure HDInsight 的網路安全性群組 (NSG) 服務標記

自訂 Ambari DB

HDInsight 現在允許您使用自己的 SQL DB for Apache Ambari。 您可以從 Azure 入口網站或透過 Resource Manager 範本設定此自訂 Ambari DB。 此功能允許您根據您的處理和容量需求選擇正確的 SQL DB。 您還可以輕鬆地升級以符合業務成長需求。 如需詳細資訊,請參閱使用自訂 Ambari DB 設定 HDInsight 叢集

自訂Ambari DB。

棄用

此發行版本沒有淘汰任何功能。 若要為近期將發生的淘汰做準備,請參閱即將推出的變更

行為變更

此發行版本沒有任何行為變更。 若要為近期將發生的行為變更做準備,請參閱即將推出的變更

即將推出的變更

即將發行的版本中將會發生下列變更。

傳輸層安全性 (TLS) 1.2 強制執行

傳輸層安全性 (TLS) 和安全通訊端層 (SSL) 是密碼編譯通訊協定,可透過電腦網路提供通訊安全性。 如需詳細資訊,請參閱傳輸層安全性。 雖然 Azure HDInsight 叢集在公用 HTTPS 端點上接受 TLS 1.2 連接,但仍支援 TLS 1.1 與舊版用戶端的回溯相容性。

從下一個版本開始,您將能夠選擇加入並將新的 HDInsight 叢集設定為僅接受 TLS 1.2 連接。

今年晚些時候,自 2020 年 6 月 30 日開始,Azure HDInsight 將對所有 HTTPS 連接強制執行 TLS 1.2 或更新版本。 建議您確保所有用戶端都已準備好使用 TLS 1.2 或更新版本。

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 自 2020 年 2 月開始 (具體日期將稍後通知),HDInsight 將使用 Azure 虛擬機器擴展集。 深入了解 Azure 虛擬機器擴展集

ESP Spark 叢集節點大小變更

在即將推出的版本中:

  • ESP Spark 叢集允許的最小節點大小將變更為 Standard_D13_V2。
  • A 系列 VM 將遭到取代以建立新的 ESP 叢集,因為 A 系列 VM 由於 CPU 和記憶體容量相對較低,可能會導致 ESP 叢集問題。

HBase 2.0 升級至 2.1

在即將推出的 HDInsight 4.0 發行版本中,HBase 版本將從 2.0 版升級至 2.1。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

元件版本變更

我們已將 HDInsight 3.6 支援延期至 2020 年 12 月 31 日。 您可以在受支援的 HDInsight 版本中找到更多詳細資訊。

HDInsight 4.0 沒有任何元件版本變更。

HDInsight 3.6 上的 Apache Zeppelin:0.7.0-->0.7.3。

您可以從此文件中找到最新的元件版本。

新區域

阿拉伯聯合大公國北部

阿拉伯聯合大公國北部的管理 IP 為:65.52.252.9665.52.252.97

發行日期:2019/11/07

此發行適用於 HDInsight 3.6 和 4.0。

新功能

HDInsight Identity Broker (HIB) (預覽)

HDInsight Identity Broker (HIB) 可讓使用者使用多重要素驗證 (MFA) 登入 Apache Ambari,並取得所需的 Kerberos 票證,而無需在 Azure Active Directory Domain Services (AAD-DS) 中進行密碼雜湊。 目前 HIB 僅適用於透過 Azure Resource Management (ARM) 範本部署的叢集。

Kafka REST API Proxy (預覽)

Kafka REST API Proxy 透過安全的 Azure AD 授權和 OAuth 通訊協定,藉由 Kafka 叢集提供高可用性 REST Proxy 的一鍵式部署。

自動調整規模

Azure HDInsight 的自動調整現已正式推出,適用於 Apache Spark 和 Hadoop 叢集類型的所有區域。 此功能可讓您以更有成本效益且更具生產力的方式管理巨量資料分析工作負載。 現在您可以最佳化 HDInsight 叢集的使用,並且只需為您需要的部分付費。

視您的需求而定,您可以在負載式自動調整與排程式自動調整之間進行選擇。 以負載為基礎的自動調整可以根據目前的資源需求上下調整叢集大小,而以排程為基礎的自動調整可以根據預先定義的排程變更叢集大小。

針對 HBase 和 LLAP 工作負載的自動調整支援也是公開預覽。 如需詳細資訊,請參閱自動調整 Azure HDInsight 叢集

適用於 Apache HBase 的 HDInsight 加速寫入

加速寫入會使用 Azure 高階 SSD 受控磁碟來改善 Apache HBase 預寫記錄檔 (WAL) 的效能。 如需詳細資訊,請參閱適用於 Apache HBase 的 Azure HDInsight 加速寫入

自訂 Ambari DB

HDInsight 現在提供新的容量,讓客戶能夠使用自己的 SQL DB for Ambari。 現在,客戶可以選擇正確的 SQL DB for Ambari,並根據自己的業務成長需求輕鬆升級。 部署是使用 Azure Resource Manager 範本來完成。 如需詳細資訊,請參閱使用自訂 Ambari DB 設定 HDInsight 叢集

F 系列虛擬機器現在可與 HDInsight 搭配使用

F 系列虛擬機器 (VM) 是開始使用 HDInsight 與輕量處理需求的絕佳選擇。 F 系列的每小時訂價較低,在 Azure 產品組合中,就每一 vCPU 的「Azure 計算單位」(ACU) 而言,具有最佳的價格/性能比表現。 如需詳細資訊,請參閱為 Azure HDInsight 叢集選取正確的 VM 大小

棄用

G 系列虛擬機器淘汰

從此版本開始,HDInsight 不再提供 G 系列 VM。

Dv1 系列虛擬機器淘汰

從此版本開始,已淘汰搭配 HDInsight 使用的 Dv1 VM。 Dv1 的任何客戶要求都將自動透過 Dv2 提供。 Dv1Dv2 VM 之間沒有價格差異。

行為變更

叢集受控磁碟大小變更

HDInsight 會提供叢集給受控磁碟空間。 從此版本開始,新建立叢集中每個節點的受管磁碟大小會變更為 128 GB。

即將推出的變更

即將發行的版本中將會發生下列變更。

移至 Azure 虛擬機器擴展集

HDInsight 現在會使用 Azure 虛擬機器來佈建叢集。 自 12 月開始,HDInsight 會改為使用 Azure 虛擬機器擴展集。 深入了解 Azure 虛擬機器擴展集

HBase 2.0 升級至 2.1

在即將推出的 HDInsight 4.0 發行版本中,HBase 版本將從 2.0 版升級至 2.1。

ESP 叢集的 A 系列虛擬機器淘汰

A 系列 VM 由於 CPU 和記憶體容量相對較低,可能會造成 ESP 叢集問題。 在即將推出的版本中,將取代 A 系列 VM 建立新的 ESP 叢集。

錯誤修正

HDInsight 會持續改善叢集的可靠性和效能。

元件版本變更

此發行版本沒有任何元件版本變更。 您可以在此處找到 HDInsight 4.0 和 HDInsight 3.6 的目前元件版本。

發行日期:2019/8/07

元件版本

下列指定所有 HDInsight 4.0 元件的正式 Apache 版本。 列出的元件是可用的最新穩定版本的發行版本。

  • Apache Ambari 2.7.1
  • Apache Hadoop 3.1.1
  • Apache HBase 2.0.0
  • Apache Hive 3.1.0
  • Apache Kafka 1.1.1、2.1.0
  • Apache Mahout 0.9.0+
  • Apache Oozie 4.2.0
  • Apache Phoenix 4.7.0
  • Apache Pig 0.16.0
  • Apache Ranger 0.7.0
  • Apache Slider 0.92.0
  • Apache Spark 2.3.1、2.4.0
  • Apache Sqoop 1.4.7
  • Apache TEZ 0.9.1
  • Apache Zeppelin 0.8.0
  • Apache ZooKeeper 3.4.6

除了上面所列版本外,HDP 發佈中有時會有配套的 Apache 元件更新版本。 在此情況下,這些更新版本會列在「技術預覽」資料表中,且不應該在生產環境中取代上述清單中的 Apache 元件版本。

Apache 修補程式資訊

如需 HDInsight 4.0 中可用修補檔的詳細資訊,請參閱下列表格中每個產品的修補檔清單。

產品名稱 修補檔資訊
Ambari Ambari 修補檔資訊
Hadoop Hadoop 修補檔資訊
hbase HBase 修補檔資訊
Hive 此版本提供不含其他 Apache 修補檔的 Hive 3.1.0。
Kafka 此版本提供不含其他 Apache 修補檔的 Kafka 1.1.1。
Oozie Oozie 修補檔資訊
Phoenix Phoenix 修補檔資訊
Pig Pig 修補檔資訊
Ranger Ranger 修補檔資訊
Spark Spark 修補檔資訊
Sqoop 此版本提供不含其他 Apache 修補檔的 Sqoop 1.4.7。
Tez 此版本提供不含其他 Apache 修補檔的 Tez 0.9.1。
Zeppelin 此版本提供不含其他 Apache 修補檔的 Zeppelin 0.8.0。
Zookeeper Zookeeper 修補檔資訊

修正常見弱點與漏洞

如需此版本所解決之安全性問題的詳細資訊,請參閱 Hortonworks 的已修正 HDP 3.0.1 常見弱點與漏洞

已知問題

預設安裝的安全 HBase 複寫已中斷

針對 HDInsight 4.0,請執行以下步驟:

  1. 啟用叢集間通訊。

  2. 登入作用中的前端節點。

  3. 下載指令碼以使用以下命令啟用複寫:

    sudo wget https://raw.githubusercontent.com/Azure/hbase-utils/master/replication/hdi_enable_replication.sh
    
  4. 鍵入 sudo kinit <domainuser> 命令。

  5. 輸入以下命令來執行指令碼:

    sudo bash hdi_enable_replication.sh -m <hn*> -s <srclusterdns> -d <dstclusterdns> -sp <srcclusterpasswd> -dp <dstclusterpasswd> -copydata
    

若為 HDInsight 3.6

  1. 登入作用中的 HMaster ZK。

  2. 下載指令碼以使用以下命令啟用複寫:

    sudo wget https://raw.githubusercontent.com/Azure/hbase-utils/master/replication/hdi_enable_replication.sh
    
  3. 鍵入 sudo kinit -k -t /etc/security/keytabs/hbase.service.keytab hbase/<FQDN>@<DOMAIN> 命令。

  4. 輸入以下命令:

    sudo bash hdi_enable_replication.sh -s <srclusterdns> -d <dstclusterdns> -sp <srcclusterpasswd> -dp <dstclusterpasswd> -copydata
    

Phoenix Sqlline 在將 HBase 叢集移轉到 HDInsight 4.0 後停止運作

執行下列步驟:

  1. 卸除下列 Phoenix 資料表:
    1. SYSTEM.FUNCTION
    2. SYSTEM.SEQUENCE
    3. SYSTEM.STATS
    4. SYSTEM.MUTEX
    5. SYSTEM.CATALOG
  2. 如果無法刪除任何資料表,請重新啟動 HBase 以清除與資料表的任何連接。
  3. 請再次執行 sqlline.py。 Phoenix 將重新建立步驟 1 中刪除的所有資料表。
  4. 為 HBase 資料重新產生 Phoenix 資料表和檢視。

Phoenix Sqlline 在將 HBase Phoenix 中繼資料從 HDInsight 3.6 複寫到 4.0 後停止運作

執行下列步驟:

  1. 執行複寫之前,請移至目的地 4.0 叢集並執行 sqlline.py。 此命令將產生僅存在於 4.0 中的 Phoenix 資料表,例如 SYSTEM.MUTEXSYSTEM.LOG
  2. 卸除以下資料表:
    1. SYSTEM.FUNCTION
    2. SYSTEM.SEQUENCE
    3. SYSTEM.STATS
    4. SYSTEM.CATALOG
  3. 啟動 HBase 複寫

棄用

Apache Storm 和 ML 服務在 HDInsight 4.0 中不可使用。

發行日期:2019/4/14

新功能

新的更新和功能分為以下幾類:

  • 更新 Hadoop 和其他開放原始碼專案 – 除了 20 多個開放原始碼專案中的 1000 多個錯誤 (bug) 修復外,此更新還包含新版的 Spark (2.3)Kafka (1.0)

    a. Apache Spark 2.3 的新功能

    b. Apache Kafka 1.0 的新功能

  • 將 R Server 9.1 更新為機器學習服務 9.3 – 在此版本中,我們為資料科學家和工程師提供最佳的增強式開放原始碼及演算法創新,而且作業方便,這些全部都以他們的偏好語言和 Apache Spark 的速度提供。 此版本擴展 R Server 中提供的功能,並進一步支援 Python,因而將叢集名稱從 R Server 改為 ML 服務。

  • 支援 Azure Data Lake Storage Gen2 – HDInsight 將支援 Azure Data Lake Storage Gen2 的預覽版本。 在可用區域中,客戶能夠選擇 ADLS Gen2 帳戶作為其 HDInsight 叢集的主要或次要存放區。

  • HDInsight 企業安全性套件更新 (預覽) – (預覽) 虛擬網路服務端點支援 Azure Blob 儲存體、ADLS Gen1、Azure Cosmos DB 及 Azure DB。

元件版本

HDInsight 3.6 所有元件的官方 Apache 版本列示如下。 此處所列的元件都是最新可用穩定版本的官方 Apache 版本。

  • Apache Hadoop 2.7.3

  • Apache HBase 1.1.2

  • Apache Hive 1.2.1

  • Apache Hive 2.1.0

  • Apache Kafka 1.0.0

  • Apache Mahout 0.9.0+

  • Apache Oozie 4.2.0

  • Apache Phoenix 4.7.0

  • Apache Pig 0.16.0

  • Apache Ranger 0.7.0

  • Apache Slider 0.92.0

  • Apache Spark 2.2.0/2.3.0

  • Apache Sqoop 1.4.6

  • Apache Storm 1.1.0

  • Apache TEZ 0.7.0

  • Apache Zeppelin 0.7.3

  • Apache ZooKeeper 3.4.6

除了上面所列版本外,HDP 發佈中有時會有一些配套的 Apache 元件更新版本。 在此情況下,這些更新版本會列在「技術預覽」資料表中,且不應該在生產環境中取代上述清單中的 Apache 元件版本。

Apache 修補程式資訊

Hadoop

此版本提供 Hadoop Common 2.7.3 和下列 Apache 修補程式:

  • HADOOP-13190:會在 KMS HA 文件中提及 LoadBalancingKMSClientProvider。

  • HADOOP-13227:AsyncCallHandler 應該使用事件導向架構來處理非同步呼叫。

  • HADOOP-14104:用戶端應該一律向 namenode 要求 kms 提供者路徑。

  • HADOOP-14799:將 nimbus-jose-jwt 更新為 4.41.1。

  • HADOOP-14814:將 FsServerDefaults 上的不相容 API 變更修正為 HADOOP-14104。

  • HADOOP-14903:將 json-smart 明確新增至 pom.xml。

  • HADOOP-15042:Azure PageBlobInputStream.skip() 可在 numberOfPagesRemaining 為 0 時傳回負值。

  • HADOOP-15255:可對 LdapGroupsMapping 中的群組名稱支援大小寫轉換。

  • HADOOP-15265:從 hadoop-auth pom.xml 中明確排除 json-smart。

  • HDFS-7922:ShortCircuitCache#close 不會釋出 ScheduledThreadPoolExecutors。

  • HDFS-8496:在保有 FSDatasetImpl 鎖定的情況下呼叫 stopWriter(),可能會封鎖其他執行緒 (cmccabe)。

  • HDFS-10267:針對 FsDatasetImpl#recoverAppend 和 FsDatasetImpl#recoverClose 的額外「同步處理」。

  • HDFS-10489:取代 HDFS 加密區域的 dfs.encryption.key.provider.uri。

  • HDFS-11384:新增選項供平衡器分散 getBlocks 呼叫,以避免 NameNode 的 rpc.CallQueueLength 突然增加。

  • HDFS-11689DFSClient%isHDFSEncryptionEnabled 擲回的新例外狀況會中斷 hacky hive 程式碼。

  • HDFS-11711:DN 不應刪除針對「開啟太多檔案」例外狀況的封鎖。

  • HDFS-12347:TestBalancerRPCDelay#testBalancerRPCDelay 頻繁失敗。

  • HDFS-12781:在 Datanode 關閉之後,在 Namenode UI Datanode 索引標籤中擲回警告訊息。

  • HDFS-13054:處理 DFSClient 刪除呼叫中的 PathIsNotEmptyDirectoryException。

  • HDFS-13120:快照集差異可能會在 concat 之後損毀。

  • YARN-3742:如果 ZKClient 建立逾時,YARN RM 將會關閉。

  • YARN-6061:為 RM 中的重要執行緒新增 UncaughtExceptionHandler。

  • YARN-7558:如果啟用 UI 驗證,yarn logs 命令將無法取得執行中容器的記錄。

  • YARN-7697:即使記錄彙總已完成,仍無法擷取已完成應用程式的記錄。

HDP 2.6.4 提供了 Hadoop Common 2.7.3 和下列 Apache 修補程式:

  • HADOOP-13700:從 TrashPolicy#initialize 和 #getInstance 簽章中移除取消擲回 IOException

  • HADOOP-13709:能夠在處理序存在時清除由殼層繁衍的子處理序。

  • HADOOP-14059s3a 重新命名 (self、subdir) 錯誤訊息中的錯字。

  • HADOOP-14542:新增會接受 slf4j 記錄器 API 的 IOUtils.cleanupWithLogger。

  • HDFS-9887:WebHdfs 通訊端逾時應該是可設定的。

  • HDFS-9914:修正可設定的 WebhDFS 連線/讀取逾時。

  • MAPREDUCE-6698:增加 TestUnnecessaryBlockingOnHist oryFileInfo.testTwoThreadsQueryingDifferentJobOfSameUser 的逾時。

  • YARN-4550:TestContainerLanch 中的某些測試未能在非英文地區設定的環境中進行。

  • YARN-4717:TestResourceLocalizationService.testPublicResourceInitializesLocalDir 間歇性地失敗,因為清除時產生 IllegalArgumentException。

  • YARN-5042:以唯讀掛接的形式將 /sys/fs/cgroup 掛接到 Docker 容器。

  • YARN-5318:修正 TestRMAdminService#te stRefreshNodesResourceWithFileSystemBasedConfigurationProvider 的間歇性測試失敗。

  • YARN-5641:容器完成後,當地語系化工具會留下 tarball。

  • YARN-6004:重構 TestResourceLocalizationService#testDownloadingResourcesOnContainer,使其少於 150 行。

  • YARN-6078:容器會卡在當地語系化狀態。

  • YARN-6805:LinuxContainerExecutor 中的 NPE,因為 PrivilegedOperationException 結束代碼為 Null。

hbase

此版本提供 HBase 1.1.2 和下列 Apache 修補程式。

  • HBASE-13376:改善 Stochastic 負載平衡器。

  • HBASE-13716:停止使用 Hadoop 的 FSConstants。

  • HBASE-13848:透過認證提供者 API 存取 InfoServer SSL 密碼。

  • HBASE-13947:使用 MasterServices,而非 AssignmentManager 中的伺服器。

  • HBASE-14135:HBase 備份/還原第 3 階段:合併備份映像。

  • HBASE-14473:平行計算區域位置。

  • HBASE-14517:在 [主要狀態] 頁面中顯示 regionserver's 的版本。

  • HBASE-14606:在 Apache 上的主幹建置中,TestSecureLoadIncrementalHFiles 測試已逾時。

  • HBASE-15210:復原積極的負載平衡器記錄,速度為每毫秒數十行。

  • HBASE-15515:改善平衡器中的 LocalityBasedCandidateGenerator。

  • HBASE-15615:需要重試 RegionServerCallable 時,睡眠時間錯誤。

  • HBASE-16135:可能永遠不會刪除已移除同儕節點的 rs 下的 PeerClusterZnode。

  • HBASE-16570:在啟動時平行計算區域位置。

  • HBASE-16810:當 regionservers 位於 /hbase/draining 的 znode 並卸載時,HBase 平衡器會擲回 ArrayIndexOutOfBoundsException。

  • HBASE-16852:TestDefaultCompactSelection 已在 branch-1.3 上失敗。

  • HBASE-17387:減少 RegionActionResult 中針對 multi() 的例外狀況報告額外負荷。

  • HBASE-17850:備份系統修復公用程式。

  • HBASE-17931:將系統資料表指派給具有最高版本的伺服器。

  • HBASE-18083:在 HFileCleaner 中讓大型/小型檔案清除執行緒數目變成可供設定的狀態。

  • HBASE-18084:改善 CleanerChore,使其能從會取用更多磁碟空間的目錄中清除。

  • HBASE-18164:速度快上許多的位置成本函式和候選項目產生器。

  • HBASE-18212:在具有本機檔案系統 HBase 記錄警告訊息的獨立模式中:無法在 org.apache.hadoop.fs.FSDataInputStream 類別中叫用 'unbuffer' 方法。

  • HBASE-18808:BackupLogCleaner#getDeletableFiles() 中的設定檢查無效。

  • HBASE-19052:FixedFileTrailer 應該會辨識 branch-1.x 中的 CellComparatorImpl 類別。

  • HBASE-19065:HRegion#bulkLoadHFiles() 應該等候並行 Region#flush() 完成。

  • HBASE-19285:新增每一資料表的延遲長條圖。

  • HBASE-19393:使用 SSL 存取 HBase UI 時,出現 HTTP 413 FULL 標頭。

  • HBASE-19395:[branch-1] TestEndToEndSplitTransaction.testMasterOpsWhileSplitting 會失敗,並有 NPE。

  • HBASE-19421:branch-1 不會針對 Hadoop 3.0.0 進行編譯。

  • HBASE-19934:若已啟用讀取複本,並在區域分割之後擷取線上快照集,則會發生 HBaseSnapshotException。

  • HBASE-20008:[向下移植] 在分割區域之後還原快照集時,會發生 NullPointerException。

Hive

此版本提供 Hive 1.2.1 和 Hive 2.1.0,以及下列修補程式:

Hive 1.2.1 Apache 修補程式:

  • HIVE-10697:ObjectInspectorConvertors#UnionConvertor 會進行錯誤的轉換。

  • HIVE-11266:count(*) 會根據外部資料表的資料表統計資料,產生錯誤的結果。

  • HIVE-12245:HBase 支援的資料表可支援資料行註解。

  • HIVE-12315:修正除數為零的向量化雙精度浮點數。

  • HIVE-12360:在具有述詞下推的未壓縮 ORC 中會進行錯誤的搜尋。

  • HIVE-12378:HBaseSerDe.serialize 二進位欄位上的例外狀況。

  • HIVE-12785:檢視具有等位型別,且結構的 UDF 會中斷。

  • HIVE-14013:描述資料表未正確顯示 unicode。

  • HIVE-14205:Hive 不支援等位型別與 AVRO 檔案格式的搭配。

  • HIVE-14421:FS.deleteOnExit 會保存 _tmp_space.db 檔案的參考。

  • HIVE-15563:忽略 SQLOperation.runQuery 中不合法的作業狀態轉換例外狀況,以公開實際的例外狀況。

  • HIVE-15680:當 hive.optimize.index.filter=true 且查詢在 MR 模式中參考了相同的 ORC 資料表兩次時,會產生不正確的結果。

  • HIVE-15883:Hive 插入中的 HBase 對應資料表在使用小數點時會失敗。

  • HIVE-16232:對 QuotedIdentifier 中的資料行支援統計資料計算。

  • HIVE-16828:在啟用 CBO 的情況下,對已分割的檢視所進行的查詢會擲回 IndexOutOfBoundException。

  • HIVE-17013:根據對檢視的選取來刪除具有子查詢的要求。

  • HIVE-17063:若先置放資料分割,就無法對外部資料表插入覆寫資料分割。

  • HIVE-17259:Hive JDBC 無法辨識 UNIONTYPE 資料行。

  • HIVE-17419:ANALYZE TABLE...COMPUTE STATISTICS FOR COLUMNS 命令會顯示已遮罩資料表的計算統計資料。

  • HIVE-17530:轉換 uniontype 時發生 ClassCastException。

  • HIVE-17621:HCatInputFormat 分割計算期間會忽略 Hive 網站設定。

  • HIVE-17636:新增 blobstores 的 multiple_agg.q 測試。

  • HIVE-17729:新增資料庫並解說相關的 blobstore 測試。

  • HIVE-17731:在 HIVE-11985 中新增外部使用者的回溯 compat 選項。

  • HIVE-17803:使用 Pig 多重查詢時,若有 2 個 HCatStorers 寫入至相同的資料表,則會破壞彼此的輸出。

  • HIVE-17829:ArrayIndexOutOfBoundsException - Hive2 中具有 Avro 結構描述的 HBASE 支援資料表。

  • HIVE-17845:如果目標資料表資料行不是小寫,插入會失敗。

  • HIVE-17900:在由 Compactor 觸發的資料行上分析統計資料,會產生資料分割資料行 > 1 個的錯誤格式 SQL。

  • HIVE-18026:Hive webhcat 主體設定最佳化。

  • HIVE-18031:針對 Alter Database 作業支援複寫。

  • HIVE-18090:透過 hadoop 認證連接中繼存放區時,acid 活動訊號會失敗。

  • HIVE-18189:將 hive.groupby.orderby.position.alias 設為 true 時,Hive 查詢會傳回錯誤結果。

  • HIVE-18258:向量化:具有重複資料行的 Reduce-Side GROUP BY MERGEPARTIAL 會中斷。

  • HIVE-18293:若資料夾不是由執行 HiveMetaStore 的身分識別所擁有的,Hive 就無法壓縮該資料夾內所包含的資料表。

  • HIVE-18327:移除 MiniHiveKdc 的不必要 HiveConf 相依性。

  • HIVE-18341:新增 repl 載入支援,可用於對具有相同加密金鑰的 TDE 新增「原始」命名空間。

  • HIVE-18352:在進行 REPL DUMP 以便與其他工具整合時,引進了 METADATAONLY 選項。

  • HIVE-18353:CompactorMR 應該呼叫 jobclient.close() 以觸發清除。

  • HIVE-18390:在 ColumnPruner 中查詢已分割的檢視時,發生 IndexOutOfBoundsException。

  • HIVE-18429:壓縮應該處理未產生任何輸出時的案例。

  • HIVE-18447:JDBC:提供方法供 JDBC 使用者透過連接字串傳遞 Cookie 資訊。

  • HIVE-18460:Compactor 不會將資料表屬性傳遞至 Orc 寫入器。

  • HIVE-18467:支援整個倉儲傾印/載入 + 建立/置放資料庫事件 (Anishek Agarwal,已由 Sankar Hariappan 檢閱)。

  • HIVE-18551:向量化:VectorMapOperator 嘗試為 Hybrid Grace 寫入太多向量資料行。

  • HIVE-18587:插入 DML 事件可能會嘗試對目錄計算總和檢查碼。

  • HIVE-18613:擴充 JsonSerDe 以支援 BINARY 類型。

  • HIVE-18626:Repl 載入 "with" 子句不會將設定傳遞給工作。

  • HIVE-18660:PCR 無法區別資料分割和虛擬資料行。

  • HIVE-18754:REPL STATUS 應該支援 'with' 子句。

  • HIVE-18754:REPL STATUS 應該支援 'with' 子句。

  • HIVE-18788:清除 JDBC PreparedStatement 中的輸入。

  • HIVE-18794:Repl 載入 "with" 子句不會將設定傳遞給非磁碟分割表格的工作。

  • HIVE-18808:統計資料更新失敗時,讓壓縮更穩固。

  • HIVE-18817:讀取 ACID 資料表期間,發生 ArrayIndexOutOfBounds 例外狀況。

  • HIVE-18833:「插入目錄中作為 orcfile」時,自動合併會失敗。

  • HIVE-18879:如果 xercesImpl.jar 位於 classpath 中,則必須能夠在 UDFXPathUtil 中不允許內嵌的元素。

  • HIVE-18907:建立公用程式以修正 HIVE-18817 中的 acid 金鑰索引問題。

Hive 2.1.0 Apache 修補程式:

  • HIVE-14013:描述資料表未正確顯示 unicode。

  • HIVE-14205:Hive 不支援等位型別與 AVRO 檔案格式的搭配。

  • HIVE-15563:忽略 SQLOperation.runQuery 中不合法的作業狀態轉換例外狀況,以公開實際的例外狀況。

  • HIVE-15680:當 hive.optimize.index.filter=true 且查詢在 MR 模式中參考了相同的 ORC 資料表兩次時,會產生不正確的結果。

  • HIVE-15883:Hive 插入中的 HBase 對應資料表在使用小數點時會失敗。

  • HIVE-16757:移除已淘汰 AbstractRelNode.getRows 的呼叫。

  • HIVE-16828:在啟用 CBO 的情況下,對已分割的檢視所進行的查詢會擲回 IndexOutOfBoundException。

  • HIVE-17063:若先置放資料分割,就無法對外部資料表插入覆寫資料分割。

  • HIVE-17259:Hive JDBC 無法辨識 UNIONTYPE 資料行。

  • HIVE-17530:轉換 uniontype 時發生 ClassCastException。

  • HIVE-17600:讓 OrcFile 的 enforceBufferSize 變成可由使用者設定。

  • HIVE-17601:改善 LlapServiceDriver 中的錯誤處理。

  • HIVE-17613:針對簡短的同一執行緒配置移除物件集區。

  • HIVE-17617:空白結果集的彙總應該包含空白群組集合的群組。

  • HIVE-17621:HCatInputFormat 分割計算期間會忽略 Hive 網站設定。

  • HIVE-17629:CachedStore:備有核准/未核准設定,以允許資料表/資料分割的選擇性快取,以及允許在預先準備時讀取。

  • HIVE-17636:新增 blobstores 的 multiple_agg.q 測試。

  • HIVE-17702:ORC 中的十進位讀取器有不正確的 isRepeating 處理。

  • HIVE-17729:新增資料庫並解說相關的 blobstore 測試。

  • HIVE-17731:在 HIVE-11985 中新增外部使用者的回溯 compat 選項。

  • HIVE-17803:使用 Pig 多重查詢時,若有 2 個 HCatStorers 寫入至相同的資料表,則會破壞彼此的輸出。

  • HIVE-17845:如果目標資料表資料行不是小寫,插入會失敗。

  • HIVE-17900:在由 Compactor 觸發的資料行上分析統計資料,會產生資料分割資料行 > 1 個的錯誤格式 SQL。

  • HIVE-18006:將 HLLDenseRegister 的記憶體使用量最佳化。

  • HIVE-18026:Hive webhcat 主體設定最佳化。

  • HIVE-18031:針對 Alter Database 作業支援複寫。

  • HIVE-18090:透過 hadoop 認證連接中繼存放區時,acid 活動訊號會失敗。

  • HIVE-18189cbo 停用時,無法依位置排序。

  • HIVE-18258:向量化:具有重複資料行的 Reduce-Side GROUP BY MERGEPARTIAL 會中斷。

  • HIVE-18269:LLAP:使用慢速處理管線進行快速 llap io 會導致 OOM。

  • HIVE-18293:若資料夾不是由執行 HiveMetaStore 的身分識別所擁有的,Hive 就無法壓縮該資料夾內所包含的資料表。

  • HIVE-18318:即使未封鎖,LLAP 記錄讀取器也應該檢查中斷。

  • HIVE-18326:LLAP Tez 排程器 - 只有在工作之間有相依性時,才讓這些工作優先進行。

  • HIVE-18327:移除 MiniHiveKdc 的不必要 HiveConf 相依性。

  • HIVE-18331:新增在 TGT 到期時重新登入以及某些記錄/lambda。

  • HIVE-18341:新增 repl 載入支援,可用於對具有相同加密金鑰的 TDE 新增「原始」命名空間。

  • HIVE-18352:在進行 REPL DUMP 以便與其他工具整合時,引進了 METADATAONLY 選項。

  • HIVE-18353:CompactorMR 應該呼叫 jobclient.close() 以觸發清除。

  • HIVE-18384log4j2.x 程式庫發生 ConcurrentModificationException。

  • HIVE-18390:在 ColumnPruner 中查詢已分割的檢視時,發生 IndexOutOfBoundsException。

  • HIVE-18447:JDBC:提供方法供 JDBC 使用者透過連接字串傳遞 Cookie 資訊。

  • HIVE-18460:Compactor 不會將資料表屬性傳遞至 Orc 寫入器。

  • HIVE-18462:(針對有對應聯結的查詢所格式化的解釋,會具有資料行名稱未格式化的 columnExprMap)。

  • HIVE-18467:支援整個倉儲傾印/載入 + 建立/置放資料庫事件。

  • HIVE-18488:LLAP ORC 讀取器缺少某些 null 檢查。

  • HIVE-18490:具有 EXISTS 和 NOT EXISTS 與不相等述詞的查詢會產生錯誤的結果。

  • HIVE-18506:LlapBaseInputFormat - 負數的陣列索引。

  • HIVE-18517:向量化:修正 VectorMapOperator 以接受 VRBs,並檢查向量化旗標是否正確以支援 LLAP 快取)。

  • HIVE-18523:修正沒有輸入時的摘要資料列。

  • HIVE-18528:彙總 ObjectStore 中的統計資料會得到錯誤的結果。

  • HIVE-18530:複寫應該略過 MM 資料表 (暫時)。

  • HIVE-18548:修正 log4j 匯入。

  • HIVE-18551:向量化:VectorMapOperator 嘗試為 Hybrid Grace 寫入太多向量資料行。

  • HIVE-18577:SemanticAnalyzer.validate 有一些毫無意義的中繼存放區呼叫。

  • HIVE-18587:插入 DML 事件可能會嘗試對目錄計算總和檢查碼。

  • HIVE-18597:LLAP:一律封裝 org.apache.log4jlog4j2 API jar。

  • HIVE-18613:擴充 JsonSerDe 以支援 BINARY 類型。

  • HIVE-18626:Repl 載入 "with" 子句不會將設定傳遞給工作。

  • HIVE-18643:不要針對 ACID 作業檢查已封存的資料分割。

  • HIVE-18660:PCR 無法區別資料分割和虛擬資料行。

  • HIVE-18754:REPL STATUS 應該支援 'with' 子句。

  • HIVE-18788:清除 JDBC PreparedStatement 中的輸入。

  • HIVE-18794:Repl 載入 "with" 子句不會將設定傳遞給非磁碟分割表格的工作。

  • HIVE-18808:統計資料更新失敗時,讓壓縮更穩固。

  • HIVE-18815:移除 HPL/SQL 中未使用的功能。

  • HIVE-18817:讀取 ACID 資料表期間,發生 ArrayIndexOutOfBounds 例外狀況。

  • HIVE-18833:「插入目錄中作為 orcfile」時,自動合併會失敗。

  • HIVE-18879:如果 xercesImpl.jar 位於 classpath 中,則必須能夠在 UDFXPathUtil 中不允許內嵌的元素。

  • HIVE-18944:在 DPP 期間未正確設定群組集合位置。

Kafka

此版本提供 Kafka 1.0.0 和下列 Apache 修補程式。

  • KAFKA-4827:Kafka 連線:連接器名稱中的特殊字元有錯誤。

  • KAFKA-6118:kafka.api.SaslScramSslEndToEndAuthorizationTest.testTwoConsumersWithDifferentSaslCredentials 發生暫時性失敗。

  • KAFKA-6156:JmxReporter 無法處理 Windows 樣式的目錄路徑。

  • KAFKA-6164:ClientQuotaManager 執行緒可在遇到錯誤載入記錄時防止關機。

  • KAFKA-6167:資料流目錄上的時間戳記包含冒號,此字元不合法。

  • KAFKA-6179:RecordQueue.clear() 不會清除 MinTimestampTracker 的維護清單。

  • KAFKA-6185:如果向下轉換,OOM 很可能會發生選取器記憶體流失的情況。

  • KAFKA-6190:GlobalKTable 永遠不會在取用交易訊息時結束還原作業。

  • KAFKA-6210:如果將 1.0.0 用於 inter.broker.protocol.version 或 log.message.format.version,則會發生 IllegalArgumentException。

  • KAFKA-6214:搭配使用待命複本與記憶體中狀態存放區會造成資料流損毀。

  • KAFKA-6215:KafkaStreamsTest 在主幹中失敗。

  • KAFKA-6238:在套用目標為 1.0.0 的輪流升級時,通訊協定版本發生問題。

  • KAFKA-6260:AbstractCoordinator 未清楚地處理 NULL 例外狀況。

  • KAFKA-6261:如果 ack=0,要求記錄會擲回例外狀況。

  • KAFKA-6274:改善 KTable 來源狀態存放區所自動產生的名稱。

Mahout

在 HDP 2.3.x 和 2.4.x 中,我們不會傳送特定 Apache 版本的 Mahout,而是會同步至 Apache Mahout 主幹上的特定修訂點。 此修訂點在 0.9.0 版本之後,但在 0.10.0 版本之前。 這會對 0.9.0 版本提供大量的錯誤修正和功能增強,但在完整轉換至 0.10.0 中的新 Spark 型 Mahout 之前,會提供穩定的 Mahout 功能版本。

針對 HDP 2.3.x 和 2.4.x 中的 Mahout 所選擇的修訂點,來自 Apache Mahout 的 "mahout-0.10.x" 分支,自 2014 年 12 月 19 日起,GitHub 中的修訂 0f037cb03e77c096。

在 HDP 2.5.x 和 2.6.x 中,我們已從 Mahout 移除 "commons-httpclient" 程式庫 (原因是我們將其視為可能有安全性問題的已淘汰程式庫),並已將 Mahout 中的 Hadoop-Client 升級到 2.7.3 版,和 HDP 2.5 中所使用的版本相同。 因此:

  • 先前編譯的 Mahout 作業必須在 HDP 2.5 或 2.6 環境中重新編譯。

  • 某些 Mahout 作業有一點可能會發生與 "org.apache.commons.httpclient"、"net.java.dev.jets3t" 或類別名稱前置詞相關的 "ClassNotFoundException" 或 "could not load class" 錯誤。 如果發生這些錯誤,請考慮是否要以手動方式在 classpath 中為作業安裝所需的 jar,前提是您的環境可接受已淘汰的程式庫中有安全性問題的風險。

  • 某些 Mahout 作業遇到 Mahout 對 hadoop-common 程式庫的 hbase-client 程式碼呼叫會損毀 (由於二進位相容性問題) 的可能性甚至更小。 可惜的是,目前並沒有辦法解決此問題,除非您還原為 HDP 2.4.2 版的 Mahout,但這可能會有安全性問題。 再者,這個情況應不常見,不太可能發生在任何給定的 Mahout 工作套件中。

Oozie

此版本為 Oozie 4.2.0 提供下列 Apache 修補程式。

  • OOZIE-2571:新增 spark.scala.binary.version Maven 屬性,以便能夠使用 Scala 2.11。

  • OOZIE-2606:設定 spark.yarn.jars 以使用 Oozie 修正 Spark 2.0。

  • OOZIE-2658:--driver-class-path 會覆寫 SparkMain 中的 classpath。

  • OOZIE-2787:Oozie 會散發應用程式 jar 兩次而使得 spark 作業失敗。

  • OOZIE-2792:當 Hive 在 Spark 上時,Hive2 動作不會正確剖析記錄檔中的 Spark 應用程式識別碼。

  • OOZIE-2799:為 hive 上的 spark sql 設定記錄位置。

  • OOZIE-2802:Spark 動作在 Spark 2.1.0 上失敗,因為 sharelibs 重複。

  • OOZIE-2923:改善 Spark 選項剖析。

  • OOZIE-3109:SCA:跨網站指令碼:已反映。

  • OOZIE-3139:Oozie 不會正確地驗證工作流程。

  • OOZIE-3167:在 Oozie 4.3 分支上升級 tomcat 版本。

Phoenix

此版本提供 Phoenix 4.7.0 和下列 Apache 修補程式:

  • PHOENIX-1751:在 preScannerNext 中而不是 postScannerOpen 中執行彙總、排序等作業。

  • PHOENIX-2714:修正 BaseResultIterators 中的位元組估計,並公開為介面。

  • PHOENIX-2724:有大量 guideposts 的查詢速度會比沒有統計資料的查詢慢。

  • PHOENIX-2855:未針對 HBase 1.2 將因應措施增量 TimeRange 序列化。

  • PHOENIX-3023:依預設以平行方式執行限制查詢時,效能會變慢。

  • PHOENIX-3040:請勿使用 guideposts 來循序執行查詢。

  • PHOENIX-3112:未正確處理部分資料列掃描。

  • PHOENIX-3240:Pig 載入器發生 ClassCastException。

  • PHOENIX-3452:NULLS FIRST/NULL LAST 應該不會影響 GROUP BY 是否順序保留。

  • PHOENIX-3469:NULLS LAST/NULLS FIRST 的 DESC 主要金鑰排序次序錯誤。

  • PHOENIX-3789:在 postBatchMutateIndispensably 中執行跨區域索引維護呼叫。

  • PHOENIX-3865:未針對第一個資料行系列進行篩選時,IS NULL 不會傳回正確的結果。

  • PHOENIX-4290:若資料表具有固定索引,則會對 DELETE 執行完整的資料表掃描。

  • PHOENIX-4373:本機索引可變長度索引鍵在更新插入時可以有尾端 null。

  • PHOENIX-4466:java.lang.RuntimeException:回應碼 500 - 執行 spark 作業以連線到 phoenix 查詢伺服器和載入資料。

  • PHOENIX-4489:Phoenix MR 作業中發生 HBase 連線流失。

  • PHOENIX-4525:GroupBy 執行中發生整數溢位。

  • PHOENIX-4560:如果 pk 資料行上有 WHERE,ORDER BY 就無法與 GROUP BY 搭配使用。

  • PHOENIX-4586:UPSERT SELECT 不會對子查詢考量比較運算子。

  • PHOENIX-4588:如果其子系有 Determinism.PER_INVOCATION,則也複製運算式。

Pig

此版本為 Pig 0.16.0 提供下列 Apache 修補程式。

  • PIG-5159:修正 Pig 不會儲存 Grunt 記錄。

  • PIG-5175:將 jruby 升級至 1.7.26。

Ranger

此版本提供 Ranger 0.7.0 和下列 Apache 修補程式:

  • RANGER-1805:改進程式碼以遵循 js 中的最佳做法。

  • RANGER-1960:將快照集的資料表名稱列入刪除考量中。

  • RANGER-1982:Ranger 系統管理員和 Ranger KMS 的分析計量錯誤改進。

  • RANGER-1984:HBase 稽核線索記錄可能不會顯示與所存取資料行相關聯的所有標記。

  • RANGER-1988:修正不安全的隨機性。

  • RANGER-1990:在 Ranger 系統管理員中新增單向 SSL MySQL 支援。

  • RANGER-2006:修正靜態程式碼分析在 ranger usersync 中所偵測到的 ldap 同步來源問題。

  • RANGER-2008:多行原則條件的原則評估會失敗。

滑桿

此版本提供不含其他 Apache 修補檔的 Slider 0.92.0。

Spark

此版本提供 Spark 2.3.0 和下列 Apache 修補程式:

  • SPARK-13587:在 pyspark 中支援 virtualenv。

  • SPARK-19964:在 SparkSubmitSuite 中避免讀取遠端存放庫。

  • SPARK-22882:結構化串流的 ML 測試:ml.classification。

  • SPARK-22915:spark.ml.feature 的串流測試,從 N 到 Z。

  • SPARK-23020:修正同處理序啟動器測試中的另一個競爭。

  • SPARK-23040:傳回隨機讀取器的可中斷迭代器。

  • SPARK-23173:避免在從 JSON 載入資料時建立損毀的 parquet 檔案。

  • SPARK-23264:修正 literals.sql.out 中的 scala.MatchError。

  • SPARK-23288:修正具有 parquet 接收的輸出計量。

  • SPARK-23329:修正三角運算函式的文件。

  • SPARK-23406:啟用 branch-2.3 的 stream-stream 自我聯結。

  • SPARK-23434:Spark 不應該對 HDFS 檔案路徑發出 `metadata directory` 警告。

  • SPARK-23436:只在資料分割可以轉換為日期時,才將其推斷為日期。

  • SPARK-23457:先在 ParquetFileFormat 中註冊工作完成接聽程式。

  • SPARK-23462:改善 `StructType` 中的遺漏欄位錯誤訊息。

  • SPARK-23490:使用 CreateTable 中的現有資料表檢查 storage.locationUri。

  • SPARK-23524:不應檢查大型的本機隨機區塊是否有損毀。

  • SPARK-23525:針對外部 hive 資料表支援 ALTER TABLE CHANGE COLUMN COMMENT。

  • SPARK-23553:測試不應該採用 `spark.sql.sources.default` 的預設值。

  • SPARK-23569:允許 pandas_udf 與 python3 樣式型別標註的函式搭配運作。

  • SPARK-23570:在 HiveExternalCatalogVersionsSuite 中新增 Spark 2.3.0。

  • SPARK-23598:讓 BufferedRowIterator 中的方法公開,以避免大型查詢發生執行階段錯誤。

  • SPARK-23599:從虛擬隨機數字新增 UUID 產生器。

  • SPARK-23599:在 Uuid 運算式中使用 RandomUUIDGenerator。

  • SPARK-23601:從版本中移除 .md5 檔案。

  • SPARK-23608:在 attachSparkUI 和 detachSparkUI 函式之間的 SHS 中新增同步處理,以避免 Jetty 處理常式發生並行修改問題。

  • SPARK-23614:修正使用快取時的不正確重複使用交換。

  • SPARK-23623:避免在 CachedKafkaConsumer (branch-2.3) 中同時使用快取的取用者。

  • SPARK-23624:修訂 Datasource V2 中方法 pushFilters 的文件。

  • SPARK-23628:calculateParamLength 不應傳回 1 + 運算式數目。

  • SPARK-23630:允許使用者的 hadoop conf 自訂生效。

  • SPARK-23635:Spark 執行程式的環境變數會由相同名稱的 AM 環境變數覆寫。

  • SPARK-23637:如果終止相同的執行程式多次,Yarn 可能會配置更多資源。

  • SPARK-23639:在 SparkSQL CLI 中的 init 中繼存放區用戶端之前取得權杖。

  • SPARK-23642:AccumulatorV2 子類別 isZero scaladoc 修正。

  • SPARK-23644:在 SHS 中對 REST 呼叫使用絕對路徑。

  • SPARK-23645:新增具有關鍵字引數的文件 RE `pandas_udf`。

  • SPARK-23649:略過 UTF-8 中不允許的字元。

  • SPARK-23658:InProcessAppHandle 在 getLogger 中使用錯誤的類別。

  • SPARK-23660:修正應用程式快速結束時,yarn 叢集模式中的例外狀況。

  • SPARK-23670:修正 SparkPlanGraphWrapper 上的記憶體流失。

  • SPARK-23671:修正條件以啟用 SHS 執行緒集區。

  • SPARK-23691:盡可能在 PySpark 測試中使用 sql_conf util。

  • SPARK-23695:修正 Kinesis 串流測試的錯誤訊息。

  • SPARK-23706:spark.conf.get(value, default=None) 不應該在 PySpark 中產生任何值。

  • SPARK-23728:修正 ML 測試在執行串流測試時預期會發生例外狀況的問題。

  • SPARK-23729:解析 glob 時遵守 URI 片段。

  • SPARK-23759:無法將 Spark UI 繫結至特定的主機名稱/IP。

  • SPARK-23760:CodegenContext.withSubExprEliminationExprs 應該會正確地儲存/還原 CSE 狀態。

  • SPARK-23769:移除會不必要地停用 Scalastyle 檢查的註解。

  • SPARK-23788:修正 StreamingQuerySuite 中的競爭。

  • SPARK-23802:PropagateEmptyRelation 會讓查詢計劃停留在未解決的狀態。

  • SPARK-23806:Broadcast.unpersist 可能會在搭配動態配置來使用時,造成嚴重的例外狀況。

  • SPARK-23808:在僅限測試 spark 工作階段中設定預設的 Spark 工作階段。

  • SPARK-23809:作用中的 SparkSession 應該由 getOrCreate 設定。

  • SPARK-23816:已終止的工作應該會忽略 FetchFailures。

  • SPARK-23822:改善 Parquet 結構描述不符的錯誤訊息。

  • SPARK-23823:在 transformExpression 中保留原始值。

  • SPARK-23827:StreamingJoinExec 應該確定輸入資料會分割成特定數目的資料分割。

  • SPARK-23838:在 SQL 索引標籤中,執行 SQL 查詢會顯示為「已完成」。

  • SPARK-23881:修正不穩定測試 JobCancellationSuite。「隨機讀取器的可中斷迭代器」。

Sqoop

此版本提供不含其他 Apache 修補檔的 Sqoop 1.4.6。

Storm

此版本提供 Storm 1.1.1 和下列 Apache 修補程式:

  • STORM-2652:JmsSpout open 方法擲回例外狀況。

  • STORM-2841:testNoAcksIfFlushFails UT 失敗,並發生 NullPointerException。

  • STORM-2854:公開 IEventLogger 以讓事件記錄可隨插即用。

  • STORM-2870:FileBasedEventLogger 流失非精靈 ExecutorService,導致處理序無法完成。

  • STORM-2960:最好要強調為 Storm 處理序設定正確作業系統帳戶的重要性。

Tez

此版本提供 Tez 0.7.0 和下列 Apache 修補程式:

  • TEZ-1526:大型作業針對 TezTaskID 的 LoadingCache 很慢。

Zeppelin

此版本提供不含其他 Apache 修補檔的 Zeppelin 0.7.3。

ZooKeeper

此版本提供 ZooKeeper 3.4.6 和下列 Apache 修補程式:

  • ZOOKEEPER-1256:ClientPortBindTest 在 macOS X 上會失敗。

  • ZOOKEEPER-1901:[JDK8] 排序子系以在 AsyncOps 測試中進行比較。

  • ZOOKEEPER-2423:因為有安全性弱點 (CVE-2014-3488),所以升級 Netty 版本。

  • ZOOKEEPER-2693:針對 wchp/wchc 四字母字組 (4lw) 的 DOS 攻擊。

  • ZOOKEEPER-2726:修補程式導入潛在的競爭條件。

修正常見弱點與漏洞

本節涵蓋這一版所解決的所有常見弱點與漏洞 (CVE)。

​CVE-2017-7676

摘要:Apache Ranger 原則評估會忽略‘*’萬用字元之後的字元
嚴重性:嚴重
廠商:Hortonworks
受影響的版本:HDInsight 3.6 版本,包含 Apache Ranger 0.5.x/0.6.x/0.7.0 版
受影響的使用者:所使用的 Ranger 原則在‘*’萬用字元之後有字元的環境 – 例如 my*test, test*.txt
影響:原則資源比對器會忽略‘*’萬用字元之後的字元,而導致非預期的行為。
修正詳細資料:Ranger 原則資源比對器已更新為會正確處理萬用字元相符項目。
建議動作:升級至 HDI 3.6 (含 Apache Ranger 0.7.1+)。

​CVE-2017-7677

摘要:在指定了外部位置時,Apache Ranger Hive 授權者應檢查有無 RWX 權限
嚴重性:嚴重
廠商:Hortonworks
受影響的版本:HDInsight 3.6 版本,包含 Apache Ranger 0.5.x/0.6.x/0.7.0 版
受影響的使用者:對 hive 資料表使用外部位置的環境
影響:在對 hive 資料表使用外部位置的環境中,Apache Ranger Hive 授權者應該檢查是否有指定用於建立資料表的外部位置 RWX 權限。
修正詳細資料:Ranger Hive 授權者已更新為會正確地處理外部位置的權限檢查。
建議動作:使用者應升級至 HDI 3.6 (含 Apache Ranger 0.7.1+)。

​CVE-2017-9799

摘要:在 Apache Storm 中,可能會以錯誤使用者身分執行程式碼
嚴重性:重要
廠商:Hortonworks
受影響的版本:HDP 2.4.0、HDP-2.5.0、HDP-2.6.0
受影響的使用者:在安全模式中使用 Storm ,並使用 blobstore 散發拓撲型成品,或使用 blobstore 散發任何拓撲資源的使用者。
影響:理論上,在某些情況和 storm 的組態下,拓撲的擁有者可以誘騙監督員以不同的非根使用者身分啟動背景工作角色。 在最糟糕的情況下,這可能會導致其他使用者的安全認證受到危害。 這項弱點僅適用於已啟用安全性的 Apache Storm 安裝。
風險降低:升級至 HDP-2.6.2.1,因為目前沒有因應措施。

​CVE-2016-4970

摘要:在 Netty 4.0.x 中 (4.0.37 之前) 的 handler/ssl/OpenSslEngine.java。 4.1.1 之前的 Final 和 4.1.x。 Final 可讓遠端攻擊者造成阻斷服務 (無限迴圈)
嚴重性:中度
廠商:Hortonworks
受影響的版本:HDP 2.x.x (自 2.3.x 起)
受影響的使用者:使用 HDFS 的所有使用者。
影響:影響不大,因為 Hortonworks 不會直接在 Hadoop 程式碼基底中使用 OpenSslEngine.java。
建議動作:升級至 HDP 2.6.3。

​CVE-2016-8746

摘要:原則評估中有 Apache Ranger 路徑比對問題
嚴重性:一般
廠商:Hortonworks
受影響的版本:所有 HDP 2.5 版本,包含 Apache Ranger 0.6.0/0.6.1/0.6.2 版
受影響的使用者:Ranger 原則管理工具的所有使用者。
影響:在某些情況下,當原則包含萬用字元和遞迴旗標時,Ranger 原則引擎不會正確地比對路徑。
修正詳細資料:已修正原則評估邏輯
建議動作:使用者應升級至 HDP 2.5.4+ (含 Apache Ranger 0.6.3+) 或 HDP 2.6+ (含 Apache Ranger 0.7.0+)

​CVE-2016-8751

摘要:Apache Ranger 的預存跨網站指令碼問題
嚴重性:一般
廠商:Hortonworks
受影響的版本:所有 HDP 2.3/2.4/2.5 版本,包含 Apache Ranger 0.5.x/0.6.0/0.6.1/0.6.2 版
受影響的使用者:Ranger 原則管理工具的所有使用者。
影響:在輸入自訂原則條件時,Apache Ranger 很容易受到預存跨網站指令碼的攻擊。 管理使用者可以在一般使用者登入和存取原則時,儲存某些任意的 JavaScript 程式碼執行。
修正詳細資料:已新增邏輯來處理使用者輸入。
建議動作:使用者應升級至 HDP 2.5.4+ (含 Apache Ranger 0.6.3+) 或 HDP 2.6+ (含 Apache Ranger 0.7.0+)

支援的已修正問題

已修正的問題代表先前透過 Hortonworks 支援所記錄,但現在已在目前版本中解決的選定問題。 這些問題可能已回報到先前版本的<已知問題>區段;這表示客戶已報告過這些問題,或 Hortonworks 品質工程小組已識別這些問題。

不正確的結果

Bug 識別碼 Apache JIRA 摘要
BUG-100019 YARN-8145 yarn rmadmin -getGroups 不會傳回使用者的已更新群組
BUG-100058 PHOENIX-2645 萬用字元不符合新行字元
BUG-100266 PHOENIX-3521, PHOENIX-4190 本機索引的結果錯誤
BUG-88774 HIVE-17617, HIVE-18413, HIVE-18523 query36 失敗,資料列計數不符
BUG-89765 HIVE-17702 ORC 中的十進位讀取器有不正確的 isRepeating 處理
BUG-92293 HADOOP-15042 Azure PageBlobInputStream.skip() 可在 numberOfPagesRemaining 為 0 時傳回負值
BUG-92345 ATLAS-2285 UI:已使用日期屬性重新命名已儲存的搜尋。
BUG-92563 HIVE-17495, HIVE-18528 彙總 ObjectStore 中的統計資料會得到錯誤的結果
BUG-92957 HIVE-11266 count(*) 會根據外部資料表的資料表統計資料,產生錯誤的結果
BUG-93097 RANGER-1944 系統管理員稽核的動作篩選條件沒有作用
BUG-93335 HIVE-12315 vectorization_short_regress.q 的雙精度浮點數計算有錯誤結果的問題
BUG-93415 HIVE-18258, HIVE-18310 向量化:具有重複資料行的 Reduce-Side GROUP BY MERGEPARTIAL 會中斷
BUG-93939 ATLAS-2294 在建立類型時新增了額外的參數 "description"
BUG-94007 PHOENIX-1751, PHOENIX-3112 Phoenix 查詢會傳回 Null 值,因為 HBase 部分資料列
BUG-94266 HIVE-12505 在相同加密區域以無訊息方式插入覆寫時,無法移除某些現有檔案
BUG-94414 HIVE-15680 當 hive.optimize.index.filter=true 且查詢參考了相同的 ORC 資料表兩次時,會產生不正確的結果
BUG-95048 HIVE-18490 具有 EXISTS 和 NOT EXISTS 與不相等述詞的查詢會產生錯誤的結果
BUG-95053 PHOENIX-3865 未針對第一個資料行系列進行篩選時,IS NULL 不會傳回正確的結果
BUG-95476 RANGER-1966 原則引擎初始化不會在某些情況下建立內容擴充程式
BUG-95566 SPARK-23281 複合 order by 子句同時參考原始資料行和別名時,查詢會以不正確的順序產生結果
BUG-95907 PHOENIX-3451, PHOENIX-3452, PHOENIX-3469, PHOENIX-4560 修正查詢具有彙總時 ORDER BY ASC 的問題
BUG-96389 PHOENIX-4586 UPSERT SELECT 不會對子查詢考量比較運算子。
BUG-96602 HIVE-18660 PCR 無法區別資料分割和虛擬資料行
BUG-97686 ATLAS-2468 [基本搜尋] NEQ 與數值類型搭配使用時 OR 案例的問題
BUG-97708 HIVE-18817 讀取 ACID 資料表期間,發生 ArrayIndexOutOfBounds 例外狀況。
BUG-97864 HIVE-18833 「插入目錄中作為 orcfile」時,自動合併會失敗
BUG-97889 RANGER-2008 多行原則條件的原則評估會失敗。
BUG-98655 RANGER-2066 資料行系列中已標記的資料行會授權 HBase 資料行系列的存取權
BUG-99883 HIVE-19073, HIVE-19145 StatsOptimizer 可能會弄亂常數資料行

其他

Bug 識別碼 Apache JIRA 摘要
BUG-100267 HBASE-17170 因為類別載入器的差異,HBase 也會嘗試 DoNotRetryIOException。
BUG-92367 YARN-7558 如果啟用 UI 驗證,"yarn logs" 命令將無法取得執行中容器的記錄。
BUG-93159 OOZIE-3139 Oozie 不會正確地驗證工作流程
BUG-93936 ATLAS-2289 內嵌的 kafka/zookeeper 伺服器會啟動/停止要移出 KafkaNotification 實作的程式碼
BUG-93942 ATLAS-2312 使用 ThreadLocal DateFormat 物件以避免從多個執行緒同時使用
BUG-93946 ATLAS-2319 UI:在單層式和樹狀結構中刪除標記清單內有 25 個以上位置的標記時,必須先重新整理才能從清單中移除該標記。
BUG-94618 YARN-5037, YARN-7274 能夠在分葉佇列層級停用彈性
BUG-94901 HBASE-19285 新增每一資料表的延遲長條圖
BUG-95259 HADOOP-15185, HADOOP-15186 更新 adls 連接器以使用 ADLS SDK 的目前版本
BUG-95619 HIVE-18551 向量化:VectorMapOperator 嘗試為 Hybrid Grace 寫入太多向量資料行
BUG-97223 SPARK-23434 Spark 不應該對 HDFS 檔案路徑發出 `metadata directory` 警告

效能

Bug 識別碼 Apache JIRA 摘要
BUG-83282 HBASE-13376, HBASE-14473, HBASE-15210, HBASE-15515, HBASE-16570, HBASE-16810, HBASE-18164 在平衡器中快速計算位置
BUG-91300 HBASE-17387 減少 RegionActionResult 中針對 multi() 的例外狀況報告額外負荷
BUG-91804 TEZ-1526 大型作業針對 TezTaskID 的 LoadingCache 很慢
BUG-92760 ACCUMULO-4578 取消壓縮 FATE 作業不會釋放命名空間鎖定
BUG-93577 RANGER-1938 稽核設定的 Solr 不會有效地使用 DocValues
BUG-93910 HIVE-18293 若資料夾不是由執行 HiveMetaStore 的身分識別所擁有的,Hive 就無法壓縮該資料夾內所包含的資料表
BUG-94345 HIVE-18429 壓縮應該處理未產生任何輸出時的案例
BUG-94381 HADOOP-13227, HDFS-13054 處理 RequestHedgingProxyProvider RetryAction 順序:FAIL < RETRY < FAILOVER_AND_RETRY。
BUG-94432 HIVE-18353 CompactorMR 應該呼叫 jobclient.close() 以觸發清除
BUG-94869 PHOENIX-4290, PHOENIX-4373 所要求的資料列不在本機索引 salt 處理的 phoenix 資料表 Get on HRegion 範圍內。
BUG-94928 HDFS-11078 修正 LazyPersistFileScrubber 中的 NPE
BUG-94964 HIVE-18269, HIVE-18318, HIVE-18326 多個 LLAP 修正
BUG-95669 HIVE-18577, HIVE-18643 在 ACID 資料分割資料表上執行更新/刪除查詢時,HS2 會將每個資料分割全都讀取一遍。
BUG-96390 HDFS-10453 因較大型叢集內複寫及刪除相同檔案會發生競爭,以致 ReplicationMonitor 執行緒可能會停滯很長的時間。
BUG-96625 HIVE-16110 "Vectorization: Support 2 Value CASE WHEN instead of fallback to VectorUDFAdaptor" 的還原
BUG-97109 HIVE-16757 使用已淘汰的 getRows() 而不是新的 estimateRowCount(RelMetadataQuery...) 會有嚴重的效能影響
BUG-97110 PHOENIX-3789 在 postBatchMutateIndispensably 中執行跨區域索引維護呼叫
BUG-98833 YARN-6797 TimelineWriter 不會完全取用 POST 回應
BUG-98931 ATLAS-2491 更新 Hive 掛勾以使用 Atlas v2 通知

可能遺失資料

Bug 識別碼 Apache JIRA 摘要
BUG-95613 HBASE-18808 Ineffective config check-in BackupLogCleaner#getDeletableFiles()
BUG-97051 HIVE-17403 非受控和交易式資料表的串連失敗
BUG-97787 HIVE-18460 Compactor 不會將資料表屬性傳遞至 Orc 寫入器
BUG-97788 HIVE-18613 擴充 JsonSerDe 以支援 BINARY 類型

查詢失敗

Bug 識別碼 Apache JIRA 摘要
BUG-100180 CALCITE-2232 調整彙總索引時 AggregatePullUpConstantsRule 上發生判斷提示錯誤
BUG-100422 HIVE-19085 FastHiveDecimal abs(0) 將正負號設定為 +ve
BUG-100834 PHOENIX-4658 IllegalStateException:無法在 ReversedKeyValueHeap 上呼叫 requestSeek
BUG-102078 HIVE-17978 TPCDS 查詢 58 和 83 會在向量化產生例外狀況。
BUG-92483 HIVE-17900 在由 Compactor 觸發的資料行上分析統計資料,會產生資料分割資料行 > 1 個的錯誤格式 SQL
BUG-93135 HIVE-15874, HIVE-18189 將 hive.groupby.orderby.position.alias 設為 true 時,Hive 查詢會傳回錯誤結果
BUG-93136 HIVE-18189 cbo 停用時,無法依位置排序
BUG-93595 HIVE-12378, HIVE-15883 Hive 插入中的 HBase 對應資料表在使用小數點和二進位資料行時會失敗
BUG-94007 PHOENIX-1751, PHOENIX-3112 Phoenix 查詢會傳回 Null 值,因為 HBase 部分資料列
BUG-94144 HIVE-17063 若先置放資料分割,就無法對外部資料表插入覆寫資料分割
BUG-94280 HIVE-12785 檢視具有等位型別,且用於 `cast` 結構的 UDF 會中斷
BUG-94505 PHOENIX-4525 GroupBy 執行中發生整數溢位
BUG-95618 HIVE-18506 LlapBaseInputFormat - 負數的陣列索引
BUG-95644 HIVE-9152 CombineHiveInputFormat:Hive 查詢在 Tez 中會失敗,並發生 java.lang.IllegalArgumentException 例外狀況
BUG-96762 PHOENIX-4588 如果其子系有 Determinism.PER_INVOCATION,則也複製運算式
BUG-97145 HIVE-12245, HIVE-17829 HBase 支援的資料表可支援資料行註解
BUG-97741 HIVE-18944 在 DPP 期間未正確設定群組集合位置
BUG-98082 HIVE-18597 LLAP:一律封裝 org.apache.log4jlog4j2 API jar
BUG-99849 N/A 從嘗試使用預設資料庫的檔案精靈建立新資料表

安全性

Bug 識別碼 Apache JIRA 摘要
BUG-100436 RANGER-2060 Knox proxy 與 knox-sso 搭配不適用於 ranger
BUG-101038 SPARK-24062 Zeppelin %Spark 解譯器在 HiveThriftServer 中的 "Connection refused" 錯誤、"A secret key must be specified..." 錯誤
BUG-101359 ACCUMULO-4056 發行時將 commons-collection 的版本更新為 3.2.2
BUG-54240 HIVE-18879 如果 xercesImpl.jar 位於 classpath 中,則必須能夠在 UDFXPathUtil 中不允許內嵌的元素
BUG-79059 OOZIE-3109 逸出 log-streaming 的 HTML 特定字元
BUG-90041 OOZIE-2723 JSON.org 授權現在為 CatX
BUG-93754 RANGER-1943 當集合是空的或 null 時,會略過 Ranger Solr 授權
BUG-93804 HIVE-17419 ANALYZE TABLE...COMPUTE STATISTICS FOR COLUMNS 命令會顯示已遮罩資料表的計算統計資料
BUG-94276 ZEPPELIN-3129 Zeppelin UI 不會在 IE 中登出
BUG-95349 ZOOKEEPER-1256, ZOOKEEPER-1901 升級 netty
BUG-95483 N/A CVE-2017-15713 的修正
BUG-95646 OOZIE-3167 在 Oozie 4.3 分支上升級 tomcat 版本
BUG-95823 N/A Knox:升級 Beanutils
BUG-95908 RANGER-1960 HBase 驗證不會為了刪除快照集而將資料表命名空間納入考量
BUG-96191 FALCON-2322, FALCON-2323 升級 Jackson 與 Spring 版本以避免安全性弱點
BUG-96502 RANGER-1990 在 Ranger 系統管理員中新增單向 SSL MySQL 支援
BUG-96712 FLUME-3194 將 derby 升級至最新 (1.14.1.0) 版本
BUG-96713 FLUME-2678 將 xalan 升級至 2.7.2 以處理 CVE-2014-0107 弱點
BUG-96714 FLUME-2050 升級至 log4j2 (正式發行時)
BUG-96737 N/A 使用 Java io filesystem 方法來存取本機檔案
BUG-96925 N/A 在 Hadoop 中將 Tomcat 從 6.0.48 升級至 6.0.53
BUG-96977 FLUME-3132 升級 tomcat jasper 程式庫相依性
BUG-97022 HADOOP-14799, HADOOP-14903, HADOOP-15265 使用 4.39 以上版本升級 Nimbus-JOSE-JWT 程式庫
BUG-97101 RANGER-1988 修正不安全的隨機性
BUG-97178 ATLAS-2467 Spring 和 nimbus-jose-jwt 的相依性升級
BUG-97180 N/A 升級 Nimbus-jose-jwt
BUG-98038 HIVE-18788 清除 JDBC PreparedStatement 中的輸入
BUG-98353 HADOOP-13707 "If kerberos is enabled while HTTP SPNEGO isn't configured, some links cannot be accessed" 的還原
BUG-98372 HBASE-13848 透過認證提供者 API 存取 InfoServer SSL 密碼
BUG-98385 ATLAS-2500 在 Atlas 回應中新增更多標頭。
BUG-98564 HADOOP-14651 將 okhttp 版本更新為 2.7.5
BUG-99440 RANGER-2045 沒有明確允許原則的 Hive 資料表資料行可使用 'desc table' 命令來列出
BUG-99803 N/A Oozie 應該停用 HBase 動態類別載入

穩定性

Bug 識別碼 Apache JIRA 摘要
BUG-100040 ATLAS-2536 Atlas Hive 掛勾中的 NPE
BUG-100057 HIVE-19251 具有 LIMIT 的 ObjectStore.getNextNotification 應使用較少記憶體
BUG-100072 HIVE-19130 REPL LOAD 套用了卸除資料分割事件時,會擲回 NPE。
BUG-100073 N/A 太多從 hiveserver 到資料節點的 close_wait 連線
BUG-100319 HIVE-19248 如果檔案複製失敗,REPL LOAD 不會擲回錯誤。
BUG-100352 N/A CLONE - RM 清除邏輯掃描 /registry znode 太頻繁
BUG-100427 HIVE-19249 複寫:WITH 子句不會在所有情況下將設定正確地傳遞至工作
BUG-100430 HIVE-14483 java.lang.ArrayIndexOutOfBoundsException org.apache.orc.impl.TreeReaderFactory$BytesColumnVectorUtil.commonReadByteArrays
BUG-100432 HIVE-19219 如果清除所要求的事件,累加 REPL DUMP 應該擲回錯誤。
BUG-100448 SPARK-23637, SPARK-23802, SPARK-23809, SPARK-23816, SPARK-23822, SPARK-23823, SPARK-23838, SPARK-23881 Spark2 更新為 2.3.0+ (4/11)
BUG-100740 HIVE-16107 JDBC:HttpClient 應該在 NoHttpResponseException 上再試一次
BUG-100810 HIVE-19054 Hive 函式複寫失敗
BUG-100937 MAPREDUCE-6889 新增 Job#close API 以關閉 MR 用戶端服務。
BUG-101065 ATLAS-2587 在 HA 中設定 /apache_atlas/active_server_info znode 的讀取 ACL 以讓 Knox proxy 讀取。
BUG-101093 STORM-2993 Storm HDFS bolt 在使用時間輪替原則時擲回 ClosedChannelException
BUG-101181 N/A PhoenixStorageHandler 不會在述詞中正確處理 AND
BUG-101266 PHOENIX-4635 org.apache.phoenix.hive.mapreduce.PhoenixInputFormat 中發生 HBase 連線流失
BUG-101458 HIVE-11464 如果有多個輸出,則會遺漏歷程資訊
BUG-101485 N/A hive 中繼存放區 thrift api 緩慢,且會造成用戶端逾時
BUG-101628 HIVE-19331 Hive 增量複寫到雲端失敗。
BUG-102048 HIVE-19381 FunctionTask 的 Hive 函式複寫到雲端失敗
BUG-102064 N/A ReplCopyTask 中的 Hive 複寫 \[ onprem to onprem \] 測試失敗
BUG-102137 HIVE-19423 ReplCopyTask 中的 Hive 複寫 \[ Onprem to Cloud \] 測試失敗
BUG-102305 HIVE-19430 HS2 和 hive 中繼存放區 OOM 傾印
BUG-102361 N/A 在複寫到目標 hive 叢集 (onprem - s3) 的單一插入中有多個插入結果
BUG-87624 N/A 啟用 storm 事件記錄會導致背景工作角色持續停止
BUG-88929 HBASE-15615 當 RegionServerCallable 需要重試時,睡眠時間會錯誤
BUG-89628 HIVE-17613 針對簡短的同一執行緒配置移除物件集區
BUG-89813 N/A SCA:程式碼正確性:未同步處理的方法會覆寫已同步處理的方法
BUG-90437 ZEPPELIN-3072 如果 notebook 太多,Zeppelin UI 會變得緩慢/沒有回應
BUG-90640 HBASE-19065 HRegion#bulkLoadHFiles() 應該等候並行 Region#flush() 完成
BUG-91202 HIVE-17013 根據對檢視的選取來刪除具有子查詢的要求
BUG-91350 KNOX-1108 NiFiHaDispatch 未容錯移轉
BUG-92054 HIVE-13120 產生 ORC 分割時傳播 doAs
BUG-92373 FALCON-2314 將 TestNG 版本直接改成 6.13.1 以避免 BeanShell 相依性
BUG-92381 N/A testContainerLogsWithNewAPI 和 testContainerLogsWithOldAPI UT 失敗
BUG-92389 STORM-2841 testNoAcksIfFlushFails UT 失敗,並發生 NullPointerException
BUG-92586 SPARK-17920, SPARK-20694, SPARK-21642, SPARK-22162, SPARK-22289, SPARK-22373, SPARK-22495, SPARK-22574, SPARK-22591, SPARK-22595, SPARK-22601, SPARK-22603, SPARK-22607, SPARK-22635, SPARK-22637, SPARK-22653, SPARK-22654, SPARK-22686, SPARK-22688, SPARK-22817, SPARK-22862, SPARK-22889, SPARK-22972, SPARK-22975, SPARK-22982, SPARK-22983, SPARK-22984, SPARK-23001, SPARK-23038, SPARK-23095 Spark2 最新版本更新為 2.2.1 (1 月 16 日)
BUG-92680 ATLAS-2288 透過 Hive 建立 hbase 資料表時,會在執行 import-hive 指令碼時發生 NoClassDefFoundError 例外狀況
BUG-92760 ACCUMULO-4578 取消壓縮 FATE 作業不會釋放命名空間鎖定
BUG-92797 HDFS-10267, HDFS-8496 減少某些使用案例的 datanode 鎖定爭用
BUG-92813 FLUME-2973 Hdfs 接收中發生死結
BUG-92957 HIVE-11266 count(*) 會根據外部資料表的資料表統計資料,產生錯誤的結果
BUG-93018 ATLAS-2310 在 HA 中,被動節點會使用錯誤的 URL 編碼將要求重新導向
BUG-93116 RANGER-1957 啟用增量同步處理時,Ranger Usersync 不會定期同步使用者或群組。
BUG-93361 HIVE-12360 在具有述詞下推的未壓縮 ORC 中會進行錯誤的搜尋
BUG-93426 CALCITE-2086 由於大型的授權標頭,某些情況下會出現 HTTP/413
BUG-93429 PHOENIX-3240 Pig 載入器發生 ClassCastException
BUG-93485 N/A 無法取得資料表 mytestorg.apache.hadoop.hive.ql.metadata.InvalidTableException:在 LLAP 中的資料行上執行分析資料表時找不到資料表
BUG-93512 PHOENIX-4466 java.lang.RuntimeException:回應碼 500 - 執行 spark 作業以連線到 phoenix 查詢伺服器和載入資料
BUG-93550 N/A Zeppelin %spark.r 不適用於 spark1,因為 scala 版本不相符
BUG-93910 HIVE-18293 若資料夾不是由執行 HiveMetaStore 的身分識別所擁有的,Hive 就無法壓縮該資料夾內所包含的資料表
BUG-93926 ZEPPELIN-3114 在 >1d 的壓力測試之後,Notebook 與解譯器不會儲存到 zeppelin
BUG-93932 ATLAS-2320 查詢的分類 "*" 會擲回 500 內部伺服器例外狀況。
BUG-93948 YARN-7697 NM 在使用 OOM 時會當機,因為 log-aggregation (part#1) 中發生流失
BUG-93965 ATLAS-2229 DSL 搜尋:orderby 非字串屬性會擲回例外狀況
BUG-93986 YARN-7697 NM 在使用 OOM 時會當機,因為 log-aggregation (part#2) 中發生流失
BUG-94030 ATLAS-2332 使用具有巢狀集合資料類型的屬性無法建立類型
BUG-94080 YARN-3742, YARN-6061 這兩個 RM 都在安全叢集中待命
BUG-94081 HIVE-18384 log4j2.x 程式庫中發生 ConcurrentModificationException
BUG-94168 N/A 服務登錄處於錯誤狀態 ERROR 時 Yarn RM 會當機
BUG-94330 HADOOP-13190, HADOOP-14104, HADOOP-14814, HDFS-10489, HDFS-11689 HDFS 應支援多個 KMS Uris
BUG-94345 HIVE-18429 壓縮應該處理未產生任何輸出時的案例
BUG-94372 ATLAS-2229 DSL 查詢:hive_table name = ["t1","t2"] 會擲回無效的 DSL 查詢例外狀況
BUG-94381 HADOOP-13227, HDFS-13054 處理 RequestHedgingProxyProvider RetryAction 順序:FAIL < RETRY < FAILOVER_AND_RETRY。
BUG-94432 HIVE-18353 CompactorMR 應該呼叫 jobclient.close() 以觸發清除
BUG-94575 SPARK-22587 如果 fs.defaultFS 和應用程式 jar 是不同的 url,Spark 作業會失敗
BUG-94791 SPARK-22793 Spark Thrift 伺服器中發生記憶體流失
BUG-94928 HDFS-11078 修正 LazyPersistFileScrubber 中的 NPE
BUG-95013 HIVE-18488 LLAP ORC 讀取器缺少某些 null 檢查
BUG-95077 HIVE-14205 Hive 不支援等位型別與 AVRO 檔案格式的搭配
BUG-95200 HDFS-13061 SaslDataTransferClient#checkTrustAndSend 不應該信任部分信任的通道
BUG-95201 HDFS-13060 針對 TrustedChannelResolver 新增 BlacklistBasedTrustedChannelResolver
BUG-95284 HBASE-19395 [branch-1] TestEndToEndSplitTransaction.testMasterOpsWhileSplitting 會失敗,並有 NPE
BUG-95301 HIVE-18517 向量化:修正 VectorMapOperator 以接受 VRBs,並檢查向量化旗標是否正確以支援 LLAP 快取
BUG-95542 HBASE-16135 可能永遠不會刪除已移除同儕節點的 rs 下的 PeerClusterZnode
BUG-95595 HIVE-15563 忽略 SQLOperation.runQuery 中不合法的作業狀態轉換例外狀況,以公開實際的例外狀況。
BUG-95596 YARN-4126, YARN-5750 TestClientRMService 失敗
BUG-96019 HIVE-18548 修正 log4j 匯入
BUG-96196 HDFS-13120 快照集差異可能會在 concat 之後損毀
BUG-96289 HDFS-11701 從未解析的主機進行 NPE 會導致永久的 DFSInputStream 失敗
BUG-96291 STORM-2652 JmsSpout open 方法擲回例外狀況
BUG-96363 HIVE-18959 避免在 LLAP 內建立額外的執行緒集區
BUG-96390 HDFS-10453 因為大型叢集內相同檔案的複寫與刪除之間發生競爭,ReplicationMonitor 執行緒可能會停滯很長的時間。
BUG-96454 YARN-4593 AbstractService.getConfig() 中發生死結
BUG-96704 FALCON-2322 submitAndSchedule 摘要時發生 ClassCastException
BUG-96720 SLIDER-1262 Kerberized 環境中 Slider functests 會失敗
BUG-96931 SPARK-23053, SPARK-23186, SPARK-23230, SPARK-23358, SPARK-23376, SPARK-23391 更新 Spark2 為最新狀態 (2 月 19 日)
BUG-97067 HIVE-10697 ObjectInspectorConvertors#UnionConvertor 會進行錯誤的轉換
BUG-97244 KNOX-1083 HttpClient 預設逾時值應該是合理的值
BUG-97459 ZEPPELIN-3271 可供停用排程器的選項
BUG-97511 KNOX-1197 當服務中的 authentication=Anonymous 時,就不會新增 AnonymousAuthFilter
BUG-97601 HIVE-17479 更新/刪除查詢的暫存目錄不會清除
BUG-97605 HIVE-18858 提交 MR 作業時,不會解析作業設定中的系統屬性
BUG-97674 OOZIE-3186 Oozie 無法使用以 jceks://file/... 連結的設定
BUG-97743 N/A 部署 storm 拓撲時發生 java.lang.NoClassDefFoundError 例外狀況
BUG-97756 PHOENIX-4576 修正 LocalIndexSplitMergeIT 測試失敗
BUG-97771 HDFS-11711 DN 不應刪除針對「開啟太多檔案」例外狀況的封鎖
BUG-97869 KNOX-1190 Google OIDC 的 Knox SSO 支援已中斷。
BUG-97879 PHOENIX-4489 Phoenix MR 作業中發生 HBase 連線流失
BUG-98392 RANGER-2007 ranger-tagsync 的 Kerberos 票證無法更新
BUG-98484 N/A Hive 增量複寫到雲端無法運作
BUG-98533 HBASE-19934, HBASE-20008 HBase 快照集還原會失敗,原因是 Null 指標例外狀況
BUG-98555 PHOENIX-4662 在重新傳送快取時,TableResultIterator.java 中會發生 NullPointerException
BUG-98579 HBASE-13716 停止使用 Hadoop 的 FSConstants
BUG-98705 KNOX-1230 若對 Knox 發出許多並行要求,將會導致 URL 弄亂
BUG-98983 KNOX-1108 NiFiHaDispatch 未容錯移轉
BUG-99107 HIVE-19054 函式複寫應該使用 "hive.repl.replica.functions.root.dir" 作為根
BUG-99145 RANGER-2035 存取具有空白 implClass 和 Oracle 後端的 servicedefs 時發生錯誤
BUG-99160 SLIDER-1259 Slider 不適用於多重主目錄環境
BUG-99239 ATLAS-2462 若命令中未提供任何資料表,則所有資料表的 Sqoop 匯入會擲回 NPE
BUG-99301 ATLAS-2530 hive_process 和 hive_column_lineage 的名稱屬性開頭有新行字元
BUG-99453 HIVE-19065 中繼存放區用戶端相容性檢查應該包含 syncMetaStoreClient
BUG-99521 N/A 將迭代器重新具現化時,不會重新建立 HashJoin 的 ServerCache
BUG-99590 PHOENIX-3518 RenewLeaseTask 中發生記憶體流失
BUG-99618 SPARK-23599, SPARK-23806 Spark2 更新為 2.3.0+ (3/28)
BUG-99672 ATLAS-2524 具有 V2 通知的 Hive 掛勾 - 以不正確的方式處理 'alter view as' 作業
BUG-99809 HBASE-20375 在 hbase-spark 模組中移除 getCurrentUserCredentials 的使用

支援能力

Bug 識別碼 Apache JIRA 摘要
BUG-87343 HIVE-18031 針對 Alter Database 作業支援複寫。
BUG-91293 RANGER-2060 Knox proxy 與 knox-sso 搭配不適用於 ranger
BUG-93116 RANGER-1957 啟用增量同步處理時,Ranger Usersync 不會定期同步使用者或群組。
BUG-93577 RANGER-1938 稽核設定的 Solr 不會有效地使用 DocValues
BUG-96082 RANGER-1982 Ranger 系統管理員和 Ranger Kms 的分析計量錯誤改進
BUG-96479 HDFS-12781 Datanode 關閉之後,在 Namenode UI Datanode 索引標籤中擲回警告訊息。
BUG-97864 HIVE-18833 「插入目錄中作為 orcfile」時,自動合併會失敗
BUG-98814 HDFS-13314 NameNode 應該在偵測到 FsImage 損毀時選擇性結束

升級

Bug 識別碼 Apache JIRA 摘要
BUG-100134 SPARK-22919 "Bump Apache httpclient versions" 的還原
BUG-95823 N/A Knox:升級 Beanutils
BUG-96751 KNOX-1076 將 nimbus-jose-jwt 更新為 4.41.2
BUG-97864 HIVE-18833 「插入目錄中作為 orcfile」時,自動合併會失敗
BUG-99056 HADOOP-13556 變更 Configuration.getPropsWithPrefix 以使用 getProps 而不是迭代器
BUG-99378 ATLAS-2461, ATLAS-2554 用來在 Titan 圖表 DB 中匯出 Atlas 資料的移轉公用程式

可用性

Bug 識別碼 Apache JIRA 摘要
BUG-100045 HIVE-19056 當 ORC 檔案有 0 個資料列時,FixAcidKeyIndex 中會發生 IllegalArgumentException
BUG-100139 KNOX-1243 KnoxToken 服務中所設定的必要 DN 標準化
BUG-100570 ATLAS-2557 修正為當來自 UGI 的群組設定錯誤或不是空白時,允許 lookup hadoop ldap 群組
BUG-100646 ATLAS-2102 Atlas UI 增強功能:搜尋結果頁面
BUG-100737 HIVE-19049 對 Druid 新增改變資料表新增資料行的支援
BUG-100750 KNOX-1246 更新 Knox 中的服務組態以對 Ranger 支援最新的組態。
BUG-100965 ATLAS-2581 具有 V2 Hive 掛勾通知的迴歸:將資料表移動到不同的資料庫
BUG-84413 ATLAS-1964 UI:支援在搜尋資料表中排序資料行
BUG-90570 HDFS-11384, HDFS-12347 新增選項供平衡器分散 getBlocks 呼叫,以避免 NameNode 的 rpc.CallQueueLength 突然增加
BUG-90584 HBASE-19052 FixedFileTrailer 應該會辨識 branch-1.x 中的 CellComparatorImpl 類別
BUG-90979 KNOX-1224 Knox Proxy HADispatcher 以支援 HA 中的 Atlas。
BUG-91293 RANGER-2060 Knox proxy 與 knox sso 搭配不適用於 ranger
BUG-92236 ATLAS-2281 使用 null/非 null 篩選條件儲存標記/類型屬性篩選條件查詢。
BUG-92238 ATLAS-2282 只有在最愛搜尋超過 25 過時,才會在建立後進行重新整理時出現儲存的最愛搜尋。
BUG-92333 ATLAS-2286 預先建置的類型 'kafka_topic' 不應將 'topic' 屬性宣告為唯一的
BUG-92678 ATLAS-2276 hdfs_path 類型實體的路徑值會從 hive-bridge 設成小寫。
BUG-93097 RANGER-1944 系統管理員稽核的動作篩選條件沒有作用
BUG-93135 HIVE-15874, HIVE-18189 將 hive.groupby.orderby.position.alias 設為 true 時,Hive 查詢會傳回錯誤結果
BUG-93136 HIVE-18189 cbo 停用時,無法依位置排序
BUG-93387 HIVE-17600 讓 OrcFile 的 "enforceBufferSize" 變成可由使用者設定。
BUG-93495 RANGER-1937 Ranger tagsync 應該處理 ENTITY_CREATE 通知,以支援 Atlas 匯入功能
BUG-93512 PHOENIX-4466 java.lang.RuntimeException:回應碼 500 - 執行 spark 作業以連線到 phoenix 查詢伺服器和載入資料
BUG-93801 HBASE-19393 使用 SSL 存取 HBase UI 時,出現 HTTP 413 FULL 標頭。
BUG-93804 HIVE-17419 ANALYZE TABLE...COMPUTE STATISTICS FOR COLUMNS 命令會顯示已遮罩資料表的計算統計資料
BUG-93932 ATLAS-2320 查詢的分類 "*" 會擲回 500 內部伺服器例外狀況。
BUG-93933 ATLAS-2286 預先建置的類型 'kafka_topic' 不應將 'topic' 屬性宣告為唯一的
BUG-93938 ATLAS-2283, ATLAS-2295 分類的 UI 更新
BUG-93941 ATLAS-2296, ATLAS-2307 增強基本搜尋以選擇性地排除子類型實體和子分類類型
BUG-93944 ATLAS-2318 UI:按兩次子標記時,就會選取父標記
BUG-93946 ATLAS-2319 UI:在單層式和樹狀結構中刪除標記清單內有 25 個以上位置的標記時,必須先重新整理才能從清單中移除該標記。
BUG-93977 HIVE-16232 對 QuotedIdentifier 中的資料行支援統計資料計算
BUG-94030 ATLAS-2332 使用具有巢狀集合資料類型的屬性無法建立類型
BUG-94099 ATLAS-2352 Atlas 伺服器應該提供組態以指定 Kerberos DelegationToken 的有效性
BUG-94280 HIVE-12785 檢視具有等位型別,且用於 `cast` 結構的 UDF 會中斷
BUG-94332 SQOOP-2930 Sqoop 作業執行未覆寫已儲存的作業一般屬性
BUG-94428 N/A Dataplane Profiler 代理程式 REST API Knox 支援
BUG-94514 ATLAS-2339 UI:在基本搜尋結果檢視的 "columns" 中進行修改也會影響 DSL。
BUG-94515 ATLAS-2169 設定了實刪除時,刪除要求會失敗
BUG-94518 ATLAS-2329 如果使用者對不正確的另一個標記按一下,就會出現 Atlas UI 多重停留
BUG-94519 ATLAS-2272 使用儲存搜尋 API 儲存所拖曳資料行的狀態。
BUG-94627 HIVE-17731 在 HIVE-11985 中新增外部使用者的回溯 compat 選項
BUG-94786 HIVE-6091 針對連線建立/關閉所建立的 pipeout 檔案是空的
BUG-94793 HIVE-14013 描述資料表未正確顯示 unicode
BUG-94900 OOZIE-2606, OOZIE-2658, OOZIE-2787, OOZIE-2802 設定 spark.yarn.jars 以使用 Oozie 修正 Spark 2.0
BUG-94901 HBASE-19285 新增每一資料表的延遲長條圖
BUG-94908 ATLAS-1921 UI:使用實體和特徵屬性的搜尋:UI 不會執行範圍檢查,且會允許針對整數和浮點數資料類型提供超出界限的值。
BUG-95086 RANGER-1953 改進使用者群組頁面清單
BUG-95193 SLIDER-1252 使用 Python 2.7.5-58 時,Slider 代理程式會失敗,並發生 SSL 驗證錯誤
BUG-95314 YARN-7699 queueUsagePercentage 將會做為 getApp REST api 呼叫的 INF
BUG-95315 HBASE-13947, HBASE-14517, HBASE-17931 將系統資料表指派給具有最高版本的伺服器
BUG-95392 ATLAS-2421 支援 V2 資料結構的通知更新
BUG-95476 RANGER-1966 原則引擎初始化不會在某些情況下建立內容擴充程式
BUG-95512 HIVE-18467 支援整個倉儲傾印/載入 + 建立/置放資料庫事件
BUG-95593 N/A 擴充 Oozie DB 公用程式以支援 Spark2sharelib 建立
BUG-95595 HIVE-15563 忽略 SQLOperation.runQuery 中不合法的作業狀態轉換例外狀況,以公開實際的例外狀況。
BUG-95685 ATLAS-2422 匯出:支援以類型為基礎的匯出
BUG-95798 PHOENIX-2714, PHOENIX-2724, PHOENIX-3023, PHOENIX-3040 請勿使用 guideposts 來循序執行查詢
BUG-95969 HIVE-16828, HIVE-17063, HIVE-18390 分割的檢視會失敗,並出現 FAILED:IndexOutOfBoundsException 索引:1,大小:1
BUG-96019 HIVE-18548 修正 log4j 匯入
BUG-96288 HBASE-14123, HBASE-14135, HBASE-17850 向下移植 HBase 備份/還原 2.0
BUG-96313 KNOX-1119 Pac4J OAuth/OpenID 主體必須是可設定的
BUG-96365 ATLAS-2442 具有實體資源唯讀權限的使用者無法執行基本搜尋
BUG-96479 HDFS-12781 Datanode 關閉之後,在 Namenode UI Datanode 索引標籤中擲回警告訊息。
BUG-96502 RANGER-1990 在 Ranger 系統管理員中新增單向 SSL MySQL 支援
BUG-96718 ATLAS-2439 更新 Sqoop 掛勾以使用 V2 通知
BUG-96748 HIVE-18587 插入 DML 事件可能會嘗試對目錄計算總和檢查碼
BUG-96821 HBASE-18212 在具有本機檔案系統 HBase 記錄警告訊息的獨立模式中:無法在 org.apache.hadoop.fs.FSDataInputStream 類別中叫用 'unbuffer' 方法
BUG-96847 HIVE-18754 REPL STATUS 應該支援 'with' 子句
BUG-96873 ATLAS-2443 在外寄 DELETE 訊息中擷取所需的實體屬性
BUG-96880 SPARK-23230 當 hive.default.fileformat 是其他種類的檔案類型時,建立 textfile 資料表會造成 serde 錯誤
BUG-96911 OOZIE-2571, OOZIE-2792, OOZIE-2799, OOZIE-2923 改善 Spark 選項剖析
BUG-97100 RANGER-1984 HBase 稽核線索記錄可能不會顯示與所存取的資料行相關聯的所有標記
BUG-97110 PHOENIX-3789 在 postBatchMutateIndispensably 中執行跨區域索引維護呼叫
BUG-97145 HIVE-12245, HIVE-17829 HBase 支援的資料表可支援資料行註解
BUG-97409 HADOOP-15255 可對 LdapGroupsMapping 中的群組名稱支援大小寫轉換
BUG-97535 HIVE-18710 在 Hive 2.X 中將 inheritPerms 延伸至 ACID
BUG-97742 OOZIE-1624 sharelib JAR 的排除模式
BUG-97744 PHOENIX-3994 索引 RPC 優先順序仍需依賴 hbase-site.xml 中的控制器中心屬性
BUG-97787 HIVE-18460 Compactor 不會將資料表屬性傳遞至 Orc 寫入器
BUG-97788 HIVE-18613 擴充 JsonSerDe 以支援 BINARY 類型
BUG-97899 HIVE-18808 統計資料更新失敗時,讓壓縮更穩固
BUG-98038 HIVE-18788 清除 JDBC PreparedStatement 中的輸入
BUG-98383 HIVE-18907 建立公用程式以修正 HIVE-18817 中的 acid 金鑰索引問題
BUG-98388 RANGER-1828 良好的程式碼撰寫慣例 - 在 ranger 中新增更多標頭
BUG-98392 RANGER-2007 ranger-tagsync 的 Kerberos 票證無法更新
BUG-98533 HBASE-19934, HBASE-20008 HBase 快照集還原會失敗,原因是 Null 指標例外狀況
BUG-98552 HBASE-18083, HBASE-18084 在 HFileCleaner 中讓大型/小型檔案清除執行緒數目變成可供設定的狀態
BUG-98705 KNOX-1230 若對 Knox 發出許多並行要求,將會導致 URL 弄亂
BUG-98711 N/A 不修改 service.xml,NiFi 分派就不能使用雙向 SSL
BUG-98880 OOZIE-3199 讓系統屬性限制可供進行設定
BUG-98931 ATLAS-2491 更新 Hive 掛勾以使用 Atlas v2 通知
BUG-98983 KNOX-1108 NiFiHaDispatch 未容錯移轉
BUG-99088 ATLAS-2511 提供選項以供選擇性地將資料庫/資料表從 Hive 匯入到 Atlas
BUG-99154 OOZIE-2844, OOZIE-2845, OOZIE-2858, OOZIE-2885 Spark 查詢失敗,並發生 "java.io.FileNotFoundException: hive-site.xml (Permission denied)" 例外狀況
BUG-99239 ATLAS-2462 若命令中未提供任何資料表,則所有資料表的 Sqoop 匯入會擲回 NPE
BUG-99636 KNOX-1238 修正閘道的自訂 Truststore 設定
BUG-99650 KNOX-1223 Zeppelin 的 Knox proxy 不會如預期般重新導向 /api/ticket
BUG-99804 OOZIE-2858 HiveMain、ShellMain 和 SparkMain 不應在本機覆寫屬性和設定檔
BUG-99805 OOZIE-2885 執行 Spark 動作應該不需要在 classpath 上有 Hive
BUG-99806 OOZIE-2845 取代會在 HiveConf 中設定變數的反映型程式碼
BUG-99807 OOZIE-2844 log4j.properties 遺失或無法讀取時增加 Oozie 動作的穩定性
RMP-9995 AMBARI-22222 將 druid 改為使用 /var/druid 目錄,而不是本機磁碟上的 /apps/druid

行為變更

Apache 元件 Apache JIRA 摘要 詳細資料
Spark 2.3 N/A Apache Spark 版本資訊中所述的變更 - 有一份「淘汰」文件和一份「行為變更」指南 https://spark.apache.org/releases/spark-release-2-3-0.html#deprecations

- 針對 SQL 組件,另有一份詳細的「移轉」指南 (從 2.2 至 2.3) https://spark.apache.org/docs/latest/sql-programming-guide.html#upgrading-from-spark-sql-22-to-23|
Spark HIVE-12505 Spark 作業已順利完成,但是有 HDFS 磁碟配額已滿錯誤 案例:在已對執行命令的使用者所擁有的 [資源回收筒] 資料夾設定配額時,執行 insert overwrite

先前的行為:即使無法將資料移至資源回收筒,作業仍會成功。 結果可能會錯誤地包含一些先前出現在資料表中的資料。

新的行為:移至 [資源回收筒] 資料夾若失敗,就會永久刪除檔案。
Kafka 1.0 N/A Apache Spark 版本資訊中所述的變更 https://kafka.apache.org/10/documentation.html#upgrade_100_notable
Hive/ Ranger INSERT OVERWRITE 需要其他 ranger hive 原則 案例:INSERT OVERWRITE 需要其他 ranger hive 原則

先前的行為:Hive INSERT OVERWRITE 查詢會如往常般成功。

新的行為:Hive INSERT OVERWRITE 查詢會在升級至 HDP-2.6.x 之後意外失敗,並出現錯誤:

編譯陳述式時發生錯誤:FAILED:HiveAccessControlException 權限遭拒:使用者 jdoe 沒有 /tmp/*(state=42000,code=40000) 的 WRITE 權限

截至 HDP-2.6.0,Hive INSERT OVERWRITE 查詢需要 Ranger URI 原則才能允許寫入作業,即使使用者已透過 HDFS 原則獲得寫入權限也是一樣。

因應措施/期望的客戶動作:

1.在 Hive 存放庫下建立新的原則。
2.在看到資料庫的下拉式清單中,選取 URI。
3.更新路徑 (範例:/tmp/*)
4.新增使用者和群組,然後儲存。
5.重試插入查詢。
HDFS N/A HDFS 應支援多個 KMS Uris 先前的行為:使用 dfs.encryption.key.provider.uri 屬性來設定 KMS 提供者路徑。

新的行為:dfs.encryption.key.provider.uri 現已淘汰,改為使用 hadoop.security.key.provider.path 來設定 KMS 提供者路徑。
Zeppelin ZEPPELIN-3271 可供停用排程器的選項 受影響的元件:Zeppelin-Server

先前的行為:在舊版 Zeppelin 中,沒有選項可停用排程器。

新的行為:根據預設,使用者不會再看到排程器,因為其已依預設停用。

因應措施/期望的客戶動作:如果您想要啟用排程器,您必須從 Ambari 在 Zeppelin 設定中於自訂 zeppelin 網站之下新增值為 true 的 azeppelin.notebook.cron.enable。

已知問題

  • HDInsight 與 ADLS Gen 2 的整合 - 搭配使用者目錄及權限使用 Azure Data Lake Storage Gen 2 的 HDInsight ESP 叢集上有兩個問題:

    1. 使用者的主目錄不會建立在前端節點 1 上。 為因應此情況,請手動建立目錄,並將擁有權變更為個別使用者的 UPN。

    2. /hdp 目錄上的權限目前未設定為 751。 這必須設定為

      chmod 751 /hdp 
      chmod –R 755 /hdp/apps
      
  • Spark 2.3

    • [SPARK-23523][SQL] OptimizeMetadataOnlyQuery 規則造成了不正確的結果

    • [SPARK-23406] stream-stream 自我聯結中有錯誤

    • 當 Azure Data Lake Storage (Gen2) 是叢集的預設儲存體時,便無法使用 Spark notebook 範例。

  • 企業安全性套件

    • Spark Thrift 伺服器不接受來自 ODBC 用戶端的連線。 因應措施步驟:
      1. 在建立叢集之後等候 15 分鐘左右。
      2. 檢查 ranger UI 中是否有 hivesampletable_policy。
      3. 重新啟動 Spark 服務。 STS 連線現在應可正常運作。
  • Ranger 服務檢查失敗的因應措施

    • RANGER-1607:從先前的 HDP 版本升級至 HDP 2.6.2 時,Ranger 服務檢查失敗的因應措施。

      注意

      只有在 Ranger 已啟用 SSL 時。

    嘗試透過 Ambari 從先前的 HDP 版本升級至 HDP-2.6.1 時,就會發生此問題。 Ambari 會使用 curl 呼叫來對 Ambari 中的 Ranger 服務進行服務檢查。 如果 Ambari 使用的 JDK 版本是 JDK-1.7,curl 呼叫會失敗並出現下列錯誤:

    curl: (35) error:14077410:SSL routines:SSL23_GET_SERVER_HELLO:sslv3 alert handshake failure

    這項錯誤的原因是用在 Ranger 的 tomcat 版本是 Tomcat-7.0.7*。 使用 JDK-1.7 會與 Tomcat-7.0.7* 中提供的預設編碼器衝突。

    您可以透過兩種方式解決這個問題:

    • 將 Ambari 中使用的 JDK 從 JDK-1.7 更新至 JDK-1.8 (請參閱《Ambari 參考指南》中的變更 JDK 版本)。

    • 如果您想要繼續支援 JDK-1.7 環境:

      1. 在 Ambari Ranger 設定中的 ranger-admin-site 區段內,使用下列值新增 ranger.tomcat.ciphers 屬性:

        SSL_RSA_WITH_RC4_128_MD5、SSL_RSA_WITH_RC4_128_SHA、TLS_RSA_WITH_AES_128_CBC_SHA、SSL_RSA_WITH_3DES_EDE_CBC_SHA

      2. 如果環境是針對 Ranger-KMS 進行設定的,則在 Ambari Ranger 設定中的 theranger-kms-site 區段內,使用下列值新增 ranger.tomcat.ciphers 屬性:

        SSL_RSA_WITH_RC4_128_MD5、SSL_RSA_WITH_RC4_128_SHA、TLS_RSA_WITH_AES_128_CBC_SHA、SSL_RSA_WITH_3DES_EDE_CBC_SHA

    注意

    所記下的值是可供運作的範例,可能無法代表您的環境。 請確定您在設定這些屬性時,所使用的方式符合您環境的設定方式。

  • RangerUI:逸出在原則表單中輸入的原則條件文字

    受影響的元件:Ranger

    問題描述

    如果使用者想要建立有自訂原則條件的原則,且運算式或文字包含特殊字元,則原則強制執行將不會有作用。 特殊字元會先轉換為 ASCII,然後才將原則儲存到資料庫。

    特殊字元: & <> " ` '

    例如,條件 tags.attributes['type']='abc' 會在儲存原則之後轉換成下列文字。

    tags.attds['dsds']='cssdfs'

    您可以在編輯模式中開啟原則,以看到有這些字元的原則條件。

    因應措施

    • 選項 #1:透過 Ranger REST API 建立/更新原則

      REST URL:http://<host>:6080/service/plugins/policies

      建立具有原則條件的原則:

      下列範例會將具有標記的原則建立為 `tags-test`,並將其指派給 `public` 群組 (原則條件為 astags.attr['type']=='abc'),方法是選取所有 hive 元件權限,像是選取、更新、建立、卸除、改變、編製索引、鎖定、所有。

      範例:

        curl -H "Content-Type: application/json" -X POST http://localhost:6080/service/plugins/policies -u admin:admin -d '{"policyType":"0","name":"P100","isEnabled":true,"isAuditEnabled":true,"description":"","resources":{"tag":{"values":["tags-test"],"isRecursive":"","isExcludes":false}},"policyItems":[{"groups":["public"],"conditions":[{"type":"accessed-after-expiry","values":[]},{"type":"tag-expression","values":["tags.attr['type']=='abc'"]}],"accesses":[{"type":"hive:select","isAllowed":true},{"type":"hive:update","isAllowed":true},{"type":"hive:create","isAllowed":true},{"type":"hive:drop","isAllowed":true},{"type":"hive:alter","isAllowed":true},{"type":"hive:index","isAllowed":true},{"type":"hive:lock","isAllowed":true},{"type":"hive:all","isAllowed":true}]}],"denyPolicyItems":[],"allowExceptions":[],"denyExceptions":[],"service":"tagdev"}'
      

      更新具有原則條件的現有原則:

      下列範例會將具有標記的原則更新為 `tags-test`,並將其指派給 `public` 群組 (原則條件為 astags.attr['type']=='abc'),方法是選取所有 hive 元件權限,像是選取、更新、建立、卸除、改變、編製索引、鎖定、所有。

      REST URL:http://<host-name>:6080/service/plugins/policies/<policy-id>

      範例:

        curl -H "Content-Type: application/json" -X PUT http://localhost:6080/service/plugins/policies/18 -u admin:admin -d '{"id":18,"guid":"ea78a5ed-07a5-447a-978d-e636b0490a54","isEnabled":true,"createdBy":"Admin","updatedBy":"Admin","createTime":1490802077000,"updateTime":1490802077000,"version":1,"service":"tagdev","name":"P0101","policyType":0,"description":"","resourceSignature":"e5fdb911a25aa7f77af5a9546938d9ed","isAuditEnabled":true,"resources":{"tag":{"values":["tags"],"isExcludes":false,"isRecursive":false}},"policyItems":[{"accesses":[{"type":"hive:select","isAllowed":true},{"type":"hive:update","isAllowed":true},{"type":"hive:create","isAllowed":true},{"type":"hive:drop","isAllowed":true},{"type":"hive:alter","isAllowed":true},{"type":"hive:index","isAllowed":true},{"type":"hive:lock","isAllowed":true},{"type":"hive:all","isAllowed":true}],"users":[],"groups":["public"],"conditions":[{"type":"ip-range","values":["tags.attributes['type']=abc"]}],"delegateAdmin":false}],"denyPolicyItems":[],"allowExceptions":[],"denyExceptions":[],"dataMaskPolicyItems":[],"rowFilterPolicyItems":[]}'
      
    • 選項 #2:套用 Javascript 變更

      JS 檔案的更新步驟:

      1. 在 /usr/hdp/current/ranger-admin 底下找出 PermissionList.js 檔案

      2. 找出 renderPolicyCondtion 函式的定義 (行號:404)。

      3. 從該函式移除下面這行,也就是在顯示函式底下 (行號:434)

        val = _.escape(val);//Line No:460

        在移除上述程式碼行之後,Ranger UI 便可讓您建立具有原則條件的原則 (可包含特殊字元),且相同原則的原則評估將會成功。

HDInsight 與 ADLS Gen 2 整合:ESP 叢集的使用者目錄和權限問題 1.使用者的主目錄不會建立在前端節點 1 上。 為因應此情況,請手動建立這些目錄,並將擁有權變更為個別使用者的 UPN。 2./hdp 上的權限目前未設定為 751。 這必須設定為 a. chmod 751 /hdp b. chmod –R 755 /hdp/apps

棄用

  • OMS 入口網站:我們已從 HDInsight 資源頁面中移除指向 OMS 入口網站的連結。 Azure 監視器記錄一開始會使用其本身的入口網站 (稱為 OMS 入口網站) 來管理其設定和分析收集到的資料。 這個入口網站中的所有功能都已移至 Azure 入口網站,並將繼續進行開發。 HDInsight 已淘汰對於 OMS 入口網站的支援。 客戶將會在 Azure 入口網站中使用 HDInsight Azure 監視器記錄整合。

  • Spark 2.3:Spark 2.3.0 版淘汰

​升級中

這些功能全都可在 HDInsight 3.6 中使用。 若要取得最新版本的 Spark、Kafka 和 R Server (機器學習服務),請在建立 HDInsight 3.6 叢集時選擇 Spark、Kafka、ML 服務版本。 若要取得 ADLS 的支援,您可以選擇 ADLS 儲存體類型選項。 現有叢集不會自動升級為這些版本。

在 2018 年 6 月之後建立的所有新叢集,會自動取得所有開放原始碼專案超過 1000 個以上的錯誤修正。 請遵循這份指南,取得關於升級至較新 HDInsight 版本的最佳做法。