共用方式為


檢視計算計量

本文說明如何使用 Azure Databricks UI 中的原生計算計量工具來收集密鑰硬體和 Spark 計量。 任何使用 Databricks Runtime 13.3 LTS 和更新版本的計算預設都會存取這些計量。

計量幾乎即時可用,通常延遲不到一分鐘。 計量會儲存在 Azure Databricks 管理的記憶體中,而不是儲存在客戶的記憶體中。

這些新計量與甘利亞有什麼不同?

新的計算計量 UI 有更完整的叢集資源使用量檢視,包括 Spark 耗用量和內部 Databricks 程式。 相反地,Ganglia UI 只會測量 Spark 容器耗用量。 此差異可能會導致兩個介面之間的計量值不一致。

存取計算計量 UI

若要檢視計算計量 UI:

  1. 按兩下 提要欄位中的[計算 ]。
  2. 按兩下您想要檢視計量的計算資源。
  3. 按兩下 [ 計量] 索引標籤

過去24小時的叢集計量

默認會顯示硬體計量。 若要檢視 Spark 計量,請單擊標示為 [硬體 ] 的下拉功能表,然後選取 [Spark]。 如果實例已啟用 GPU,您也可以選取 GPU

依時間週期篩選計量

您可以使用日期選擇器篩選來選取時間範圍,以檢視歷程記錄計量。 計量會每分鐘收集一次,因此您可以依過去 30 天內的任何一天、小時或分鐘範圍進行篩選。 按兩下行事歷圖示,從預先定義的數據範圍中選取,或按下文字框內來定義自訂值。

注意

圖表中顯示的時間間隔會根據您檢視的時間長度進行調整。 根據您目前檢視的時間間隔,大部分計量都是平均值。

您也可以按下 [ 重新 整理] 按鈕來取得最新的計量。

在節點層級檢視計量

您可以單擊 [計算 ] 下拉功能表,然後選取您要檢視計量的節點,以檢視個別節點的計量。 GPU 計量僅適用於個別節點層級。 個別節點無法使用 Spark 計量。

注意

如果您未選取特定節點,結果將會平均於叢集內的所有節點(包括驅動程式)。

硬體計量圖表

下列硬體計量圖表可在計算計量 UI 中檢視:

  • 伺服器負載分佈:此圖表顯示每個節點過去一分鐘的CPU使用率。
  • CPU 使用率:根據CPU秒總成本,在每個模式中花費的CPU時間百分比。 計量會根據圖表中顯示的時間間隔來平均。 以下是追蹤模式:
    • guest:如果您正在執行 VM,則這些 VM 使用的 CPU
    • 愛荷華州:等待 I/O 所花費的時間
    • 閑置:CPU 沒有作用的時間
    • irq:中斷要求所花費的時間
    • nice:具有正面良好性的進程所使用的時間,這表示優先順序比其他工作低
    • softirq:軟體中斷要求所花費的時間
    • 竊取:如果您是 VM,其他 VM 從 CPU 中「偷走了」的時間
    • system:核心中花費的時間
    • user:在用戶內陸花費的時間
  • 記憶體使用率:每個模式的總記憶體使用量,以位元組為單位測量,並根據圖表中顯示的時間間隔來平均。 追蹤下列使用類型:
    • used:已使用記憶體(包括在計算上執行的背景進程所使用的記憶體)
    • free:未使用的記憶體
    • buffer:核心緩衝區所使用的記憶體
    • cached:操作系統層級上文件系統快取所使用的記憶體
  • 記憶體交換使用率:每個模式的總記憶體交換使用量,以位元組為單位測量,並根據圖表中顯示的時間間隔來平均。
  • 可用文件系統空間:每個裝入點的總文件系統使用量,以位元組為單位測量,並根據圖表中顯示的時間間隔平均計算。
  • 透過網路接收:每個裝置透過網路接收的位元元組數目,會根據圖表中顯示的時間間隔來平均。
  • 透過網路傳輸:每個裝置透過網路傳輸的位元元組數目,會根據圖表中顯示的時間間隔來平均。
  • 使用中節點的數目:這會顯示指定計算之每個時間戳的作用中節點數目。

Spark 計量圖表

下列 Spark 計量圖表可在計算計量 UI 中檢視:

  • 伺服器負載分佈:此圖表顯示每個節點過去一分鐘的CPU使用率。
  • 作用中工作:在任何指定時間執行的工作總數,根據圖表中顯示的時間間隔來平均。
  • 失敗的工作總數:執行程序中失敗的工作總數,會根據圖表中顯示的時間間隔來平均。
  • 已完成的工作總數:執行程式中已完成的工作總數,會根據圖表中顯示的時間間隔來平均。
  • 工作總數:執行程式中的所有工作總數(執行中、失敗和已完成),會根據圖表中顯示的時間間隔來平均。
  • 隨機讀取總計:隨機讀取數據的總大小,以位元組為單位測量,並根據圖表中顯示的時間間隔來平均計算。 Shuffle read 表示階段開始時所有執行程式上串行化讀取數據的總和。
  • 隨機寫入總計: 隨機寫入數據的總大小,以位元組為單位測量,並根據圖表中顯示的時間間隔來平均計算。 Shuffle Write 是傳輸之前所有執行程式上所有寫入串行化數據的總和(通常是在階段結尾)。
  • 總任務工期:JVM 在執行程式上執行工作所花費的總經過時間,以秒為單位,並根據圖表中顯示的時間間隔來平均計算。

GPU 計量圖表

下列 GPU 計量圖表可在計算計量 UI 中檢視:

  • 伺服器負載分佈:此圖表顯示每個節點過去一分鐘的CPU使用率。
  • 每個 GPU 譯碼器使用率:GPU 譯碼器使用率的百分比,根據圖表中顯示的時間間隔來平均。
  • 每個 GPU 編碼器使用率:GPU 編碼器使用率的百分比,根據圖表中顯示的時間間隔來平均。
  • 每個 GPU 框架緩衝區內存使用率位元組:框架緩衝區內存使用率,以位元組為單位測量,並根據圖表中顯示的時間間隔來平均。
  • 每個 GPU 記憶體使用率:GPU 記憶體使用率的百分比,根據圖表中顯示的時間間隔平均。
  • 每個 GPU 使用率:GPU 使用率的百分比,根據圖表中顯示的時間間隔平均。

疑難排解

如果您在一段時間內看到不完整或遺漏的計量,可能是下列其中一個問題:

  • Databricks 服務中斷,負責查詢和儲存計量。
  • 用戶端的網路問題。
  • 計算為 或處於狀況不良狀態。