Share via


對 Azure 監視器計量警示進行疑難排解

本文討論有關 Azure 監視器 計量警示 的常見問題,以及如何進行疑難解答。

在監視資料中發現重大狀況時,Azure 監視器會主動通知您。 它們可讓您在系統使用者注意到問題之前,找出並解決問題。 如需警示的詳細資訊,請參閱 Microsoft Azure 中的警示概觀。

計量警示在應該有時未引發

如果您認為計量警示應該已引發,但未引發,且未列在 Azure 入口網站 中,請嘗試下列步驟:

  1. 檢閱計量警示規則設定。

    • 檢查 [匯總類型] 和 [匯總數據粒度] 是否如預期般設定。 匯總類型 會決定如何匯總計量值。 若要深入瞭解,請參閱 Azure 監視器計量匯總和顯示說明匯總粒度 (期間) 控制評估每次執行警示規則時匯總計量值的時間。

    • 檢查閾值敏感度是否如預期般設定。

    • 如需使用動態閾值的警示規則,請檢查是否已設定進階設定。 違規 次數可能會篩選警示,而 忽略數據之前 可能會影響閾值的計算方式。

      注意

      動態閾值至少需要 3 天和 30 個計量範例,才能變成作用中狀態。

  2. 檢查警示是否已引發,但未傳送通知。

    檢閱引發的 警示清單 ,以查看您是否可以找到引發的警示。 如果您在清單中看到警示,但有一些動作或通知的問題,請參閱 針對 Azure 監視器警示中的問題進行疑難解答。

  3. 檢查警示是否已經作用中。

    檢查計量時間序列上是否已經有引發的警示,您預期會收到警示。 計量警示是具狀態的,這表示一旦在特定計量時間序列上引發警示,該時間序列上的更多警示將不會引發,直到問題不再觀察到為止。 此設計選擇可減少雜訊。 當連續三個評估的警示條件都不符合時,便會自動解決警示。

  4. 檢查所使用的維度。

    如果您為計量選取了一些維度值,警示規則會監視每個個別計量時間序列(如維度值的組合所定義),以取得臨界值缺口。 若要同時監視匯總計量時間序列,而不選取任何維度,請在計量上設定另一個警示規則,而不選取維度。

  5. 檢查匯總和時間粒度。

    如果您使用 計量圖表,請確定:

    • 計量圖表中選取的匯總與警示規則中的匯總類型相同
    • 選取的時間粒度與警示規則中的匯總數據粒度(期間)相同,且未設定為 [自動]。
  6. 檢查警示規則是否遺漏時間序列中的第一個評估期間。

    您可以確定您選擇大於下列案例中評估頻率的匯總數據粒度(期間),以減少遺漏新增時間序列第一次評估的可能性:

    • 當新的維度值組合新增至監視多個維度的計量警示規則時。
    • 將新的資源新增至監視多個資源的計量警示規則的範圍時。
    • 當計量在超過 24 小時之後發出時,計量警示規則不會發出,該規則會監視未連續發出的計量(疏鬆計量)。

每次符合條件時都不會觸發計量警示

計量警示預設為具狀態,因此如果特定時間序列上已經有引發的警示,則不會引發其他警示。 若要讓特定計量警示規則無狀態,並在符合警示條件的每個評估時收到警示,請使用下列其中一個選項:

  • 如果您以程式設計方式建立警示規則,例如,透過 Azure Resource ManagerPowerShellRESTAzure CLI,請將 autoMitigate 屬性設定為 False

  • 如果您在 Azure 入口網站 中建立警示規則,請清除 [警示規則詳細數據] 區段底下的 [自動解決警示] 選項。 無狀態計量警示的通知頻率會根據警示規則的設定頻率而有所不同:

  • 警示頻率少於 5 分鐘:當條件持續符合時,通知會在一到六分鐘之間傳送。

  • 警示頻率超過 5 分鐘:當條件持續符合時,會在設定的頻率與頻率兩倍之間傳送通知。 例如,針對頻率為 15 分鐘的警示規則,通知會在 15 到 30 分鐘之間傳送。

注意

將計量警示規則設定為無狀態,可防止引發的警示變成解決。 因此,即使條件不再符合,引發的警示仍會處於引發狀態,直到 30 天的保留期間為止。

具有動態閾值的計量警示規則未引發足夠的

您可能會遇到使用動態閾值的警示規則未引發或不夠敏感的情況,即使已設定高敏感度也一樣。 當計量的分佈非常不規則時會發生這種情況。 考慮下列其中一個解決方案來修正問題:

  • 移至監視適合您情況的補充計量,如果適用。 例如,檢查成功率 (而不是失敗率) 的變更。
  • 請嘗試選取不同的彙總細微性 (期間) 值。
  • 檢查過去 10 天內計量行為是否有大幅變更,例如中斷。 突然變更可能會影響針對計量計算的上限和較低的閾值,並使其更擴大。 請等候幾天,直到中斷不再計入閾值計算。 您也可以編輯警示規則,在 [進階設定] 中使用 [忽略資料] 選項。
  • 如果您的資料具有每週季節性,但沒有足夠的歷程記錄可供計量使用,則計算的閾值可能會導致上限和下限擴大。 例如,計算可以以相同方式處理工作日和週末,並建置不一定符合資料的寬邊界。 此問題應該會在有足夠的計量歷程記錄可用之後自行解決。 然後將偵測到正確的季節性,並據以更新計算的閾值。

計量警示在不應該引發時引發

如果您認為計量警示不應該引發,但已引發,下列步驟可能有助於解決問題。

  1. 檢閱引發的 警示清單 ,以找出引發的警示。 選取警示以檢視其詳細資料。 檢閱為何引發此警示時提供的資訊?,以查看觸發警示時計量圖表、計量值臨界值

    注意

    如果您使用動態閾值,並認為閾值不正確,請使用皺眉圖示提供意見反應。 此意見反應會影響機器學習演算法研究,並有助於改善未來的偵測。

  2. 如果您已選取計量的多個維度值,當任何計量時間序列(如維度值的組合所定義)都違反臨界值時,就會觸發警示。 如需在計量警示中使用維度的詳細資訊,請參閱 使用維度縮小目標範圍。

  3. 檢閱警示規則設定,以確定其已正確設定:

    • 檢查 [匯總類型]、[匯總粒度][閾值] 或 [敏感度] 是否如預期般設定。
    • 針對使用動態閾值的警示規則,請檢查是否已設定進階設定,因為 違規 次數可能會篩選警示和 忽略數據,然後 可能會影響閾值的計算方式。

    注意

    動態閾值至少需要 3 天和 30 個計量範例,才會變成作用中狀態。

  4. 如果您使用 計量圖表,請確定:

    • 計量圖表中選取的匯總與警示規則中的匯總類型相同
    • 選取的時間粒度與警示規則中的匯總數據粒度(期間)相同,而且它未設定為 [自動]。
  5. 如果在已引發警示時引發警示,以監視未解決的相同準則,請檢查警示規則是否已設定為不自動解決警示。 這表示警示規則是無狀態的,而且不會自動解決引發的警示,而且不需要在相同時間序列上再次引發之前先解決引發的警示。 若要檢查警示規則是否已設定為不自動解決:

    • 編輯 Azure 入口網站 中的警示規則。 查看 [警示規則詳細數據] 區段底下的 [自動解決警示] 複選框是否已清除。
    • 檢閱用來部署警示規則或擷取警示規則定義的腳本。 檢查屬性是否已 autoMitigate 設定為 false

具有動態閾值的計量警示規則引發太多或太嘈雜

如果使用動態閾值的警示規則太吵鬧或太多,您可能需要降低動態閾值警示規則的敏感度。 使用下列其中一個選項:

  • 閾值敏感度:將敏感度設定為 [低],以提高偏差的容忍度。
  • ([進階設定] 下方) 的違規次數:設定警示規則,只有在特定時段內發生數次偏差時才會觸發。 此設定會使規則較不容易受到暫時性偏差的影響。

具有動態閾值的計量警示規則會顯示不在預期值範圍內的值

當計量值出現大型波動時,動態閾值會以計量值為基礎建置更廣泛的模型,這可能會導致較預期低或更高的邊界。 在下列情況下可能會發生此狀況:

  • 敏感度設定為低。

  • 計量顯示異常行為,並具有較高的變異數 (在資料中出現尖峰或下降)。

    請考慮選擇較嚴格的敏感度,或選取較大的 Lookback 期間,讓模型變得不那麼敏感。 您也可使用 [忽略資料 (以下時間之前)] 選項,從用來建置模型的歷程記錄資料中排除最近的異常。

設定計量警示規則的問題

找不到要警示的計量

如果您想要在特定計量上發出警示,但在建立警示規則時看不到它,請檢查以判斷:

  • 如果您看不到資源的任何計量, 請檢查計量警示是否支援資源類型。
  • 如果您可以看到資源的一些計量,但找不到特定計量, 請檢查該計量是否可用。 如果是,請參閱計量描述,以檢查它是否僅適用於特定版本或資源版本。
  • 如果計量不適用於資源,它可能會出現在資源記錄中,而且可以使用記錄警示來監視。 如需詳細資訊,請參閱如何 從 Azure 資源收集及分析資源記錄。

找不到要警示的計量:虛擬機客體計量

若要針對虛擬機的客體操作系統計量發出警示,例如記憶體和磁碟空間,請確定您已安裝必要的代理程式,以將此數據收集到 Azure 監視器計量中:

如需從虛擬機客體作業系統收集數據的詳細資訊,請參閱 此網站

注意

如果您已將來賓計量設定為傳送至 Log Analytics 工作區,計量會出現在 Log Analytics 工作區資源底下,而且只有在您建立監視這些計量的警示規則之後才會開始顯示數據。 若要這麼做,請遵循步驟來設定記錄的計量警示

目前,計量警示不支援監視具有單一警示規則之多部虛擬機的客體計量。 但您可以使用 記錄警示規則。 若要這樣做,請確定客體計量已收集到Log Analytics工作區,並在工作區上建立記錄警示規則。

找不到要警示的計量維度

如果您想要警示 計量 的特定維度值,但找不到這些值:

  • 維度值可能需要幾分鐘的時間才會出現在 [維度值] 清單底下
  • 顯示的維度值是以最後一天收集的計量數據為基礎。
  • 如果維度值尚未發出或未顯示,您可以使用 [新增自定義值 ] 選項來新增自定義維度值。
  • 如果您想要警示維度的所有可能值,甚至包含未來的值,請選擇 [ 選取所有目前和未來的值] 選項。
  • 預設會關閉 Application Insights 資源的自訂計量維度。 若要開啟這些自訂計量的維度集合,請參閱 Application Insights 中記錄型和預先彙總的計量

您想要在尚未發出的自訂計量上設定警示規則

當您建立計量警示規則時,計量名稱會根據 計量定義 API 進行驗證,以確定其存在。 在某些情況下,即使在發出警示規則之前,您仍想要在自定義計量上建立警示規則。 例如,當您使用 Resource Manager 範本來建立 Application Insights 資源,以發出自定義計量,以及監視該計量的警示規則。

若要避免當您嘗試驗證自定義計量的定義時發生部署失敗,請使用 skipMetricValidation 警示規則區段中的 參數 criteria 。 此參數會導致略過計量驗證。 如需如何在 Resource Manager 範本中使用此參數,請參閱下列範例。 如需詳細資訊,請參閱 建立計量警示規則的完整 Resource Manager 範例。

"criteria": {
    "odata.type": "Microsoft.Azure.Monitor.SingleResourceMultipleMetricCriteria",
        "allOf": [
            {
                "name" : "condition1",
                "metricName": "myCustomMetric",
                "metricNamespace": "myCustomMetricNamespace",
                "dimensions":[],
                "operator": "GreaterThan",
                "threshold" : 10,
                "timeAggregation": "Average",
                "skipMetricValidation": true
            }
        ]
    }

注意

skipMetricValidation當您在幾天內未發出的現有自定義計量上定義警示規則時,可能也需要使用 參數。

設定計量警示規則時的警告和錯誤

此計量警告目前無法使用動態閾值

大部分計量都支持動態閾值,但並非全部支援。 如需計量清單,請參閱動態閾值不支援的計量。

計量不適用於選取的範圍。 如果計量僅適用於特定版本或 SKU 錯誤,可能會發生這種情況

檢閱 Azure 監視器支援計量中的計量描述,以檢查它是否僅適用於資源的特定版本或此特定類型。

例如,在 SQL 資料庫資源或儲存體檔案服務中,只有特定版本的資源才支援特定計量。

沒有可用的訊號可供顯示。 嘗試變更此警示規則錯誤的範圍

此錯誤表示警示規則範圍發生問題。 當編輯範圍為支援多重資源設定 (如虛擬機器或 SQL 資料庫) 的資源類型的警示規則,並嘗試新增相同類型但來自不同區域的另一個資源時,可能會發生這種情況。 計量警示不支援對來自不同區域之相同類型的多個資源發出警示。

計量警示規則的服務限制太小

每個訂用帳戶允許的計量警示規則數目受限於 服務限制

請參閱 檢查使用 中的計量警示規則數目,以查看目前使用中的計量警示規則數目。

如果您已達到服務限制,下列步驟可能有助於解決問題:

  1. 請嘗試刪除或停用不再使用的計量警示規則。
  2. 切換至使用監視多個資源的計量警示規則。 透過這項功能,單一警示規則只能使用針對配額計算的一個警示規則來監視多個資源。 如需此功能和支援的資源類型詳細資訊,請參閱 計量警示
  3. 如果您需要增加配額限制,請開啟支援要求並提供:
    • 需要增加配額限制的訂用帳戶標識碼。
    • 增加配額的資源類型。 選取 [ 計量警示]。
    • 要求的配額限制。

下一步

如需警示和通知的一般疑難解答資訊,請參閱 針對 Azure 監視器警示中的問題進行疑難解答。