共用方式為


設定 Azure Stack HCI 的記錄警示

適用於:Azure Stack HCI 版本 23H2 和 22H2

本文說明如何設定 Azure Stack HCI 系統的記錄警示:使用 Azure Stack HCI 的深入解析,以及使用現有的範例記錄查詢,例如平均伺服器 CPU、可用的記憶體、可用的磁碟區容量等等。

如需如何設定計量警示的資訊,請參閱 設定 Azure Stack HCI 的計量警示

請花一些時間 watch 影片逐步解說,以收集新的記錄、自定義 Insights 活頁簿,以及使用記錄建立警示:

必要條件

開始之前,請確定已完成下列必要條件:

  • 您可以存取已部署和註冊的 Azure Stack HCI 叢集。
  • 您必須 在叢集上啟用 Insights。 啟用 Insights 會將叢集設定為在 Log Analytics 工作區中收集必要的記錄。

使用 Insights 設定記錄警示

重要

不建議針對高嚴重性警示使用 Insights。 收集記錄可能需要 15 分鐘的時間。

請遵循下列步驟,使用 Insights 設定記錄警示。 請確定您已檢閱並完成 必要條件

  1. 從 Azure 入口網站,流覽至或搜尋 [監視],然後選取 [Azure Stack HCI]。

  2. 選取其中一個索引標籤,以檢視資源的健康情況。 例如,選取 [伺服器 ] 以檢視叢集中伺服器的健康情況。

  3. 自定義活頁簿並加以編輯,直到您看到藍色的 記錄檢視 示為止。 選取圖示以檢視和編輯您的查詢。

    受監視資源和資源健康情況的螢幕快照。

  4. 查詢載入之後,選取 [+ 新增警示規則]。

    叢集 [新增警示規則] 的螢幕快照,以及如何建立新的警示。

  5. 您可以從警示介面設定警示條件、動作等等。 如需詳細資訊,請參閱 記錄查詢結果警示動作和詳細數據

    要定義何時建立新警示的項目螢幕快照。

使用範例記錄查詢設定警示

您可以使用 Azure 入口網站 中提供的既有記錄查詢,開始監視 Azure Stack HCI 系統併為其設定警示。 這些查詢可協助您檢查和監視系統的健康情況。

請遵循下列步驟,使用範例記錄查詢來設定記錄警示。 請確定您已檢閱並完成 必要條件

  1. 在 Azure 入口網站 中,流覽至您的 Azure Stack HCI 叢集資源頁面,然後選取您想要使用範例記錄查詢監視的叢集。

  2. 在叢集 [ 概觀] 頁面上,選取 [JSON 檢視]。

    [JSON 檢視] 鏈接的螢幕快照,可尋找 ClusteArmId。

  3. 從 [ 資源標識符 ] 方塊中複製 ClusterArmId 詳細數據。

    複製 ClusteArmId 資訊的 [資源 JSON] 頁面螢幕快照。

  4. 從 Azure 入口網站,流覽至或搜尋 [監視],然後選取 [記錄]。

  5. 選取 [+ 新增篩選 ] 以新增 資源類型的篩選。

  6. 針對已填入的 Azure Stack HCI 系統範例記錄清單,選擇 [Azure Stack HCI ]。

    Azure 監視器記錄空間的螢幕快照,以及如何存取範例查詢。

  7. 選取 [載入] 以 編輯器 以開啟查詢工作區。

  8. 將連結至叢集資源的記錄 範圍 設定為 Log Analytics工作區

  9. 在查詢區段中貼上 您的 ClusterArmId 詳細 where ClusterArmId =~ 數據,以查看與您的叢集相關的結果。

    記錄分析工作區和叢集 Arm 識別碼查詢的螢幕快照。

  10. 選取 [執行]。

信息出現之後,您可以檢查記錄,並根據結果建立警示。 如需詳細資訊,請參閱 記錄查詢結果警示動作和詳細數據

設定多個叢集的警示

若要設定新的或變更現有的查詢以容納多個叢集 ClusterArmId,請將 子句新增 | where ClusterArmId in~ 至您的查詢。 針對您要在查詢中使用的每個叢集,包含 ClusterArmId 的 。 例如,| where ClusterArmId in~ ('ClusterArmId1', 'ClusterArmId2', 'ClusterArmId3')

顯示多個叢集記錄的查詢螢幕快照。

記錄查詢結果

新增記錄之後,您應該針對儲存叢集記錄的工作區執行查詢,以確認您取得預期的結果。 如果您未取得預期的結果,請更正記錄查詢並重新執行。

建立新的警示規則時,您必須設定條件式詳細數據,以摘要查詢結果。 這些詳細數據是以三個類別為基礎:度量、依維度分割,以及警示邏輯。 在您的警示詳細數據中,填入下列元件:

  • 量值:用來設定警示的值。 根據預設,它只需要數值。 將您的值轉換成整數,然後從下拉式清單中選取正確的值。
  • 匯總類型:確保您會收到警示,即使只有一個叢集記憶體值符合您指定的值也一樣。 對於多個叢集的警示,您必須將匯總類型設為最大值,而不是平均值或總計。
  • 資源標識碼數據行:根據其他值分割警示量值。 若要取得叢集上的警示,請使用 clusterarmID 或 來設定伺服器的警示,請使用 _resourceID。 請檢查記錄查詢中的值名稱,以取得正確性。
  • 維度名稱:進一步分割警示量值。 例如,若要取得每部伺服器的警示,請選取 Nodename
    • 當您設定警示時,可能不會在下拉功能表中看到所有值。 選取 [ 包含所有未來的值 ] 複選框,以確保您在叢集中的多部伺服器上設定相同的警示。
  • 閾值:根據您設定的值提供通知。

在此範例中,當具有最大匯總類型的 Measure 值 Memoryusageint 達到閾值 15 分鐘時,您會收到警示。

要指定之記錄查詢詳細數據的螢幕快照。

設定詳細數據之後,您可以檢閱警示精確度的條件。

要設定之警示條件的螢幕快照。

警示動作和詳細數據

若要判斷如何接收叢集警示的通知,請使用影像中顯示的 [ 動作 ] 索引標籤。 您可以建立新的動作群組,或為現有群組設定警示規則。 您可以選擇透過電子郵件、事件中樞等等接收通知。

動作群組動作選項的螢幕快照。

設定動作之後,[ 詳細數據 ] 索引標籤可讓您設定警示嚴重性、名稱、描述和區域。 選取 [檢閱 + Create],以取得所有警示設定的最終檢閱,並建立警示。

警示動作詳細數據的螢幕快照。

設定警示之後,您可以在 [ 警示 ] 索引標籤中監視警示規則、動作群組等等。

監視警示的螢幕快照。

記錄收集頻率

根據預設,每小時都會產生記錄。 若要檢查收集記錄的頻率,請使用下列 PowerShell 命令:

get-clusterresource "sddc management" | get-clusterparameter

若要變更本機電腦上的記錄產生頻率,請變更 CacheDumpIntervalInSeconds 記錄收集參數。

以下是每隔 15 分鐘設定的記錄頻率範例。

get-clusterresource "sddc management" | set-clusterparameter -name "CacheDumpIntervalInSeconds" -value 900

注意

若要收集所有記錄,頻率不會低於15分鐘。

下一步

瞭解如何 Create Azure 監視器警示規則