Share via


使用 Azure 監視器傳送健全狀況服務錯誤的電子郵件

適用於:Windows Server 2022、Windows Server 2019、Windows Server 2016

「Azure 監視器」可藉由提供全方位的解決方案,來收集、分析及因應來自雲端和內部部署環境的遙測資料,將應用程式的可用性和效能最大化。 它可協助您了解您的應用程式表現如何,並主動識別影響它們的問題以及它們所依賴的資源。

這對內部部署超交集叢集特別有説明。 整合 Azure 監視器後,您將能夠設定電子郵件、文字(SMS)和其他警示,以在叢集發生問題時偵測到您(或當您想要根據收集的資料標記其他活動時)。 以下我們將簡短說明 Azure 監視器的運作方式、如何安裝 Azure 監視器,以及如何設定它以傳送通知。

如果您使用 System Center,請參閱 監視 Windows Server 2019 和 Windows Server 2016 儲存空間直接存取 叢集儲存空間直接存取管理元件

此管理元件包括:

  • 實體磁片健全狀況和效能監視
  • 儲存體節點健康情況和效能監視
  • 儲存體集區健康情況和效能監視
  • 磁片區復原類型和重復資料刪除狀態

瞭解 Azure 監視器

Azure 監視器收集的所有資料都適合兩種基本類型之一:計量和記錄。

  1. 計量是數值,可描述系統在特定時間點的某些層面。 輕量且能夠支援接近即時的情節。 您會在Azure 入口網站的 [概觀] 頁面中看到 Azure 監視器所收集的資料。

image of metrics ingesting in metrics explorer

  1. 記錄 包含不同種類的資料,以針對每種類型,以不同的屬性集組織成記錄。 除了效能資料,還會將事件和追蹤之類的遙測資料儲存為記錄,讓它能夠全部合併在一起進行分析。 您可以使用查詢 來分析 Azure 監視器所收集的記錄資料,以快速擷取、合併和分析收集的資料。 您可以在Azure 入口網站中使用 Log Analytics 建立及測試查詢,然後使用這些工具直接分析資料,或儲存查詢以搭配 視覺效果 警示規則 使用。

image of logs ingesting in log analytics

以下將有更多關於如何設定這些警示的詳細資料。

使用 Windows 管理員 中心將叢集上線

使用 Windows 管理員中心,您可以將叢集上線至 Azure 監視器。

Gif of onboarding cluster to Azure Monitor

在此上線流程中,下列步驟會在幕後進行。 我們會詳細說明如何詳細設定它們,以防您想要手動設定叢集。

設定健全狀況服務

您需要做的第一件事是設定叢集。 如您所知, 健全狀況服務可改善執行儲存空間直接存取 之叢集的日常監視和操作體驗。

如上所述,Azure 監視器會從叢集中執行的每個節點收集記錄。 因此,我們必須設定健全狀況服務以寫入事件通道,這恰好是:

Event Channel: Microsoft-Windows-Health/Operational
Event ID: 8465

若要設定健全狀況服務,請執行:

get-storagesubsystem clus* | Set-StorageHealthSetting -Name "Platform.ETW.MasTypes" -Value "Microsoft.Health.EntityType.Subsystem,Microsoft.Health.EntityType.Server,Microsoft.Health.EntityType.PhysicalDisk,Microsoft.Health.EntityType.StoragePool,Microsoft.Health.EntityType.Volume,Microsoft.Health.EntityType.Cluster"

當您執行上述 Cmdlet 來設定 Health 設定時,會導致我們想要開始寫入 Microsoft-Windows-Health/Operational 事件通道的事件。

設定 Log Analytics

既然您已在叢集上設定適當的記錄,下一個步驟是正確設定記錄分析。

為了提供概觀, Azure Log Analytics 可以直接從資料中心或其他雲端環境中的實體或虛擬 Windows 電腦收集資料到單一存放庫,以取得詳細的分析和相互關聯。

若要瞭解支援的設定,請檢閱 支援的 Windows 作業系統 網路防火牆設定

如果您沒有 Azure 訂閱,請在開始之前,先建立免費帳戶

登入 Azure 入口網站

在 登入Azure 入口網站 https://portal.azure.com

建立工作區

如需下列步驟的詳細資訊,請參閱 Azure 監視器檔

  1. 在Azure 入口網站中,按一下 [ 所有服務 ]。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。

    Azure portal

  2. 按一下 [ 建立 ],然後選取下列專案的選擇:

    • 提供新 Log Analytics 工作區 的名稱,例如 DefaultLAWorkspace

    • 如果選取的預設不合適,請從下拉式清單中選取 ,以選取要連結的訂 用帳戶。

    • 針對 [ 資源群組 ],選取包含一或多個 Azure 虛擬機器的現有資源群組。

      Create Log Analytics resource blade

  3. 在 [Log Analytics 工作區 ] 窗格上 提供必要資訊之後,按一下 [ 確定 ]。

當資訊經過驗證並建立工作區時,您可以從功能表追蹤其 [通知 ] 底下的 進度。

取得工作區識別碼和金鑰

安裝適用于 Windows 的 Microsoft Monitoring Agent 之前,您需要 Log Analytics 工作區的工作區識別碼和金鑰。 安裝精靈需要此資訊,才能正確設定代理程式,並確保它可以成功與 Log Analytics 通訊。

  1. 在Azure 入口網站中,按一下 左上角找到的所有服務 。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
  2. 在您的 Log Analytics 工作區清單中,選取 稍早建立的 DefaultLAWorkspace
  3. 選取 [ 進階設定 ]。

    Log Analytics Advance Settings

  4. 按一下 [連接的來源],然後選取 [Windows 伺服器]
  5. 工作區識別碼 主鍵 右邊 的值。 暫時儲存這兩者 - 暫時複製並貼到您最愛的編輯器中。

在 Windows 上安裝代理程式

下列步驟會安裝並設定 Microsoft Monitoring Agent。 請務必在叢集中的每部伺服器上安裝此代理程式,並指出您希望代理程式在 Windows 啟動時執行。

  1. 在 [ Windows Server ] 頁面上,根據 Windows 作業系統的處理器架構,選取適當的 [下載 Windows 代理程式 版本] 來下載。
  2. 執行安裝程式以在您的電腦上安裝代理程式。
  3. 在 [歡迎] 頁面中按 [下一步]。
  4. 在 [ 授權條款] 頁面上,閱讀授權,然後按一下 [ 我同意 ]。
  5. 在 [ 目的地資料夾] 頁面上,變更或保留預設安裝資料夾,然後按 [下一步 ]。
  6. 在 [ 代理程式安裝選項 ] 頁面上,選擇將代理程式連線到 Azure Log Analytics,然後按 [ 下一步 ]。
  7. [Azure Log Analytics ] 頁面上,執行下列動作:
    1. 貼上您稍早複製的 工作區識別碼 工作區金鑰(主鍵 )。 a. 如果電腦需要透過 Proxy 伺服器與 Log Analytics 服務通訊,請按一下 [進階 ],並提供 Proxy 伺服器的 URL 和埠號碼。 如果您的 Proxy 伺服器需要驗證,請輸入使用者名稱和密碼以向 Proxy 伺服器進行驗證,然後按 [下一步 ]。
  8. 完成提供必要組態設定後,按 [下一步 ]。

    paste Workspace ID and Primary Key

  9. 在 [ 準備安裝 ] 頁面上,檢閱您的選擇,然後按一下 [ 安裝 ]。
  10. 在 [ 組態成功完成] 頁面上,按一下 [ 完成 ]。

完成後,Microsoft Monitoring Agent就會顯示在控制台。 您可以檢閱您的設定,並確認代理程式已連線到 Log Analytics。 連線時,在 [Azure Log Analytics ] 索引標籤上 ,代理程式會顯示一則訊息,指出: Microsoft Monitoring Agent 已成功連線到 Microsoft Log Analytics 服務。

MMA connection status to Log Analytics

若要瞭解支援的設定,請檢閱 支援的 Windows 作業系統 網路防火牆設定

使用 Windows 管理員 Center 設定警示

在 Windows 管理員 中心,您可以設定將套用至 Log Analytics 工作區中所有伺服器的預設警示。

A short video that shows a user configuring default alerts that will apply to all servers in your Log Analytics workspace.

這些是您可以加入宣告的警示及其預設條件:

警示名稱 預設條件
CPU 使用率 超過 85% 的 10 分鐘
磁片容量使用率 超過 85% 的 10 分鐘
記憶體使用率 可用記憶體少於 100 MB,10 分鐘
活動訊號 不到 2 次節拍 5 分鐘
系統嚴重錯誤 叢集系統事件記錄檔中的任何重大警示
健康情況服務警示 叢集上的任何健康情況服務錯誤

在 Windows 管理員 中心設定警示之後,您可以在 Azure 的 Log Analytics 工作區中看到警示。

A short video that shows the user accessing the alerts in the log analytics workspace in Azure.

在此上線流程中,下列步驟會在幕後進行。 我們會詳細說明如何詳細設定它們,以防您想要手動設定叢集。

收集事件和效能資料

Log Analytics 可以從您為長期分析和報告指定的 Windows 事件記錄檔和效能計數器收集事件,並在偵測到特定條件時採取動作。 請遵循下列步驟來設定從 Windows 事件記錄檔收集事件,以及數個要開始使用的常見效能計數器。

  1. 在Azure 入口網站中,按一下 左下角找到的 [更多服務 ]。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
  2. 選取 [ 進階設定 ]。

    Log Analytics Advance Settings

  3. 選取 [資料 ],然後選取 [Windows 事件記錄 檔]。
  4. 在這裡,輸入下列名稱,然後按一下加號 + ,以新增健全狀況服務事件通道。
    Event Channel: Microsoft-Windows-Health/Operational
    
  5. 在資料表中,檢查嚴重性 錯誤 警告
  6. 按一下 頁面頂端的 [儲存 ] 以儲存組態。
  7. 選取 [Windows 效能計數器] 以啟用 Windows 電腦上的效能計數器 集合。
  8. 當您第一次設定新 Log Analytics 工作區的 Windows 效能計數器時,您可以選擇快速建立數個常見的計數器。 它們會列出每個核取方塊旁的核取方塊。
    Default Windows performance counters selected
    按一下 [新增選取的效能計數器 ]。 系統會使用十秒的集合取樣間隔來新增和預設它們。
  9. 按一下 頁面頂端的 [儲存 ] 以儲存組態。

根據記錄資料建立警示

如果您到目前為止,您的叢集應該會將記錄和效能計數器傳送至 Log Analytics。 下一個步驟是建立警示規則,以定期自動執行記錄搜尋。 如果記錄搜尋的結果符合特定準則,則會引發警示,以傳送電子郵件或文字通知給您。 讓我們在下面探索這一點。

建立查詢

從開啟記錄搜尋入口網站開始。

  1. 在Azure 入口網站中,按一下 [ 所有服務 ]。 在資源清單中,輸入 Monitor 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [ 監視 ]。
  2. 在 [監視] 導覽功能表上,選取 [Log Analytics ],然後選取工作區。

擷取一些要處理之資料的最快方法是一個簡單的查詢,可傳回資料表中的所有記錄。 在搜尋方塊中輸入下列查詢,然後按一下 [搜尋] 按鈕。

Event

資料會在預設清單檢視中傳回,您可以看到傳回的總記錄數。

Simple query

畫面左側是篩選窗格,可讓您將篩選新增至查詢,而不需直接修改。 該記錄類型會顯示數個記錄屬性,您可以選取一或多個屬性值來縮小搜尋結果的範圍。

選取 EVENTLEVELNAME 底下 [錯誤 ] 旁的 核取方塊,或輸入下列專案,將結果限制為錯誤事件。

Event | where (EventLevelName == "Error")

Filter

針對您關心的事件進行適當的查詢之後,請儲存它們以供下一個步驟使用。

建立警示

現在,讓我們逐步解說建立警示的範例。

  1. 在Azure 入口網站中,按一下 [ 所有服務 ]。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。

  2. 在左側窗格中,選取 [警示 ],然後按一下頁面頂端的 [ 新增警示規則 ],以建立新的警示。

    Create new alert rule

  3. 在第一個步驟中,您會在 [ 建立警示 ] 區段下選取 Log Analytics 工作區作為資源,因為這是記錄型警示訊號。 如果您有多個訂用帳戶,其中包含稍早建立的 Log Analytics 工作區,請從下拉式清單中選擇特定的 [訂 用帳戶] 來篩選結果。 從下拉式清單中選取 [Log Analytics ],以篩選資源類型 。 最後,選取 [ 資源 DefaultLAWorkspace ],然後按一下 [ 完成 ]。

    Create alert step 1 task

  4. 在 [警示準則] 區段 下,按一下 [ 新增準則 ] 以選取您儲存的查詢,然後指定警示規則所遵循的邏輯。

  5. 使用下列資訊設定警示:a。 從 [ 根據 ] 下拉式清單中,選取 [ 計量度量 ]。 計量度量會針對查詢中的每個物件建立警示,其值超過我們指定的臨界值。 b. 針對 [ 條件 ],選取 [大於 ] 並指定臨界值。 c. 然後定義觸發警示的時機。 例如,您可以選取 [連續缺口 ],然後從下拉式清單中選取 [大於 3] 的值。 d. 在 [評估依據] 區段底下,將 [期間 ] 值修改為 30 分鐘,並將 Frequency 修改為 5。 此規則會每隔五分鐘執行一次,並傳回自目前時間前三十分鐘內建立的記錄。 將時間週期設定為較寬的時段會考慮資料延遲的可能性,並確保查詢會傳回資料,以避免在警示永遠不會引發時發生誤判。

  6. 按一下 [完成 ] 以完成警示規則。

    Configure alert signal

  7. 現在移至第二個步驟,請在 [警示規則名稱 ] 欄位中提供警示的名稱,例如 所有錯誤事件的 警示。 指定 詳細資料警示的描述,然後從提供的選項中選取 [嚴重性] 值 [ 嚴重性] [嚴重性 ][0 ]。

  8. 若要在建立時立即啟用警示規則,請在建立 時接受啟用規則的 預設值。

  9. 針對第三個步驟和最後一 個步驟,您可以指定動作群組 ,以確保每次觸發警示時都會採取相同的動作,並可用於您定義的每個規則。 使用下列資訊設定新的動作群組:a。 選取 [ 新增動作群組 ],[ 新增動作群組] 窗格隨即出現。 b. 針對 [動作組名 ],指定 IT 作業 - Notify 等名稱,以及 itops-n 之類的 簡短名稱 。請確認 [訂 用帳戶] 和 [資源群組 ] 的 預設值正確。 如果沒有,請從下拉式清單中選取正確的名稱。 d. 在 [動作] 區段下,指定動作的名稱,例如 [傳送電子郵件 ],然後在 [動作類型 ] 下 選取 下拉式清單中的 [電子郵件/SMS/推播/語音 ]。 [ 電子郵件/SMS/推播/語音 屬性] 窗格會在右側開啟,以提供其他資訊。 e. 在 [ 電子郵件/SMS/推播/語音 ] 窗格中,選取並設定您的喜好設定。 例如,啟用 [電子郵件 ],並提供有效的 SMTP 位址,以將郵件傳遞至 f。 按一下 [確定] 以儲存您的變更。

    Create new action group

  10. 按一下 [確定] 以完成動作群組。

  11. 按一下 [ 建立警示規則 ] 以完成警示規則。 它會立即開始執行。

    Complete creating new alert rule

範例警示

如需參考,這就是 Azure 中範例警示的外觀。

Gif of alert in Azure

以下是您將由 Azure 監視器傳送的電子郵件範例:

Alert email example

其他參考