使用 Azure 監視器傳送健全狀況服務錯誤的電子郵件
適用於:Windows Server 2022、Windows Server 2019、Windows Server 2016
「Azure 監視器」可藉由提供全方位的解決方案,來收集、分析及因應來自雲端和內部部署環境的遙測資料,將應用程式的可用性和效能最大化。 它可協助您了解您的應用程式表現如何,並主動識別影響它們的問題以及它們所依賴的資源。
這對內部部署超交集叢集特別有説明。 整合 Azure 監視器後,您將能夠設定電子郵件、文字(SMS)和其他警示,以在叢集發生問題時偵測到您(或當您想要根據收集的資料標記其他活動時)。 以下我們將簡短說明 Azure 監視器的運作方式、如何安裝 Azure 監視器,以及如何設定它以傳送通知。
如果您使用 System Center,請參閱 監視 Windows Server 2019 和 Windows Server 2016 儲存空間直接存取 叢集儲存空間直接存取管理元件 。
此管理元件包括:
- 實體磁片健全狀況和效能監視
- 儲存體節點健康情況和效能監視
- 儲存體集區健康情況和效能監視
- 磁片區復原類型和重復資料刪除狀態
瞭解 Azure 監視器
Azure 監視器收集的所有資料都適合兩種基本類型之一:計量和記錄。
- 記錄 包含不同種類的資料,以針對每種類型,以不同的屬性集組織成記錄。 除了效能資料,還會將事件和追蹤之類的遙測資料儲存為記錄,讓它能夠全部合併在一起進行分析。 您可以使用查詢 來分析 Azure 監視器所收集的記錄資料,以快速擷取、合併和分析收集的資料。 您可以在Azure 入口網站中使用 Log Analytics 建立及測試查詢,然後使用這些工具直接分析資料,或儲存查詢以搭配 視覺效果 或 警示規則 使用。
以下將有更多關於如何設定這些警示的詳細資料。
使用 Windows 管理員 中心將叢集上線
使用 Windows 管理員中心,您可以將叢集上線至 Azure 監視器。
在此上線流程中,下列步驟會在幕後進行。 我們會詳細說明如何詳細設定它們,以防您想要手動設定叢集。
設定健全狀況服務
您需要做的第一件事是設定叢集。 如您所知, 健全狀況服務可改善執行儲存空間直接存取 之叢集的日常監視和操作體驗。
如上所述,Azure 監視器會從叢集中執行的每個節點收集記錄。 因此,我們必須設定健全狀況服務以寫入事件通道,這恰好是:
Event Channel: Microsoft-Windows-Health/Operational
Event ID: 8465
若要設定健全狀況服務,請執行:
get-storagesubsystem clus* | Set-StorageHealthSetting -Name "Platform.ETW.MasTypes" -Value "Microsoft.Health.EntityType.Subsystem,Microsoft.Health.EntityType.Server,Microsoft.Health.EntityType.PhysicalDisk,Microsoft.Health.EntityType.StoragePool,Microsoft.Health.EntityType.Volume,Microsoft.Health.EntityType.Cluster"
當您執行上述 Cmdlet 來設定 Health 設定時,會導致我們想要開始寫入 Microsoft-Windows-Health/Operational 事件通道的事件。
設定 Log Analytics
既然您已在叢集上設定適當的記錄,下一個步驟是正確設定記錄分析。
為了提供概觀, Azure Log Analytics 可以直接從資料中心或其他雲端環境中的實體或虛擬 Windows 電腦收集資料到單一存放庫,以取得詳細的分析和相互關聯。
若要瞭解支援的設定,請檢閱 支援的 Windows 作業系統 和 網路防火牆設定 。
如果您沒有 Azure 訂閱,請在開始之前,先建立免費帳戶。
登入 Azure 入口網站
在 登入Azure 入口網站 https://portal.azure.com 。
建立工作區
如需下列步驟的詳細資訊,請參閱 Azure 監視器檔 。
在Azure 入口網站中,按一下 [ 所有服務 ]。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
按一下 [ 建立 ],然後選取下列專案的選擇:
提供新 Log Analytics 工作區 的名稱,例如 DefaultLAWorkspace 。
如果選取的預設不合適,請從下拉式清單中選取 ,以選取要連結的訂 用帳戶。
針對 [ 資源群組 ],選取包含一或多個 Azure 虛擬機器的現有資源群組。
在 [Log Analytics 工作區 ] 窗格上 提供必要資訊之後,按一下 [ 確定 ]。
當資訊經過驗證並建立工作區時,您可以從功能表追蹤其 [通知 ] 底下的 進度。
取得工作區識別碼和金鑰
安裝適用于 Windows 的 Microsoft Monitoring Agent 之前,您需要 Log Analytics 工作區的工作區識別碼和金鑰。 安裝精靈需要此資訊,才能正確設定代理程式,並確保它可以成功與 Log Analytics 通訊。
- 在Azure 入口網站中,按一下 左上角找到的所有服務 。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
- 在您的 Log Analytics 工作區清單中,選取 稍早建立的 DefaultLAWorkspace 。
- 選取 [ 進階設定 ]。
- 按一下 [連接的來源],然後選取 [Windows 伺服器]。
- 工作區識別碼 和 主鍵 右邊 的值。 暫時儲存這兩者 - 暫時複製並貼到您最愛的編輯器中。
在 Windows 上安裝代理程式
下列步驟會安裝並設定 Microsoft Monitoring Agent。 請務必在叢集中的每部伺服器上安裝此代理程式,並指出您希望代理程式在 Windows 啟動時執行。
- 在 [ Windows Server ] 頁面上,根據 Windows 作業系統的處理器架構,選取適當的 [下載 Windows 代理程式 版本] 來下載。
- 執行安裝程式以在您的電腦上安裝代理程式。
- 在 [歡迎] 頁面中按 [下一步]。
- 在 [ 授權條款] 頁面上,閱讀授權,然後按一下 [ 我同意 ]。
- 在 [ 目的地資料夾] 頁面上,變更或保留預設安裝資料夾,然後按 [下一步 ]。
- 在 [ 代理程式安裝選項 ] 頁面上,選擇將代理程式連線到 Azure Log Analytics,然後按 [ 下一步 ]。
- 在 [Azure Log Analytics ] 頁面上,執行下列動作:
- 貼上您稍早複製的 工作區識別碼 和 工作區金鑰(主鍵 )。 a. 如果電腦需要透過 Proxy 伺服器與 Log Analytics 服務通訊,請按一下 [進階 ],並提供 Proxy 伺服器的 URL 和埠號碼。 如果您的 Proxy 伺服器需要驗證,請輸入使用者名稱和密碼以向 Proxy 伺服器進行驗證,然後按 [下一步 ]。
- 完成提供必要組態設定後,按 [下一步 ]。
- 在 [ 準備安裝 ] 頁面上,檢閱您的選擇,然後按一下 [ 安裝 ]。
- 在 [ 組態成功完成] 頁面上,按一下 [ 完成 ]。
完成後,Microsoft Monitoring Agent就會顯示在控制台。 您可以檢閱您的設定,並確認代理程式已連線到 Log Analytics。 連線時,在 [Azure Log Analytics ] 索引標籤上 ,代理程式會顯示一則訊息,指出: Microsoft Monitoring Agent 已成功連線到 Microsoft Log Analytics 服務。
若要瞭解支援的設定,請檢閱 支援的 Windows 作業系統 和 網路防火牆設定 。
使用 Windows 管理員 Center 設定警示
在 Windows 管理員 中心,您可以設定將套用至 Log Analytics 工作區中所有伺服器的預設警示。
這些是您可以加入宣告的警示及其預設條件:
警示名稱 | 預設條件 |
---|---|
CPU 使用率 | 超過 85% 的 10 分鐘 |
磁片容量使用率 | 超過 85% 的 10 分鐘 |
記憶體使用率 | 可用記憶體少於 100 MB,10 分鐘 |
活動訊號 | 不到 2 次節拍 5 分鐘 |
系統嚴重錯誤 | 叢集系統事件記錄檔中的任何重大警示 |
健康情況服務警示 | 叢集上的任何健康情況服務錯誤 |
在 Windows 管理員 中心設定警示之後,您可以在 Azure 的 Log Analytics 工作區中看到警示。
在此上線流程中,下列步驟會在幕後進行。 我們會詳細說明如何詳細設定它們,以防您想要手動設定叢集。
收集事件和效能資料
Log Analytics 可以從您為長期分析和報告指定的 Windows 事件記錄檔和效能計數器收集事件,並在偵測到特定條件時採取動作。 請遵循下列步驟來設定從 Windows 事件記錄檔收集事件,以及數個要開始使用的常見效能計數器。
- 在Azure 入口網站中,按一下 左下角找到的 [更多服務 ]。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
- 選取 [ 進階設定 ]。
- 選取 [資料 ],然後選取 [Windows 事件記錄 檔]。
- 在這裡,輸入下列名稱,然後按一下加號 + ,以新增健全狀況服務事件通道。
Event Channel: Microsoft-Windows-Health/Operational
- 在資料表中,檢查嚴重性 錯誤 和 警告 。
- 按一下 頁面頂端的 [儲存 ] 以儲存組態。
- 選取 [Windows 效能計數器] 以啟用 Windows 電腦上的效能計數器 集合。
- 當您第一次設定新 Log Analytics 工作區的 Windows 效能計數器時,您可以選擇快速建立數個常見的計數器。 它們會列出每個核取方塊旁的核取方塊。
按一下 [新增選取的效能計數器 ]。 系統會使用十秒的集合取樣間隔來新增和預設它們。 - 按一下 頁面頂端的 [儲存 ] 以儲存組態。
根據記錄資料建立警示
如果您到目前為止,您的叢集應該會將記錄和效能計數器傳送至 Log Analytics。 下一個步驟是建立警示規則,以定期自動執行記錄搜尋。 如果記錄搜尋的結果符合特定準則,則會引發警示,以傳送電子郵件或文字通知給您。 讓我們在下面探索這一點。
建立查詢
從開啟記錄搜尋入口網站開始。
- 在Azure 入口網站中,按一下 [ 所有服務 ]。 在資源清單中,輸入 Monitor 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [ 監視 ]。
- 在 [監視] 導覽功能表上,選取 [Log Analytics ],然後選取工作區。
擷取一些要處理之資料的最快方法是一個簡單的查詢,可傳回資料表中的所有記錄。 在搜尋方塊中輸入下列查詢,然後按一下 [搜尋] 按鈕。
Event
資料會在預設清單檢視中傳回,您可以看到傳回的總記錄數。
畫面左側是篩選窗格,可讓您將篩選新增至查詢,而不需直接修改。 該記錄類型會顯示數個記錄屬性,您可以選取一或多個屬性值來縮小搜尋結果的範圍。
選取 EVENTLEVELNAME 底下 [錯誤 ] 旁的 核取方塊,或輸入下列專案,將結果限制為錯誤事件。
Event | where (EventLevelName == "Error")
針對您關心的事件進行適當的查詢之後,請儲存它們以供下一個步驟使用。
建立警示
現在,讓我們逐步解說建立警示的範例。
在Azure 入口網站中,按一下 [ 所有服務 ]。 在資源清單中,輸入 Log Analytics 。 當您開始輸入時,清單會根據您的輸入進行篩選。 選取 [Log Analytics]。
在左側窗格中,選取 [警示 ],然後按一下頁面頂端的 [ 新增警示規則 ],以建立新的警示。
在第一個步驟中,您會在 [ 建立警示 ] 區段下選取 Log Analytics 工作區作為資源,因為這是記錄型警示訊號。 如果您有多個訂用帳戶,其中包含稍早建立的 Log Analytics 工作區,請從下拉式清單中選擇特定的 [訂 用帳戶] 來篩選結果。 從下拉式清單中選取 [Log Analytics ],以篩選資源類型 。 最後,選取 [ 資源 DefaultLAWorkspace ],然後按一下 [ 完成 ]。
在 [警示準則] 區段 下,按一下 [ 新增準則 ] 以選取您儲存的查詢,然後指定警示規則所遵循的邏輯。
使用下列資訊設定警示:a。 從 [ 根據 ] 下拉式清單中,選取 [ 計量度量 ]。 計量度量會針對查詢中的每個物件建立警示,其值超過我們指定的臨界值。 b. 針對 [ 條件 ],選取 [大於 ] 並指定臨界值。 c. 然後定義觸發警示的時機。 例如,您可以選取 [連續缺口 ],然後從下拉式清單中選取 [大於 3] 的值。 d. 在 [評估依據] 區段底下,將 [期間 ] 值修改為 30 分鐘,並將 Frequency 修改為 5。 此規則會每隔五分鐘執行一次,並傳回自目前時間前三十分鐘內建立的記錄。 將時間週期設定為較寬的時段會考慮資料延遲的可能性,並確保查詢會傳回資料,以避免在警示永遠不會引發時發生誤判。
按一下 [完成 ] 以完成警示規則。
現在移至第二個步驟,請在 [警示規則名稱 ] 欄位中提供警示的名稱,例如 所有錯誤事件的 警示。 指定 詳細資料警示的描述,然後從提供的選項中選取 [嚴重性] 值 [ 嚴重性] [嚴重性 ][0 ]。
若要在建立時立即啟用警示規則,請在建立 時接受啟用規則的 預設值。
針對第三個步驟和最後一 個步驟,您可以指定動作群組 ,以確保每次觸發警示時都會採取相同的動作,並可用於您定義的每個規則。 使用下列資訊設定新的動作群組:a。 選取 [ 新增動作群組 ],[ 新增動作群組] 窗格隨即出現。 b. 針對 [動作組名 ],指定 IT 作業 - Notify 等名稱,以及 itops-n 之類的 簡短名稱 。請確認 [訂 用帳戶] 和 [資源群組 ] 的 預設值正確。 如果沒有,請從下拉式清單中選取正確的名稱。 d. 在 [動作] 區段下,指定動作的名稱,例如 [傳送電子郵件 ],然後在 [動作類型 ] 下 選取 下拉式清單中的 [電子郵件/SMS/推播/語音 ]。 [ 電子郵件/SMS/推播/語音 屬性] 窗格會在右側開啟,以提供其他資訊。 e. 在 [ 電子郵件/SMS/推播/語音 ] 窗格中,選取並設定您的喜好設定。 例如,啟用 [電子郵件 ],並提供有效的 SMTP 位址,以將郵件傳遞至 f。 按一下 [確定] 以儲存您的變更。
按一下 [確定] 以完成動作群組。
按一下 [ 建立警示規則 ] 以完成警示規則。 它會立即開始執行。
範例警示
如需參考,這就是 Azure 中範例警示的外觀。
以下是您將由 Azure 監視器傳送的電子郵件範例:
其他參考
- 儲存空間直接存取概觀 \(部分機器翻譯\)
- 如需詳細資訊,請參閱 Azure 監視器檔 。
- 如需如何 連線到其他 Azure 混合式服務 的概觀,請閱讀此連結。