Share via


針對 Azure 監視器 SCOM 受控執行個體的問題進行疑難排解

本文說明部署或使用 Azure 監視器 SCOM 受控執行個體時可能發生的錯誤,以及如何解決這些問題。

案例:SCOM 受控執行個體建立/部署

一般疑難排解

  1. 確定符合所有必要條件。 建立問題可能會因為必要條件不正確/不完整而發生。
  2. 請確定您仔細讀取/檢查錯誤訊息。 錯誤訊息會擷取建立時的問題/錯誤。
  3. 檢查錯誤訊息中提供的 SCOM 安裝程式記錄 連結。 選取連結以下載 System Center Operations Manager 安裝記錄。 分析記錄,以識別並解決錯誤/失敗。
  4. 如果您無法使用上述步驟識別問題,請登入 虛擬機器擴展集 實例,並檢查C:\WindowsAzure\Logs\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\1.0.66下的記錄,以協助您找出問題。
  5. 如果問題持續發生,請引發具有所有相關詳細資料的支援票證 [ correlation-idsubscription-id 等等]

問題:資源群組 %ResourceGroupName% 是由其他 Azure 資源管理

原因:在為資源群組設定 ManagedBy 屬性時發生。

解決方式:提供另一個具有 ManagedBy 屬性的資源群組做為空白。

問題:選取的子網 %SubnetName% 專用於另一個服務

原因:當子網具有委派時發生。

解決方案:提供未委派給任何其他服務的子網。

問題:SCOM 受控執行個體無法連線到SQL 受管理執行個體時發生錯誤 %instance%

原因:此錯誤可能是下列任何原因所造成:

  • 缺少從 SCOM 受控執行個體 VNet 到SQL 受管理執行個體端點的可見度。
  • 缺少正確的 NSG 規則層級,以允許透過SQL 受管理執行個體公用端點的流量。
  • MSI 未新增為 Active Directory 系統管理員。
  • SCOM 受控執行個體可能沒有SQL 受管理執行個體的讀取權限。
  • 您的 VNet/區域可能有問題。

解決方法:

  • 提供SQL 受管理執行個體的讀取權限。
  • MSI 必須新增為SQL 受管理執行個體上的 Active Directory 系統管理員。
  • 確保 SCOM 受控執行個體與SQL 受管理執行個體網路之間的連線。 如需詳細資訊,請參閱建立和設定SQL 受管理執行個體

問題:沒有足夠的核心在指定區域中建立 %instance%

原因:當沒有足夠的核心在指定區域中建立實例時發生。

解決方案:請檢查Azure 入口網站配額區段,並視需要在區域中配置更多標準 Ds3v2 類型的核心。

問題:金鑰保存庫中已有同名的秘密金鑰

原因:當金鑰保存庫中已有另一個具有相同名稱的秘密金鑰時發生。

解決方案:變更實例的名稱。

問題:VM 在處理要加入網域的擴充 joindomain 功能時回報失敗 %DomainName%

原因:發生原因如下:

  1. 從 SCOM 受控執行個體 伺服器到網域控制站的可見度。
  2. 未提供網域使用者認證或不正確。
  3. 未提供 AD 網域的 OU 路徑。

解決方式:檢查原因並據以解決問題。

問題:靜態 IP 已在使用中

原因:如果靜態 IP 正由另一個實例使用,就會發生此情況。

解決方案:使用另一個靜態 IP。

問題:不正確身分識別類型 %identityType%

原因:由於受控識別不正確而發生。

解決方案:提供其中一種可能的身分識別類型 ( (無) , (SystemAssigned,UserAssigned) ) ,然後再試一次。

問題:私人靜態 IP 位址 %LbIpAddr% 不屬於子網範圍 %subnet%

原因:發生于 IP 位址不在子網範圍中。

解決方案:從子網範圍提供可用的 IP,然後重試作業。

案例:在 Power BI 上部署報表

問題:無法連線SQL 受管理執行個體

原因:如果未啟用公用端點,就會發生此情況。 Power BI 無法連線到SQL 受管理執行個體。

解決方式:檢查SQL 受管理執行個體的使用者權限,並提供必要的許可權。

問題:無法重新整理資料集認證

原因:如果使用者沒有SQL 受管理執行個體的適當許可權,就會發生此情況。

解決方式:檢查SQL 受管理執行個體的使用者權限,並提供必要的許可權。

問題:報表無法重新整理

原因:發生于大型資料大小。 報表可能不會重新整理。

解決方案:如果 Power BI 工作區位於 Pro 層中,請將它變更為 進階層 或變更工作區的容量。

案例:手動相應增加/減少

問題:網際網路連線測試失敗。 無法從 VNet 連線到必要的端點

原因:網路問題。

解決方案:請確定 SCOM 受控執行個體具有輸出網際網路存取權,且 NSG/防火牆已正確設定為允許存取所需的端點,如防火牆需求中所述。

問題:超過配額

原因:如果沒有核心可供調整,就會發生此情況。

解決方案:增加訂用帳戶中的核心數目。

請檢查Azure 入口網站上的配額區段,並視需要在區域中配置更多標準 Ds3v2 類型的核心。

問題:擴充功能布建錯誤

原因:在布建 System Center Operations Manager 擴充功能或 System Center Operations Manager 安裝期間,可能會發生此錯誤。

解決方法:檢查 一般疑難排解、嘗試找出問題,並據以解決問題。

問題:衝突

原因:如果修補或調整正在進行中,就會發生此情況。 無法觸發新的作業。

解決方式:等候進行中的程式完成,然後再試一次。

案例:修補

問題:網際網路連線測試失敗。 無法從 VNet 連線到必要的端點

原因:網路問題。

解決方案:請確定 SCOM 受控執行個體具有輸出網際網路存取權,且 NSG/防火牆已正確設定為允許存取所需的端點,如防火牆需求中所述。

問題:即使更新作業完成,通知仍停滯于擷取更新

原因:網路問題/開發問題。

解決方案:請嘗試重新整理更新。 如果未解決,請連絡 Microsoft 支援服務。

問題:更新狀態未正確反映在卡片上

原因:網路問題/開發問題。

解決方案:請嘗試重新整理更新。 如果未解決,請連絡 Microsoft 支援服務。

問題:卡片內的控制項不一致

原因:一致性問題。 例如,即使卡片標題讀取 SCOM 為最新狀態,仍會啟用更新按鈕。

解決方法:請嘗試重新整理。 如果未解決,請連絡 Microsoft 支援服務。

問題:更新的警告訊息快顯

原因:由於下列任何原因而發生:

  1. 有新的更新可用,而且使用者尚未觸發更新實例;或
  2. 上次更新失敗,且使用者尚未觸發另一個更新實例。

解決方案:觸發 更新實例

問題:多次重試之後更新失敗

解決方式:若要解決,請連絡 Microsoft 支援服務。

問題:更新失敗,且回復無法保留不一致的狀態,其中已修改虛擬機器擴展集實例上的 VM 數目

解決方案:移至 System Center Operations Manager 主控台,並移除不一致的節點。

問題:更新失敗,但資料庫更新成功

原因:發生于成功資料庫更新之後失敗的更新。

解決方案:在一段時間後重試。

問題:成功更新之後,System Center Operations Manager 主控台在實例上無法正常運作

原因:如果 System Center Operations Manager 未正確安裝,或某些程式可能停滯,就會發生。

解決方案:嘗試重新開機 實例。 如果問題持續發生, 請連絡 Microsoft 支援服務。

問題:更新需要超過 3 小時,最終會失敗

原因:更新需要 3 小時以上時發生。

解決方法:請連絡 Microsoft 支援服務。

問題:更新期間的一些間歇性問題

原因:如果 Service Fabric 或 RP 損毀或重新開機,就會發生。

解決方法:重新開機更新。

問題:同時觸發調整和修補,然後失敗

原因:如果同時傳送和接受調整和修補要求,就會發生此情況。

解決方案:如果您已觸發調整作業,請先等候作業完成,然後再嘗試更新作業。

問題:擴充功能需要更多時間來更新並失敗

原因:如果SQL 受管理執行個體和 SCOM 受控執行個體位於不同的區域中,因為擴充功能需要更多時間來更新,且最終會失敗,就會發生此情況。

解決方案:在相同區域中具有SQL 受管理執行個體和 SCOM 受控執行個體。

問題:修補之後,資料庫中的使用者資料會改變或未正確保留

原因:如果更新未正確完成,就會發生。

解決方法:重新開機更新。

問題:修補要求失敗

原因:因入口網站或 ARM 問題而發生。

解決方案:等候一段時間後重試。 如果問題即使在修正入口網站/ARM 問題之後仍存在,請連絡 Microsoft 支援服務。

問題:修補或調整作業已在進行中,請稍待一段時間後再試一次。

原因:如果修補或調整作業正在進行中,就會發生。

解決方式:等候現有作業完成,並在一段時間後再試一次。

問題:主控台上顯示過時的管理伺服器

原因:如果修補或調整作業在完成之後保留不一致的狀態,就會發生此情況。

解決方案:Microsoft Azure 虛擬機器擴展集可用來布建 SCOM 受控實例的管理伺服器。 若要從系統移除過時的管理伺服器,請遵循下列步驟:

  1. 存取 Azure 虛擬機器擴展集,並登入 SCOM 受控執行個體的其中一部管理伺服器。

  2. 以系統管理模式啟動 PowerShell,並流覽至下列目錄。

    C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\<version>\bin\troubleshooter

    注意

    若要尋找版本,請移至 C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows 並檢閱所有可用的版本,然後選取最新的版本。

  3. 執行下列指令碼:

    .\RemoveStaleManagementServers.ps1 
    

    腳本是互動式的,並提示您輸入過時伺服器的 FQDN。

  4. 提供您想要移除之過時管理伺服器的精確 FQDN。

    例如,FQDN:SCOMMI2000001.contoso.com。