使用 Insights 监视单个 Azure Stack HCI 群集

适用于:Azure Stack HCI 版本 22H2 和 21H2

本文介绍如何使用 Insights 监视单个 Azure Stack HCI 群集。 对于多个 Azure Stack HCI 群集,请参阅 使用 Insights 监视多个 Azure Stack HCI 群集

Insights 是 Azure Monitor 的一项功能,可让你快速开始监视 Azure Stack HCI 群集。 你可以查看有关群集、服务器、虚拟机和存储的关键指标、运行状况和使用情况信息。

重要

如果在 2023 年 11 月之前注册了 Azure Stack HCI 群集并配置了 Insights,则使用 Azure Monitor 代理 (AMA) 的某些功能(如 Arc for Servers、VM Insights、Defender for Cloud 或 Sentinel)可能无法正确收集日志和事件数据。 有关故障排除指南,请参阅 排查 2023 年 11 月之前注册的群集 问题部分。

好处

适用于 Azure Stack HCI 的见解具有以下优势:

  • 由 Azure 管理。 Insights 由 Azure 管理,可以通过 Azure 门户访问它,因此可确保它始终保持最新状态。 无需安装数据库或特殊软件。

  • 可伸缩性。 Insights 能够同时跨多个订阅加载 400 多个群集信息集。 群集、域或物理位置没有限制。

  • 可定制性。 Insights 体验是基于 Azure Monitor 工作簿模板构建的。 因此,你可以更改视图和查询、修改或设置与特定限制相符的阈值,并将这些自定义设置保存到工作簿中。 然后,可以将工作簿中的图表固定到 Azure 仪表板。

为 Azure Stack HCI 配置见解

使用 Insights 之前所要满足的先决条件和所需设置根据你的 Azure Stack HCI 版本而异。 请选择以下选项卡之一获取有关如何在特定版本的 Azure Stack HCI 中使用 Insights 的说明。

Azure Stack HCI 版本 22H2 及更高版本中的见解功能使用 AMA,与 Azure Stack HCI 版本 21H2 及更低版本中使用的旧版 Microsoft Monitoring Agent (MMA) 相比,AMA 具有显著优势。 这些优势包括更快的速度、增强的安全性和卓越的性能。 可以将新节点加入 AMA,或者将现有节点从旧版代理迁移到 AMA。

我们建议将 Azure Stack HCI 系统升级到 22H2 或更高版本,以利用包含 AMA 的 Insights 体验。

从 Azure Stack HCI 版本 2023 年 5 月累积更新(版本 22H2)开始,可以使用 Insights for Azure Stack HCI 监视本地 Azure Stack HCI 系统。

先决条件

下面是使用 Insights for Azure Stack HCI 的先决条件:

  • Azure Stack HCI 群集应已注册到 Azure 并已启用 Arc。 如果你是在 2021 年 6 月 15 日或之后注册的群集,则默认情况下已启用。 否则,必须启用 Azure Arc 集成

  • 群集上必须已安装 Azure Stack HCI 版本 22H2 和 2023 年 5 月累积更新或更高版本。

  • 必须启用 Azure 资源的托管标识。 有关详细信息,请参阅启用增强管理

启用 Insights

启用 Insights 可通过提供有用的运行状况指标,来帮助监视当前与 Log Analytics 工作区关联的所有 Azure Stack HCI 群集。 Insights 安装 Azure Monitor 代理,并帮助你配置数据收集规则 (DCR) 来监视 Azure Stack HCI 群集。

若要从 Azure 门户启用此功能,请执行以下步骤:

  1. 在 Azure 门户中,浏览到 Azure Stack HCI 群集资源页,然后选择你的群集。 在“功能”选项卡下,选择“Insights”。

    显示“Insights”磁贴的屏幕截图。

  2. 在“Insights”页上,选择“开始”。

    显示“开始”按钮的屏幕截图。

    注意

    “开始”按钮仅适用于安装了 2023 年 5 月累积更新或更高版本的 Azure Stack HCI 版本 22H2,并且仅在启用托管标识后才可用。 否则,此按钮将处于禁用状态。

  3. 在“Insights 配置”页上,从“数据收集规则”下拉列表中选择现有的 DCR。 DCR 指定需要收集的事件日志和性能计数器,并将其存储在 Log Analytics 工作区中。 如果 DCR 尚不存在,Insights 会创建一个默认 DCR。 仅包括为 Insights 启用的 DCR。

    显示 Insights 配置窗口的屏幕截图。

  4. (可选)还可以通过在“Insights 配置”页上选择“新建”来创建新的 DCR。

    重要

    我们强烈建议不要创建你自己的 DCR。 Insights 创建的 DCR 包括其操作所需的特殊数据流。 你可以编辑此 DCR 以收集更多数据,例如 Windows 和 Syslog 事件。 通过 AMA 安装创建的 DCR 的 DCR 名称中附加了前缀 AzureStackHCI-

    1. 在“新建数据收集规则”页上,指定订阅、DCR 名称和数据收集终结点 (DCE) 名称。 DCE 用于访问配置服务以提取 Azure Monitor 代理的关联 DCR。 有关 DCE 的详细信息,请参阅 Azure Monitor 中的数据收集终结点

      注意

      如果在代理上使用专用链接,则必须添加 DCE。 有关 AMA 网络设置的详细信息,请参阅定义 Azure Monitor 代理 网络设置

      显示数据收集规则窗口的屏幕截图。

    2. 选择“查看 + 创建”按钮。

      如果尚未为未受监视的群集创建 DCR,则会创建一个已启用性能计数器并启用 Windows 事件日志通道的 DCR。

  5. 查看最终屏幕,其中显示了 DCR 名称、事件日志数量、性能计数器和存储了数据的 Log Analytics 工作区名称的摘要。 选择“设置”。

    显示数据收集规则下拉选择器的屏幕截图。

    选择“设置”后,你会重定向到“扩展”页,在其中可以查看代理安装状态。 配置 Insights 后,AMA 会自动安装在群集的所有节点上。

  6. 转到 Azure Stack HCI 群集资源页,然后选择你的群集。 Insights 现在会在“功能”选项卡上显示为“已配置”:

    “Insights”磁贴显示为“已配置”的屏幕截图。

数据收集规则

在具有 Azure Monitor 代理的计算机上启用 Insights 时,必须指定要使用的 DCR。 有关 DCR 的详细信息,请参阅 Azure Monitor 中的数据收集规则

选项 说明
性能计数器 指定要从操作系统收集哪些数据性能计数器。 必须为所有计算机指定此选项。 这些性能计数器用于填充 Insights 工作簿中的可视化效果。 目前,Insights 工作簿使用五个性能计数器 - Memory()\Available BytesNetwork Interface()\Bytes Total/secProcessor(_Total)\% Processor TimeRDMA Activity()\RDMA Inbound Bytes/secRDMA Activity()\RDMA Outbound Bytes/sec
事件日志通道 指定要从操作系统收集哪些 Windows 事件日志。 必须为所有计算机指定此选项。 Windows 事件日志用于填充 Insights 工作簿中的可视化效果。 目前,数据是通过两个 Windows 事件日志通道收集的:- microsoft-windows-health/operationalmicrosoft-windows-sddc-management/operational
Log Analytics 工作区 用于存储数据的工作区。 仅列出具有 Insights 的工作区。

事件通道

Microsoft-windows-sddc-management/operationalMicrosoft-windows-health/operational 事件通道将添加到“Windows 事件日志”下的 Log Analytics 工作区。

显示“添加数据源”窗口的屏幕截图。

通过收集这些日志,Insights 会显示各个服务器、驱动器、卷和 VM 的运行状况。 默认情况下,将添加五个性能计数器。

性能计数器

默认情况下,将添加五个性能计数器:

显示添加的性能计数器的屏幕截图。

下表介绍了受监视的性能计数器:

性能计数器 说明
Memory(*)\Available Bytes Available Bytes 是可立即分配给进程或供系统使用的物理内存量(以字节为单位)。
Network Interface(*)\Bytes Total/sec 每个网络适配器上发送和接收字节(包括组帧字符)的速率。 Bytes Total/sec 是 Bytes Received/sec 和 Bytes Sent/sec 之和。
Processor(_Total)% Processor Time 所有进程线程使用处理器执行指令所用的运行时间的百分比。
RDMA Activity(*)\RDMA Inbound Bytes/sec 网络适配器每秒通过 RDMA 接收数据的速率。
RDMA Activity(*)\RDMA Outbound Bytes/sec 网络适配器每秒通过 RDMA 发送数据的速率。

启用 Insights 后,收集数据最多可能需要 15 分钟。 完成此过程后,可以在左侧窗格的 “见解 ”菜单中查看群集运行状况的丰富可视化效果:

显示 Insights 可视化效果的屏幕截图。

禁用 Insights

若要禁用 Insights,请执行以下步骤:

  1. 在“功能”选项卡下,选择“Insights”。

  2. 选择“禁用 Insights”。

    显示“禁用 Insights”窗口的屏幕截图。

禁用 Insights 功能时,将删除数据收集规则与群集之间的关联,并且不再收集运行状况服务和 SDDC 管理日志;但是,不会删除现有的数据。 如果要删除这些数据,请转到你的 DCR 和 Log Analytics 工作区并手动删除。

更新 Insights

“Insights”磁贴在以下情况下会显示“需要更新”消息:

  • 数据收集规则已更改。
  • 已从 Windows 事件日志中删除运行状况事件。
  • 已从 Log Analytics 工作区中删除五个性能计数器中的任何一个。

若要再次启用 Insights,请执行以下步骤:

  1. 选择“功能”下的“Insights”磁贴。

  2. 选择“更新”来再次查看可视化效果。

    显示“更新 Insights”窗口的屏幕截图。

从 Microsoft Monitoring Agent 迁移

  1. 若要从 Microsoft Monitoring Agent (MMA) 迁移到 Azure Monitoring Agent (AMA),请向下滚动到“Insights”。

    显示“安装 AMA”窗口的屏幕截图。

  2. 选择“安装 AMA”,此时会打开“Insights 配置”窗口。

    显示“数据收集规则”窗口的屏幕截图。

  3. 按照前面的启用 Insights 部分中所述,选择或创建数据收集规则。

在迁移过程中,Azure Monitor 代理和 Microsoft Monitoring Agent 扩展可以安装在同一台计算机上。 运行这两个代理可能会导致重复数据并增加成本。 如果计算机同时安装了这两个代理,则会在Azure 门户中看到一条警告,指出你可能正在收集重复数据,如以下屏幕截图所示。

警告

使用 Azure Monitor 代理和 Microsoft Monitoring Agent 扩展从一台计算机收集重复数据可能会导致将重复数据发送到 Log Analytics 工作区,从而产生额外的引入成本。

显示数据重复警告的屏幕截图。

你必须自行在任何使用 Microsoft Monitoring Agent 扩展的计算机上删除该扩展。 在执行此步骤之前,请确保该计算机不依赖于任何其他需要 Microsoft Monitoring Agent 的解决方案。 在确认 MicrosoftMonitoringAgent 仍未连接到 Log Analytics 工作区后,可以通过重定向到“扩展”页来手动删除 MicrosoftMonitoringAgent。

显示“扩展”列表的屏幕截图。

疑难解答

本部分提供有关解决使用 Insights for Azure Stack HCI 时出现的问题的指南。

排查 2023 年 11 月之前注册的群集问题

问题。 在 2023 年 11 月之前注册的群集中,使用 Azure Stack HCI 上的 AMA 的功能(例如 Arc for Servers、VM Insights、Container Insights、Defender for Cloud 和 Sentinel)可能无法正确收集日志和事件数据。

原因。 在 2023 年 11 月之前,群集注册将 AMA 配置为使用群集标识,而使用 Azure Stack HCI 上的 AMA 的服务需要群集节点的标识才能正确收集日志。 这种不匹配导致从这些服务错误地收集日志。

解决方案。 为了解决此问题,我们在 HCI 群集注册中对 AMA 进行了更改,改用服务器标识。 若要实现此更改,请在 2023 年 11 月之前注册的群集上执行以下步骤:

  1. 修复群集注册。 请参阅 修复群集注册
  2. 修复 AMA。 请参阅 修复 AMA
  3. 重新配置 Azure Stack HCI 的见解。 请参阅 为 Azure Stack HCI 重新配置见解

在Azure 门户,Insights for Azure Stack HCI 页会自动检测 AMA 配置中的更改,并在页面顶部显示一个横幅,指导你采取必要的操作继续使用依赖于 AMA 的服务。

显示用于重新配置 Insights 的横幅的屏幕截图。

修复群集注册

按照以下步骤修复群集注册:

  1. 在群集节点上,安装最新的 Az.StackHCI PowerShell 模块。 将 替换为 latestversion 最新版本 Az.StackHCI 号。

    Install-Module -Name Az.StackHCI -RequiredVersion {latestversion} -Scope CurrentUser -Repository PSGallery -Force 
    
  2. 运行修复注册命令以删除 regkey:

    Register-AzStackHCI -TenantId {TenantID} -SubscriptionId {subscriptionID} -ComputerName {NodeName} -RepairRegistration 
    
修复 Azure Stack HCI 的 AMA

选择以下选项之一来修复 AMA:

  • 选项 1:卸载 AMA

    如果 AMA 已更新,请将其卸载。 请按照以下步骤卸载 AMA:

    1. 在Azure 门户,转到 Azure Stack HCI 群集的“扩展”页。

    2. 选中 “AzureMonitorWindowsAgent ”复选框,然后选择“ 卸载”。

      显示用于卸载 AMA 的 AzureMonitorWindowsAgent 的屏幕截图。

  • 选项 2:更新 AMA

    按照以下步骤更新 AMA:

    1. 在Azure 门户,转到 Azure Stack HCI 群集的“扩展”页。

    2. 选中 “AzureMonitorWindowsAgent ”复选框,然后选择“ 启用自动升级”(如果尚未完成)。

      显示用于启用自动升级的 AzureMonitorWindowsAgent 的屏幕截图。

  • 选项 3:重启 AMA

    在所有群集节点上按照以下步骤重启 AMA:

    1. 运行以下命令以禁用 AMA:

      cd C:\Packages\Plugins\Microsoft.Azure.Monitor.AzureMonitorWindowsAgent\<agent version number>
      AzureMonitorAgentExtension.exe disable
      
    2. 可执行文件完成且所有 AMA 进程停止后,运行以下命令以重启代理:

      AzureMonitorAgentExtension.exe enable
      
  • 选项 4:重新启动群集节点

重新配置 Azure Stack HCI 的见解

按照以下步骤为 Azure Stack HCI 重新配置 Insights:

  1. 在Azure 门户,Azure Stack HCI 群集的“见解”页在顶部显示一个横幅,如以下屏幕截图所示,这有助于再次配置 Insights 并将 DCR 与群集节点相关联。 查看横幅并选择“ 配置见解”。

    显示“配置见解”按钮的屏幕截图。

  2. 重新配置 DCR。 按照本文中提供的说明配置 Insights。 请参阅 为 Azure Stack HCI 配置见解

    “新建数据收集规则”页的屏幕截图。

排查未填充数据的空白“工作簿”页面问题

问题。 你将看到一个空白 的“工作簿 ”页面,其中未填充任何数据,如以下屏幕截图所示:

空白“工作簿”页的屏幕截图。

可能的原因。 此问题可能有多种原因,包括 Insights 的最新配置、2023 年 11 月之前注册的群集的故障排除步骤不完整,或者未正确配置关联的 DCR。

解决方案。 若要排查此问题,请按顺序执行以下步骤:

  1. 如果最近配置了见解,请等待最多一小时,以便 AMA 收集数据。
  2. 如果等待后仍然没有数据,请确保已完成排查 2023 年 11 月之前注册的群集问题 部分中提到的所有步骤。
  3. 验证关联的 DCR 的配置。 确保将事件通道和性能计数器作为数据源添加到关联的 DCR,如 数据收集规则 部分中所述。
  4. 如果在执行上述步骤后问题仍然存在,但仍未看到任何数据,请联系客户支持人员以获取帮助。

有关更详细的故障排除指南,请参阅 Azure Monitor 代理故障排除指南

Insights 可视化效果

下表提供了启用 Insights 后所有资源的详细信息。

健康产业

提供群集上的运行状况故障。

指标 说明 计价单位 示例
故障 有关运行状况故障的简短说明。 单击链接时,会打开侧面板,其中包含详细信息。 无单位 PoolCapacityThresholdExceeded
错误资源类型 遇到错误的资源类型。 无单位 StoragePool
错误资源 ID 遇到运行状况错误的资源的唯一 ID。 唯一 ID {1245340c-780b-4afc-af3c-f9bdc4b12f8a}: SP:{c57f23d1-d784-4a42-8b59-4edd8e70e830}
严重性 故障的严重性可能是“警告”或“严重”。 无单位 警告
初始故障时间 上次更新服务器时的时间戳。 datetime 2022/4/9 中午 12:15:42

服务器

指标 说明 计价单位 示例
服务器 群集中的服务器的名称。 无单位 VM-1
上次更新时间 上次更新服务器的日期和时间。 datetime 2022/4/9 中午 12:15:42
状态 群集中的服务器资源的运行状况。 它可以是“正常”、“警告”、“严重”和“其他” 正常
CPU 使用率 进程使用 CPU 的时间百分比。 百分比 56%
内存使用率 服务器进程的内存使用率等于计数器 Process\Private Bytes 加上内存映射数据的大小。 百分比 16%
逻辑处理器 逻辑处理器的数目。 计数 2
CPU CPU 的数目。 计数 2
运行时间 机器(尤其是计算机)处于运行状态的时间。 Timespan 2.609 小时
站点 服务器所属站点的名称。 站点名称 SiteA 的节点上运行
域名 服务器所属的本地域。 无单位 Contoso.local

虚拟机

提供群集中所有虚拟机的状态。 VM 可能处于以下状态之一:“正在运行”、“已停止”、“已失败”或“其他”(“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”)。

指标 说明 计价单位 示例
服务器 服务器的名称。 无单位 Sample-VM-1
上次更新时间 此项提供上次更新服务器的日期和时间 datetime 2022/4/9 中午 12:24:02
VM 总数 服务器节点中的 VM 数。 计数 0 个正在运行,共 0 个
正在运行 服务器节点中正在运行的 VM 数。 计数 2
已停止 服务器节点中已停止的 VM 数。 计数 3
Failed 服务器节点中已发生故障的 VM 数。 计数 2
其他 如果 VM 处于以下状态之一:“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”,则将该状态视为“其他”。 计数 2

存储

下表提供了群集中卷和驱动器的运行状况:

指标 说明 计价单位 示例
卷的名称 无单位 ClusterPerformanceHistory
上次更新时间 上次更新存储的日期和时间。 datetime 2022/4/14 下午 2:58:55
状态 卷的状态。 “正常”、“警告”、“严重”和“其他”。 正常
总容量 报告期内设备的总容量(以字节为单位)。 字节 2.5 GB
可用容量 报告期间可用容量(以字节为单位)。 字节 20B
Iops 每秒输入/输出操作数。 每秒 45 个/秒
吞吐量 应用程序网关每秒提供的字节数。 每秒字节数 5 字节/秒
延迟 完成 I/O 请求所需的时间。 Second 0.0016 秒
复原 要从故障中恢复的容量。 最大化数据可用性。 无单位 三向镜像
重复数据删除 减少需要存储在磁盘上的数据的物理字节数的过程。 可用或不可用 Yes/No
文件系统 文件系统的类型。 无单位 ReFS

Azure Monitor 定价

启用监视可视化效果时,会从以下位置收集日志:

  • 运行状况管理 (Microsoft-windows-health/operational)。
  • SDDC 管理(Microsoft-Windows-SDDC-Management/Operational;事件 ID:3000、3001、3002、3003、3004)。

将根据引入数据量及 Log Analytics 工作区的数据保留设置向你收费。

Azure Monitor 采用即用即付定价,每个计费帐户每月首个 5 GB 免费。 由于定价可能因多种因素而异,例如所使用的 Azure 区域,请访问 Azure Monitor 定价计算器以获取最新的定价计算。

后续步骤