排查事件 ID 为 1135 的群集问题

适用于:Azure Stack HCI 版本 20H2;Windows Server 2019、Windows Server 2016

本文可帮助你诊断和解决事件 ID 1135,该事件 ID 可能在故障转移群集环境中启动群集服务期间记录。

起始页

事件 ID 1135 指示已从活动故障转移群集成员身份中删除一个或多个群集节点。 它可能附带以下症状:

建议将验证和网络测试作为初始故障排除步骤之一,以确保不存在可能导致问题的配置问题。

此群集服务是控制故障转移群集操作的所有方面并管理群集配置数据库的基本软件组件。 如果看到事件 ID 1135,Microsoft 建议安装以下知识库文章中提到的修补程序,并重新启动群集的所有节点,然后观察问题是否再次出现。

检查群集服务是否在所有节点上运行

按照以下命令操作,Windows操作系统验证群集服务是否持续运行且可用。

对于 Windows Server 2008 R2 群集

在提升的 cmd 提示符下,运行:cluster.exe 节点 /stat

对于 Windows Server 2012 和 Windows Server 2012 R2 群集

运行以下 PS 命令: Get-ClusterResource

群集服务是否持续运行且在所有节点上可用?

群集服务的解决方案失败

如果群集服务失败,请根据以下文章进行故障排除:Windows Server 2008 和 2008R2 故障转移群集启动开关。

事件 ID 1135 的几个方案

我们希望你仔细查看群集的所有节点上的系统事件日志。 查看节点上看到的事件 ID 1135,并复制此事件的所有实例。 这样,你便可以方便地查看和查看它们。

Event ID 1135
Cluster node ' **NODE A** ' was removed from the active failover cluster membership. The Cluster service on this node may have stopped. 
This could also be due to the node having lost communication with other active nodes in the failover cluster. 
Run the Validate a Configuration wizard to check your network configuration. 
If the condition persists, check for hardware or software errors related to the network adapters on this node. 
Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

有三种典型方案:

方案 A

你正在查看所有事件,群集中的所有节点都指示 NODE A 已丢失通信。

显示节点 A、节点 B 和节点 C 成功通信的关系图。 显示节点 A 已失去与节点 B 和节点 C 的通信的关系图。

在 NODE A 上看到系统日志时,它可能会包含群集中所有剩余节点的事件。

解决方案

这非常表明,在问题发生时,由于网络拥塞或与 NODE A 的通信丢失。

应查看并验证网络配置和通信问题。 请记得查找与节点 A 有关的问题。

方案 B

你正在查看节点上的事件,假设群集分散在两个站点中。 站点 1 中的节点 A、节点 B 和节点 C 和节点 D &站点 2 中的 NODE E。

显示站点 1 正在通过 WAN 链接与站点 2 成功通信的关系图。

在节点 A、B 和 C 上,可以看到记录的事件用于连接到节点 D & E。同样,当你在节点 D & E 上看到事件时,这些事件表明我们丢失了与 A、B 和 C 的通信。

显示 SIte 1 已失去与站点 2 的 WAN 链接连接的示意图。

解决方案

如果看到类似的活动,则表明通过连接这些站点的链接发生通信失败。 建议你查看跨站点的连接,如果这是通过 WAN 连接,我们建议你向 ISP 验证连接。

方案 C

你正在查看节点上的事件,你会看到节点的名称与任何特定模式不一样。 假设群集分散在两个站点中。 站点 1 中的节点 A、节点 B 和节点 C 和节点 D &站点 2 中的 NODE E。

  • 在节点 A 上:可以看到节点 B、D、E 的事件。
  • 在节点 B 上:可以看到节点 C、D、E 的事件。
  • 在节点 C 上:可以看到节点 A、B、E 的事件。
  • 在节点 D 上:可以看到节点 A、C、E 的事件。
  • 在节点 E 上:可以看到节点 B、C、D 的事件。
  • 或任何其他组合。

方案 C

解决方案

当节点之间的网络通道被阻塞且群集通信消息未及时到达时,则可能会发生此类事件,使群集认为节点之间的通信丢失,导致从群集成员身份删除节点。

查看群集网络

建议通过一个一个地检查以下三个选项来查看群集网络,以继续阅读此故障排除指南。

检查防病毒排除

在运行群集服务的服务器上从病毒扫描中排除以下文件系统位置:

  • FileShare 见证服务器的路径

  • %Systemroot%\Cluster 文件夹

在防病毒软件中配置实时扫描组件以排除以下目录和文件:

  • 默认虚拟机配置目录 (C:\ProgramData\Microsoft\Windows\Hyper-V)

  • 自定义虚拟机配置目录

  • 默认虚拟硬盘目录 (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)

  • 自定义虚拟硬盘目录

  • 自定义复制数据目录(如果使用 Hyper-V 副本)

  • 快照目录

  • mms.exe

    备注

    此文件可能需要配置为防病毒软件中的进程排除。

  • Vmwp.exe

    备注

    此文件可能需要配置为防病毒软件中的进程排除。

此外,将 实时迁移群集共享卷一起使用时,请排除 CSV 路径 C:\Clusterstorage 及其所有子目录。 如果要排查故障转移问题或群集服务和已安装防病毒软件的一般问题,请暂时卸载防病毒软件或与软件的制造商联系,以确定防病毒软件是否适用于群集服务。 在大多数情况下,仅禁用防病毒软件是不够的。 即使禁用防病毒软件,在重新启动计算机时仍加载筛选器驱动程序。

检查防火墙中的网络端口配置

该群集服务控制服务器群集操作并管理群集数据库。 群集是充当单台计算机的独立计算机的集合。 经理、程序员和用户将群集视为单个系统。 软件在群集的节点之间分配数据。 如果节点发生故障,其他节点将提供以前由缺失节点提供的服务和数据。 添加或修复节点时,群集软件将一些数据迁移到该节点。

系统服务名称 :ClusSvc

应用程序 协议 端口
群集服务 UDP 3343
群集服务 TCP 3343 (节点联接操作期间需要此端口。)
RPC TCP 135
群集管理员 UDP 137
Kerberos UDP/TCP 464*
SMB TCP 445
随机分配的高 UDP 端口** UDP 介于 1024 和 65535 之间的随机端口号
介于 49152 和 65535 之间的随机端口号***

备注

此外,为了在 Windows Server 2008 及Windows上的故障转移群集上成功验证,允许 ICMP4 ICMP6 的入站和出站流量。

这是 Windows Server 2012、Windows 8、Windows Server 2008 R2、Windows 7、Windows Server 2008 和 Windows Vista 中的范围。

此外,运行以下命令以检查防火墙中的网络端口配置。 例如:此命令可帮助确定可用于故障转移群集的端口 3343\open:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose

针对任何错误或警告运行群集验证报告

群集验证工具运行一套测试,以验证硬件和设置是否与故障转移群集兼容。

按照以下说明操作:

  1. 针对任何错误或警告运行群集验证报告。 有关详细信息,请参阅了解 群集验证测试:网络

    subhatt1

  2. 验证网络的警告和错误。 有关详细信息,请参阅了解 群集验证测试:网络

    按类别网络  显示的结果

检查列表网络绑定顺序

此测试列出了网络绑定到每个节点上的适配器的顺序。

"适配器和绑定"选项卡按网络服务访问连接的顺序列出连接。 这些连接的顺序反映了一般 TCP/IP 调用/数据包发送到线路的顺序。

按照以下步骤更改网络适配器的绑定顺序:

  1. 单击 "开始",单击"运行 ncpa.cpl ",键入 ,然后单击"确定 "。 可以在"网络连接"窗口的 **"LAN"和"High-Speed Internet"**部分查看可用 连接。

  2. 在"高级" 菜单上,单击"高级 设置", 然后单击"适配器和绑定" 选项卡。

  3. "连接 "区域中,选择要在列表中更上移的连接。 使用箭头按钮移动连接。 一般而言,与网络通信的 (域连接、路由到其他网络等的卡应是 (卡顶部的第一) 卡。

群集节点是多主系统。 网络优先级会影响 DNS 客户端的出站网络连接。 用于客户端通信的网络适配器应位于绑定顺序的顶部。 非路由网络可以置于较低优先级。 在 Windows Server 2012 和 Windows Server2012 R2 中,群集网络驱动程序 (NETFT.SYS) 适配器会自动放置在绑定顺序列表的底部。

检查验证网络通信

网络延迟也可能导致这种情况发生。 数据包可能不会在节点之间丢失,但它们在超时期限到期之前可能无法以足够快的速度到达节点。

此测试可验证被测服务器能否以可接受的延迟在所有网络上进行通信。

例如:在"验证网络通信"下,可能会看到以下有关网络延迟问题的消息:

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).
Either address 10.0.0.96 is not reachable from 192.168.0.2 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networks
Either address 192.168.0.2 is not reachable from 10.0.0.96 or **the ping latency is greater than the maximum allowed 2000 ms** 
This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks

对于多站点群集,可以增加该时间值。 有关详细信息,请参阅在多站点故障转移设置配置检测信号和 DNS 服务。

请咨询 ISP,了解任何 WAN 连接问题。

检查是否遇到以下任何问题。

节点之间丢失的网络数据包
  1. 使用性能检查数据包丢失

    如果数据包在节点之间的某一位置丢失,则检测信号将失败。 使用性能监视器查看"网络接口\已丢弃的已接收数据包数"计数器,可以轻松查明这是否出现问题。 添加此计数器后,查看"平均值"、"最小值"和"最大值",如果它们的值大于零,则接收缓冲区需要针对适配器进行调整。

    添加计数器

    如果在 VMware 虚拟化平台上遇到网络数据包丢失,请参阅"安装在 VMware 虚拟化平台中的群集"部分。

  2. 升级 NIC 驱动程序

    出现此问题的原因可能是 NIC 驱动程序\集成组件和 IC (\VmTools) 或 NIC 适配器有故障。 如果物理计算机上节点之间的网络数据包丢失,请更新网络适配器驱动程序。 旧或过期的网卡驱动程序和/或固件。 有时,网卡或交换机的简单配置错误也可能导致检测信号丢失。

VMware 虚拟化平台中安装的群集

在 VMware 环境中验证 VMware 适配器问题。

如果在高流量突发期间丢弃数据包,则可能会出现此问题。 确保未发生任何流量筛选 (例如,邮件筛选器) 。 消除这种可能性后,逐渐增加来宾操作系统中的缓冲区数并进行验证。

若要减少突发流量下降,请执行以下步骤:

  1. 使用密钥 + Windows打开"运行"框。
  2. 键入 devmgmt.msc ,然后按 Enter
  3. 展开 "网络适配器"
  4. 右键单击 vmxnet3,然后单击"属性"。
  5. 单击“高级” 选项卡。
  6. 单击 "小型 Rx 缓冲区" 并增大值。 默认值为 512,最大值为 8192。
  7. 单击 "Rx 环形#1 大小"并增大值。 默认值为 1024,最大值为 4096。

检查以下 URL,在 VMware 环境中验证 VMware 适配器问题:

请注意任何网络拥塞

网络拥塞还可能导致网络连接问题。

验证网络是否根据 MS 和供应商建议进行配置,请参阅配置Windows群集网络。

检查网络配置

如果仍然不起作用,请检查群集 GUI 中是否看到分区网络,或者检测信号 NIC 上是否启用了 NIC 分组。

如果在群集 GUI 中看到分区网络,请参阅 "已分区"群集网络 以排查问题。

如果在检测信号 NIC 上启用了 NIC 组,请根据团队供应商的建议检查"成组软件功能"。

升级 NIC 驱动程序

此问题可能是由于 NIC 驱动程序过时或 NIC 适配器出错造成的。

如果物理计算机上节点之间的网络数据包丢失,请更新网络适配器驱动程序。 旧或过期的网卡驱动程序和/或固件。

有时,网卡或交换机的简单配置错误也可能导致检测信号丢失。

检查网络配置

如果仍然不起作用,请检查是否在群集 GUI 中看到了分区网络,或者是否在检测信号 NIC 上启用了 NIC 分组。