事件 ID 1135 群集问题故障排除

该指南是做什么用的?

帮助你诊断和解决在故障转移群集环境中启动群集服务的过程中可能记录的事件 ID 1135。

适用对象是哪些人?

帮助解决群集服务的事件 ID 1135 的管理员。

它是如何工作的?

我们将为你介绍一系列针对你的特定情况的疑难解答步骤。

预计完成时间:

30-60 分钟。

开始页面

事件 ID 1135 表示已从活动故障转移群集成员身份中删除一个或多个群集节点。 它可能伴随有以下症状 

推荐初始故障排除步骤使用验证和网络测试,以确保不会出现任何可能导致出现故障的配置问题。


检查是否已安装推荐的修补程序

群集服务是一个不可缺少的软件组件,用于控制故障转移群集操作的所有方面,以及管理群集配置数据库。 如果你看到事件 ID 1135,Microsoft 建议你安装以下知识库文章中提到的修补程序,并重新启动集群中的所有节点,然后观察是否问题会再次发生。

检查群集服务是否在所有节点上运行

根据你的 Windows 操作系统执行以下命令,以验证群集服务持续有效地运行。

对于 Windows Server 2008 R2 群集:

从提升的 cmd 提示符处运行: cluster.exe node /stat

对于 Windows Server 2012 和 Windows Server 2012 R2 群集:

运行 PS 命令: cluster node /status


群集服务是否在所有节点上持续有效地运行?

开始页面

事件 ID 1135 表示已从活动故障转移群集成员身份中删除一个或多个群集节点。 它可能伴随有以下症状 

推荐初始故障排除步骤使用验证和网络测试,以确保不会出现任何可能导致出现故障的配置问题。


检查是否已安装推荐的修补程序

群集服务是一个不可缺少的软件组件,用于控制故障转移群集操作的所有方面,以及管理群集配置数据库。 如果你看到事件 ID 1135,Microsoft 建议你安装以下知识库文章中提到的修补程序,并重新启动集群中的所有节点,然后观察是否问题会再次发生。

检查群集服务是否在所有节点上运行

根据你的 Windows 操作系统执行以下命令,以验证群集服务持续有效地运行。

对于 Windows Server 2008 R2 群集:

从提升的 cmd 提示符处运行: cluster.exe node /stat

对于 Windows Server 2012 和 Windows Server 2012 R2 群集:

运行 PS 命令: cluster node /status


群集服务是否在所有节点上持续有效地运行?

群集服务的解决方案失败

如果群集服务失败,请使用此链接进行故障排除: http://blogs.technet.com/b/askcore/archive/2010/06/08/windows-server-2008-and-2008r2-failover-cluster-startup-switches.aspx


此方法是否解决了你的问题?

事件 ID 1135 的几种方案

我们希望你仔细查看所有集群节点上的系统事件日志。 查看你在节点上关注的事件 ID 1135,并复制此事件的所有实例。 以便查阅。

Event ID 1135Cluster node ‘NODE A’ was removed from the active failover cluster membership. The Cluster service on this node may have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster. Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapters on this node. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
有三种典型方案:

方案 A:

你在查看所有事件,集群中的所有节点都表明节点 A 通信已中断。

3878_image11
 
3878_image12
 

可能的情况是,当你查看节点 A 上的系统日志时,它保留了群集中所有其余节点的事件。

方案 B:

你在查看节点上的事件,让我们假设你的群集分散在两个站点上。 站点 1 上有节点 A、节点 B 和节点 C,站点 2 上有节点 D 和节点 E。

3878_image13
 

在节点 A、B 和 C 上,你看到记录的事件都是用于连接节点 D 和 E 的。同样地,当你查看节点 D 和 E 上的事件时,这些事件表明,我们失去了与 A、B 和 C 之间的通信。

3878_image14
 

方案 C:

你在查看节点上的事件,你看到节点的名称不与任何特定的模式相符。 让我们假设你的群集分散在两个站点上。 站点 1 上有节点 A、节点 B 和节点 C,站点 2 上有节点 D 和节点 E。

  • 在节点 A 上: 你看到节点 B、D、E 的事件。
  • 在节点 B 上: 你看到节点 C、D、E 的事件。
  • 在节点 C 上: 你看到节点 A、B、E 的事件。
  • 在节点 D 上: 你看到节点 A、C、E 的事件。
  • 在节点 E 上: 你看到节点 B、C、D 的事件。
  • 或任何其他组合。 

3878_image16
 


选择你的方案:

方案 A 的解决方案

这完全可以表明,问题出现的时候,要么是由于网络发生拥塞,要么是由于失去了与节点 A 的通信。

你应检查并验证网络配置和通讯问题。 请记住查找有关节点 A 的问题。


此方法是否解决了你的问题?

方案 B 的解决方案

如果你看到类似的活动,这表明,在通过链接连接这些站点的过程中,发生了通信失败。 我们建议你查看多个站点之间的连接,如果是通过 WAN 连接,我们建议你验证 ISP 的连接情况。


此方法是否解决了你的问题?

方案 C 的解决方案

当节点间的网络通道相当拥塞,并且群集的通信消息传送不及时,群集就会认为,节点之间的通信发生了丢失,从而导致从群集成员身份中删除这些节点,这时,就有可能发生此类事件。


此方法是否解决了你的问题?

查看群集网络

我们建议你在查看群集网络时,请通过逐个检查以下三个选项来继续执行此故障排除指南。


下一步你希望怎么做?

检查防病毒排除

将下列文件系统位置从正在运行群集服务的服务器上执行的病毒扫描中排除:

  • 文件共享见证的路径。
  • %Systemroot%\Cluster 文件夹。
配置防病毒软件中的实时扫描组件,以排除以下目录和文件:
  • 默认虚拟机配置目录 (C:\ProgramData\Microsoft\Windows\Hyper-V)
  • 自定义虚拟机配置目录
  • 默认虚拟硬盘目录 (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
  • 自定义虚拟硬盘驱动器目录
  • 如果你正在使用 Hyper-V 副本,请自定义复制数据目录
  • 快照目录
  • mms.exe (注意: 可能需要将此文件配置为防病毒软件中的进程排除项。)
  • Vmwp.exe(注意: 可能需要将此文件配置为防病毒软件中的进程排除项。)
此外,当你使用实时迁移和群集共享卷时,请排除 CSV 路径 "C:\Clusterstorage" 和其所有的子目录。
如果你正在使用群集服务解决故障转移问题或一般问题,并且已安装防病毒软件,请暂时卸载防病毒软件或检查软件的制造商以确定防病毒软件是否适用于群集服务。 在大多数情况下,仅禁用防病毒软件是不够的。 即使你禁用防病毒软件,当你重启计算机时仍会加载筛选器驱动程序。

此方法是否解决了你的问题?
检查防火墙的网络端口配置

“群集”服务控制服务器群集操作并管理群集数据库。 群集是多个独立计算机的集合,充当单个计算机。 管理员、程序员和用户将群集看作单个系统。 此软件在群集节点之间分发数据。 如果某个节点失败,其他节点将提供原来由丢失的节点提供的服务和数据。 当添加或修复某个节点后,群集软件将一些数据迁移到此节点。

系统服务名称: ClusSvc

 应用程序 协议 端口
 群集服务UDP  3343
 群集服务 TCP 3343(此端口在节点联接操作过程中必不可少。)
 RPC TCP 135
 群集管理 UDP 137
 Kerberos UDP\TCP 464*
 SMB TCP 445
 随机分配的高 UDP 端口** UDP介于 1024 与 65535 之间的随机端口号
介于 49152 与 65535 之间的随机端口号*** 

注意:

此外,为了能成功在 Windows Server 2008 及更高版本上验证 Windows 故障转移群集,请允许 ICMP4 和 ICMP6 使用入站和出站流量。 

* 有关详细信息,请参阅“Creating a Windows Server 2012 Failover Cluster Fails with Error 0xc000005e”(错误 0xc000005e:创建 Windows Server 2012 故障转移群集失败)http://support.microsoft.com/zh-cn/kb/2830510

**有关如何自定义这些端口的详细信息,请参阅 KB832017 中“引用”部分的“远程过程调用和 DCOM”

***这是 Windows Server 2012、Windows 8、Windows Server 2008 R2、Windows 7、Windows Server 2008 和 Windows Vista 中的范围。

此外,请运行以下命令来检查防火墙中的网络端口配置。 例如: 此命令可以帮助确定对于故障转移群集端口 3343 是否可用或已开启:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose


此方法是否解决了你的问题?

运行群集验证报告获取任何错误或警告

群集验证工具运行一系列测试,以验证你的硬件和设置是否与故障转移群集兼容。

按照以下说明进行操作:

  1. 运行群集验证报告获取任何错误或警告。请查看此博客了解更多详细信息。
    3878_image4
     
  2. 按照以下文章验证网络相关警告和错误: http://technet.microsoft.com/zh-cn/library/cc771323.aspx
    3878_image5
     
    3878_image6
     


下一步你希望怎么做?

检查列表网络绑定顺序

此测试列出了将网络绑定到每个节点上适配器的顺序。

“适配器和绑定”选项卡按网络服务访问连接的顺序列出了连接。 这些连接的顺序反映了通用 TCP/IP 呼叫/数据包被发送到线路上的顺序。

请按照以下步骤更改网络适配器的绑定顺序

  1. 单击“开始”,单击“运行”,键入 ncpa.cpl,然后单击“确定”。 在“网络连接”窗口的“LAN 和高速 Internet”部分,可以查看可用的连接。
  2. 在“高级”菜单中,单击“高级设置”,然后单击“适配器和绑定”选项卡。
  3. 在“连接”区域中,选择要移动到列表中更高位置的连接。 使用箭头按钮来移动连接。 作为一般规则,与网络、域连接、到其它网络的路由等进行会话的卡应是第一个绑定(列表顶部)的卡。

群集节点是多宿主系统。 网络优先级会影响出站网络连接的 DNS 客户端。 用于客户端通信的网络适配器应该位列绑定顺序顶部。 非路由网络可以放置在较低优先级。 在 Windows Server 2012 和 Windows Server 2012 R2 中,群集网络驱动程序 (NETFT.SYS) 适配器被自动放置在绑定顺序列表底部。


此方法是否解决了你的问题?

检查验证网络通信

网络上的延迟也可能导致这种情况。 数据包可能不会在这些节点之间丢失,但它们可能不会在超时期满之前迅速到达节点。

此测试可验证被测试的服务器是否能够在可接受的延迟范围内在所有网络上实现通信。

例如: 在验证网络通信下,你可能会看到以下有关网络延迟问题的消息。

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).Either address 10.0.0.96 is not reachable from 192.168.0.2 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networksEither address 192.168.0.2 is not reachable from 10.0.0.96 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
对于多站点群集,你可能希望增大超时值

检查 ISP 是否存在任何 WAN 连接问题。


你还遇到过哪些其他问题?


节点间的网络数据包丢失
  1. 使用 Perfmon 检查数据包丢失
    如果数据包在节点之间的线路上发生了丢失,那么检测信号将失败。 我们可以通过使用性能监视器来查看“网络接口\丢弃收到的数据包”计数器,从而很容易地查出是否存在问题。 你添加此计数器之后,即可查看平均、最小和最大数字,如果它们是任何大于零的值,则需要针对适配器对接收缓冲区进行调整。
    3878_image17
     
    如果 VMware 虚拟化平台上发生网络数据包丢失,请参阅“在 VMware 虚拟化平台中安装的群集”部分。
  2. 升级 NIC 驱动程序
    导致此问题的可能原因有:过时的 NIC 驱动程序\集成组件 (IC)\VmTools 或有故障的 NIC 适配器。
    如果在物理计算机的节点之间发生网络数据包丢失,则请更新你的网络适配器驱动程序。 旧的或过时的网卡驱动程序和/或固件。
    有时,仅仅错误地配置网卡或交换机也会导致检测信号丢失。

此方法是否解决了你的问题?




VMware 虚拟化平台中安装的群集

验证 VMware 环境中的 vmware 适配器问题

如果在高通信量快速增长过程中丢弃这些数据包,也可能出现此问题。

确保没有流量筛选发生(例如,邮件筛选器)。 排除这种可能性之后,逐渐增加来宾操作系统中的缓冲区数量并进行验证。

为了减少流量锐减的情况,请执行以下步骤:

  1. 通过使用 Windows 键 + R 打开“运行”框。
  2. 键入 devmgmt.msc ,然后按 Enter 键。
  3. 展开“网络适配器”
  4. 右键单击 vmxnet3,然后单击“属性”
  5. 单击“高级”选项卡。
  6. 单击“小 Rx 缓冲区”,然后增加数值。 默认值为 512,最大值为 8192。
  7. 单击“Rx Ring #1 大小”,然后增加数值。 默认值为 1024,最大值为 4096。

请检查以下 URL,以验证 VMware 环境中的 VMware 适配器问题:

http://blogs.technet.com/b/askcore/archive/2013/06/03/nodes-being-removed-from-failover-cluster-membership-on-vmware-esx.aspx

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2039495

注意任何网络拥塞

网络拥塞也会导致网络连接问题。

验证是否已按照 MS 和供应商的建议对你的网络进行配置:

查看“配置 Windows 故障转移群集网络”http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx

检查网络配置

如果仍然无法正常工作,请检查你是否已经查看过群集 GUI 中的分区网络,或者你是否对检测信号 NIC 启用了 NIC 分组功能。


你遇到了什么问题?

群集 GUI 中的分区网络

如果你在群集 GUI 中看到分区网络,你可以按照此博客文章来解决此问题: http://blogs.technet.com/b/askcore/archive/2011/08/08/partitioned-cluster-networks.aspx


此方法是否解决了你的问题?

升级 NIC 驱动程序

导致此问题的可能原因有:NIC 驱动程序过时或 NIC 适配器出现故障。

如果在物理计算机的节点之间出现网络数据包丢失,请更新你的网络适配器驱动程序。 旧的或过时的网卡驱动程序和/或固件。

有时,仅仅错误地配置网卡或交换机也会导致检测信号丢失。


此方法是否解决了你的问题?

检查网络配置

如果仍然无法正常工作,请检查你是否已经查看过群集 GUI 中的分区网络,或者你是否对检测信号 NIC 启用了 NIC 分组功能。


你遇到了什么问题?

对检测信号 NIC 启用 NIC 分组功能

如果你对检测信号 NIC 启用 NIC 分组功能,请按照每个分组供应商的建议检查分组软件功能。


此方法是否解决了你的问题?

祝贺你!

你的群集问题已解决。

抱歉

通过使用此指南似乎无法解决你的问题。 为获得解决此问题的更多帮助,请参阅我们的 TechNet 支持论坛联系 Microsoft 支持

注意任何网络拥塞

网络拥塞也会导致网络连接问题。

验证是否已按照 MS 和供应商的建议对你的网络进行配置:

查看“配置 Windows 故障转移群集网络”http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx

检查网络配置

如果仍然无法正常工作,请检查你是否已经查看过群集 GUI 中的分区网络,或者你是否对检测信号 NIC 启用了 NIC 分组功能。


你遇到了什么问题?

属性

文章 ID:10158 - 上次审阅时间:2016年10月6日 - 修订版本: 5

反馈