Applies ToAzure Local, version 21H2 Azure Local, version 22H2

摘要

在 Azure Stack HCI 版本 21H2 或 22H2 操作系统中使用排出角色功能时,在大型群集方案 ((例如 8 个或更多个群集)) 时,可能会发生节点排出故障,因为存储处于维护模式时超时。 更新或升级 Azure Stack HCI 操作系统时,尤其会出现此问题。

详细信息

若要解决排出故障超时问题,请执行以下步骤: 

  1. 在启用维护模式或任何涉及维护模式的操作(例如节点排出或群集感知更新)之前,请先延长运行状况服务物理磁盘扫描间隔。 为此,请运行以下命令来更改运行状况设置:

    get-storagesubsystem Cluster* | set-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs -Value 10800000

    备注 在此示例中,我们将值从 15 分钟增加到 3 小时。 但是,应调整此值,以确保此值比涉及维护模式的工作流的预期持续时间长。

  2. 等待任何正在进行的扫描完成。 确切的持续时间取决于环境。 在包含 16 个节点的群集上可能需要 40 到 60 分钟才能完成。 若要验证所有现有扫描是否已完成,检查“SDDC 组”的所有者节点上的运行状况服务日志,并搜索模式:

    “维护模式事件解释器”正在解释事件类型 - 源“存储”,EntityType“SPACES_PhysicalDisk”。

    备注 如果在最后一分钟内没有此类条目,则表示所有扫描都已完成。 可以通过运行以下命令来检索运行状况日志:

    Get-ClusterLog -Destination 。 -TimeSpan 5 -UseLocalTime -Health

  3. 运行维护模式操作或其他涉及维护模式的工作流。

  4. 将运行状况设置还原为其原始设置。 这一点很重要,因为较长的间隔可能会导致某些运行状况服务功能(例如与物理磁盘相关的错误或停用)出现一些延迟。 若要还原运行状况设置,请运行以下命令:

    get-storagesubsystem 群集* |remove-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs

参考

故障转移群集维护过程

了解用于描述 Microsoft 软件更新的标准术语

需要更多帮助?

需要更多选项?

了解订阅权益、浏览培训课程、了解如何保护设备等。

社区可帮助你提出和回答问题、提供反馈,并听取经验丰富专家的意见。