摘要
在 Azure Stack HCI 版本 21H2 或 22H2 操作系统中使用排出角色功能时,在大型群集方案 ((例如 8 个或更多个群集)) 时,可能会发生节点排出故障,因为存储处于维护模式时超时。 更新或升级 Azure Stack HCI 操作系统时,尤其会出现此问题。
详细信息
若要解决排出故障超时问题,请执行以下步骤:
-
在启用维护模式或任何涉及维护模式的操作(例如节点排出或群集感知更新)之前,请先延长运行状况服务物理磁盘扫描间隔。 为此,请运行以下命令来更改运行状况设置:
get-storagesubsystem Cluster* | set-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs -Value 10800000
备注 在此示例中,我们将值从 15 分钟增加到 3 小时。 但是,应调整此值,以确保此值比涉及维护模式的工作流的预期持续时间长。
-
等待任何正在进行的扫描完成。 确切的持续时间取决于环境。 在包含 16 个节点的群集上可能需要 40 到 60 分钟才能完成。 若要验证所有现有扫描是否已完成,检查“SDDC 组”的所有者节点上的运行状况服务日志,并搜索模式:
“维护模式事件解释器”正在解释事件类型 - 源“存储”,EntityType“SPACES_PhysicalDisk”。
备注 如果在最后一分钟内没有此类条目,则表示所有扫描都已完成。 可以通过运行以下命令来检索运行状况日志:
Get-ClusterLog -Destination 。 -TimeSpan 5 -UseLocalTime -Health
-
运行维护模式操作或其他涉及维护模式的工作流。
-
将运行状况设置还原为其原始设置。 这一点很重要,因为较长的间隔可能会导致某些运行状况服务功能(例如与物理磁盘相关的错误或停用)出现一些延迟。 若要还原运行状况设置,请运行以下命令:
get-storagesubsystem 群集* |remove-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs
参考
了解用于描述 Microsoft 软件更新的标准术语。