KB5020450: ノードドレインエラーは、Azure Stack HCI バージョン 21H2 および 22H2 の大規模なクラスターシナリオで発生します

要約

Azure Stack HCI バージョン 21H2 または 22H2 オペレーティングシステムでドレインロール機能を使用すると、ストレージがメンテナンスモードになるとタイムアウトが発生するため、大規模なクラスターシナリオ (8 つ以上のクラスターなど) でノードドレインエラーが発生する可能性があります。この問題は、特に Azure Stack HCI オペレーティングシステムを更新またはアップグレードするときに発生します。

詳細情報

ドレインエラーのタイムアウトを解決するには、次の手順に従います。

メンテナンスモードまたはノードドレインやクラスター対応更新などのメンテナンスモードを含む操作を有効にする前に、最初にヘルスサービスの物理ディスクのスキャン間隔を増やします。これを行うには、次のコマンドを実行して正常性設定を変更します。

get-storagesubsystem Cluster* | set-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs -Value 10800000

注この例では、値を 15 分から 3 時間に増やします。ただし、この値は、メンテナンスモードを伴うワークフローの予想期間よりも長く調整する必要があります。
進行中のスキャンが完了するまで待ちます。正確な期間は環境によって異なります。 16 ノードクラスターの完了には、40 分から 60 分かかる場合があります。既存のすべてのスキャンが完了したことを確認するには、"SDDC グループ" の所有者ノードで正常性サービスログをチェックし、パターンを検索します。

'メンテナンスモードイベントインタープリター' は、イベントの種類 - 配信元 'Storage'、EntityType 'SPACES_PhysicalDisk' を解釈しています。

注最後の 1 分以内にこのようなエントリがない場合は、すべてのスキャンが完了したことを意味します。正常性ログは、次のコマンドを実行して取得できます。

Get-ClusterLog -Destination . -TimeSpan 5 -UseLocalTime -Health
メンテナンスモード操作またはメンテナンスモードを含むその他のワークフローを実行します。
正常性設定を元の設定に戻します。これは、長い間隔で、物理ディスク関連のエラーや廃止などの特定の正常性サービス機能の遅延が発生する可能性があるため、重要です。正常性設定を元に戻すには、次のコマンドを実行します。

get-storagesubsystem Cluster* |remove-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs

参考文献

フェールオーバークラスターのメンテナンス手順

Microsoft ソフトウェア更新プログラムの説明に使用される標準的な用語について説明します。

KB5020450: ノードドレインエラーは、Azure Stack HCI バージョン 21H2 および 22H2 の大規模なクラスターシナリオで発生します

要約

詳細情報

参考文献

ヘルプを表示

その他のオプションが必要ですか?

この情報は役に立ちましたか?

フィードバックをいただき、ありがとうございます。