要約
Azure Stack HCI バージョン 21H2 または 22H2 オペレーティング システムでドレイン ロール機能を使用すると、ストレージがメンテナンス モードになるとタイムアウトが発生するため、大規模なクラスター シナリオ (8 つ以上のクラスターなど) でノード ドレイン エラーが発生する可能性があります。 この問題は、特に Azure Stack HCI オペレーティング システムを更新またはアップグレードするときに発生します。
詳細情報
ドレイン エラーのタイムアウトを解決するには、次の手順に従います。
-
メンテナンス モードまたはノード ドレインやクラスター対応更新などのメンテナンス モードを含む操作を有効にする前に、最初にヘルス サービスの物理ディスクのスキャン間隔を増やします。 これを行うには、次のコマンドを実行して正常性設定を変更します。
get-storagesubsystem Cluster* | set-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs -Value 10800000
注 この例では、値を 15 分から 3 時間に増やします。 ただし、この値は、メンテナンス モードを伴うワークフローの予想期間よりも長く調整する必要があります。
-
進行中のスキャンが完了するまで待ちます。 正確な期間は環境によって異なります。 16 ノード クラスターの完了には、40 分から 60 分かかる場合があります。 既存のすべてのスキャンが完了したことを確認するには、"SDDC グループ" の所有者ノードで正常性サービス ログをチェックし、パターンを検索します。
'メンテナンス モード イベント インタープリター' は、イベントの種類 - 配信元 'Storage'、EntityType 'SPACES_PhysicalDisk' を解釈しています。
注 最後の 1 分以内にこのようなエントリがない場合は、すべてのスキャンが完了したことを意味します。 正常性ログは、次のコマンドを実行して取得できます。
Get-ClusterLog -Destination . -TimeSpan 5 -UseLocalTime -Health
-
メンテナンス モード操作またはメンテナンス モードを含むその他のワークフローを実行します。
-
正常性設定を元の設定に戻します。 これは、長い間隔で、物理ディスク関連のエラーや廃止などの特定の正常性サービス機能の遅延が発生する可能性があるため、重要です。 正常性設定を元に戻すには、次のコマンドを実行します。
get-storagesubsystem Cluster* |remove-storagehealthsetting -name System.Storage.PhysicalDisk.CheckPeriodMs
参考文献
Microsoft ソフトウェア更新プログラムの説明に使用される標準的な用語について説明します。