Résolution d'un problème de cluster avec l'ID d'événement 1135

À quoi sert ce guide ?

Il permet de diagnostiquer et de résoudre l'ID d'événement 1135 qui peut être consigné pendant le démarrage du service de cluster dans un environnement de clustering avec basculement.

À qui s'adresse-t-il ?

Aux administrateurs qui aident à résoudre l'ID d'événement 1135 pour le service de cluster.

Comment cela fonctionne-t-il ?

Nous vous guiderons à travers une série d'étapes de résolution de problèmes propres à votre situation.

Durée d'exécution estimée :

30-60 minutes.

Page de démarrage

L'ID d'événement 1135 indique qu'un ou plusieurs nœuds de cluster ont été supprimés du cluster de basculement actif. Cet événement peut s'accompagner des problèmes suivants : 

Lors de la première étape du processus de résolution, nous vous recommandons de procéder à une validation ainsi qu'à des tests du réseau afin de vous assurer qu'il n'existe pas de problèmes de configuration susceptibles de provoquer d'autres problèmes.


Vérifier si les correctifs logiciels recommandés sont installés

Le service de cluster est le composant logiciel clé qui contrôle tous les aspects d'une opération de cluster de basculement et gère la base de données de configuration de cluster. Si vous rencontrez l'ID d'événement 1135, Microsoft vous conseille d'installer les correctifs mentionnés dans les articles de la Base de connaissances ci-dessous et de redémarrer tous les nœuds du cluster, puis de vérifier si le problème survient à nouveau.

Vérifier si le service de cluster s'exécute sur tous les nœuds

Exécutez la commande suivante selon votre système d'exploitation Windows afin de vérifier que le service de cluster fonctionne et est disponible en continu.

Pour le cluster de Windows Server 2008 R2 :

À partir d'une invite de commandes avec élévation de privilèges, exécutez : cluster.exe node /stat

Pour le cluster de Windows Server 2012 et Windows Server 2012 R2 :

Exécutez la commande PS : cluster node /status


Est-ce que le service de cluster fonctionne et est disponible en continu sur tous les nœuds ?

Page de démarrage

L'ID d'événement 1135 indique qu'un ou plusieurs nœuds de cluster ont été supprimés du cluster de basculement actif. Cet événement peut s'accompagner des problèmes suivants : 

Lors de la première étape du processus de résolution, nous vous recommandons de procéder à une validation ainsi qu'à des tests du réseau afin de vous assurer qu'il n'existe pas de problèmes de configuration susceptibles de provoquer d'autres problèmes.


Vérifier si les correctifs logiciels recommandés sont installés

Le service de cluster est le composant logiciel clé qui contrôle tous les aspects d'une opération de cluster de basculement et gère la base de données de configuration de cluster. Si vous rencontrez l'ID d'événement 1135, Microsoft vous conseille d'installer les correctifs mentionnés dans les articles de la Base de connaissances ci-dessous et de redémarrer tous les nœuds du cluster, puis de vérifier si le problème survient à nouveau.

Vérifier si le service de cluster s'exécute sur tous les nœuds

Exécutez la commande suivante selon votre système d'exploitation Windows afin de vérifier que le service de cluster fonctionne et est disponible en continu.

Pour le cluster de Windows Server 2008 R2 :

À partir d'une invite de commandes avec élévation de privilèges, exécutez : cluster.exe node /stat

Pour le cluster de Windows Server 2012 et Windows Server 2012 R2 :

Exécutez la commande PS : cluster node /status


Est-ce que le service de cluster fonctionne et est disponible en continu sur tous les nœuds ?

Solution en cas d'échec du service de cluster

En cas d'échec du service de cluster, résolvez le problème à l'aide de ce lien : http://blogs.technet.com/b/askcore/archive/2010/06/08/windows-server-2008-and-2008r2-failover-cluster-startup-switches.aspx


Votre problème est-il résolu ?

Plusieurs scénarios pour l'ID d'événement 1135

Vérifiez les journaux des événements système sur tous les nœuds de votre cluster. Repérez chaque ID d'événement 1135 sur les nœuds et copiez-en toutes les instances, afin de pouvoir les examiner plus facilement.

Event ID 1135Cluster node ‘NODE A’ was removed from the active failover cluster membership. The Cluster service on this node may have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster. Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapters on this node. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
Il existe trois scénarios typiques :

SCÉNARIO A :

Vous examinez tous les événements, et tous les nœuds du cluster indiquent que le NŒUD A avait perdu la communication.

3878_image11
 
3878_image12
 

Il est possible que, lorsque vous analysez les journaux système concernant le NŒUD A, ils comportent des événements pour tous les autres nœuds du cluster.

SCÉNARIO B :

Vous examinez les événements sur les nœuds et votre cluster est dispersé sur deux sites. Les NŒUDS A, B et C sur le site 1, puis les NŒUDS D et E sur le site 2.

3878_image13
 

Sur les nœuds A, B et C, vous constatez que les événements consignés concernent la connectivité aux nœuds D et E. De même, les événements des nœuds D et E suggèrent une perte de communication avec A, B et C.

3878_image14
 

SCÉNARIO C :

Vous examinez les événements sur les nœuds et constatez que le nom des nœuds ne correspond pas à un modèle particulier. Imaginons que votre cluster soit dispersé sur deux sites. Les NŒUDS A, B et C sur le site 1, puis les NŒUDS D et E sur le site 2.

  • Sur le nœud A : vous voyez des événements pour les nœuds B, D et E.
  • Sur le nœud B : vous voyez des événements pour les nœuds C, D et E.
  • Sur le nœud C : vous voyez des événements pour les nœuds A, B et E.
  • Sur le nœud D : vous voyez des événements pour les nœuds A, C et E.
  • Sur le nœud E : vous voyez des événements pour les nœuds B, C et D.
  • Ou toute autre combinaison. 

3878_image16
 


Sélectionnez votre scénario :

Solution pour le scénario A

Cela suggère qu'au moment du problème, la communication avec le NŒUD A a été perdue en raison d'une surcharge du réseau ou d'un autre problème.

Vous devez examiner et valider les problèmes de communication et de configuration réseau. N'oubliez pas de rechercher tout problème relatif au nœud A.


Votre problème est-il résolu ?

Solution pour le scénario B

Si vous constatez une activité similaire, cela indique qu'il y a eu un échec de communication via la liaison qui connecte ces sites. Nous vous conseillons de vérifier la connexion entre les sites ; s'il s'agit d'une connexion WAN, renseignez-vous sur la connectivité auprès de votre fournisseur d'accès Internet.


Votre problème est-il résolu ?

Solution pour le scénario C

Ces événements peuvent se produire lorsque les canaux du réseau entre les nœuds sont engorgés et que les messages du cluster ne sont pas transmis dans un délai raisonnable. Le cluster pense alors que la communication entre les nœuds est perdue, ce qui entraîne la suppression des nœuds du cluster.


Votre problème est-il résolu ?

Contrôler les réseaux du cluster

Nous vous recommandons d'examiner les réseaux de votre cluster en vérifiant les trois options suivantes, une par une, pour poursuivre ce guide de résolution des problèmes.


Que voulez-vous faire ensuite ?

Vérifier les exclusions des antivirus

Excluez les emplacements de système de fichiers suivants de l'analyse antivirus sur un serveur qui exécute les services de cluster :

  • Chemin d'accès au témoin de partage de fichiers.
  • Dossier %Systemroot%\Cluster.
Paramétrez le composant d'analyse en temps réel de votre logiciel antivirus de manière à exclure les fichiers et répertoires suivants :
  • Répertoire de configuration par défaut de la machine virtuelle (C:\ProgramData\Microsoft\Windows\Hyper-V)
  • Répertoires de configuration personnalisés de la machine virtuelle
  • Répertoire par défaut du lecteur de disque dur virtuel (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
  • Répertoires personnalisés du lecteur de disque dur virtuel
  • Répertoires personnalisés de données de réplication, si vous utilisez Hyper-V Replica
  • Répertoires de captures instantanées
  • mms.exe (Remarque : Il se peut que ce fichier doive être configuré en tant qu'exclusion de processus dans le logiciel antivirus.)
  • Vmwp.exe (Remarque : Il se peut que ce fichier doive être configuré en tant qu'exclusion de processus dans le logiciel antivirus.)
En outre, lorsque vous utilisez la migration dynamique avec les volumes partagés de cluster, excluez le chemin d'accès « C:\Clusterstorage » ainsi que tous ses sous-répertoires.
Si vous essayez de résoudre des problèmes de basculement ou des problèmes généraux impliquant des services de cluster et qu'un logiciel antivirus est installé, désinstallez-le temporairement ou demandez à son fabricant de vous indiquer si le logiciel fonctionne avec les services de cluster. La désactivation du logiciel antivirus est insuffisante dans la plupart des cas. Même si vous désactivez le logiciel antivirus, le pilote de filtre est toujours chargé lorsque vous redémarrez l'ordinateur.

Votre problème est-il résolu ?
Vérifier la configuration du port réseau dans le pare-feu

Le service de cluster contrôle les opérations du cluster de serveurs et gère la base de données de clusters. Un cluster est un ensemble d'ordinateurs indépendants qui agissent en tant qu'ordinateur unique. Les gestionnaires, les programmeurs et les utilisateurs voient le cluster comme un système unique. Le logiciel distribue les données aux nœuds du cluster. En cas de défaillance d'un nœud, les autres nœuds fournissent les services et données correspondants à sa place. Lorsque qu'un nœud est ajouté ou réparé, le logiciel de cluster migre certaines données vers ce nœud.

Nom du service système : ClusSvc

 Application Protocole Ports
 Service de clusterUDP  3343
 Service de cluster TCP 3343 (ce port est requis au cours d'une opération de jonction de nœuds)
 RPC TCP 135
 Administrateur de cluster UDP 137
 Kerberos UDP\TCP 464*
 SMB TCP 445
 Ports UDP élevés alloués aléatoirement** UDPNuméro de port aléatoire entre 1024 et 65535
 Numéro de port aléatoire entre 49152 et 65535*** 

Remarque :

En outre, pour une validation réussie sur les clusters de basculement Windows sur Windows Server 2008 et versions ultérieures, autorisez le trafic entrant et sortant pour les protocoles ICMP4 et ICMP6. 

* Pour plus d'informations, voir Création d'un cluster de basculement Windows Server 2012 – Échec avec erreur 0xc000005e http://support.microsoft.com/kb/2830510

**Pour plus d'informations sur la personnalisation de ces ports, voir « Appels de procédure distante et DCOM » dans la section Références de l'article KB832017

***Il s'agit de la plage dans Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 et Windows Vista.

En outre, exécutez la commande suivante pour vérifier la configuration du port réseau dans le pare-feu. Par exemple : cette commande permet de déterminer si le port 3343 est disponible, ouvert ou utilisé pour le cluster de basculement :

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose


Votre problème est-il résolu ?

Exécuter le rapport Validation de cluster pour détecter des erreurs ou avertissements

L'outil de validation de cluster exécute une série de tests afin de vérifier que votre matériel et vos paramètres sont compatibles avec le clustering de basculement.

Suivez ces instructions :

  1. Exécutez le rapport Validation de cluster pour détecter des erreurs ou avertissements éventuels. Consultez ce blog pour en savoir plus.
    3878_image4
     
  2. Vérifiez l'absence d'avertissements et d'erreurs au niveau des réseaux, en vous aidant de l'article ci-dessous : http://technet.microsoft.com/fr-fr/library/cc771323.aspx
    3878_image5
     
    3878_image6
     


Que voulez-vous faire ensuite ?

Activer l'option « Répertorier l'ordre de liaison des réseaux »

Ce test répertorie l'ordre dans lequel les réseaux sont liés aux cartes sur chaque nœud.

L'onglet Cartes et liaisons répertorie les connexions dans l'ordre dans lequel elles sont accessibles aux périphériques réseau. L'ordre de ces connexions reflète l'ordre dans lequel les appels/paquets TCP/IP génériques sont envoyés via le réseau.

Pour modifier l'ordre de liaison des adaptateurs réseau, procédez comme suit :

  1. Cliquez sur Démarrer, puis sur Exécuter, tapez ncpa.cpl, puis cliquez sur OK. Les connexions disponibles s'affichent dans la section Réseau local ou Internet haut débit de la fenêtre Connexions réseau.
  2. Dans le menu Avancé, cliquez sur Paramètres avancés, puis sur l'onglet Cartes et liaisons.
  3. Dans la zone Connexions, sélectionnez la connexion que vous voulez déplacer plus haut dans la liste. Utilisez les flèches pour déplacer la connexion. En règle générale, la carte qui transmet des informations aux réseaux (connectivité du domaine, routage vers d'autres réseaux, etc.) doit être la première carte réseau liée (en haut de la liste).

Les nœuds de cluster sont des systèmes multi-résidents. La priorité des réseaux a un impact sur le client DNS pour la connectivité réseau sortante. Les cartes réseau utilisées pour les communications avec le client doivent se trouver au début de l'ordre de liaison. Les réseaux non routés peuvent avoir une priorité faible. Dans Windows Server 2012 et Windows Server 2012 R2, l'adaptateur Cluster Network Driver (NETFT.SYS) est automatiquement placé dans le bas de la liste d'ordre de liaison.


Votre problème est-il résolu ?

Activer l'option « Valider la communication réseau »

Le temps de latence sur votre réseau peut également provoquer cette situation. Les paquets ne sont pas obligatoirement perdus entre les nœuds mais il est possible qu'ils n'accèdent pas assez rapidement aux nœuds, avant l'expiration du délai.

Ce test vérifie que les serveurs testés peuvent communiquer avec une latence acceptable sur tous les réseaux.

Par exemple : sous Valider la communication réseau, vous pouvez voir les messages suivants pour les problèmes de latence réseau.

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).Either address 10.0.0.96 is not reachable from 192.168.0.2 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networksEither address 192.168.0.2 is not reachable from 10.0.0.96 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
Pour les clusters multi-sites, vous avez la possibilité d'augmenter les valeurs du délai d'attente.

Vérifiez l'absence de problèmes de connectivité du réseau étendu (WAN) auprès de votre fournisseur d'accès Internet.


Quels autres problèmes rencontrez-vous ?


Paquets réseau perdus entre des nœuds
  1. Vérifier la perte de paquets avec Perfmon
    Si le paquet est perdu dans le réseau, quelque part entre les nœuds, les pulsations échouent. Ce problème peut être facilement détecté en utilisant l'Analyseur de performances pour examiner le compteur « Interface réseau\Paquets reçus et rejetés ». Après avoir ajouté ce compteur, consultez les valeurs Moyenne, Minimum et Maximum. Si une valeur est supérieure à zéro, le tampon de réception doit être ajusté pour l'adaptateur.
    3878_image17
     
    Si vous constatez une perte de paquets réseau sur la plateforme de virtualisation VmWare, consultez la section Cluster installé dans la plateforme de virtualisation VmWare.
  2. Mise à niveau des pilotes de carte réseau
    Ce problème peut se produire en raison de pilotes de carte réseau\composants d'intégration (IC)\VmTools obsolètes ou d'adaptateurs de cartes réseau défectueux.
    Si des paquets réseau sont perdus entre les nœuds de machines physiques, mettez à jour votre pilote de carte réseau. Pilotes de carte réseau et/ou microprogramme anciens ou obsolètes.
    Dans certains cas, une simple erreur de configuration de la carte réseau ou d'un commutateur peut également provoquer la perte de pulsations.

Votre problème est-il résolu ?




Cluster installé dans la plateforme de virtualisation VmWare

Dans le cas d'un environnement VMware, vérifiez l'absence de problèmes au niveau de l'adaptateur vmware.

Ce problème peut se produire si les paquets sont perdus au cours des pics de trafic en rafale.

Vérifiez qu'aucun filtrage du trafic n'est en cours (par exemple, avec un filtre de courrier). Après avoir éliminé cette éventualité, augmentez progressivement le nombre de tampons dans le système d'exploitation invité et vérifiez.

Pour réduire les pertes de trafic en rafale, procédez comme suit :

  1. Ouvrez la boîte de dialogue Exécuter à l'aide de la combinaison de touches Windows + R.
  2. Tapez devmgmt.msc, puis appuyez sur Entrée.
  3. Développez Cartes réseau.
  4. Cliquez avec le bouton droit sur vmxnet3, puis cliquez sur Propriétés.
  5. Cliquez sur l'onglet Avancé.
  6. Cliquez sur Tampons Rx Small et augmentez la valeur. La valeur par défaut est 512 et la valeur maximale est 8192.
  7. Cliquez sur Taille anneau Rx #1 et augmentez la valeur. La valeur par défaut est 1024 et la valeur maximale est 4096.

Si vous utilisez un environnement VMware, consultez les URL suivantes pour vérifier l'absence de problèmes de l'adaptateur vmware :

http://blogs.technet.com/b/askcore/archive/2013/06/03/nodes-being-removed-from-failover-cluster-membership-on-vmware-esx.aspx

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2039495

Surcharge du réseau constatée

La surcharge du réseau peut également entraîner des problèmes de connectivité réseau.

Vérifiez que votre réseau est configuré conformément aux recommandations de Microsoft et de votre fournisseur :

Vérification de la configuration des réseaux de cluster de basculement Windows http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx

Vérification de la configuration réseau

Si le problème n'est toujours pas résolu, vérifiez que le réseau partitionné est visible dans l'interface utilisateur du cluster ou que l'association de cartes réseau est activée sur la carte réseau de pulsations.


À quel problème êtes-vous confronté ?

Réseau partitionné dans l'interface utilisateur du cluster

Si vous voyez le réseau partitionné dans l'interface utilisateur du cluster, vous pouvez suivre les conseils de cet article de blog pour résoudre le problème : http://blogs.technet.com/b/askcore/archive/2011/08/08/partitioned-cluster-networks.aspx


Votre problème est-il résolu ?

Mise à niveau des pilotes de carte réseau

Ce problème peut se produire en raison de pilotes de carte réseau obsolètes ou d'adaptateurs de cartes réseau défectueux.

Si des paquets réseau sont perdus entre les nœuds de machines physiques, mettez à jour votre pilote de carte réseau. Pilotes de carte réseau et/ou microprogramme anciens ou obsolètes.

Dans certains cas, une simple erreur de configuration de la carte réseau ou d'un commutateur peut également provoquer la perte de pulsations.


Votre problème est-il résolu ?

Vérification de la configuration réseau

Si le problème n'est toujours pas résolu, vérifiez que le réseau partitionné est visible dans l'interface utilisateur du cluster ou que l'association de cartes réseau est activée sur la carte réseau de pulsations.


À quel problème êtes-vous confronté ?

Association de cartes réseau activée sur la carte réseau de pulsations

Si vous avez activé l'association de cartes réseau sur la carte réseau de pulsations, vérifiez la fonctionnalité du logiciel d'association de cartes réseau conformément aux recommandations du fournisseur de ce logiciel.


Votre problème est-il résolu ?

Félicitations !

Votre problème de cluster est résolu.

Désolé

Il semblerait que nous ne parvenions pas à résoudre votre problème à l'aide de ce guide. Pour obtenir une aide supplémentaire pour résoudre ce problème, consultez notre forum de support TechNet ou contactez le support technique Microsoft.

Surcharge du réseau constatée

La surcharge du réseau peut également entraîner des problèmes de connectivité réseau.

Vérifiez que votre réseau est configuré conformément aux recommandations de Microsoft et de votre fournisseur :

Vérification de la configuration des réseaux de cluster de basculement Windows http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx

Vérification de la configuration réseau

Si le problème n'est toujours pas résolu, vérifiez que le réseau partitionné est visible dans l'interface utilisateur du cluster ou que l'association de cartes réseau est activée sur la carte réseau de pulsations.


À quel problème êtes-vous confronté ?

Propriétés

ID d'article : 10158 - Dernière mise à jour : 6 oct. 2016 - Révision : 5

Commentaires