Solución de un problema de clúster con identificador de evento 1135

¿Para qué sirve esta guía?

Le ayuda a diagnosticar y solucionar el Id. de evento 1135 que puede estar registrado durante el inicio del servicio de clúster en un entorno de clústeres de conmutación por error.

¿A quién va dirigido?

A los administradores responsables de solucionar el Id. de evento 1135 para el servicio de clúster.

¿Cómo funciona?

Le llevaremos por una serie de pasos de solución de problemas que son específicos para su caso.

Tiempo estimado de finalización

30-60 minutos.

Página de inicio

El Id. de evento 1135 indica que uno o varios nodos de clúster han sido eliminados de la pertenencia del clúster de conmutación por error activo. Puede ir acompañado de los síntomas siguientes 

Se puede recomendar una validación y pruebas de redes como uno de los pasos iniciales de solución de problemas para garantizar que no hay problemas de configuración que puedan ser la causa de los problemas.


Compruebe si están instaladas las revisiones recomendadas

El Servicio de clúster es el componente de software esencial que controla todos los aspectos de la operación del clúster de conmutación por error y administra la base de datos de configuración del clúster. Si ve el identificador de evento 1135, Microsoft recomienda instalar las correcciones mencionadas en los artículos de KB siguientes y reiniciar todos los nodos del clúster y después observar si el problema vuelve a ocurrir.

Compruebe si el Servicio de clúster se ejecuta en todos los nodos.

Siga el comando siguiente de acuerdo con el sistema de operativo Windows para validar que el Servicio de clúster se está ejecutando continuamente y está disponible.

Para el clúster de Windows Server 2008 R2:

desde el símbolo del sistema con privilegios elevados, ejecute: cluster.exe node /stat

Para el clúster de Windows Server 2012 y Windows Server 2012 R2:

ejecute el comando PS: cluster node /status


¿Está el Servicio de clúster ejecutándose continuamente y está disponible en todos los nodos?

Página de inicio

El Id. de evento 1135 indica que uno o varios nodos de clúster han sido eliminados de la pertenencia del clúster de conmutación por error activo. Puede ir acompañado de los síntomas siguientes 

Se puede recomendar una validación y pruebas de redes como uno de los pasos iniciales de solución de problemas para garantizar que no hay problemas de configuración que puedan ser la causa de los problemas.


Compruebe si están instaladas las revisiones recomendadas

El Servicio de clúster es el componente de software esencial que controla todos los aspectos de la operación del clúster de conmutación por error y administra la base de datos de configuración del clúster. Si ve el identificador de evento 1135, Microsoft recomienda instalar las correcciones mencionadas en los artículos de KB siguientes y reiniciar todos los nodos del clúster y después observar si el problema vuelve a ocurrir.

Compruebe si el Servicio de clúster se ejecuta en todos los nodos.

Siga el comando siguiente de acuerdo con el sistema de operativo Windows para validar que el Servicio de clúster se está ejecutando continuamente y está disponible.

Para el clúster de Windows Server 2008 R2:

desde el símbolo del sistema con privilegios elevados, ejecute: cluster.exe node /stat

Para el clúster de Windows Server 2012 y Windows Server 2012 R2:

ejecute el comando PS: cluster node /status


¿Está el Servicio de clúster ejecutándose continuamente y está disponible en todos los nodos?

La solución para el Servicio de clúster no funciona.

Si el Servicio de clúster produce un error, solucione el problema mediante este vínculo: http://blogs.technet.com/b/askcore/archive/2010/06/08/windows-server-2008-and-2008r2-failover-cluster-startup-switches.aspx


¿Solucionó esta medida el problema?

Diversos escenarios del identificador de evento 1135

Eche un vistazo a los registros del evento del sistema en todos los nodos del clúster. Revise el identificador de evento 1135 que está viendo en los nodos y copie todas las instancias de este evento. Le resultará cómodo para poder verlos y revisarlos.

Event ID 1135Cluster node ‘NODE A’ was removed from the active failover cluster membership. The Cluster service on this node may have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster. Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapters on this node. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
Hay tres escenarios típicos:

ESCENARIO A:

Está mirando todos los eventos y todos los nodos del clúster indican que NODO A ha perdido la comunicación.

3878_image11
 
3878_image12
 

Quizá cuando esté viendo los registros del sistema en NODO A, tenga eventos para todos los nodos restantes del clúster.

ESCENARIO B:

Está viendo los eventos en los nodos y supongamos que el clúster se reparte entre dos sitios. NODO A, NODO B y NODO C en el sitio 1 y NODO D y NODO E en el sitio 2.

3878_image13
 

En los nodos A, B y C, ve que los eventos que están registrados son por conectividad con los nodos D y E. De igual forma, cuando ve los eventos en los nodos D y E, los eventos sugieren que hemos perdido la comunicación con A, B y C.

3878_image14
 

ESCENARIO C:

Está mirando los eventos de los nodos y ve que los nombres de los nodos no coinciden con ningún patrón particular. Supongamos que el clúster se reparte en dos sitios. NODO A, NODO B y NODO C en el sitio 1 y NODO D y NODO E en el sitio 2.

  • En el nodo A: Ve los eventos de los nodos B, D, E.
  • En el nodo B: Ve los eventos de los nodos C, D, E.
  • En el nodo C: Ve los eventos de los nodos A, B, E.
  • En el nodo D: Ve los eventos de los nodos A, C, E.
  • En el nodo E: Ve los eventos de los nodos B, D, D.
  • O cualquier otra combinación. 

3878_image16
 


Seleccione su escenario:

Solución para el escenario A

Sugiere que el problema es debido a la congestión de red o a que se ha perdido la comunicación con el NODO A.

Debe revisar y validar los problemas de comunicación y configuración de la red. Recuerde buscar problemas relativos al nodo A.


¿Solucionó esta medida el problema?

Solución para el escenario B

Si observa una actividad similar, indica que se produjo un error de comunicación sobre el vínculo que conecta a estos sitios. Le recomendamos que revise la conexión entre los sitios; si es sobre una conexión WAN, sugerimos que compruebe la conectividad con su ISP.


¿Solucionó esta medida el problema?

Solución para el escenario C

Dichos eventos ocurren cuando los canales de red entre los nodos están bastante retraídos y los mensajes de comunicación del clúster no llegan en el tiempo esperado, y el clúster puede creer que la comunicación entre los nodos se ha perdido, dando como resultado la eliminación de nodos en la pertenencia del clúster.


¿Solucionó esta medida el problema?

Revisión de redes del clúster

Le recomendamos que revise las redes en clúster comprobando las tres opciones siguientes una a una para continuar esta guía de solución de problemas.


¿Qué desea hacer a continuación?

Comprobar la exclusión de antivirus

Excluya las siguientes ubicaciones del sistema de archivos de la detección de virus en un servidor que ejecuta Servicios de clúster:

  • La ruta de acceso del testigo del recurso compartido de archivos.
  • La carpeta %Systemroot%\Cluster.
Configure el componente de análisis en tiempo real dentro de su software antivirus para excluir los archivos y directorios siguientes:
  • Directorio de configuración de la máquina virtual predeterminada (C:\ProgramData\Microsoft\Windows\Hyper-V)
  • Directorios de configuración de la máquina virtual personalizada
  • Directorio de la unidad de disco duro virtual predeterminada (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
  • Directorios de la unidad de disco duro virtual personalizada
  • Directorios de datos de replicación personalizados, si está utilizando Réplica de Hyper-V
  • Directorios de instantáneas
  • mms.exe (Nota: Este archivo tendrá que configurarse como una exclusión del proceso en el software antivirus).
  • Vmwp.exe (Nota: Este archivo tendrá que configurarse como una exclusión del proceso en el software antivirus).
Además, cuando se utiliza la migración en vivo junto con volúmenes compartidos de clúster, excluya la ruta de acceso CSV "C:\Clusterstorage" y todos sus subdirectorios.
Si está solucionando problemas de conmutación por error o problemas generales con un Servicio de clúster y el software antivirus está instalado, desinstale temporalmente el software antivirus o consulte con el fabricante del software para determinar si el software antivirus funciona con el Servicio de clúster. En la mayoría de los casos no es suficiente con deshabilitar el software antivirus. Aunque deshabilite el software antivirus, el controlador de filtro se seguirá cargando cuando reinicie el equipo.

¿Solucionó esta medida el problema?
Comprobar la configuración de puerto de red en el firewall

El Servicio de clúster controla las operaciones del clúster de servidores y administra la base de datos de clúster. Un clúster es una agrupación de equipos independientes que actúan como un solo equipo. Administradores, programadores y usuarios consideran el clúster como un solo sistema. El software distribuye los datos entre los nodos del clúster. Si un nodo da error, otros nodos proporcionan los servicios y datos que hasta ese momento había proporcionado el nodo que falta. Cuando se agrega o repara un nodo, el software del clúster migra algunos datos a ese nodo.

Nombre del servicio del sistema: ClusSvc

 Aplicación Protocolo Puertos
 Servicio de clústerUDP  3343
 Servicio de clúster TCP 3343 (este puerto es necesario durante una operación de unión de nodos)
 RPC TCP 135
 Administración de clúster UDP 137
 Kerberos UDP\TCP 464*
 SMB TCP 445
 Puertos UDP altos asignados aleatoriamente** UDPNúmero de puerto aleatorio entre 1024 y 65535
 Número de puerto aleatorio entre 49152 y 65535*** 

Note:

Además, para una correcta validación en los clústeres de conmutación por error de Windows en Windows Server 2008 y superior, permita el tráfico entrante y saliente para ICMP4, ICMP6. 

* Para obtener más información, consulte La creación de un clúster de conmutación por error en Windows Server 2012 produce el error 0xc000005e http://support.microsoft.com/kb/2830510 (en inglés)

**Para obtener más información acerca de cómo personalizar estos puertos, consulte "Llamadas a procedimiento remoto y DCOM" en la sección "Referencias" de KB832017

***Es el rango en Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 y Windows Vista.

Además, ejecute el siguiente comando para comprobar la configuración del puerto de red en el firewall. Por ejemplo: Este comando le ayuda a determinar el puerto 3343 disponible/abierto utilizado para el clúster de conmutación por error:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose


¿Solucionó esta medida el problema?

Ejecutar el informe de validación de clúster en busca de errores o advertencias

La herramienta de validación del clúster ejecuta un conjunto de pruebas para comprobar que el hardware y la configuración son compatibles con los clústeres de conmutación por error.

Siga estas instrucciones:

  1. Ejecute el informe de validación de clúster en busca de errores o advertencias. Consulte este blog para obtener más detalles.
    3878_image4
     
  2. Compruebe si hay errores y advertencias para las redes con el siguiente artículo: http://technet.microsoft.com/es-es/library/cc771323.aspx
    3878_image5
     
    3878_image6
     


¿Qué desea hacer a continuación?

Comprobar el orden de enlace de redes de la lista

Esta prueba muestra el orden en el que se enlazan las redes a los adaptadores en cada nodo.

La pestaña Adaptadores y enlaces muestra las conexiones en el orden en el que los servicios de red obtienen acceso a las conexiones. El orden de estas conexiones refleja el orden en el que se envían las llamadas/paquetes TCP/IP genéricos en la red.

Siga los pasos siguientes para cambiar el orden de enlace de los adaptadores de red.

  1. Haga clic en Inicio y, en Ejecutar, escriba ncpa.cpl y haga clic en Aceptar. Puede ver las conexiones disponibles en la sección LAN e Internet de alta velocidad de la ventana Conexiones de red.
  2. En el menú Avanzadas, haga clic en Configuración avanzada y, a continuación, haga clic en la pestaña Adaptadores y enlaces.
  3. En el área Conexiones, seleccione la conexión que desea subir en la lista. Utilice los botones de flecha para mover la conexión. Como regla general, la tarjeta que habla a la red (conectividad de dominio, enrutamiento a las otras redes, etc.) debe ser la primera tarjeta enlazada (la primera de la lista).

Los nodos de clúster son sistemas de host múltiple. La prioridad de red afecta al cliente DNS para la conectividad de red saliente Los adaptadores de red utilizados para la comunicación del cliente en la parte superior del orden de enlace. Las redes no enrutadas deben situarse en la prioridad más baja. En Windows Server 2012 y Windows Server2012 R2, el adaptador del controlador de clúster de red (NETFT.SYS) se sitúa automáticamente en la parte inferior de la lista de orden de enlace.


¿Solucionó esta medida el problema?

Comprobar la validación de la comunicación de red

La latencia de la red también podría causar que esto ocurra. Los paquetes pueden no haberse perdido entre los nodos, pero no han podido llegar a los nodos lo suficientemente rápido antes de que expire el período de tiempo de espera.

Esta prueba valida que los servidores probados puedan comunicarse con una latencia aceptable en todas las redes.

Por ejemplo, En Validar comunicación de red, puede ver los mensajes siguientes para problemas de latencia de red.

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).Either address 10.0.0.96 is not reachable from 192.168.0.2 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networksEither address 192.168.0.2 is not reachable from 10.0.0.96 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
Para un clúster multisitio, quizá desea aumentar los valores de tiempo de espera.

Consulte con el ISP cualquier problema de conectividad WAN.


¿Qué otros problemas está experimentando?


Paquetes de red perdidos entre nodos
  1. Compruebe la pérdida de paquetes utilizando Perfmon
    Si el paquete se pierde en el cable en algún lugar entre los nodos, se producirá un error en los latidos. Se puede averiguar fácilmente si es un problema utilizando el Monitor de rendimiento para consultar el contador "Interfaz de red\Paquetes recibidos descartados" Cuando haya agregado este contador, mire la media y los datos de máximo y mínimo; si hay algún valor superior a cero, el búfer de recepción debe ajustarse para el adaptador.
    3878_image17
     
    Si está sufriendo una pérdida de paquetes de red en la plataforma de virtualización VmWare, consulte la sección Clúster instalado en la plataforma de virtualización VmWare.
  2. Actualización de los conductores NIC
    Este problema puede ocurrir cuando los controladores NIC\Componentes de integración (IC)\Herramientas de máquinas virtuales o adaptadores NIC erróneos.
    Si hay paquetes de red perdidos entre nodos en máquinas físicas, debe actualizar el controlador de adaptador de red. Controladores de tarjetas de red y/o firmware antiguos o desactualizados.
    A veces, una simple desconfiguración de la tarjeta de red o conmutador de red puede también provocar una pérdida de latidos.

¿Solucionó esta medida el problema?




Clúster instalado en la plataforma de virtualización de VmWare

Comprobar problemas del adaptador wmware en entornos VMware

Este problema puede producirse si se pierden paquetes durante las ráfagas de tráfico intenso.

Asegúrese de que no se está produciendo ningún filtrado de tráfico (por ejemplo, con un filtro de correo). Después de eliminar esta posibilidad, aumente gradualmente el número de búferes en el sistema operativo invitado y compruébelo.

Para reducir las caídas de tráfico de ráfagas, siga estos pasos:

  1. Abra el cuadro Ejecutar con la tecla Windows + R .
  2. Escriba devmgmt.msc y presione Entrar.
  3. Expanda Adaptadores de red.
  4. Haga clic con el botón derecho en vmxnet3 y haga clic en Propiedades.
  5. Haga clic en la pestaña Avanzadas.
  6. Haga clic en Small Rx Buffers y aumente el valor. El valor predeterminado es 512 y el máximo es 8192.
  7. Haga clic en Rx Ring #1 Size y aumente el valor. El valor predeterminado es 1024 y el máximo es 4096.

Compruebe las siguientes direcciones URL para comprobar si hay problemas de adaptador de vmware en caso de un entorno VMware:

http://blogs.technet.com/b/askcore/archive/2013/06/03/nodes-being-removed-from-failover-cluster-membership-on-vmware-esx.aspx

http://kb.vmware.com/selfservice/microsites/search.do?language=es_ES&cmd=displayKC&externalId=2039495

Observación de una congestión de la red

La congestión de la red también puede causar problemas de conectividad de red.

Compruebe que la red está configurada según las recomendaciones de Microsoft y del proveedor:

Revise la configuración de las redes de clúster de conmutación por error de Windows http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx (en inglés)

Comprobación de la configuración de red

Si esta solución tampoco funciona, compruebe si ha visto una red con particiones en la GUI del clúster o si tiene habilitada la formación de equipos NIC en el NIC de latido.


¿Cuál es el problema al que se enfrenta?

Red con particiones en la GUI del clúster

Si ve la red con particiones en la GUI del clúster, puede seguir este artículo de blog para solucionar el problema: http://blogs.technet.com/b/askcore/archive/2011/08/08/partitioned-cluster-networks.aspx


¿Solucionó esta medida el problema?

Actualización de los controladores de NIC

Este problema puede ocurrir debido a controladores NIC desusados o a adaptadores NIC defectuosos.

Si hay paquetes de red perdidos entre nodos en máquinas físicas, actualice los controladores de adaptador de red. Controladores de la tarjeta de red o firmware antiguos o desactualizados.

A veces, un simple error de configuración de la tarjeta de red o del conmutador también puede causar pérdida de latidos.


¿Solucionó esta medida el problema?

Comprobación de la configuración de red

Si esta solución tampoco funciona, compruebe si ha visto una red con particiones en la GUI del clúster o si tiene habilitada la formación de equipos NIC en el NIC de latido.


¿Cuál es el problema al que se enfrenta?

Está habilitada la formación de equipos NIC en la NIC de latido

Si ha habilitado una formación de equipos NIC en la NIC de latido, compruebe la funcionalidad de software Formación de equipos según la recomendación del proveedor de la formación de equipos.


¿Solucionó esta medida el problema?

¡Enhorabuena!

Se ha resuelto el problema del clúster.

Lo sentimos

Parece que no somos capaces de resolver su problema con esta guía. Para obtener más ayuda para resolver este problema, consulte nuestro foro de soporte técnico de TechNet o póngase en contacto con el Soporte técnico de Microsoft.

Observación de una congestión de la red

La congestión de la red también puede causar problemas de conectividad de red.

Compruebe que la red está configurada según las recomendaciones de Microsoft y del proveedor:

Revise la configuración de las redes de clúster de conmutación por error de Windows http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx (en inglés)

Comprobación de la configuración de red

Si esta solución tampoco funciona, compruebe si ha visto una red con particiones en la GUI del clúster o si tiene habilitada la formación de equipos NIC en el NIC de latido.


¿Cuál es el problema al que se enfrenta?

Propiedades

Id. de artículo: 10158 - Última revisión: 6 oct. 2016 - Revisión: 5

Comentarios