Solução de problemas de cluster com a ID de Evento 1135

Qual a finalidade deste guia?

Ajuda a diagnosticar e resolver a ID de Evento 1135, que pode ser registrada durante a inicialização do serviço de Cluster no ambiente de Clustering de Failover.

A quem ele se destina?

Administradores que ajudam a resolver a ID de Evento 1135 para o serviço de Cluster.

Como funciona?

Vamos orientá-lo por uma série de etapas de solução de problemas que são específicas para sua situação.

Tempo de conclusão estimado:

30-60 minutos.

Página inicial

A ID de evento 1135 indica que um ou mais nó de Cluster foram removidos da associação de cluster de failover ativo. Pode estar acompanhado pelos seguintes sintomas 

Uma validação e testes de rede seriam recomendados como uma das etapas iniciais de solução de problemas para garantir que não há problemas de configuração que podem ser a causa dos problemas.


Verifique se instalou as correções recomendadas

O serviço de cluster é o componente de software essencial que controla todos os aspectos da operação do cluster de failover e gerencia o banco de dados de configuração do cluster. Se você vir a ID do evento 1135, a Microsoft recomenda que você instale as correções mencionadas nos artigos da KB abaixo e reinicie todos os nós do cluster, depois observe se o problema ocorre novamente.

Verifique se o serviço de cluster está em execução em todos os nós

Siga os comandos a seguir de acordo com seu sistema operacional do Windows para verificar se o serviço de cluster está em execução contínua e disponível.

Para o cluster do Windows Server 2008 R2:

em um prompt cmd com privilégios elevados, execute: cluster.exe node /stat

Para o cluster do Windows Server 2012\ e Windows Server 2012 R2:

executar o comando PS: status/ nó de cluster


O serviço de cluster está em execução contínua e disponível em todos os nós?

Página inicial

A ID de evento 1135 indica que um ou mais nó de Cluster foram removidos da associação de cluster de failover ativo. Pode estar acompanhado pelos seguintes sintomas 

Uma validação e testes de rede seriam recomendados como uma das etapas iniciais de solução de problemas para garantir que não há problemas de configuração que podem ser a causa dos problemas.


Verifique se instalou as correções recomendadas

O serviço de cluster é o componente de software essencial que controla todos os aspectos da operação do cluster de failover e gerencia o banco de dados de configuração do cluster. Se você vir a ID do evento 1135, a Microsoft recomenda que você instale as correções mencionadas nos artigos da KB abaixo e reinicie todos os nós do cluster, depois observe se o problema ocorre novamente.

Verifique se o serviço de cluster está em execução em todos os nós

Siga os comandos a seguir de acordo com seu sistema operacional do Windows para verificar se o serviço de cluster está em execução contínua e disponível.

Para o cluster do Windows Server 2008 R2:

em um prompt cmd com privilégios elevados, execute: cluster.exe node /stat

Para o cluster do Windows Server 2012\ e Windows Server 2012 R2:

executar o comando PS: status/ nó de cluster


O serviço de cluster está em execução contínua e disponível em todos os nós?

Solução para o serviço de cluster está falhando

Se o serviço de cluster está falhando, solucione o problema usando este link: http://blogs.technet.com/b/askcore/archive/2010/06/08/windows-server-2008-and-2008r2-failover-cluster-startup-switches.aspx


Isso resolveu o problema?

Vários cenários da ID de evento 1135

Queremos que você olhe mais de perto para os logs de evento do sistema em todos os nós de seu cluster. Examine a ID de evento 1135 que você está vendo nos nós e copie todas as instâncias deste evento. Assim, será conveniente que você os observe e examine.

Event ID 1135Cluster node ‘NODE A’ was removed from the active failover cluster membership. The Cluster service on this node may have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster. Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapters on this node. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.
Há três cenários típicos:

CENÁRIO A:

Você está observando todos os Eventos e todos os nós no cluster estão indicando que o NÓ A perdeu a comunicação.

3878_image11
 
3878_image12
 

Pode ser possível que quando você está vendo os logs do sistema no NÓ A, ele tem eventos para todos os nós restantes no cluster.

CENÁRIO B:

Você está observando os Eventos nos nós e digamos que seu cluster está disperso pelos dois sites. NÓ A, NÓ B e NÓ C no Site 1 e NÓ D e NÓ E no Site 2.

3878_image13
 

Nos Nós A, B e C, você vê que os eventos que estão registrados são para conectividade para os Nós D e E. Da mesma forma, quando você vê os eventos nos Nós D e E, os eventos sugerem que perdemos a comunicação com A, B e C.

3878_image14
 

CENÁRIO C:

Você está observando os Eventos nos nós e você vê que os nomes dos nós não correspondem com nenhum padrão em particular. Digamos que seu cluster está disperso entre dois sites. NÓ A, NÓ B e NÓ C no Site 1 e NÓ D e NÓ E no Site 2.

  • No Nó A: Você vê eventos para os Nós B, D, E.
  • No Nó B: Você vê eventos para os Nós C, D, E.
  • No Nó C: Você vê eventos para os Nós A, B, E.
  • No Nó D: Você vê eventos para os Nós A, C, E.
  • No Nó E: Você vê eventos para os Nós B, C, D.
  • Ou qualquer outra combinação. 

3878_image16
 


Selecione seu cenário:

Solução para o cenário A

Isso simplesmente sugere que, no momento do problema, devido a um congestionamento de rede ou outra questão, a comunicação com o NÓ A foi perdida.

Você deve analisar e validar os problemas de comunicação e configuração de rede. Lembre-se de procurar por problemas relativos ao Nó A.


Isso resolveu o problema?

Solução para o Cenário B

Se você vir atividade semelhante, isso indica que houve uma falha na comunicação, sobre o link que conecta estes sites. Recomendamos que você examine a conexão entre os sites. Se for sobre uma conexão WAN, sugerimos que você verifique a conectividade com seu ISP.


Isso resolveu o problema?

Solução para o cenário C

Esses eventos são possíveis quando os canais de rede entre os nós estão bastante bloqueados e as mensagens de comunicação de cluster não estão chegando a tempo, fazendo o cluster achar que a comunicação entre os nós foi perdida, o que resulta na remoção dos nós pela associação do cluster.


Isso resolveu o problema?

Examine as redes de cluster

Recomendamos que você examine as suas Redes de Cluster verificando as três opções a seguir, uma por uma, para continuar este guia de solução de problemas.


O que você deseja fazer em seguida?

Verificar a exclusão de antivírus

Exclua os seguintes locais do sistema de arquivos da verificação de vírus em um servidor que está executando os Serviços de Cluster:

  • O caminho da Testemunha FileShare.
  • A pasta %Systemroot%\Cluster.
Configure o componente de verificação em tempo real no software antivírus para excluir os seguintes diretórios e arquivos:
  • Diretório padrão de configuração da máquina virtual (C:\ProgramData\Microsoft\Windows\Hyper-V)
  • Diretórios personalizados de configuração da máquina virtual
  • Diretório padrão de unidade de disco virtual (C:\Users\Public\Documents\Hyper-V\Virtual Hard Disks)
  • Diretórios personalizados de unidade de disco rígido virtual
  • Diretórios personalizados de dados de replicação, se você estiver usando a Réplica do Hyper-V
  • Diretórios de instantâneo
  • mms.exe (observação: Esse arquivo pode ter que ser configurado como um processo de exclusão no software antivírus.)
  • Vmwp.exe (Observação: Esse arquivo pode ter que ser configurado como um processo de exclusão no software antivírus.)
Além disso, quando você usar a Migração ao Vivo com Volumes Compartilhados do Cluster, exclua o caminho CSV "C:\Clusterstorage" e todos os seus subdiretórios.
Se estiver resolvendo problemas de failover ou problemas gerais com os serviços de um cluster e o software antivírus estiver instalado, desinstale-o temporariamente ou verifique com o fabricante do software para determinar se o antivírus funciona com os serviços de cluster. Na maioria dos casos, apenas desabilitar o antivírus não é suficiente. Mesmo se você desabilitar o software antivírus, o driver de filtro ainda será carregado quando você reiniciar o computador.

Isso resolveu o problema?
Verificar a Configuração de Porta de Rede no Firewall

O serviço de cluster controla as operações de cluster de servidor e gerencia o banco de dados de cluster. Um cluster é uma coleção de computadores independentes que atuam como um único computador. Gerenciadores, programadores e usuários veem o cluster como um único sistema. O software distribui dados entre os nós do cluster. Se um nó falha, outros nós fornecem os serviços e dados que eram fornecidos anteriormente pelo nó que está faltando. Quando um nó é adicionado ou reparado, o software do cluster migra alguns dados para aquele nó.

Nome de serviço do sistema: ClusSvc

 Aplicativo Protocolo Portas
 Serviços de clusterUDP  3343
 Serviços de cluster TCP 3343 (Essa porta é necessária durante uma operação de associação de nó.)
 RPC TCP 135
 Administrador de cluster UDP 137
 Kerberos UDP\TCP 464*
 SMB TCP 445
 Portas UDP altas alocadas aleatoriamente** UDPNúmero de porta aleatório entre 1024 e 65535
 Número de porta aleatório entre 49152 e 65535*** 

Observação:

Além disso, para a validação bem sucedida nos Clusters de Failover do Windows no Windows Server 2008 e superior, permita o tráfego de entrada e saída para ICMP4, ICMP6. 

* Para obter mais informações veja, Falha na criação de um cluster de failover no Windows Server 2012 com o Erro 0xc000005e http://support.microsoft.com/kb/2830510

**Para obter mais informações sobre como personalizar essas portas, veja "Chamadas de procedimento remoto e DCOM" na seção "Referências" em KB832017

***Esse é o intervalo no Windows Server 2012, Windows 8, Windows Server 2008 R2, Windows 7, Windows Server 2008 e Windows Vista.

Além disso, execute o seguinte comando para verificar a Configuração de Porta de Rede no Firewall. Por exemplo: Esse comando ajuda a determinar a porta 3343 disponível/aberta para o Cluster de Failover:

netsh advfirewall firewall show rule name="Failover Clusters (UDP-In)" verbose


Isso resolveu o problema?

Executar o relatório de Validação de Cluster em busca de erros e avisos

A ferramenta de validação de cluster executa um conjunto de testes para verificar se o hardware e as configurações são compatíveis com o clustering de failover.

Siga estas instruções:

  1. Execute o relatório de Validação de Cluster em busca de erros ou avisos. Veja este blog para obter mais detalhes.
    3878_image4
     
  2. Verifique se existem avisos e erros para as redes com o artigo abaixo: http://technet.microsoft.com/pt-br/library/cc771323.aspx
    3878_image5
     
    3878_image6
     


O que você deseja fazer em seguida?

Verificar a Lista de Ordem de Associação de Rede

Este teste lista a ordem em que redes são vinculadas aos adaptadores em cada nó.

A guia Adaptadores e Associações lista as conexões na ordem em que elas são acessadas pelos serviços de rede. A ordem destas conexões reflete a ordem em que as chamadas/pacotes de TCP/IP genéricos são enviados para transmissão.

Siga as etapas abaixo para alterar a ordem de associação dos adaptadores de rede

  1. Clique em Iniciar e em Executar, digite ncpa.cpl e clique em OK. Você pode ver as conexões disponíveis na seção Rede Local ou de Alta Velocidade com a Internet da janela Conexões de Rede.
  2. No menu Avançado, clique em Configurações Avançadas e clique na guia Adaptadores e Associações.
  3. Na área Conexões, selecione a conexão que deseja mover mais para cima na lista. Use os botões de seta para mover a conexão. Como uma regra geral, o cartão que fala com a rede (conectividade do domínio, roteamento para outras redes, etc devem ser o primeiro cartão vinculado (topo da lista).

Nós do cluster são sistemas multihomed. A prioridade da rede afeta o Cliente DNS para conectividade de rede de saída. Os adaptadores de rede usados para a comunicação de cliente devem estar no topo na ordem de associação. Redes não roteadas podem ser colocadas em baixa prioridade. No Windows Server 2012 e no Windows Server 2012 R2, o adaptador de Driver de Rede de Cluster (NETFT.SYS) é automaticamente colocado na parte inferior da lista de ordem de associação.


Isso resolveu o problema?

Verificar Validar Comunicação de Rede

Latência da rede também pode fazer com que isso aconteça. Os pacotes podem não estar perdidos entre os nós, mas podem não chegar aos nós rápido o suficiente antes que o período do tempo limite expire.

Esse teste valida que os servidores testados podem se comunicar com uma latência aceitável em todas as redes.

Por exemplo: Em Validar Comunicação de Rede, você poderá ver as mensagens a seguir para problemas de latência de rede.

Succeeded in pinging network interface node003.contoso.com IP Address 192.168.0.2 from network interface node004.contoso.com IP Address 192.168.0.3 with maximum delay 500 after 1 attempt(s).Either address 10.0.0.96 is not reachable from 192.168.0.2 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node003.contoso.com - Heartbeat Network and node004.contoso.com - Production Network are on different cluster networksEither address 192.168.0.2 is not reachable from 10.0.0.96 or the ping latency is greater than the maximum allowed 2000 ms This may be expected, since network interfaces node004.contoso.com - Production Network and node003.contoso.com - Heartbeat Network for MSCS are on different cluster networks
Para cluster multissite, convém aumentar os valores de tempo limite.

Verifique com o ISP se existe algum problema de conectividade WAN.


Que outros problemas você está enfrentando?


Pacotes de rede perdidos entre nós
  1. Verificar a perda de pacote usando Perfmon
    Se o pacote é perdido durante a transmissão em algum lugar entre os nós, a pulsação falhará. Podemos descobrir facilmente se isso é um problema usando o Monitor de Desempenho para observar o contador “Inteface de rede\Pacotes recebidos descartados”. Depois de adicionar esse contador, confira os números Média, Mínimo e Máximo e, se eles forem qualquer valor maior que zero, o buffer de recepção precisa ser ajustado para cima para o adaptador.
    3878_image17
     
    Se você estiver enfrentando perda de pacotes de rede na plataforma de virtualização VMware, veja a seção Cluster instalado na plataforma de virtualização VMware.
  2. Atualizar os drivers NIC
    Esse problema pode ocorrer devido a drivers NIC\Componentes de Integração (IC)\VmTools desatualizados ou adaptadores NIC defeituosos.
    Se houver pacotes de rede perdidos entre nós em máquinas físicas, atualize o driver de adaptador de rede. Drivers de placa de rede e/ou firmware antigos ou desatualizados.
    Às vezes, um simples erro de configuração da placa de rede ou de uma opção também pode causar a perda de pulsação.

Isso resolveu o problema?




Cluster instalado na plataforma de virtualização VmWare

Verifique se há problemas com o adaptador vmware no caso do ambiente VMware

Esse problema pode ocorrer se os pacotes são descartados durante intermitências de tráfego intenso.

Verifique se não há nenhuma filtragem de tráfego ocorrendo (por exemplo, com um filtro de email). Após eliminar essa possibilidade, aumente gradualmente o número de buffers no sistema operacional convidado e verifique.

Para reduzir quedas no tráfego de intermitência, siga estas etapas:

  1. Abra a caixa Executar usando a tecla Windows + R.
  2. Digite devmgmt.msc e pressione Enter.
  3. Expanda Adaptadores de rede
  4. Clique com o botão direito do mouse em vmxnet3 e clique em Propriedades.
  5. Clique na guia Avançado.
  6. Clique em Small Rx Buffers e aumente o valor. O valor padrão é 512 e o máximo é 8192.
  7. Click em Rx Ring #1 Size e aumente o valor. O valor padrão é 1024 e o máximo é 4096.

Examine o URLs a seguir para verificar se há problemas de adaptador de vmware no caso do ambiente VMware:

http://blogs.technet.com/b/askcore/archive/2013/06/03/nodes-being-removed-from-failover-cluster-membership-on-vmware-esx.aspx

http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2039495

Observado qualquer congestionamento de rede

Congestionamento da rede também pode causar problemas de conectividade de rede.

Verifique se sua rede está configurada de acordo com as recomendações do fornecedor e da MS:

Examine Configurando as Redes de Cluster de Failover do Windows http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx

Verifique as configurações de rede

Se ainda não estiver funcionando, verifique se você já viu a rede particionada no cluster GUI ou se tem o agrupamento NIC habilitado na pulsação NIC.


Qual é o problema que você está enfrentando?

Rede particionada no cluster GUI

Se vir a rede particionada no cluster GUI, você poderá seguir este artigo do blog para solucionar o problema: http://blogs.technet.com/b/askcore/archive/2011/08/08/partitioned-cluster-networks.aspx


Isso resolveu o problema?

Atualize os drivers NIC

Esse problema pode ocorrer devido a drivers NIC desatualizados ou adaptadores NIC com defeito.

Se houver pacotes de rede perdidos entre nós em máquinas físicas, atualize o driver de adaptador de rede. Firmware e/ou drivers de placa de rede desatualizados ou antigos.

Às vezes, um simples erro de configuração do comutador ou placa de rede também pode causar perda de pulsações.


Isso resolveu o problema?

Verifique as configurações de rede

Se ainda não estiver funcionando, verifique se você já viu a rede particionada no cluster GUI ou se tem o agrupamento NIC habilitado na pulsação NIC.


Qual é o problema que você está enfrentando?

Agrupamento NIC habilitado no NIC de pulsação

Se você tiver o agrupamento NIC habilitado no NIC de pulsação, verifique a funcionalidade de software do agrupamento de acordo com a recomendação do fornecedor do agrupamento.


Isso resolveu o problema?

Parabéns!

Seu problema de cluster foi resolvido.

Desculpe

Parece que não estamos conseguindo resolver seu problema usando esse guia. Para obter mais ajuda para resolver o problema, veja nosso fórum de suporte do TechNet ou entre em contato com o Suporte da Microsoft.

Observado qualquer congestionamento de rede

Congestionamento da rede também pode causar problemas de conectividade de rede.

Verifique se sua rede está configurada de acordo com as recomendações do fornecedor e da MS:

Examine Configurando as Redes de Cluster de Failover do Windows http://blogs.technet.com/b/askcore/archive/2014/02/20/configuring-windows-failover-cluster-networks.aspx

Verifique as configurações de rede

Se ainda não estiver funcionando, verifique se você já viu a rede particionada no cluster GUI ou se tem o agrupamento NIC habilitado na pulsação NIC.


Qual é o problema que você está enfrentando?

Propriedades

ID do Artigo: 10158 - Última Revisão: 6 de out de 2016 - Revisão: 5

Comentários