Supervisión y solución de problemas de grupos de disponibilidad

Esta guía le ayudará a empezar a trabajar en la supervisión de grupos de disponibilidad y en la solución de problemas de algunos de los problemas comunes en los grupos de disponibilidad. Proporciona contenido original, así como una página de aterrizaje con información útil que está publicada en otra parte. Aunque esta guía no puede analizar completamente todos los problemas que pueden producirse en toda el área de grupos de disponibilidad, puede orientarle en la dirección correcta en el análisis de la causa principal de los problemas y en su resolución.

Dado que los grupos de disponibilidad son una tecnología integrada, muchos problemas pueden ser síntomas de otros problemas del sistema de base de datos. Algunos problemas se deben a valores de configuración de un grupo de disponibilidad, como la suspensión de una base de datos de disponibilidad. Otros problemas pueden estar relacionados con otros aspectos de SQL Server, como la configuración, las implementaciones de los archivos de base de datos y los problemas de rendimiento sistémico no relacionados con la disponibilidad de SQL Server. Todavía pueden existir otros problemas fuera de SQL Server, como problemas de la E/S de red, TCP/IP, Active Directory y clústeres de conmutación por error de Windows Server (WSFC). A menudo, los problemas que surgen en un grupo de disponibilidad, una réplica o una base de datos requieren que ejecute la solución de problemas en varias tecnologías para identificar la causa principal.

Solución de problemas de escenarios

En la tabla siguiente puede acceder a vínculos a los escenarios de solución de problemas comunes para los grupos de disponibilidad. Se clasifican por sus tipos de escenario, por ejemplo, configuración, conectividad de cliente, conmutación por error y rendimiento.

Escenario Tipo de escenario Descripción
Solucionar problemas de configuración de Grupos de disponibilidad AlwaysOn (SQL Server) Configuración Se proporciona información para ayudarle a solucionar los problemas más habituales relacionados con la configuración de las instancias de servidor para grupos de disponibilidad. Entre los problemas de configuración típicos se incluyen:

- Los grupos de disponibilidad están deshabilitados
- Las cuentas están configuradas de manera incorrecta
- El punto de conexión de creación de reflejo de la base de datos no existe
- No se puede acceder al punto de conexión (error 1418 de SQL Server)
- El acceso a la red no existe
- Error en el comando de unión de la base de datos (error 35250 de SQL Server)
Solucionar problemas relativos a una operación de agregar archivos con error (Grupos de disponibilidad AlwaysOn) Configuración Una operación de agregar archivos ha provocado que la base de datos secundaria se suspenda y esté en el estado NOT SYNCHRONIZING.
No se puede conectar a la escucha de grupo de disponibilidad en un entorno de varias subredes Conectividad de clientes Después de configurar la escucha de grupo de disponibilidad, no se puede hacer ping en la escucha ni conectarse a ella desde una aplicación.
No se han podido solucionar los problemas relacionados con los errores de conmutación por error automática Conmutación por error La conmutación automática por error no se completó correctamente.
Solución de problemas: el grupo de disponibilidad superó el RTO Rendimiento Después de una conmutación por error automática o una manual planeada sin pérdida de datos, el tiempo de conmutación por error supera el RTO. O bien, al estimar el tiempo de conmutación por error de una réplica secundaria de confirmación sincrónica (por ejemplo, un asociado de conmutación automática por error), descubre que supera el RTO.
Solución de problemas: el grupo de disponibilidad superó el RPO Rendimiento Después de realizar una conmutación por error manual forzada, la pérdida de datos supera la RPO. O bien, al calcular la posible pérdida de datos de una réplica secundaria de confirmación asincrónica, descubre que supera la RPO.
Solución de problemas: cambios en la réplica principal que no se reflejan en la réplica secundaria Rendimiento La aplicación cliente finaliza una actualización en la réplica principal correctamente, pero una consulta a la réplica secundaria muestra que el cambio no se ha reflejado.
Solución de problemas: tipo de espera HADR_SYNC_COMMIT alto con grupos de disponibilidad Always On Rendimiento Si HADR_SYNC_COMMIT es demasiado largo, hay un problema de rendimiento en el flujo de movimiento de datos o en el refuerzo del registro de réplica secundaria.

Herramientas útiles para solucionar problemas

Al configurar o ejecutar grupos de disponibilidad, las diferentes herramientas pueden ayudarle a diagnosticar diferentes tipos de problemas. En la tabla siguiente se proporcionan vínculos a información útil sobre las herramientas.

Herramienta Descripción
Usar el panel AlwaysOn (SQL Server Management Studio) Ofrece un vistazo al estado del grupo de disponibilidad en una interfaz fácil de usar.
Directivas de Always On Usada por el panel Always On.
Registro de errores de SQL Server (Grupos de disponibilidad Always On) Registra los eventos de transición de estado de kis grupos de disponibilidad, réplicas y bases de datos; estados de otros componentes de Always On y errores de Always On.
CLUSTER.LOG (Grupos de disponibilidad Always On) Registra los eventos de clúster, incluidas las transiciones de estado del recurso del grupo de disponibilidad, así como los eventos y errores del DLL de recursos de SQL Server.
Registro de diagnóstico de mantenimiento de Always On Registra los diagnósticos de mantenimiento de SQL Server tal y como se notifica al clúster de WSFC (DLL de recursos de SQL Server) mediante sp_server_diagnostics (Transact-SQL).
Vistas de administración dinámica y vistas de catálogo del sistema (Grupos de disponibilidad Always On) Ofrece información sobre los grupos de disponibilidad, como la configuración, el estado de mantenimiento y las métricas de rendimiento.
Eventos extendidos de Always On Proporciona un diagnóstico detallado de los grupos de disponibilidad y un análisis útil para descubrir la causa principal.
Tipos de espera de Always On Proporciona estadísticas de espera específicas de los grupos de disponibilidad y útiles para ajustar el rendimiento.
Contadores de rendimiento de Always On Supervisa la actividad de los grupos de disponibilidad, se reflejan en el monitor de sistema y son útiles para ajustar el rendimiento. Para obtener más información, consulte SQL Server, objeto Réplica de disponibilidad y SQL Server, objeto Réplica de base de datos.
Búferes de anillo de Always On Registra las alertas del sistema de SQL Server para ofrecer un diagnóstico interno y se puede utilizar para depurar los problemas relacionados con los grupos de disponibilidad.

Supervisión de grupos de disponibilidad

El momento ideal para solucionar problemas de un grupo de disponibilidad es antes de que un problema necesite una conmutación por error, ya sea automática o manual. Esto puede hacerse supervisando las métricas de rendimiento del grupo de disponibilidad y enviando alertas cuando las réplicas de disponibilidad se realizan fuera de los límites de su contrato de nivel de servicio (SLA). Por ejemplo, si una réplica secundaria sincrónica presenta problemas de rendimiento que hacen aumentar el tiempo estimado de conmutación por error, no le interesa esperar hasta que se produzca una conmutación por error automática y descubra que el tiempo de conmutación por error supera su objetivo de tiempo de recuperación.

Dado que los grupos de disponibilidad son una solución de alta disponibilidad y recuperación ante desastres, las métricas de rendimiento más importantes para supervisar son el tiempo estimado de conmutación por error, que repercute en su objetivo de tiempo de recuperación (RTO), y la posible pérdida de datos en caso de desastre, que repercute en su objetivo de punto de recuperación (RPO). Puede recopilar estas métricas a partir de los datos que SQL Server expone en un momento dado, por lo que puede recibir alertas de un problema en las capacidades de recuperación de desastres de alta disponibilidad (HADR) del sistema antes de que se produzcan eventos de errores reales. Por lo tanto, es importante familiarizarse con el proceso de sincronización de datos de los grupos de disponibilidad y recopilar las métricas en consecuencia.

En la siguiente tabla se dirige a artículos que pueden ayudarle a supervisar el mantenimiento de su solución para los grupos de disponibilidad.

Artículo Descripción
Monitor performance for Always On Availability Groups (Supervisar el rendimiento de los grupos de disponibilidad Always On) Describe el proceso de sincronización de datos para los grupos de disponibilidad, puertas de control de flujo y métricas útiles al supervisar un grupo de disponibilidad; y también muestra cómo recopilar métricas de RTO y RPO.
Supervisión de los grupos de disponibilidad (SQL Server) Proporciona información sobre herramientas para supervisar un grupo de disponibilidad.
The Always On health model, part 1: Health model architecture (Modelo de mantenimiento de Always On, parte 1: arquitectura del modelo de mantenimiento) Proporciona información general sobre el modelo de estado de Always On.
The Always On health model, part 2: Extending the health model (Modelo de mantenimiento de Always On, parte 2: extender el modelo de mantenimiento) Muestra cómo personalizar el modelo de mantenimiento de Always On y personalizar el panel de Always On para mostrar información adicional.
Monitoring Always On health with PowerShell, part 1: Basic cmdlet overview (Supervisar el mantenimiento de Always On con PowerShell, parte 1: información general básica de los cmdlets) Proporciona una introducción básica a los cmdlets de PowerShell en Always On que puede usarse para supervisar el mantenimiento de un grupo de disponibilidad.
Monitoring Always On health with PowerShell, part 2: Advanced cmdlet usage (Supervisar el mantenimiento de Always On con PowerShell, parte 2: uso avanzado de cmdlets) Proporciona información sobre el uso avanzado de los cmdlets de PowerShell en Always On para supervisar el mantenimiento de un grupo de disponibilidad.
Monitoring Always On health with PowerShell, part 3: A simple monitoring application (Supervisar el mantenimiento de Always On con PowerShell, parte 3: una aplicación de supervisión sencilla) Muestra cómo supervisar automáticamente un grupo de disponibilidad con una aplicación.
Monitoring Always On health with PowerShell, part 4: Integration with SQL Server Agent (Supervisar el mantenimiento de Always On con PowerShell, parte 4: integración con el agente SQL Server) Proporciona información sobre cómo integrar la supervisión del grupo de disponibilidad con el agente SQL Server y cómo configurar notificaciones a las personas adecuadas cuando surjan problemas.

Pasos siguientes