AlwaysOn Availability Groups Troubleshooting and Monitoring Guide (Guía de solución de problemas y supervisión de grupos de disponibilidad AlwaysOn)

 

THIS TOPIC APPLIES TO: yesSQL Server (starting with 2008) noAzure SQL Database noAzure SQL Data Warehouse noParallel Data Warehouse

Esta guía le ayudará a empezar a trabajar en grupos de disponibilidad AlwaysOn de supervisión y solución de problemas de algunos de los problemas comunes en los grupos de disponibilidad AlwaysOn. Está diseñado para proporcionar contenido original, así como una página de aterrizaje de información útil que ya está publicada en otra parte.

Aunque esta guía no puede analizar completamente todos los problemas que pueden producirse en el área de superficie grande cubierto por los grupos de disponibilidad AlwaysOn, puede proporcionarle en la dirección correcta en el análisis de causa raíz y la resolución de los problemas. Como grupos de disponibilidad AlwaysOn es una tecnología integrada, muchos de los problemas que encuentra son solo síntomas de otros problemas en el sistema de base de datos. Algunos problemas se deben a valores de configuración de un grupo de disponibilidad, como una base de datos de disponibilidad está suspendiendo. Otros problemas pueden incluir problemas que a otros aspectos de SQL Server, como la configuración de SQL Server, puede aislar problemas de rendimiento sistémico y de las implementaciones de archivos de base de datos no relacionados con el grupo de disponibilidad, una réplica o una base de datos. Todavía otros problemas y existen fuera de SQL Server, como E/S de red, TCP/IP, Active Directory y clústeres de conmutación por error de servidor de Windows (WSFC). A menudo, causar problemas que expuesta en un grupo de disponibilidad, una réplica o una base de datos obliga a solucionar problemas de varias tecnologías antes de poder identificar la raíz.

Escenarios de solución de problemas

En la tabla siguiente contiene vínculos a los escenarios de solución de problemas comunes para grupos de disponibilidad AlwaysOn. Se clasifican por sus tipos de escenario, por ejemplo, configuración, conectividad de cliente, conmutación por error y rendimiento.

Escenario Tipo de escenario Description
Solucionar problemas de configuración de grupos de disponibilidad AlwaysOn ( SQL Server ) Configuración Proporciona información para ayudarle a solucionar los problemas más habituales relacionados con la configuración de instancias de servidor para grupos de disponibilidad AlwaysOn. Problemas de configuración típicos incluyen grupos de disponibilidad AlwaysOn está deshabilitado, las cuentas están configuradas correctamente, el extremo de reflejo de la base de datos no existe, el punto de conexión es accesible (Error 1418 de SQL Server), acceso a la red no existe y un comando de base de datos de combinación, se produce un error (Error 35250 de servidor de SQL).
Solucionar problemas de "validación WSFC configuración de voto de quórum" Advertencia Configuración Cuando crea un grupo de disponibilidad AlwaysOn mediante el Asistente para nuevo grupo de disponibilidad de Microsoft SQL Server 2012, recibirá un mensaje de advertencia similar a la siguiente: "la configuración actual del voto de quórum de clúster WSFC no se recomienda para este grupo de disponibilidad".
Solucionar problemas al crear agentes de escucha del grupo de disponibilidad Configuración Se producen errores al intentar crear un agente de escucha del grupo de disponibilidad.
Solucionar problemas de una operación de agregar archivos con error ( Grupos de disponibilidad AlwaysOn ) Configuración Una operación add-file provocó la base de datos secundaria se suspenda y estar en el estado NOT SYNCHRONIZING.
Corrección: Error 41009 al intentar crear varios grupos de disponibilidad Configuración Se produce el error 41009 al intentar crear varios grupos de disponibilidad.
No se puede conectar al agente de escucha de grupo de disponibilidad en un entorno de varias subredes Conectividad de cliente Después de configurar el agente de escucha del grupo de disponibilidad, no es posible hacer ping en el agente de escucha o conectarse a él desde una aplicación.
Solucionar problemas de errores de conmutación por error automática Conmutación por error Conmutación automática por error no se completó correctamente.
Solucionar problemas: Grupo de disponibilidad superado RTO Rendimiento Después de una conmutación por error automática o planeada manual sin pérdida de datos, el tiempo de conmutación por error supera el RTO. O bien, al calcular el tiempo de conmutación por error de una réplica secundaria de confirmación sincrónica (por ejemplo, un asociado de conmutación automática por error), encontrará que supera el RTO.
Solucionar problemas: Grupo de disponibilidad superado RPO Rendimiento Después de realizar una conmutación por error manual forzada, la pérdida de datos es mayor que el RPO. O bien, al calcular la posible pérdida de datos de una réplica secundaria de confirmación asincrónica, encontrará que supera el RPO.
Solucionar problemas: Cambios en la réplica principal no se reflejan en la réplica secundaria Rendimiento La aplicación cliente finaliza una actualización en la réplica principal correctamente, pero consulta la réplica secundaria se muestra que el cambio no se refleja.

Herramientas útiles para solucionar problemas

Al configurar o ejecutar grupos de disponibilidad AlwaysOn, las distintas herramientas pueden ayudarle a diagnosticar diferentes tipos de problemas. En la tabla siguiente proporciona vínculos a información útil sobre las herramientas.

Herramienta Description
Usar el Panel de AlwaysOn (SQL Server Management Studio) Informa del estado del grupo de disponibilidad en una interfaz fácil de usar una vista de un vistazo.
Directivas de AlwaysOn Usar el panel AlwaysOn.
Registro de errores SQL Server ( Grupos de disponibilidad AlwaysOn ) Registros de estado de los eventos de transición de grupos de disponibilidad, réplicas y las bases de datos, Estados de otros componentes de AlwaysOn y errores de AlwaysOn.
CLÚSTER. Registro ( Grupos de disponibilidad AlwaysOn ) Registros de eventos, incluidas las transiciones de estado de los recursos del grupo de disponibilidad, así como eventos y errores de DLL de recursos de SQL Server del clúster.
Registro de diagnóstico del estado de AlwaysOn Registros de diagnóstico de mantenimiento de SQL Server como indica al clúster de WSFC (DLL de recursos de SQL Server) sp_server_diagnostics ( Transact-SQL ).
Vistas de administración dinámica y vistas de catálogo del sistema ( Grupos de disponibilidad AlwaysOn ) Ofrece información acerca de los grupos de disponibilidad, como la configuración, el estado de mantenimiento y las métricas de rendimiento.
AlwaysOn eventos extendidos Proporciona diagnotics detallada de los grupos de disponibilidad y útil para el análisis de causa raíz.
Tipos de espera de AlwaysOn Proporciona las estadísticas de esperas específicas a grupos de disponibilidad y útiles para la optimización de rendimiento.
Contadores de rendimiento de AlwaysOn Supervisar la actividad de grupos de disponibilidad AlwaysOn y se reflejan en el Monitor de sistema y es útiles para ajustar el rendimiento. Para obtener más información, consulte SQL Server, réplica de disponibilidad y SQL Server, réplica de base de datos.
Búferes de anillo de AlwaysOn Registro de las alertas en el sistema de SQL Server para diagnósticos internos y puede utilizarse para depurar los problemas relacionados con los grupos de disponibilidad.

Supervisión de grupos de disponibilidad AlwaysOn

El momento ideal para solucionar problemas de un grupo de disponibilidad es antes de que un problema necesita una conmutación por error, ya sea automática o manual. Esto puede hacerse mediante la supervisión de las métricas de rendimiento del grupo de disponibilidad y envío de alertas cuando las réplicas de disponibilidad se realización fuera de los límites de su contrato de nivel de servicio (SLA). Por ejemplo, si una réplica secundaria sincrónica presenta problemas de rendimiento que hacen que el tiempo estimado de conmutación por error aumentar, no desea esperar hasta que se produce una conmutación por error automática y se puede saber que el tiempo de conmutación por error supera su objetivo de tiempo de recuperación.

Como grupos de disponibilidad AlwaysOn es una solución de recuperación ante desastres y alta disponibilidad, las métricas de rendimiento más importantes para supervisar son el tiempo estimado de conmutación por error, lo que afecta a su objetivo de tiempo de recuperación (RTO) y la posible pérdida de datos en un desastre, lo que afecta a su objetivo de punto de recuperación (RPO). Puede recopilar estas métricas de los datos que SQL Server se expone en un momento dado, por lo que puede recibir alertas de un problema en las capacidades HADR del sistema antes de que se produzcan los eventos de error real. Por lo tanto, es importante para familiarizarse con el proceso de sincronización de datos de grupos de disponibilidad AlwaysOn y recopilar las métricas en consecuencia.

La siguiente tabla apunta a temas que pueden ayudarle a supervisar el estado de la solución de grupos de disponibilidad AlwaysOn.

Tema Description
Supervisar el rendimiento de grupos de disponibilidad AlwaysOn Describe el proceso de sincronización de datos para grupos de disponibilidad AlwaysOn, las puertas de control de flujo y métricas útiles al supervisar un grupo de disponibilidad; y también muestra cómo recopilar métricas RTO y el RPO.
Supervisión de grupos de disponibilidad ( SQL Server ) Proporciona información sobre herramientas para la supervisión de un grupo de disponibilidad.
El modelo de estado de AlwaysOn, parte 1: arquitectura del modelo de estado Proporciona información general sobre el modelo de estado de AlwaysOn.
El modelo de estado de AlwaysOn, parte 2: Extender el modelo de estado Muestra cómo personalizar el modelo de estado de AlwaysOn y personalizar el panel de AlwaysOn para mostrar información adicional.
Supervisar el estado de AlwaysOn con PowerShell, parte 1: información general básica de Cmdlet Proporciona una introducción básica de los cmdlets de AlwaysOn PowerShell que puede usarse para supervisar el estado de un grupo de disponibilidad.
Supervisar el estado de AlwaysOn con PowerShell, parte 2: uso del Cmdlet avanzado Proporciona información sobre el uso avanzado de los cmdlets de AlwaysOn PowerShell para supervisar el estado de un grupo de disponibilidad.
Supervisar el estado de AlwaysOn con PowerShell, parte 3: una aplicación sencilla de supervisión Muestra cómo supervisar automáticamente un grupo de disponibilidad con una aplicación.
Supervisar el estado de AlwaysOn con PowerShell, parte 4: integración con el Agente SQL Server Proporciona información sobre cómo integrar la supervisión de grupo de disponibilidad con el agente de SQL Server y configure la notificación a las personas adecuadas cuando surgen problemas.

Vea también

Blog del equipo de AlwaysOn SQL Server
Blogs de los ingenieros de SQL Server de CSS