Supervisión de varios clústeres de Azure Stack HCI con Insights

Se aplica a: Azure Stack HCI, versión 22H2

En este artículo se explica cómo usar Insights para supervisar varios clústeres de Azure Stack HCI. Para ver un único clúster de Azure Stack HCI, consulte Supervisión de Azure Stack HCI con Insights.

Importante

Si registró el clúster de Azure Stack HCI y configuró Insights antes de noviembre de 2023, es posible que determinadas características que usen el agente de Azure Monitor (AMA), como Arc for Servers, VM Insights, Defender for Cloud o Sentinel no recopilen correctamente los registros y los datos de eventos. Para obtener instrucciones de solución de problemas, consulte la sección Solución de problemas de clústeres registrados antes de noviembre de 2023 .

Para obtener información sobre las ventajas, los requisitos previos y cómo habilitar Insights en cada clúster, consulte Ventajas, Requisitos previos y Habilitación de Insights.

Consulte el vídeo para ver una introducción breve:

Visualización de la información de estado, rendimiento y uso

Insights almacena sus datos en un área de trabajo de Log Analytics, lo que le permite ofrecer una agregación y un filtrado eficaces y analizar tendencias de datos a lo largo del tiempo. No hay ningún costo directo para Insights. Se factura a los usuarios según la cantidad de datos ingeridos y la configuración de retención de datos de su área de trabajo de Log Analytics.

Puede acceder a Insights desde azure Monitor > Insights Hub > Azure Stack HCI. Verá las pestañas siguientes para alternar entre las vistas: Add to monitoring (Agregar a la supervisión), Estado del clúster, Servidores, Máquinas virtuales, Almacenamiento.

Filtrado de los resultados

La visualización se puede filtrar entre las suscripciones. Puede filtrar los resultados en función de los menús desplegables siguientes:

  • Intervalo de tiempo: Este filtro le permite seleccionar un intervalo para la vista de tendencias. El valor predeterminado es Últimas 24 horas.
  • Suscripciones: muestra las suscripciones que tienen registrados clústeres de Azure Stack HCI. Puede seleccionar varias suscripciones en este filtro.
  • HCI clusters (Clústeres de HCI): Enumera los clústeres de Azure Stack HCI registrados que tienen habilitadas las funcionalidades Registros y Supervisión en el intervalo de tiempo seleccionado. Puede seleccionar varios clústeres en este filtro.
  • Grupos de recursos: este filtro permite seleccionar todos los clústeres de un grupo de recursos.

Incorporación a la supervisión

Esta característica proporciona detalles de los clústeres que el usuario no supervisa. Para iniciar la supervisión de un clúster, selecciónelo para abrirlo y, después, seleccione Capacidades > Información. Si no ve el clúster, asegúrese de que se ha conectado recientemente a Azure.

Captura de pantalla para seleccionar el clúster para la supervisión.

Columna Descripción Ejemplo
Clúster Nombre del clúster. 27cls1
Estado de la conexión de Azure Estado del recurso de HCI. Conectado
Versión del SO El sistema operativo construido en el servidor. 10.0.20348.10131

De manera predeterminada, la vista de cuadrícula muestra las primeras 250 filas. Puede establecer el valor editando las filas de cuadrícula tal como se muestra en la imagen siguiente:

Captura de pantalla que muestra la pantalla para establecer valores de cuadrícula.

Para exportar los detalles de Excel, seleccione Exportar a Excel tal como se muestra en la imagen siguiente:

Captura de pantalla que muestra el vínculo para exportar a Excel.

Excel proporcionará el estado de conexión de Azure de la siguiente manera:

  • 0: No registrado
  • 1: Desconectado
  • 2: No recientemente
  • 3: Conectado

Estado de clústeres

Esta vista proporciona información general acerca del estado de los clústeres.

Captura de pantalla que muestra información general sobre el estado del clúster.

Columna Descripción Ejemplo
Clúster Nombre del clúster. 27cls1
Última actualización Marca de tiempo de cuándo se actualizó por última vez el servidor. 9/4/2022, 12:15:42 PM
Estado Proporciona el estado de los recursos del servidor en el clúster. Puede ser Correcto, Advertencia, Crítico u otro estado. Healthy
Recurso con errores Descripción del recurso que provocó el error. Server, StoragePool, Subsystem
Total de servidores Número de servidores de un clúster. 4

Si falta el clúster o muestra el estado Otros, vaya al Área de trabajo de Log Analytics usada para el clúster y asegúrese de que Configuración del agente captura datos del registro microsoft-windows-health/operational. Asegúrese también de que los clústeres se han conectado recientemente a Azure y compruebe que no están filtrados en este libro.

Servidor

En esta vista encontrará información general sobre el estado y el rendimiento del servidor, y sobre el uso de los clústeres seleccionados. Esta vista se ha creado con el identificador de evento de servidor 3000 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Cada fila se puede expandir aún más para ver el estado de mantenimiento del nodo. Puede interactuar con el clúster y el recurso de servidor para ir a la página de recursos correspondiente.

Captura de pantalla que muestra el estado de los servidores.

Máquinas virtuales

En esta vista encontrará el estado de todas las VM del clúster seleccionado. La vista se ha creado con el id. de evento de máquina virtual 3003 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Cada fila se puede expandir aún más para ver la distribución de VM entre los servidores del clúster. Puede interactuar con el clúster y el recurso de nodo para ir a la página de recursos correspondiente.

Captura de pantalla que muestra el estado de las máquinas virtuales.

Métrica Descripción Ejemplo
Cluster > Servidor Nombre del clúster. En la expansión, muestra los servidores del clúster. Sample-VM-1
Última actualización El valor datetimestamp de la última actualización del servidor. 9/4/2022, 12:24:02 PM
TOTAL DE VM Número de máquinas virtuales de un nodo de servidor dentro de un clúster. 1 de 2 en ejecución
En ejecución Número de máquinas virtuales que se ejecutan en un nodo de servidor dentro de un clúster. 2
Detenido Número de máquinas virtuales detenidas en un nodo de servidor dentro de un clúster. 3
Con error Número de máquinas virtuales que han producido un error en un nodo de servidor dentro de un clúster. 2
Otros Si la máquina virtual tiene uno de los estados siguientes (Desconocido, Inicio, Instantáneas, Guardar, Detener, Pausar, Reanudar, En pausa, En suspensión), se considera "Otro". 2

Storage

Esta vista muestra el estado de los volúmenes, el uso y el rendimiento en clústeres supervisados. Expanda un clúster para ver el estado de los volúmenes individuales. Esta vista se ha creado con el identificador de evento de volumen 3002 del canal de registro de eventos de Windows Microsoft-Windows-SDDC-Management/Operational. Los iconos de la parte superior proporcionan información general sobre el estado del almacenamiento.

Captura de pantalla que muestra el estado de los volúmenes de almacenamiento.

Métrica Descripción Ejemplo
Clúster > Volumen Nombre del clúster. En la expansión, muestra los volúmenes de un clúster. AltaylCluster1 > ClusterPerformanceHistory
Última actualización El valor datetimestamp de la última actualización del almacenamiento. 14/4/2022, 2:58:55 PM
Estado del volumen El estado del volumen. Puede ser Correcto, Advertencia, Crítico u otro estado. Healthy
Size La capacidad total del dispositivo en bytes durante el período de informes. 25 B
Uso El porcentaje de capacidad disponible durante el periodo de informe. 23,54 %
IOPS Operaciones de entrada/salida por segundo. 45/s
Tendencia La tendencia de IOPS.
Rendimiento Número de bytes por segundo que ha ofrecido Application Gateway. 5B/s
Tendencia (B/s) La tendencia del rendimiento.
Latencia media La latencia es el tiempo medio que tarda la solicitud de E/S en completarse. 334 μs

Personalización de Insights

Dado que la experiencia del usuario se basa en plantillas de libros de Azure Monitor, los usuarios pueden editar las visualizaciones y las consultas y guardarlas como libros personalizados.

Si usa la visualización de Azure Monitor > Centro de Insights > Azure Stack HCI, seleccione Personalizar > Editar > Guardar como para guardar una copia de la versión modificada en un libro personalizado.

Los libros se guardan dentro de un grupo de recursos. Todos los usuarios con acceso al grupo de recursos podrán acceder al libro personalizado.

La mayoría de las consultas se escriben con el lenguaje de consulta Kusto (KQL). Algunas consultas se escriben con Consulta de Resource Graph. Para más información, consulte los siguientes artículos.

Soporte técnico

Para abrir una incidencia de soporte técnico para Insights, use el tipo de servicio Insights para Azure Stack HCI en Supervisión & Administración.

Canal del registro de eventos

Las vistas de información y supervisión se basan en el canal de registro de eventos de Windows de Microsoft-Windows-SDDC-Management/Operational Windows. Cuando la supervisión está habilitada, los datos de este canal se guardan en un área de trabajo de Log Analytics.

Visualización y cambio del intervalo de caché de volcado

El intervalo predeterminado para volcar la memoria caché está establecido en 3600 segundos (1 hora).

Use los cmdlets siguientes de PowerShell para ver el valor del intervalo de volcado de caché:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Use los cmdlets siguientes para cambiar la frecuencia del volcado de caché. Si se establece en 0, se dejarán de publicar eventos:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Eventos de Windows en el canal de registro

Este canal incluye cinco eventos. Cada evento tiene EventData como nombre de clúster e identificador de Azure Resource Manager.

Identificador del evento Tipo de evento
3000 Servidor
3001 Unidad
3002 Volumen
3003 Máquina virtual
3004 Clúster

Valor de la columna RenderedDescription del evento de servidor 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La mayoría de las variables se explican por sí solas a partir de esta información JSON. Sin embargo, en la tabla siguiente se enumeran algunas variables que son un poco más difíciles de entender.

Variable Descripción
m_servers Matriz de nodos de servidor.
m_statusCategory Estado de mantenimiento del servidor.
m_status Estado del servidor. Es una matriz que puede contener uno o dos valores. El primer valor es obligatorio (0-4). El segundo valor es opcional (5-9).

Los valores de la variable m_statusCategory son los siguientes:

Value Significado
0 Healthy
1 Advertencia
2 Unhealthy (Incorrecto)
255 Otros

Los valores de la variable m_status son los siguientes:

Value Significado
0 Arriba
1 Bajar
2 En mantenimiento
3 Combinación
4 Normal
5 Aislado
6 En cuarentena
7 Purgando
8 Purga completada
9 Error de purga
0xffff Desconocido

Valor de la columna RenderedDescription del evento de unidad 3001

Evento de unidad 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Valor de la columna RenderedDescription del evento de volumen 3002

Evento de volumen 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La mayoría de las variables se explican por sí solas a partir de la información JSON anterior. Sin embargo, en la tabla siguiente se enumeran algunas variables que son un poco más difíciles de entender.

Variable Descripción
VolumeList Matriz de volúmenes.
m_StatusCategory Estado de mantenimiento del volumen.
m_Status Estado del volumen. Es una matriz que puede contener uno o dos valores. El primer valor es obligatorio (0-4). El segundo valor es opcional (5-9).

Los valores de la variable m_statusCategory son los siguientes:

Value Significado
0 Healthy
1 Advertencia
2 Unhealthy (Incorrecto)
255 Otros

Los valores de la variable m_status son los siguientes:

Value Significado
0 Unknown
1 Otros
2 Aceptar
3 Necesita reparación
4 Con estrés
5 Error predictivo
6 Error
7 Error no recuperable
8 Iniciando
9 Deteniéndose
10 Detenido
11 En servicio
12 Sin contacto
13 Comunicación perdida
14 Anulado
15 Inactivo
16 Error en la entidad de soporte
17 Completado
18 Modo de energía
19 Reubicando
0xD002 Bajar
0xD003 Necesita resincronización

Valor de la columna RenderedDescription del evento de máquina virtual 3003

Evento de máquina virtual 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Valor de la columna RenderedDescription del evento de clúster 3004

Evento de clúster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Para obtener más información sobre los datos recopilados, vea Errores del servicio de mantenimiento.

Pasos siguientes

Para obtener información relacionada, consulte: