Monitorar problemas operacionais em seu espaço de trabalho do Azure Monitor Log Analytics

Para manter o desempenho e a disponibilidade do seu espaço de trabalho do Log Analytics no Azure Monitor, você precisa ser capaz de detetar proativamente quaisquer problemas que surjam. Este artigo descreve como monitorar a integridade do espaço de trabalho do Log Analytics usando dados na tabela Operação . Esta tabela está incluída em todos os espaços de trabalho do Log Analytics. Ele contém mensagens de erro e avisos que ocorrem em seu espaço de trabalho. Recomendamos que você crie alertas para problemas com o nível de Aviso e Erro.

Permissões necessárias

Você deve ter Microsoft.OperationalInsights/workspaces/query/*/read permissões para os espaços de trabalho do Log Analytics consultados, conforme fornecido pela função interna do Log Analytics Reader, por exemplo.

_LogOperation função

Os Logs do Monitor do Azure enviam informações sobre quaisquer problemas para a tabela de Operação no espaço de trabalho onde o problema ocorreu. A _LogOperation função do sistema é baseada na tabela de operação e fornece um conjunto simplificado de informações para análise e alerta.

Colunas

A _LogOperation função retorna as colunas na tabela a seguir.

Coluna Description
TimeGenerated Hora em que o incidente ocorreu em UTC.
Categoria Grupo de categorias de operação. Pode ser usado para filtrar tipos de operações e ajudar a criar alertas e auditorias do sistema mais precisos. Consulte a secção seguinte para obter uma lista de categorias.
Operação Descrição do tipo de operação. A operação pode indicar que um dos limites do Log Analytics foi atingido, um problema relacionado ao processo de back-end ou qualquer outra mensagem de serviço.
Level Nível de gravidade do problema:
- Info: Não é necessária atenção específica.
- Aviso: O processo não foi concluído como esperado e é preciso atenção.
- Erro: O processo falhou e é preciso atenção.
Detalhes Descrição detalhada da operação, inclui a mensagem de erro específica.
_ResourceId ID do recurso do Azure relacionado à operação.
Computador Nome do computador se a operação estiver relacionada a um agente do Azure Monitor.
CorrelationId Usado para agrupar operações consecutivas relacionadas.

Categorias

A tabela a seguir descreve as categorias da _LogOperation função.

Categoria Description
Ingestão Operações que fazem parte do processo de ingestão de dados.
Agente Indica um problema com a instalação do agente.
Recolha de dados Operações relacionadas com processos de recolha de dados.
Segmentação de soluções A operação do tipo ConfigurationScope foi processada.
Solução de avaliação Foi executado um processo de avaliação.

Ingestão

As operações de ingestão são problemas que ocorreram durante a ingestão de dados e incluem notificação sobre como atingir os limites do espaço de trabalho do Log Analytics. As condições de erro nesta categoria podem sugerir perda de dados, por isso é importante monitorar. Para obter limites de serviço para espaços de trabalho do Log Analytics, consulte Limites de serviço do Azure Monitor.

Importante

Se você estiver solucionando problemas de coleta de dados para um cenário que usa uma regra de coleta de dados (DCR), como o agente do Azure Monitor ou a API de ingestão de Logs, consulte Monitorar e solucionar problemas de coleta de dados DCR no Azure Monitor para obter informações adicionais sobre solução de problemas.

Operação: Recolha de dados interrompida

"A recolha de dados foi interrompida devido ao limite diário de dados livres atingido. Estado de ingestão = OverQuota"

Nos últimos sete dias, a recolha de registos atingiu o limite diário estabelecido. O limite é definido à medida que o espaço de trabalho é definido como Nível gratuito ou o limite de coleta diária foi configurado para esse espaço de trabalho. Depois que a coleta de dados atingir o limite definido, ela será interrompida automaticamente durante o dia e retomada apenas durante o dia de coleta seguinte.

Ações recomendadas:

  • Verifique na tabela os _LogOperation eventos de coleta interrompida e de coleta retomada:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Detail has "Data collection"
  • Crie um alerta no evento de operação "Coleta de dados interrompida". Este alerta notifica-o quando o limite de recolha é atingido.
  • Os dados recolhidos após o limite diário de recolha ser atingido serão perdidos. Use o painel Informações do espaço de trabalho para revisar as taxas de uso de cada fonte. Ou você pode decidir gerenciar seu volume máximo diário de dados ou alterar o nível de preço para um que se adapte ao seu padrão de taxas de coleta.
  • A taxa de recolha de dados é calculada por dia e reiniciada no início do dia seguinte. Você também pode monitorar um evento de retomada de coleta criando um alerta no evento de operação "Coleta de dados retomada".

Operação: Taxa de ingestão

"A taxa de volume de ingestão de dados ultrapassou o limite no seu espaço de trabalho: {0:0.00} MB por um minuto e os dados foram descartados."

Ações recomendadas:

  • Verifique na _LogOperation tabela um evento de taxa de ingestão:
    _LogOperation | where TimeGenerated >= ago(7d) | where Category == "Ingestion" | where Operation has "Ingestion rate"
    Um evento é enviado para a tabela Operação no espaço de trabalho a cada seis horas enquanto o limite continua a ser excedido.
  • Crie um alerta no evento de operação "Coleta de dados interrompida". Este alerta notifica-o quando o limite é atingido.
  • Os dados coletados enquanto a taxa de ingestão atingiu 100% serão descartados e perdidos. Use o painel Informações do espaço de trabalho para revisar seus padrões de uso e tentar reduzi-los.
    Para mais informações, consulte:

Operação: Contagem máxima de colunas da tabela

"Os dados do tipo nome> da tabela foram descartados porque a contagem> de novos campos do número <de campos< está acima do limite do limite de contagem de campos atual dos> campos personalizados por tipo de <dados."

Ação recomendada: para tabelas personalizadas, você pode passar para a análise dos dados em consultas.

Operação: Validação de conteúdo de campo

"Os valores <dos seguintes campos nome do campo> do tipo< nome> da tabela foram cortados para o tamanho máximo permitido, <bytes limite> de tamanho do campo. Por favor, ajuste a sua entrada em conformidade."

Um campo maior do que o tamanho limite foi processado pelos logs do Azure. O campo foi cortado para o limite de campo permitido. Não recomendamos o envio de campos maiores do que o limite permitido porque isso resulta em perda de dados.

Ações recomendadas:

Verifique a origem do tipo de dados afetado:

  • Se os dados estiverem sendo enviados por meio da API do Coletor de Dados HTTP, você precisará alterar seu código\script para dividir os dados antes que eles sejam ingeridos.
  • Para logs personalizados, coletados por um agente do Log Analytics, altere as configurações de log do aplicativo ou ferramenta.
  • Para qualquer outro tipo de dados, crie um caso de suporte. Para obter mais informações, consulte Limites de serviço do Azure Monitor.

Recolha de dados

A secção seguinte fornece informações sobre a recolha de dados.

Operação: coleção do Log de Atividades do Azure

"O acesso à subscrição foi perdido. Verifique se a assinatura de ID> de< assinatura está na ID> de locatário do <Microsoft Entra. Se a assinatura for transferida para outro locatário, não haverá impacto nos serviços, mas as informações para o locatário podem levar até uma hora para se propagar."

Em algumas situações, como mover uma assinatura para um locatário diferente, os logs de atividade do Azure podem parar de fluir para o espaço de trabalho. Nessas situações, você precisa reconectar a assinatura seguindo o processo descrito neste artigo.

Ações recomendadas:

  • Se a assinatura mencionada na mensagem de aviso não existir mais, vá para o painel Conector do log de atividades herdado em Clássico. Selecione a subscrição relevante e, em seguida, selecione o botão Desligar .
  • Se você não tiver mais acesso à assinatura mencionada na mensagem de aviso:
    • Siga a etapa anterior para desconectar a assinatura.
    • Para continuar a recolher registos desta subscrição, contacte o proprietário da subscrição para corrigir as permissões e reativar a recolha de registos de atividades.
  • Crie uma configuração de diagnóstico para enviar o log de atividades para um espaço de trabalho do Log Analytics.

Agente

A seção a seguir fornece informações sobre agentes.

Operação: Agente Linux

"Dois aplicativos de configuração sucessivos das Configurações do OMS falharam."

As definições de configuração no portal foram alteradas.

Ação recomendada: esse problema é levantado caso haja um problema para o agente recuperar as novas configurações de configuração. Para atenuar esse problema, reinstale o agente. Confira a _LogOperation tabela para o evento do agente:

_LogOperation | where TimeGenerated >= ago(6h) | where Category == "Agent" | where Operation == "Linux Agent" | distinct _ResourceId

A lista mostra os IDs de recursos em que o agente tem a configuração errada. Para atenuar o problema, reinstale os agentes listados.

Regras de alertas

Use alertas de pesquisa de log no Azure Monitor para ser notificado proativamente quando um problema for detetado em seu espaço de trabalho do Log Analytics. Use uma estratégia que lhe permita responder em tempo hábil aos problemas, minimizando seus custos. Sua assinatura será cobrada por cada regra de alerta, conforme listado nos preços do Azure Monitor.

Uma estratégia recomendada é começar com duas regras de alerta com base no nível do problema. Use uma frequência curta, como a cada 5 minutos para Erros, e uma frequência maior, como 24 horas para Avisos. Como os erros indicam perda potencial de dados, você deseja respondê-los rapidamente para minimizar qualquer perda. Os avisos geralmente indicam um problema que não requer atenção imediata, para que você possa revisá-los diariamente.

Use o processo em Criar, exibir e gerenciar alertas de pesquisa de log usando o Azure Monitor para criar as regras de alerta de pesquisa de log. As seções a seguir descrevem os detalhes de cada regra.

Query Valor do limiar Período Frequência
_LogOperation | where Level == "Error" 0 5 5
_LogOperation | where Level == "Warning" 0 1,440 1,440

Estas regras de alerta respondem da mesma forma a todas as operações com Erro ou Aviso. À medida que você se familiariza com as operações que estão gerando alertas, convém responder de forma diferente para operações específicas. Por exemplo, talvez você queira enviar notificações para pessoas diferentes para operações específicas.

Para criar uma regra de alerta para uma operação específica, use uma consulta que inclua as colunas Categoria e Operação .

O exemplo a seguir cria um alerta de Aviso quando a taxa de volume de ingestão atinge 80% do limite:

  • Destino: selecione seu espaço de trabalho do Log Analytics
  • Critérios:
    • Nome do sinal: Pesquisa de log personalizada
    • Consulta de pesquisa: _LogOperation | where Category == "Ingestion" | where Operation == "Ingestion rate" | where Level == "Warning"
    • Com base em: Número de resultados
    • Estado: Maior que
    • Limiar: 0
    • Período: 5 (minutos)
    • Frequência: 5 (minutos)
  • Nome da regra de alerta: limite de dados diário atingido
  • Gravidade: Aviso (Sev 1)

O exemplo a seguir cria um alerta de Aviso quando a coleta de dados atinge o limite diário:

  • Destino: selecione seu espaço de trabalho do Log Analytics
  • Critérios:
    • Nome do sinal: Pesquisa de log personalizada
    • Consulta de pesquisa: _LogOperation | where Category == "Ingestion" | where Operation == "Data collection Status" | where Level == "Warning"
    • Com base em: Número de resultados
    • Estado: Maior que
    • Limiar: 0
    • Período: 5 (minutos)
    • Frequência: 5 (minutos)
  • Nome da regra de alerta: limite de dados diário atingido
  • Gravidade: Aviso (Sev 1)

Próximos passos

  • Saiba mais sobre alertas de pesquisa de log.
  • Colete dados de auditoria de consulta para seu espaço de trabalho.