Share via


Monitoramento da WAN Virtual do Azure – Práticas recomendadas

Este artigo fornece as melhores práticas de configuração para monitorar a WAN Virtual e os diferentes componentes que podem ser implantados com ele. As recomendações apresentadas neste artigo se baseiam principalmente nas métricas e logs existentes do Azure Monitor gerados pela WAN Virtual do Azure. Para obter uma lista de métricas e logs coletados para WAN Virtual, consulte a referência de dados da WAN Virtual de Monitoramento.

A maioria das recomendações neste artigo sugere a criação de alertas do Azure Monitor. Os alertas do Azure Monitor devem notificá-lo proativamente quando houver um evento importante nos dados de monitoramento para ajudá-lo a resolver a causa raiz mais rapidamente e, por fim, reduzir o tempo de inatividade. Para saber como criar um alerta de métrica, consulte Tutorial: Criar um alerta de métrica para um recurso do Azure. Para saber como criar um alerta de consulta de log, consulte Tutorial: Criar um alerta de consulta de log para um recurso do Azure.

Gateways de WAN Virtual

Gateway de VPN site a site

Lista de verificação de design – alertas de métrica

  • Crie uma regra de alerta para aumentar a saída do túnel e/ou a queda da contagem de pacotes de entrada.
  • Crie uma regra de alerta para monitorar o status do par BGP.
  • Crie uma regra de alerta para monitorar o número de rotas BGP anunciadas e aprendidas.
  • Crie uma regra de alerta para a superutilização do gateway de VPN.
  • Crie uma regra de alerta para a superutilização do túnel.
Recomendação Descrição
Crie uma regra de alerta para aumentar a contagem de descarte de pacotes de saída de túnel e/ou entrada. Um aumento na contagem de descarte de pacotes de saída e/ou entrada do túnel pode indicar um problema com o gateway de VPN do Azure ou com o dispositivo VPN remoto. Selecione a métrica de contagem de descarte de pacotes de entrada/saída do túnel ao criar as regras de alerta. Defina um valor limite estático maior do que 0 e o tipo de agregação Total ao configurar a lógica de alerta.

Você pode optar por monitorar a Conexão como um todo ou dividir a regra de alerta por Instância e IP Remoto para ser alertado quanto a problemas envolvendo túneis individuais. Para saber a diferença entre o conceito de conexão VPN, link e túnel na WAN Virtual, consulte as perguntas frequentes sobre WAN Virtual.
Crie uma regra de alerta para monitorar o status do par BGP. Ao usar o BGP em suas conexões site a site, é importante monitorar a integridade dos emparelhamentos BGP entre as instâncias do gateway e os dispositivos remotos, pois falhas recorrentes podem interromper a conectividade.

Selecione a métrica status de par do BGP ao criar a regra de alerta. Usando um limite estático, escolha o tipo de agregação Média e configure o alerta a ser disparado sempre que o valor for menor do que 1.

Recomendamos dividir o alerta por instância e endereço do par no nível de protocolo BGP para detectar problemas com emparelhamentos individuais. Evite selecionar os IPs da instância do gateway como Endereço par BGP porque essa métrica monitora o status do BGP para todas as combinações possíveis, inclusive com a própria instância (que é sempre 0).
Crie uma regra de alerta para monitorar o número de rotas BGP anunciadas e aprendidas. As rotas BGP anunciadas e as rotas BGP aprendidas monitoram o número de rotas anunciadas e aprendidas com os pares pelo gateway de VPN, respectivamente. Se essas métricas cairem para zero inesperadamente, pode ser porque há um problema com o gateway ou com o local.

Recomendamos configurar um alerta para que ambas as métricas sejam disparadas sempre que o valor delas for zero. Escolha o tipo de agregação Total. Dividir por Instância para monitorar instâncias individuais de gateway.
Crie uma regra de alerta para a superutilização do gateway de VPN. A taxa de transferência de agregação de um gateway de VPN é determinada pelo número de unidades de escala por instância. Observe que todos os túneis que terminam na mesma instância de gateway compartilharão a taxa de transferência de agregação dela. É provável que a estabilidade do túnel seja afetada se uma instância trabalha em plena capacidade por um longo tempo.

Selecione Largura de Banda de S2S do Gateway ao criar a regra de alerta. Configure o alerta a ser disparado sempre que a taxa de transferência Média for maior que um valor próximo à taxa de transferência de agregação máxima das duas instâncias. Como alternativa, divida o alerta por instância e use a taxa de transferência máxima por instância como referência.

É uma boa prática determinar as necessidades de taxa de transferência por túnel com antecedência para escolher o número apropriado de unidades de escala. Para saber mais sobre os valores de unidade de escala com suporte em gateways de VPN site a site, confira as Perguntas frequentes sobre a WAN Virtual.
Crie uma regra de alerta para a superutilização do túnel. A taxa de transferência máxima permitida por túnel é determinada pelas unidades de escala da instância do gateway em que ela termina.

O ideal será receber um alerta se um túnel correr o risco de se aproximar da taxa de transferência máxima, o que poderá resultar em problemas de desempenho e conectividade, e tomar providências o quanto antes investigando a causa raiz do aumento da utilização do túnel ou aumentando as unidades de escala do gateway.

Selecione Largura de Banda de Túnel ao criar a regra de alerta. Divida por Instância e IP Remoto para monitorar todos os túneis individuais ou escolha túneis específicos. Configure o alerta a ser disparado sempre que a taxa de transferência Média for maior do que um valor próximo à taxa de transferência máxima permitida por túnel.

Para saber mais sobre como a taxa de transferência máxima de um túnel é afetada pelas unidades de escala do gateway, consulte as perguntas frequentes sobre WAN Virtual.

Lista de verificação de design – alertas de consulta de log

Para configurar alertas baseados em log, primeiro você deve criar uma configuração de diagnóstico para o gateway de VPN site a site/ponto a site. Uma configuração de diagnóstico é onde você define quais logs e/ou métricas deseja coletar e como deseja armazenar esses dados para serem analisados posteriormente. Ao contrário das métricas de gateway, os logs de gateway não estarão disponíveis se não houver nenhuma configuração de diagnóstico configurada. Para saber como criar uma configuração de diagnóstico, consulte Criar configuração de diagnóstico para exibir logs.

  • Criar regra de alerta de desconexão de túnel.
  • Crie uma regra de alerta de desconexão do BGP.
Recomendação Descrição
Criar regra de alerta de desconexão de túnel. Use logs de diagnóstico de túnel para controlar eventos de desconexão em suas conexões site a site. Um evento de desconexão pode ser devido a uma falha na negociação de SAs, falta de resposta do dispositivo VPN remoto, entre outras causas. Os Logs de Diagnóstico do Túnel também fornecem o motivo da desconexão. Consulte a regra Criar alerta de desconexão de túnel – consulta de log abaixo desta tabela para selecionar eventos de desconexão ao criar a regra de alerta.

Configure o alerta a ser disparado sempre que o número de linhas resultantes da execução da consulta acima for maior do que 0. Para que esse alerta seja eficaz, selecione Granularidade de Agregação entre 1 e 5 minutos e a Frequência de avaliação também entre 1 e 5 minutos. Dessa forma, depois que o intervalo de Granularidade de Agregação tiver passado, o número de linhas será 0 novamente para um novo intervalo.

Para obter dicas de solução de problemas ao analisar logs de diagnóstico de túnel, consulte Solucionar problemas do gateway de VPN do Azure usando logs de diagnóstico. Além disso, use os Logs de Diagnóstico do IKE para complementar a solução de problemas, pois esses logs contêm diagnósticos detalhados específicos do IKE.
Crie uma regra de alerta de desconexão do BGP. Use logs de diagnóstico de rota para acompanhar atualizações de rota e problemas com sessões BGP. Eventos repetidos de desconexão de BGP podem afetar a conectividade e causar tempo de inatividade. Consulte a consulta de log criar alerta de regra de desconexão do BGP abaixo desta tabela para selecionar eventos de desconexão ao criar a regra de alerta.

Configure o alerta a ser disparado sempre que o número de linhas resultantes da execução da consulta acima for maior do que 0. Para que esse alerta seja eficaz, selecione Granularidade de Agregação entre 1 e 5 minutos e a Frequência de avaliação também entre 1 e 5 minutos. Dessa forma, depois que o intervalo de Granularidade de Agregação tiver passado, o número de linhas será 0 novamente para um novo intervalo se as sessões BGP tiverem sido restauradas.

Para obter mais informações sobre os dados coletados pelos Logs de Diagnóstico de Rota, consulte solução de problemas do Gateway de VPN do Azure usando logs de diagnóstico.

Consultas de logs

  • Criar regra de alerta de desconexão de túnel – consulta de log: a seguinte consulta de log pode ser usada para selecionar eventos de desconexão de túnel ao criar a regra de alerta:

    AzureDiagnostics
    | where Category == "TunnelDiagnosticLog" 
    | where OperationName == "TunnelDisconnected"
    
  • Criar uma consulta de log de alerta de desconexão do BGP: a seguinte consulta de log pode ser usada para selecionar eventos de desconexão do BGP ao criar a regra de alerta:

    AzureDiagnostics 
    | where Category == "RouteDiagnosticLog" 
    | where OperationName == "BgpDisconnectedEvent"
    

Gateway de VPN ponto a site

A seção a seguir detalha apenas a configuração de alertas baseados em métrica. No entanto, os gateways ponto a site da WAN Virtual também dão suporte a logs de diagnóstico. Para saber mais sobre os logs de diagnóstico disponíveis para gateways ponto a site, consulte o diagnóstico de gateway de VPN ponto a site da WAN Virtual.

Lista de verificação de design – alertas de métrica

  • Crie uma regra de alerta para a superutilização do gateway.
  • Crie um alerta para a contagem de conexões P2S se aproximando do limite.
  • Crie um alerta para a contagem de rotas vpn do usuário perto do limite.
Recomendação Descrição
Crie uma regra de alerta para a superutilização do gateway. A largura de banda de um gateway ponto a site é determinada pelo número de unidades de escala configuradas. Para saber mais sobre unidades de escala de gateway ponto a site, consulte VPN de usuário (ponto a site).

Use a métrica de Largura de Banda P2S do Gateway para monitorar a utilização do gateway e configurar uma regra de alerta disparada sempre que a largura de banda do gateway for maior do que um valor próximo à sua taxa de transferência agregada, por exemplo, se o gateway tiver sido configurado com duas unidades de escala, ele terá uma taxa de transferência agregada de 1 Gbps. Nesse caso, você pode definir um valor limite de 950 Mbps.

Use esse alerta para investigar proativamente a causa raiz do aumento da utilização e, por fim, aumentar o número de unidades de escala, se necessário. Selecione o tipo de agregação Média ao configurar a regra de alerta.
Criar alerta para contagem de conexões P2S perto do limite O número máximo de conexões ponto a site permitido também é determinado pelo número de unidades de escala configuradas no gateway. Para saber mais sobre unidades de escala de gateway ponto a site, consulte as perguntas frequentes sobre VPN de usuário (ponto a site).

Use a métrica contagem de conexões P2S para monitorar o número de conexões. Selecione essa métrica para configurar uma regra de alerta disparada sempre que o número de conexões estiver se aproximando do máximo permitido. Por exemplo, um gateway de unidade de 1 escala dá suporte a até 500 conexões simultâneas. Nesse caso, você pode configurar o alerta a ser disparado sempre que o número de conexões for maior do que 450.

Use este alerta para determinar se um aumento no número de unidades de escala é necessário ou não. Escolha o tipo de agregação Total ao configurar a regra de alerta.
Crie uma regra de alerta para a contagem de rotas VPN do usuário perto do limite. O número máximo de rotas VPN de usuário é determinado pelo protocolo usado. O IKEv2 tem um limite de nível de protocolo de 255 rotas, enquanto o OpenVPN tem um limite de 1000 rotas. Para saber mais sobre isso, confira os conceitos de configuração do servidor VPN.

O ideal será receber um alerta se você estiver perto de atingir o número máximo de rotas de VPN de usuário e tomar providências o quanto antes para evitar qualquer tempo de inatividade. Use a Contagem de Rotas de VPN do Usuário para monitorar isso e configurar uma regra de alerta disparada sempre que o número de rotas ultrapassar um valor próximo ao limite. Por exemplo, se o limite for de 255 rotas, um valor limite apropriado poderá ser 230. Escolha o tipo de agregação Total ao configurar a regra de alerta.

Gateway do ExpressRoute

A seção a seguir se concentra em alertas baseados em métricas. Além dos alertas descritos abaixo, que se concentram no componente de gateway, recomendamos usar as métricas, os logs e as ferramentas disponíveis para monitorar o circuito do ExpressRoute. Para saber mais sobre o monitoramento do ExpressRoute, consulte monitoramento, métricas e alertas do ExpressRoute. Para saber mais sobre como você pode usar a ferramenta Coletor de Tráfego do ExpressRoute, consulte Configurar o Coletor de Tráfego do ExpressRoute para ExpressRoute Direct.

Lista de verificação de design – alertas de métrica

  • Crie uma regra de alerta para bits recebidos por segundo.
  • Crie uma regra de alerta para a superutilização da CPU.
  • Crie uma regra de alerta para pacotes por segundo.
  • Crie uma regra de alerta para o número de rotas anunciadas para o par.
  • Conte a regra de alerta para o número de rotas aprendidas do par.
  • Crie uma regra de alerta para alta frequência nas alterações de rota.
Recomendação Descrição
Crie uma regra de alerta para bits recebidos por segundo. Bits Recebidos por Segundo monitora a quantidade total de tráfego recebido pelo gateway dos MSEEs.

O ideal será receber um alerta se a quantidade de tráfego recebida pelo gateway correr o risco de atingir a taxa de transferência máxima, pois isso poderá resultar em problemas de desempenho e conectividade. Isso permite que você aja proativamente investigando a causa raiz do aumento da utilização do gateway ou aumentando a taxa de transferência máxima permitida do gateway.

Escolha o tipo de agregação Média e um valor de Limite próximo à taxa de transferência máxima provisionada para o gateway ao configurar a regra de alerta.

Além disso, recomendamos definir um alerta quando o número de Bits Recebidos por Segundo estiver próximo de zero, pois isso poderá indicar um problema com o gateway ou com os MSEEs.

A taxa de transferência máxima de um gateway do ExpressRoute é determinada pelo número de unidades de escala provisionadas. Para saber mais sobre o desempenho do gateway do ExpressRoute, consulte sobre conexões do ExpressRoute na WAN Virtual do Azure.
Crie uma regra de alerta para a superutilização da CPU. Ao usar gateways do ExpressRoute, é importante monitorar a utilização da CPU. A alta utilização prolongada pode afetar o desempenho e a conectividade.

Use a métrica de utilização da CPU para monitorar isso e criar um alerta para sempre que a utilização da CPU for maior do que 80%, para que você possa investigar a causa raiz e, finalmente, aumentar o número de unidades de escala, se necessário. Escolha o tipo de agregação Média ao configurar a regra de alerta.

Para saber mais sobre o desempenho do gateway do ExpressRoute, consulte sobre conexões do ExpressRoute na WAN Virtual do Azure.
Crie uma regra de alerta para pacotes recebidos por segundo. Os pacotes por segundo monitoram o número de pacotes de entrada que atravessam o gateway de ExpressRoute da WAN Virtual.

O ideal será receber um alerta se o número de pacotes por segundo estiver se aproximando do limite permitido para o número de unidades de escala configuradas no gateway.

Escolha o tipo de agregação média ao configurar a regra de alerta. Escolha um valor Limite próximo ao número máximo de pacotes por segundo permitido com base no número de unidades de escala do gateway. Para saber mais sobre o desempenho do ExpressRoute, consulte sobre conexões do ExpressRoute na WAN Virtual do Azure.

Além disso, recomendamos definir um alerta quando o número de pacotes por segundo estiver próximo de zero, pois isso poderá indicar um problema com o gateway ou com os MSEEs.
Crie uma regra de alerta para o número de rotas anunciadas para o par. A Contagem de Rotas Anunciadas para os Pares monitora o número de rotas anunciadas do gateway do ExpressRoute para o roteador do hub virtual e para os dispositivos de borda do Microsoft Enterprise.

Recomendamos que você adicone um filtro para selecionar somente dois pares no nível de protocolo BGP exibidos como Dispositivo do ExpressRoute para identificar quando a contagem de rotas anunciadas se aproxima do limite documentado de 1000. Por exemplo, configure o alerta a ser disparado quando o número de rotas anunciadas for maior que 950.

Também recomendamos que você configure um alerta quando o número de rotas anunciadas para os dispositivos de borda do Microsoft Edge for zero, a fim de detectar de maneira proativa qualquer problema de conectividade.

Para adicionar esses alertas, selecione a métrica Contagem de Rotas Anunciadas para os Pares e escolha a opção Adicionar filtro e os dispositivos do ExpressRoute.
Crie uma regra de alerta para o número de rotas aprendidas do par. A Contagem de Rotas Aprendidas dos Pares monitora o número de rotas aprendidas pelo gateway do ExpressRoute com o roteador do hub virtual e com o dispositivo de borda do Microsoft Enterprise.

Recomendamos que você adicione um filtro somente nos dois pares no nível de protocolo BGP exibidos como Dispositivo do ExpressRoute e crie um alerta para identificar quando a contagem de rotas aprendidas se aproxima do limite documentado de 4000 para o SKU Standard e 10.000 para os circuitos do SKU Premium.

Também recomendamos que você configure um alerta quando o número de rotas anunciadas para os dispositivos de borda da Microsoft for zero. Isso pode ajudar a detectar quando o seu local parou de anunciar as rotas.
Crie uma regra de alerta para alta frequência nas alterações de rota. A frequência de alterações de rotas mostra a frequência de alteração de rotas que estão sendo aprendidas e anunciadas de e para pares, incluindo outros tipos de branches, como VPN site a site e ponto a site. Essa métrica fornece visibilidade quando um novo branch ou mais circuitos estão sendo conectados/desconectados.

Essa métrica é uma ferramenta útil ao identificar problemas com anúncios BGP, como flaplings. Recomendamos definir um alerta se o ambiente for estático e as alterações do BGP não forem esperadas. Selecione um valor de limite maior do que 1 e uma Granularidade de Agregação de 15 minutos para monitorar o comportamento do BGP de forma consistente.

Se o ambiente for dinâmico e as alterações do BGP forem frequentemente esperadas, você poderá optar por não definir um alerta, caso contrário, a fim de evitar falsos positivos. No entanto, você ainda pode considerar essa métrica para a observabilidade de sua rede.

Hub virtual

A seção a seguir se concentra em alertas baseados em métricas para hubs virtuais.

Lista de verificação de design – alertas de métrica

  • Criar regra de alerta para o status do par BGP
Recomendação Descrição
Crie uma regra de alerta para monitorar o status do par BGP. Selecione a métrica status de par do BGP ao criar a regra de alerta. Usando um limite estático, escolha o tipo de agregação Média e configure o alerta a ser disparado sempre que o valor for menor do que 1.

Isso permitirá que você identifique quando o roteador de hub virtual está com problemas de conectividade com o ExpressRoute, VPN site a site e gateways de VPN ponto a site implantados no hub.

Firewall do Azure

Esta seção do artigo se concentra em alertas baseados em métricas. O Firewall do Azure oferece uma lista abrangente de métricas e logs para fins de monitoramento. Além de configurar os alertas descritos na seção a seguir, explore como a Pasta de Trabalho do Firewall do Azure pode ajudar a monitorar o Firewall do Azure ou os benefícios de conectar logs do Firewall do Azure ao Microsoft Sentinel usando o conector do Firewall do Azure para Microsoft Sentinel.

Lista de verificação de design – alertas de métrica

  • Crie uma regra de alerta para o risco de esgotamento da porta SNAT.
  • Crie uma regra de alerta para a superutilização do firewall.
Recomendação Descrição
Crie uma regra de alerta para o risco de esgotamento da porta SNAT. O Firewall do Azure fornece 2.496 portas SNAT por endereço IP público configurado por instância de escala de máquina virtual de back-end. É importante estimar com antecedência o número de portas SNAT que atenderão aos seus requisitos organizacionais de tráfego de saída para a Internet. Não fazer isso aumenta o risco de esgotar o número de portas SNAT disponíveis no Firewall do Azure, potencialmente causando falhas de conectividade de saída.

Use a métrica de utilização da porta SNAT para monitorar o percentual de portas SNAT de saída atualmente em uso. Crie uma regra de alerta para que essa métrica seja disparada sempre que essa porcentagem ultrapassar 95% (devido a um aumento de tráfego imprevisto, por exemplo) para que você possa agir adequadamente configurando um endereço IP público adicional no Firewall do Azure ou usando um Gateway da NAT do Azure. Use o tipo Máximo de agregação ao configurar a regra de alerta.

Para saber mais sobre como interpretar a métrica de utilização da porta SNAT, consulte Visão geral dos logs e métricas do Firewall do Azure. Para saber mais sobre como dimensionar portas SNAT no Firewall do Azure, consulte Dimensionar portas SNAT com o Gateway da NAT do Azure.
Crie uma regra de alerta para a superutilização do firewall. A taxa de transferência máxima do Firewall do Azure difere dependendo da SKU e dos recursos habilitados. Para saber mais sobre o desempenho de Firewall do Azure, consulte Desempenho do Firewall do Azure.

O ideal será receber um alerta se o firewall estiver se aproximando da taxa de transferência máxima e solucionar problemas da causa subjacente, pois isso poderá ter um impacto no desempenho do firewall.

Crie uma regra de alerta a ser disparada sempre que a métrica de Taxa de transferência ultrapassar um valor próximo à taxa de transferência máxima do firewall– se a taxa de transferência máxima for de 30 Gbps, configure 25 Gbps como o valor Limite, por exemplo. A unidade de métrica de Taxa de transferência é de bits/s. Escolha o tipo de agregação Média ao criar a regra de alerta.

Alertas de Resource Health

Você também pode configurar alertas de Integridade do Recurso por meio da Integridade do Serviço para os recursos abaixo. Isso garante que você seja informado sobre a disponibilidade do seu ambiente de WAN Virtual e isso permite solucionar problemas em que os recursos do Azure entram em um estado não íntegro, em vez de problemas do seu ambiente local. É recomendável configurar alertas quando o status do recurso ficar degradado ou indisponível. Se o status do recurso ficar degradado/indisponível, você poderá analisar se há picos recentes na quantidade de tráfego processado por esses recursos, as rotas anunciadas para esses recursos ou o número de conexões branch/VNet criadas. Consulte os limites da WAN Virtual do Azure para obter informações adicionais sobre os limites com suporte na WAN Virtual.

  • Microsoft.Network/vpnGateways
  • Microsoft.Network/expressRouteGateways
  • Microsoft.Network/azureFirewalls
  • Microsoft.Network/virtualHubs
  • Microsoft.Network/p2sVpnGateways

Próximas etapas