Azure Firewall 메트릭 및 경고

Azure Monitor의 메트릭은 특정 시간에 시스템의 일부 측면을 설명하는 숫자 값입니다. 메트릭은 1분마다 수집되며, 자주 샘플링될 수 있으므로 경고에 유용합니다. 비교적 간단한 논리를 사용하여 경고를 신속하게 발생시킬 수 있습니다.

방화벽 메트릭

Azure Firewall에 사용할 수 있는 메트릭은 다음과 같습니다.

  • 애플리케이션 규칙 적중 횟수 - 애플리케이션 규칙이 적중된 횟수입니다.

    단위: 개수

  • 네트워크 규칙 적중 횟수 - 네트워크 규칙이 적중된 횟수입니다.

    단위: 개수

  • 처리된 데이터 - 지정된 기간 동안 방화벽을 통과하는 데이터의 합계입니다.

    단위: 바이트

  • 처리량 - 초당 방화벽을 통과하는 데이터의 속도입니다.

    단위: 초당 비트

  • 방화벽 상태 - SNAT 포트 가용성을 기반으로 하는 방화벽의 상태를 나타냅니다.

    단위: 백분율

    이 메트릭에는 두 개의 차원이 있습니다.

    • 상태: 가능한 값은 정상, 저하됨, 비정상입니다.

    • 이유: 해당 방화벽 상태에 대한 이유를 나타냅니다.

      SNAT 포트를 > 95%를 초과하여 사용하는 경우 모두 사용된 것으로 간주되고 상태=저하됨 및 이유=SNAT 포트인 상태가 50%입니다. 방화벽은 트래픽을 계속 처리하며 기존 연결은 영향을 받지 않습니다. 그러나 새 연결이 간헐적으로 설정되지 않을 수 있습니다.

      SNAT 포트가 < 95%로 사용되는 경우 방화벽은 정상으로 간주되고 상태는 100%로 표시됩니다.

      SNAT 포트 사용량이 보고되지 않으면 상태가 0%로 표시됩니다.

  • SNAT 포트 사용률 - 방화벽에서 사용된 SNAT 포트의 백분율입니다.

    단위: 백분율

    방화벽에 공용 IP 주소를 더 추가하는 경우 SNAT 포트 사용률을 줄여 주는 더 많은 SNAT 포트를 사용할 수 있습니다. 또한 방화벽이 CPU 또는 처리량과 같은 다양한 이유로 스케일 아웃될 경우 추가 SNAT 포트도 사용할 수 있게 됩니다. 따라서 서비스가 스케일 아웃되었다는 이유만으로 공용 IP 주소를 추가하지 않으면 SNAT 포트 사용률이 일정 비율로 떨어질 수 있습니다. 사용 가능한 공용 IP 주소 수를 직접 제어하여 방화벽에서 사용할 수 있는 포트를 늘릴 수 있습니다. 그러나 방화벽 크기 조정을 직접 제어할 수는 없습니다.

    방화벽이 SNAT 포트 소진 상태로 실행 중인 경우 5개 이상의 공용 IP 주소를 추가해야 합니다. 이렇게 하면 사용 가능한 SNAT 포트 수가 늘어납니다. 자세한 내용은 Azure Firewall 기능을 참조하세요.

  • AZFW 대기 시간 프로브 - Azure Firewall 평균 대기 시간을 예측합니다.

    단위: ms

    이 메트릭은 Azure Firewall의 전체 또는 평균 대기 시간을 밀리초 단위로 측정합니다. 관리자는 다음 용도로 이 메트릭을 사용할 수 있습니다.

    • 네트워크에서 Azure Firewall이 대기 시간의 원인인지 진단

    • 대기 시간 또는 성능 문제가 있는지 모니터링하고 경고하여 IT 팀이 사전에 참여할 수 있도록 합니다.

    • Azure Firewall에서 대기 시간이 길어지는 다양한 이유가 있을 수 있습니다. 예를 들어 높은 CPU 사용률, 높은 처리량 또는 가능한 네트워킹 문제가 있습니다.

      이 메트릭은 특정 네트워크 경로의 엔드투엔드 대기 시간을 측정하지 않습니다. 즉, 이 대기 시간 상태 프로브는 Azure Firewall이 추가하는 대기 시간을 측정하지는 않습니다.

    • 대기 시간 메트릭이 예상대로 작동하면 메트릭 대시보드에 값이 0으로 표시됩니다.

    • 참고로 방화벽의 평균 예상 대기 시간은 약 1ms입니다. 배포 크기 및 환경에 따라 달라질 수 있습니다.

    • 대기 시간 프로브는 Microsoft의 Ping Mesh 기술을 기반으로 합니다. 따라서 대기 시간 메트릭이 일시적으로 급증할 것으로 예상됩니다. 이러한 급증은 정상적인 현상이며 Azure Firewall에 문제가 있다는 신호가 아닙니다. 이는 시스템을 지원하는 표준 호스트 네트워킹 설정의 일부입니다.

      따라서 일반적인 급증보다 오래 지속되는 높은 대기 시간이 지속적으로 발생하는 경우 지원 티켓을 제출하는 것이 좋습니다.

      Screenshot showing the Azure Firewall Latency Probe metric.

Azure Firewall 메트릭에 대한 경고

메트릭은 리소스 상태를 추적하는 데 중요한 신호를 제공합니다. 따라서 리소스에 대한 메트릭을 모니터링하고 변칙을 주의해야 합니다. 하지만 Azure Firewall 메트릭의 흐름이 중지되면 어떻게 되나요? 잠재적인 구성 문제 또는 중단과 같은 더 안좋은 문제가 나타낼 수 있습니다. 누락된 메트릭은 Azure Firewall이 메트릭을 업로드하지 못하도록 차단하는 기본 경로를 게시하거나 정상 인스턴스 수가 0으로 떨어지기 때문에 발생할 수 있습니다. 이 섹션에서는 로그 분석 작업 영역에 대한 메트릭을 구성하고 누락된 메트릭에 대해 경고하는 방법을 알아봅니다.

로그 분석 작업 영역에 대한 메트릭 구성

첫 번째 단계는 방화벽의 진단 설정을 사용하여 로그 분석 작업 영역에 대한 메트릭 가용성을 구성하는 것입니다.

다음 스크린샷에 표시된 대로 Azure Firewall 리소스 페이지로 이동하여 진단 설정을 구성합니다. 그러면 방화벽 메트릭이 구성된 작업 영역으로 푸시됩니다.

참고 항목

메트릭에 대한 진단 설정은 로그와 별도의 구성이어야 합니다. Azure Diagnostics 또는 리소스별 로그를 사용하도록 방화벽 로그를 구성할 수 있습니다. 그러나 방화벽 메트릭은 항상 Azure Diagnostics를 사용해야 합니다.

Screenshot of Azure Firewall diagnostic setting.

오류 없이 방화벽 메트릭 수신을 추적하는 경고 만들기

메트릭 진단 설정에 구성된 작업 영역으로 찾습니다. 다음 쿼리를 사용하여 메트릭을 사용할 수 있는지 확인합니다.

AzureMetrics

| where MetricName contains "FirewallHealth"
| where ResourceId contains "/SUBSCRIPTIONS/XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/RESOURCEGROUPS/PARALLELIPGROUPRG/PROVIDERS/MICROSOFT.NETWORK/AZUREFIREWALLS/HUBVNET-FIREWALL"
| where TimeGenerated > ago(30m)

다음으로, 60분 동안 누락된 메트릭에 대한 경고를 만듭니다. 로그 분석 작업 영역의 경고 페이지로 이동하여 누락된 메트릭에 대한 새 경고를 설정합니다.

Screenshot showing the Edit alert rule page.

다음 단계