다음을 통해 공유


Azure Operator Insights 수집 에이전트 모니터링 및 문제 해결

수집 에이전트 개요는 수집 에이전트 개요를 참조하세요.

컬렉션 에이전트의 데이터 수집에 문제가 있는 경우 이 섹션의 정보를 사용하여 일반적인 문제를 해결하거나 진단 패키지를 만듭니다. 진단 패키지를 Azure Portal에서 만든 지원 티켓으로 업로드할 수 있습니다.

수집 에이전트는 소프트웨어 패키지이므로 진단은 애플리케이션의 함수로 제한됩니다. OS 또는 리소스 모니터링을 제공하지 않습니다. snmpd, Prometheus 노드 내보내기 도구 또는 다른 도구 등과 같은 표준 도구를 사용하여 OS 수준 데이터, 로그 및 메트릭을 자체 모니터링 시스템으로 보내는 것이 좋습니다. Azure Monitor를 사용하여 가상 머신 모니터링에서는 수집 에이전트가 Azure VM에서 실행 중인 경우 사용할 수 있는 도구를 설명합니다.

에이전트는 /var/log/az-aoi-ingestion/ 아래의 파일에 로그와 메트릭을 기록합니다. 구성 오류 등의 이유로 에이전트가 시작되지 않는 경우 stdout.log 파일에는 문제를 설명하는 인간이 읽을 수 있는 로그가 포함됩니다.

메트릭은 사용자에게 친숙한 간단한 형식으로 보고됩니다.

필수 조건

  • 대부분의 문제 해결 기술을 위해서는 에이전트를 실행하는 VM에 대한 SSH 연결이 필요합니다.

수집 에이전트 진단

진단 패키지를 수집하려면 SSH를 통해 가상 머신에 연결하고 /usr/bin/microsoft/az-aoi-ingestion-gather-diags 명령을 실행합니다. 이 명령은 시스템에서 복사할 수 있는 날짜가 표시된 zip 파일을 현재 디렉터리에 생성합니다.

Azure Monitor 에이전트를 통해 로그 컬렉션을 구성한 경우 Log Analytics 작업 영역의 포털 보기에서 수집 에이전트 로그를 볼 수 있으며 문제를 디버그하기 위해 진단 패키지를 수집할 필요가 없을 수도 있습니다.

참고 항목

Microsoft 지원은 문제를 조사할 때 진단 패키지를 요청할 수 있습니다. 진단 패키지에는 고객 데이터나 자격 증명 값이 포함되어 있지 않습니다.

모든 원본에 공통적인 문제

문제는 크게 네 가지 범주로 나뉩니다.

  • 에이전트가 시작되지 못하게 하는 에이전트 구성 오류입니다.
  • 원본에서 데이터를 수신하는 데 문제가 있습니다. 일반적으로 구성이 잘못되었거나 네트워크 연결이 잘못되었습니다.
  • 데이터 제품의 입력 스토리지 계정(일반적으로 네트워크 연결)에 파일을 업로드하는 데 문제가 있습니다.
  • 에이전트가 실행 중인 VM에 문제가 있습니다.

에이전트 시작 실패

증상: sudo systemctl status az-aoi-ingestion는 서비스가 실패 상태임을 나타냅니다.

  • 서비스가 실행 중인지 확인합니다.
    sudo systemctl start az-aoi-ingestion
    
  • /var/log/az-aoi-ingestion/stdout.log 파일을 살펴보고 보고된 오류가 있는지 확인합니다. 구성 파일 관련 문제를 수정하고 에이전트를 다시 시작합니다.

AOI에 데이터가 표시되지 않음

증상: Azure Data Explorer에 데이터가 표시되지 않습니다.

  • 수집 에이전트 VM과 데이터 제품의 입력 스토리지 계정 간의 네트워크 연결 및 방화벽 구성을 확인합니다.
  • Azure 업로딩 오류에 대한 수집 에이전트의 로그를 확인합니다. 로그가 인증 문제를 가리키는 경우 에이전트 구성에 데이터 제품에 대한 올바른 싱크 설정 및 인증이 있는지 확인합니다. 그런 다음 에이전트를 다시 시작합니다.
  • 수집 에이전트가 원본으로부터 데이터를 수신하고 있는지 확인합니다. 네트워크와 수집 에이전트 간의 네트워크 연결 및 방화벽 구성을 확인합니다.

MCC EDR 원본 문제

이 섹션에서는 MCC EDR 원본과 관련된 문제를 다룹니다.

Azure Monitor에서 MCS 또는 Azure Operator Insights 자체가 제공하는 진단을 사용하여 수집 문제를 식별하고 디버깅할 수도 있습니다.

MCC에서 연결할 수 없음

증상: MCC가 MSF를 사용할 수 없다는 경보를 보고합니다.

  • 에이전트가 실행 중인지 확인합니다.
  • MCC가 올바른 IP 및 포트로 구성되어 있는지 확인합니다.
  • 에이전트의 로그를 확인하고 연결을 보고하는지 확인합니다. 그러지 않는 경우 에이전트 VM에 대한 네트워크 연결을 확인하고 방화벽이 포트 36001에 대한 트래픽을 차단하지 않는지 확인합니다.
  • 패킷 캡처를 수집하여 연결이 실패하는 위치를 확인합니다.

AOI에 EDR이 표시되지 않음

증상: Azure Data Explorer에 데이터가 표시되지 않습니다.

  • MCC가 정상이고 수집 에이전트가 실행 중인지 확인합니다.
  • 진단 패키지의 수집 에이전트 로그에서 Azure에 업로드하는 오류가 있는지 확인합니다. 로그가 잘못된 연결 문자열을 가리키거나 연결 문제가 있는 경우 구성, 연결 문자열 또는 SAS 토큰을 수정하고 에이전트를 다시 시작합니다.
  • 스토리지 계정에서 네트워크 연결 및 방화벽 구성을 확인합니다.

데이터 누락 또는 불완전

증상: Azure Monitor가 ADX에서 들어오는 EDR 속도가 예상보다 더 낮다고 표시합니다.

  • 에이전트가 모든 VM에서 실행 중이며 진단 패키지 로그에서 오류를 보고하지 않는지 확인합니다.
  • 에이전트 VM이 정격 부하보다 더 많이 전송되지 않는지 확인합니다.
  • 진단 패키지의 에이전트 메트릭에서 삭제된 바이트/삭제된 EDR을 확인합니다. 메트릭에 삭제된 데이터가 표시되지 않으면 MCC는 에이전트에 데이터를 보내지 않습니다. "수신된 바이트" 메트릭을 확인하여 MCC에서 수신되는 데이터의 양을 확인합니다.
  • 에이전트 VM이 오버로드되지 않는지 확인합니다. CPU 및 메모리 사용량을 모니터링합니다. 특히 다른 프로세스가 VM에서 리소스를 가져오고 있지 않은지 확인합니다.

SFTP 풀 원본 관련 문제

이 섹션에서는 SFTP 풀 원본과 관련된 문제를 다룹니다.

Azure Monitor에서 Azure Operator Insights 자체가 제공하는 진단을 사용하여 수집 문제를 식별하고 디버깅할 수도 있습니다.

에이전트가 SFTP 서버에 연결할 수 없음

증상: AOI에 파일이 업로드되지 않습니다. 에이전트 로그 파일 /var/log/az-aoi-ingestion/stdout.log에는 SFTP 서버 연결에 대한 오류가 포함되어 있습니다.

  • 에이전트에서 사용하는 SFTP 사용자 및 자격 증명이 SFTP 서버에 유효한지 확인합니다.
  • 에이전트와 SFTP 서버 간의 네트워크 연결 및 방화벽 구성을 확인합니다. 기본적으로 SFTP 서버는 SFTP 연결을 허용하려면 포트 22를 열어야 합니다.
  • 에이전트 VM의 known_hosts 파일에 SFTP 서버에 대한 유효한 공용 SSH 키가 포함되어 있는지 확인합니다.
    • 에이전트 VM에서 ssh-keygen -l -F *<sftp-server-IP-or-hostname>*을 실행합니다.
    • 출력이 없으면 known_hosts에 일치하는 항목이 포함되지 않은 것입니다. Azure Operator Insights 수집 에이전트 설정의 지침에 따라 SFTP 서버에 대한 known_hosts 항목을 추가합니다.

Azure Operator Insights에 업로드된 파일이 없음

증상: Azure Data Explorer에 데이터가 표시되지 않습니다. 범주 Ingestion 로그는 데이터를 모니터링하는Azure Operator Insights에 표시되지 않거나 오류가 포함되어 있습니다. 관련 데이터 형식에 대한 데이터 품질 메트릭에 수집된 행의 수가 0입니다.

  • 에이전트가 모든 VM에서 실행 중이고 로그에 오류를 보고하지 않는지 확인합니다.
  • 파일이 SFTP 서버의 올바른 위치에 있는지, 파일 원본 구성으로 인해 파일이 제외되지 않았는지 확인합니다(파일이 누락됨 참조).
  • 구성된 SFTP 사용자가 파일 원본 구성이 제외하지 않는 base_path 아래의 모든 디렉터리를 읽을 수 있는지 확인합니다.
  • 수집 에이전트 VM과 데이터 제품의 입력 스토리지 계정 간의 네트워크 연결 및 방화벽 구성을 확인합니다.

파일이 누락됨

증상: Azure Data Explorer에서 데이터가 누락되었습니다. Azure Operator Insights 모니터링 데이터에서 범주 Ingestion의 로그가 예상보다 낮거나 오류가 포함되어 있습니다. 관련 데이터 형식에 대한 데이터 품질 메트릭에 수집된 행의 수가 예상보다 낮습니다.

  • 에이전트가 모든 VM에서 실행 중이고 로그에 오류를 보고하지 않는지 확인합니다. 진단 패키지 로그에서 누락된 파일의 이름을 검색하여 해당 파일과 관련된 오류를 찾습니다.
  • SFTP 서버에 파일이 존재하는지, 파일 원본 구성으로 인해 제외되지 않는지 확인합니다. 파일 원본 구성을 확인하고 다음 사항을 확인합니다.
    • 파일은 base_path에 정의된 경로 아래 SFTP 서버에 있습니다. 업로드할 파일의 파일 경로에 기호 링크가 없는지 확인합니다. 수집 에이전트는 기호 링크를 무시합니다.
    • 파일의 "마지막 수정" 시간은 이 파일 원본에 대한 가장 최근 업로드 실행 시간보다 최소 settling_time초 빠릅니다.
    • 파일의 "마지막 수정" 시간이 exclude_before_time(지정된 경우) 이후입니다.
    • base_path에 상대적인 파일 경로는 include_pattern(지정된 경우)에서 제공한 정규식과 일치합니다.
    • base_path관련 파일 경로가 exclude_pattern(지정된 경우)에서 제공한 정규식과 일치하지 않습니다.
  • 최근 파일이 누락된 경우 진단 패키지의 에이전트 로그를 확인하여 수집 에이전트가 예상 시간에 원본에 대한 업로드 실행을 수행했는지 확인합니다. 원본 구성의 cron 매개 변수는 예상 일정을 제공합니다.
  • 에이전트 VM이 오버로드되지 않는지 확인합니다. CPU 및 메모리 사용량을 모니터링합니다. 특히 다른 프로세스가 VM에서 리소스를 가져오고 있지 않은지 확인합니다.

파일이 두 번 이상 업로드됨

증상: Azure Operator Insights에 중복된 데이터가 나타납니다.

  • 수집 에이전트가 이전 업로드의 진단 패키지 로그에서 다시 시도 가능한 오류가 발생했는지 확인한 다음 마지막으로 업로드에 성공한 후 24시간 이상 업로드를 다시 시도했습니다. 이 경우 에이전트는 다시 시도 중에 중복 데이터를 업로드할 수 있습니다. 데이터 중복은 다시 시도에만 영향을 미칩니다.
  • 구성 파일에 정의된 파일 원본이 겹치지 않는 파일 집합을 참조하는지 확인합니다. SFTP 서버의 동일한 위치에서 파일을 가져오도록 여러 파일 원본이 구성된 경우 include_patternexclude_pattern 구성 필드를 사용하여 각 파일 원본이 고려해야 하는 고유한 파일 집합을 지정합니다.
  • SFTP 수집 에이전트의 여러 인스턴스를 실행하는 경우 각 에이전트에 구성된 파일 원본이 다른 에이전트의 파일 원본과 겹치지 않는지 확인합니다. 특히, 실수로 다른 에이전트의 구성에서 복사된 파일 원본 구성을 찾습니다.
  • 최근에 구성된 파일 원본에 대해 파이프라인 id를 변경한 경우 exclude_before_time 필드를 사용하여 파일이 새 파이프라인 id로 다시 업로드되지 않도록 합니다. 자세한 내용은 Azure Operator Insights 수집 에이전트 구성 변경을 참조하세요.

다음의 방법을 알아보세요.