이동 통신 사업자 등급 워크로드에 대한 상태 모델링

아티클
07/11/2023

고가용성을 위해서는 몇 초 내에 문제를 자동으로 감지하고 대응하기 위해 신중한 상태 모니터링이 필요합니다. 이 모니터링을 수행하려면 오류를 안정적으로 감지하기 위해 주요 종속성의 기본 제공 원격 분석이 필요합니다. 애플리케이션 자체에는 애플리케이션 사용자가 인식하는 방식으로 애플리케이션의 상태를 정확하게 보고하는 추가 원격 분석(서비스 수준 표시기)이 필요합니다. SLO에 대한 평가가 필요할 수 있습니다.

애플리케이션의 오류율 분석 및 일반 상태 모델링은 해당 구성 요소의 서비스 및 상태를 나타내는 명확한 메트릭을 생성해야 합니다. 실제 서비스 가용성을 모니터링할 수 있도록 이러한 메트릭을 디자인에 포함해야 합니다. 메트릭을 포함하면 가장 유용한 선행 지표를 추적하여 자동화된 실패 응답을 트리거하고 사용자 개입에 필요한 경고를 생성할 수 있습니다.

중요

중요 업무용 워크로드에 대한 상태 모델을 빌드하는 방법에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

관리 및 모니터링

모니터링 및 관리에는 다음과 같은 사고 프로세스가 필요합니다.

애플리케이션은 프레임워크의 버그를 어떻게 처리합니까?
애플리케이션을 업그레이드하는 방법
인시던트 중에 수행해야 하는 작업은 무엇인가요?

예를 들어 솔루션은 ADO(Azure DevOps)를 사용하여 모든 구성에 대한 Git 리포지토리를 호스트할 수 있습니다. ADO 리포지토리를 호스팅하는 Azure 지역이 실패하면 복구 시간은 2시간입니다. 솔루션이 동일한 지역에 배포된 경우 전체 2시간 동안 다른 곳에 용량을 추가하도록 구성을 수정할 수 없습니다. 따라서 애플리케이션 설계자는 다음과 같은 주요 서비스에 대한 상관 관계 오류 모드를 고려해야 합니다.

이러한 주요 서비스에 대한 상관 관계 오류 모드는 실패에 대한 애플리케이션 수준 응답에 필요한 부분일 수 있습니다. 동일한 애플리케이션 오류의 영향을 받지 않는 컨트롤 플레인을 만드는 것이 중요합니다.

진단 및 문제 해결을 발급하는 데 필요한 관리 도구는 일반적인 일상적인 작업 작업에 사용되는 도구와 동일해야 합니다. 유사한 도구를 사용하면 친숙하고 작동하는 것으로 입증됩니다. 유사한 도구는 사용자 인터페이스 및 프로세스 단계에 대한 사용자의 친숙도를 최대화합니다. 고압 중단을 resolve 위해 연산자가 다른 도구 집합으로 전환하도록 요구하는 것은 문제를 효과적으로 식별하고 해결하는 데 도움이 되지 않습니다.

페더레이션된 모델

고가용성 애플리케이션 또는 서비스에는 페더레이션 및 내결함성의 동일한 잘 설계된 원칙을 사용하여 빌드된 고가용성 관리 및 모니터링 인프라가 있어야 합니다. 이러한 잘 설계된 원칙을 기반으로 구축된 인프라는 연결이 끊어지면 개별 지역이 충분히 자급자족할 수 있도록 합니다.

연결 끊기 이벤트가 있는 경우 시스템은 기본/백업 시스템을 사용하는 대신 개별적으로 작동하는 섬으로 퇴화됩니다. 페더레이션 모델은 유연하고 복원력이 있으며 파티션 및 다시 연결 이벤트에 자동으로 적응합니다.

예를 들어 로그 및 메트릭은 생성된 AZ(가용성 영역)에 저장됩니다. 메트릭 쿼리는 페더레이션된 검색의 불투명 프로세스를 사용하여 연결할 수 있는 모든 AZ의 메트릭 저장소를 쿼리합니다. 다른 지역에 복제해야 하는 로그, 메트릭 및 경보 데이터의 수준에 대한 특정 애플리케이션의 요구 사항에 따라 다릅니다. 일반적으로 알람을 복제해야 하지만 로그 및 메트릭을 복제할 근거가 부족할 수 있습니다.

상태 및 비정상 메트릭

내부 메트릭은 비정상 메트릭으로 유용합니다. 이러한 메트릭은 문제가 있음을 안정적으로 나타내지만 그 반대의 경우는 그렇지 않습니다. 고객이 건강을 인식하기 때문에 건강이 좋지 않다는 증거는 없습니다.

예를 들어 DNS 문제는 요청이 데이터베이스 서비스에 도착하지 않음을 나타냅니다. 이 메트릭에 오류가 표시되지 않으므로 DNS 오류는 데이터베이스 읽기 성공 메트릭에 영향을 주지 않습니다. 그러나 최종 사용자는 데이터베이스에 액세스할 수 없기 때문에 총 중단을 인식합니다. 이러한 메트릭에 최종 사용자가 경험하게 될 모든 것이 포함되도록 상태 메트릭의 일부 이상을 외부에서 측정해야 합니다.

모니터링 및 추적

지원 팀이 문제를 감지, 진단 및 resolve 기능은 고가용성 애플리케이션을 제공하는 데 중요한 부분입니다. 성공을 보장하려면 모니터링 및 추적 요소가 높은 수준의 가시성을 제공하여 천 개의 형식 이벤트에 포함된 이벤트를 찾아서 확인할 수 있어야 합니다.

요청의 0.1%만 기록하는 추적 솔루션은 이러한 이벤트를 기록할 확률이 100만 분의 1에 불과하므로 진단 및 해결 가능성은 매우 낮습니다. 그러나 이러한 문제를 resolve 않으면 가용성에 의미 있는 영향을 미칠 수 있습니다.

다음 단계

캐리어 등급 워크로드에 대한 테스트 및 유효성 검사 디자인 영역을 검토합니다.

디자인 영역: 테스트 및 유효성 검사

다음을 통해 공유