다음을 통해 공유


일시적인 오류 처리(Azure를 사용하여 Real-World Cloud Apps 빌드)

작성자 : Rick Anderson, Tom Dykstra

수정 프로젝트 다운로드 또는 전자책 다운로드

Azure 전자책 을 사용하여 Real World Cloud Apps 빌드 는 Scott Guthrie가 개발한 프레젠테이션을 기반으로 합니다. 클라우드용 웹앱을 성공적으로 개발하는 데 도움이 될 수 있는 13개의 패턴과 사례를 설명합니다. 전자책에 대한 자세한 내용은 첫 번째 챕터를 참조하세요.

실제 클라우드 앱을 디자인할 때 고려해야 할 사항 중 하나는 임시 서비스 중단을 처리하는 방법입니다. 이 문제는 네트워크 연결 및 외부 서비스에 너무 의존하기 때문에 클라우드 앱에서 고유하게 중요합니다. 일반적으로 자가 치유되는 약간의 결함을 자주 얻을 수 있으며, 지능적으로 처리할 준비가 되지 않은 경우 고객에게 나쁜 경험을 초래할 수 있습니다.

일시적인 오류의 원인

클라우드 환경에서는 실패 및 삭제된 데이터베이스 연결 주기적으로 발생합니다. 이는 웹 서버와 데이터베이스 서버가 직접 물리적 연결을 갖는 온-프레미스 환경에 비해 더 많은 부하 분산 장치를 거치기 때문입니다. 또한 다중 테넌트 서비스에 종속된 경우 서비스를 사용하는 다른 사람이 서비스를 많이 사용하므로 서비스에 대한 호출이 느려지거나 시간이 초과되는 것을 볼 수 있습니다. 다른 경우에는 서비스에 너무 자주 도달하는 사용자일 수 있으며 서비스는 서비스의 다른 테넌트에게 부정적인 영향을 주지 않도록 연결을 거부하는 사용자를 의도적으로 제한합니다.

스마트 재시도/백오프 논리를 사용하여 일시적인 오류의 영향을 완화합니다.

예외를 throw하고 고객에게 사용할 수 없거나 오류 페이지를 표시하는 대신 일반적으로 일시적인 오류를 인식하고 오류가 발생한 작업을 자동으로 다시 시도하여 오래 전에 성공할 수 있기를 바랍니다. 대부분의 경우 두 번째 시도에서 작업이 성공하며 고객이 문제가 있다는 것을 알지 못한 상태에서 오류에서 복구할 수 있습니다.

스마트 재시도 논리를 구현하는 방법에는 여러 가지가 있습니다.

  • Microsoft Patterns & Practices 그룹에는 Entity Framework가 아닌 SQL Database 액세스에 ADO.NET 사용하는 경우 모든 작업을 수행하는 일시적인 오류 처리 애플리케이션 블록이 있습니다. 다시 시도에 대한 정책(쿼리 또는 명령을 다시 시도하는 횟수 및 시도 사이에 대기하는 시간)을 설정하고 사용 블록에서 SQL 코드를 래핑합니다.

    public void HandleTransients()
    {
        var connStr = "some database";
        var _policy = RetryPolicy.Create < SqlAzureTransientErrorDetectionStrategy(
            retryCount: 3,
            retryInterval: TimeSpan.FromSeconds(5));
    
        using (var conn = new ReliableSqlConnection(connStr, _policy))
        {
            // Do SQL stuff here.
        }
    }
    

    또한 TFH는 Azure In-Role CacheService Bus를 지원합니다.

  • Entity Framework를 사용하는 경우 일반적으로 SQL 연결로 직접 작업하지 않으므로 이 패턴 및 사례 패키지를 사용할 수 없지만 Entity Framework 6은 이러한 종류의 재시도 논리를 프레임워크에 바로 빌드합니다. 비슷한 방법으로 재시도 전략을 지정한 다음, EF는 데이터베이스에 액세스할 때마다 해당 전략을 사용합니다.

    수정 앱에서 이 기능을 사용하려면 DbConfiguration 에서 파생된 클래스를 추가하고 다시 시도 논리를 켜기만 하면 됩니다.

    // EF follows a Code based Configuration model and will look for a class that
    // derives from DbConfiguration for executing any Connection Resiliency strategies
    public class EFConfiguration : DbConfiguration
    {
        public EFConfiguration()
        {
            AddExecutionStrategy(() => new SqlAzureExecutionStrategy());
        }
    }
    

    프레임워크가 일반적으로 일시적인 오류로 식별하는 SQL Database 예외의 경우 표시된 코드는 EF에 재시도 사이의 기하급수적 백오프 지연과 최대 5초의 지연 시간을 사용하여 작업을 최대 3번 다시 시도하도록 지시합니다. 지수 백오프는 각 실패 후 다시 시도하기 전에 더 긴 시간 동안 대기한다는 것을 의미합니다. 한 행에서 세 번의 시도가 실패하면 예외가 throw됩니다. 회로 차단기에 대한 다음 섹션에서는 지수 백오프 및 제한된 수의 재시도를 원하는 이유를 설명합니다.

    Azure Storage 서비스를 사용할 때 Blob에 대해 수정 앱이 수행하는 것처럼 비슷한 문제가 발생할 수 있으며 .NET Storage 클라이언트 API는 이미 동일한 종류의 논리를 구현합니다. 재시도 정책을 지정하기만 하면 되며, 기본 설정에 만족하는 경우에도 그렇게 할 필요가 없습니다.

회로 차단기

너무 오랜 기간 동안 너무 많은 시간을 다시 시도하지 않으려는 몇 가지 이유가 있습니다.

  • 실패한 요청을 지속적으로 다시 시도하는 사용자가 너무 많으면 다른 사용자의 환경이 저하될 수 있습니다. 수백만 명의 사람들이 모두 반복적인 재시도 요청을 하는 경우 IIS 디스패치 큐를 연결하고 앱이 성공적으로 처리할 수 있는 요청을 서비스하지 못하게 할 수 있습니다.
  • 서비스 오류로 인해 모든 사용자가 다시 시도하는 경우 대기 중인 요청이 너무 많아서 서비스가 복구되기 시작할 때 홍수가 발생할 수 있습니다.
  • 제한으로 인해 오류가 발생하고 서비스에서 제한에 사용하는 시간이 있는 경우 계속 다시 시도하면 해당 창이 밖으로 이동하고 제한이 계속될 수 있습니다.
  • 웹 페이지가 렌더링될 때까지 기다리는 사용자가 있을 수 있습니다. 사람들이 너무 오래 기다리게 하는 것은 비교적 빨리 나중에 다시 시도하라고 조언하는 것이 더 성가신 일 수 있습니다.

지수 백오프는 애플리케이션에서 서비스가 가져올 수 있는 재시도 빈도를 제한하여 이러한 문제 중 일부를 해결합니다. 그러나 회로 차단기도 있어야 합니다. 즉, 특정 재시도 임계값에서 앱이 재시도를 중지하고 다음 중 하나와 같은 다른 작업을 수행합니다.

  • 사용자 지정 대체. 로이터에서 주가를 얻을 수없는 경우, 어쩌면 당신은 블룸버그에서 그것을 얻을 수 있습니다; 또는 데이터베이스에서 데이터를 가져올 수 없는 경우 캐시에서 가져올 수 있습니다.
  • 자동으로 실패합니다. 서비스에서 필요한 항목이 앱에 대한 전부 또는 아무것도 아닌 경우 데이터를 가져올 수 없는 경우 null만 반환합니다. 수정 작업을 표시하고 Blob 서비스가 응답하지 않는 경우 이미지 없이 작업 세부 정보를 표시할 수 있습니다.
  • 빠르게 실패합니다. 다른 사용자에게 서비스 중단을 발생하거나 제한 창을 확장할 수 있는 재시도 요청으로 인해 서비스에 홍수가 발생하지 않도록 사용자를 오류 처리합니다. 친숙한 "나중에 다시 시도" 메시지를 표시할 수 있습니다.

한 가지 크기에 맞는 재시도 정책은 없습니다. 사용자가 응답을 기다리는 동기 웹앱보다 비동기 백그라운드 작업자 프로세스에서 더 많은 시간을 재시도하고 더 오래 기다릴 수 있습니다. 관계형 데이터베이스 서비스에 대한 재시도 사이에 캐시 서비스보다 더 오래 기다릴 수 있습니다. 다음은 숫자가 어떻게 달라질 수 있는지에 대한 아이디어를 제공하는 몇 가지 권장 재시도 정책 샘플입니다. ("Fast First"는 첫 번째 재시도 전에 지연되지 않음을 의미합니다.

샘플 다시 시도 정책

SQL Database 재시도 정책 지침은 일시적인 오류 및 SQL Database 연결 오류 문제 해결을 참조하세요.

요약

재시도/백오프 전략은 대부분의 경우 고객에게 일시적인 오류를 보이지 않게 하는 데 도움이 될 수 있으며, Microsoft는 ADO.NET, Entity Framework 또는 Azure Storage 서비스를 사용하든 관계없이 전략을 구현하는 작업을 최소화하는 데 사용할 수 있는 프레임워크를 제공합니다.

다음 챕터에서는 분산 캐싱을 사용하여 성능 및 안정성을 개선하는 방법을 살펴보겠습니다.

리소스

자세한 내용은 다음 자료를 참조하세요.

설명서

동영상

  • FailSafe: 확장 가능하고 복원력 있는 Cloud Services 빌드합니다. 울리히 호만, 마크 머큐리, 마크 심스의 9부작 시리즈. 실제 고객과의 MICROSOFT CAT(고객 자문 팀) 경험에서 가져온 스토리와 함께 매우 액세스 가능하고 흥미로운 방식으로 높은 수준의 개념과 아키텍처 원칙을 제시합니다. 40:55부터 시작되는 에피소드 3에서 회로 차단기에 대한 설명을 참조하세요.
  • 큰 빌드: Azure 고객으로부터 배운 교훈 - 2부. Mark Simms는 오류 설계, 일시적인 오류 처리 및 모든 것을 계측하는 방법에 대해 설명합니다.

코드 샘플