Recuperação na região usando zonas de disponibilidade e recuperação de desastres geográficos entre regiões (Grade de Eventos do Azure)

Artigo
04/17/2024

Este artigo descreve como a Grade de Eventos do Azure dá suporte à recuperação automática na região de suas definições de recursos e dados da Grade de Eventos quando ocorre uma falha em uma região que tem zonas de disponibilidade. Ele também descreve como a Grade de Eventos oferece suporte à recuperação automática de definições de recursos da Grade de Eventos (sem dados) para outra região quando ocorre uma falha em uma região que tem uma região emparelhada.

Recuperação na região usando zonas de disponibilidade

As zonas de disponibilidade do Azure são locais fisicamente separados dentro de cada região do Azure que são tolerantes a falhas locais. Eles são conectados por uma rede de alto desempenho com uma latência de ida e volta de menos de 2 milissegundos. Cada zona de disponibilidade é composta por um ou mais data centers equipados com infraestrutura independente de energia, resfriamento e rede. Se uma zona for afetada, os serviços regionais, a capacidade e a alta disponibilidade serão suportados pelas duas zonas restantes. Para obter mais informações sobre zonas de disponibilidade, consulte Regiões e zonas de disponibilidade. Neste artigo, você também pode ver a lista de regiões que têm zonas de disponibilidade.

As definições de recursos da Grade de Eventos para tópicos, tópicos do sistema, domínios e assinaturas de eventos e dados de eventos são replicadas automaticamente em três zonas de disponibilidade (quando disponíveis) na região. Quando há uma falha em uma das zonas de disponibilidade, os recursos da Grade de Eventos fazem failover automaticamente para outra zona de disponibilidade sem qualquer intervenção humana. Atualmente, não é possível controlar (ativar ou desativar) esse recurso. Quando uma região existente começa a oferecer suporte a zonas de disponibilidade, os recursos existentes da Grade de Eventos são automaticamente submetidos a failover para aproveitar esse recurso. Não é precisa qualquer ação da parte do cliente.

Diagrama que mostra as zonas de disponibilidade que protegem contra desastres localizados e desastres regionais ou geográficos de grande porte usando outra região.

Recuperação de desastres geográficos entre regiões

Quando uma região do Azure sofre uma interrupção prolongada, você pode estar interessado em opções de failover para uma região alternativa para continuidade de negócios. Muitas regiões do Azure têm pares geográficos e outras não. Para obter uma lista de regiões que têm regiões emparelhadas, consulte Emparelhamentos de replicação entre regiões do Azure para todas as regiões.

Para regiões com um par geográfico, a Grade de Eventos oferece um recurso para fazer failover do tráfego de publicação para a região emparelhada para tópicos personalizados, tópicos do sistema e domínios. Nos bastidores, a Grade de Eventos sincroniza automaticamente as definições de recursos de tópicos, tópicos do sistema, domínios e assinaturas de eventos para a região emparelhada. No entanto, os dados do evento não são replicados para a região emparelhada. No estado normal, os eventos são armazenados na região selecionada para esse recurso. Quando há uma interrupção de região e a Microsoft inicia o failover, novos eventos começam a fluir para a região emparelhada geograficamente e são despachados de lá sem a sua intervenção. Os eventos publicados e aceitos na região original são enviados de lá depois que a interrupção é mitigada.

O failover iniciado pela Microsoft é exercido pela Microsoft em situações raras para fazer failover de recursos da Grade de Eventos de uma região afetada para a região emparelhada geograficamente correspondente. A Microsoft reserva-se o direito de determinar quando esta opção será exercida. Esse mecanismo não envolve um consentimento do usuário antes que o tráfego do usuário seja submetido a failover.

Você pode habilitar ou desabilitar essa funcionalidade atualizando a configuração para seu tópico ou domínio. Selecione a opção Cross-Geo (padrão) para habilitar o failover iniciado pela Microsoft e Regional para desativá-lo. Para obter etapas detalhadas para definir essa configuração, consulte Configurar residência de dados. Se você optar por regional, nenhum dado de qualquer tipo será replicado para outra região pela Microsoft e você poderá definir seu próprio plano de recuperação de desastres. Para obter mais informações, consulte Criar seu próprio plano de recuperação de desastres para tópicos e domínios da Grade de Eventos do Azure.

Captura de tela mostrando a página Configuração de um tópico personalizado da Grade de Eventos.

Aqui estão alguns motivos pelos quais você deseja desabilitar o recurso de failover iniciado pela Microsoft:

O failover iniciado pela Microsoft é feito com base no melhor esforço.
Alguns pares geográficos não atendem aos requisitos de residência de dados da sua organização.

Nesses casos, a opção recomendada é criar seu próprio plano de recuperação de desastres para tópicos e domínios da Grade de Eventos do Azure. Embora essa opção exija um pouco mais de esforço, ela permite um failover mais rápido e você tem o controle da escolha de regiões secundárias. Se você quiser implementar a recuperação de desastres do lado do cliente para tópicos da Grade de Eventos do Azure, consulte Criar sua própria recuperação de desastres do lado do cliente para tópicos da Grade de Eventos do Azure.

RTO e RPO

A recuperação de desastres é medida com duas métricas:

RPO (Recovery Point Objetive, objetivo de ponto de recuperação): os minutos ou horas de dados que podem ser perdidos.
Recovery Time Objetive (RTO): os minutos ou horas em que o serviço pode estar inativo.

O failover automático da Grade de Eventos tem diferentes RPOs e RTOs para seus metadados (tópicos, domínios, assinaturas de eventos) e dados (eventos). Se você precisar de especificações diferentes das seguintes, ainda poderá implementar seu próprio failover do lado do cliente usando as APIs de integridade do tópico.

Objetivo de ponto de recuperação (RPO)

RPO de metadados: zero minutos. Para recursos aplicáveis, quando um recurso é criado/atualizado/excluído, a definição de recurso é replicada de forma síncrona para o par geográfico. Quando ocorre um failover, nenhum metadados é perdido.
RPO de dados: quando ocorre um failover, novos dados são processados da região emparelhada. Assim que a interrupção é mitigada para a região afetada, os eventos não processados são despachados de lá. Se a recuperação da região exigisse mais tempo do que o valor de tempo de vida definido nos eventos, os dados poderiam ser descartados. Para atenuar essa perda de dados, recomendamos que você configure um destino de letra morta para uma assinatura de evento. Se a região afetada for perdida e irrecuperável, haverá alguma perda de dados. Na melhor das hipóteses, o assinante está acompanhando a taxa de publicação e apenas alguns segundos de dados são perdidos. O pior cenário seria quando o assinante não está processando ativamente eventos e com um tempo máximo de vida de 24 horas, a perda de dados pode ser de até 24 horas.

Objetivo de tempo de recuperação (RTO)

RTO de metadados: a tomada de decisão de failover é baseada em fatores como a capacidade disponível em região emparelhada e pode durar no intervalo de 60 minutos ou mais. Assim que o failover é iniciado, dentro de 5 minutos, a Grade de Eventos começa a aceitar chamadas de criação/atualização/exclusão de tópicos e assinaturas.
RTO de dados: As mesmas informações acima.

Importante

No caso de recuperação de desastres do lado do servidor, se a região emparelhada não tiver capacidade extra para receber o tráfego adicional, a Grade de Eventos não poderá iniciar o failover. A recuperação é feita com base no melhor esforço.
A utilização desta funcionalidade é gratuita.
A recuperação de desastres geográficos não é suportada para namespaces de parceiros e tópicos de parceiros.

Próximos passos

Consulte Criar sua própria recuperação de desastres do lado do cliente para tópicos da Grade de Eventos do Azure.

Recuperação na região usando zonas de disponibilidade e recuperação de desastres geográficos entre regiões (Grade de Eventos do Azure)