Elevada disponibilidade dos seus dados com o Apache Kafka no HDInsight

Aprenda a configurar réplicas de partição para os tópicos Apache Kafka para tirar partido da configuração subjacente do rack de hardware. Esta configuração garante a disponibilidade dos dados armazenados no Apache Kafka no HDInsight.

Defeitos e atualização de domínios com Apache Kafka

Um domínio de falha é um agrupamento lógico de hardware subjacente num centro de dados do Azure. Cada domínio de falha partilha um comutador de rede e uma fonte de alimentação. As máquinas virtuais e os discos geridos que implementam os nós num cluster HDInsight são distribuídos por esses domínios de falha. Esta arquitetura limita o possível impacto de falhas físicas de hardware.

Cada região do Azure tem um número específico de domínios de falha. Para obter uma lista de domínios e o número de domínios de falha que contêm, consulte a documentação Availability Sets (Conjuntos de disponibilidade).

Importante

O Kafka não está ciente dos domínios de falha. Quando cria um tópico no Kafka, pode armazenar todas as réplicas da partição no mesmo domínio de falha. Para resolver este problema, o HDInsight disponibiliza a ferramenta de reequilíbrio de partições do Kafka.

Quando deve reequilibrar as réplicas de partições

Para garantir a maior disponibilidade dos seus dados do Kafka, deve reequilibrar as réplicas de partições do seu tópico nos seguintes momentos:

  • Quando é criado um novo tópico ou partição

  • Quando expandir um cluster

Fator de replicação

Importante

É recomendável utilizar uma região do Azure que contenha três domínios de falha e um fator de replicação de 3.

Se tiver de utilizar uma região que contenha apenas dois domínios de falha, utilize um fator de replicação de 4 para distribuir as réplicas uniformemente entre os dois domínios de falha.

Para um exemplo de criação de tópicos e definição do fator de replicação, consulte o Início com Apache Kafka no documento HDInsight.

Como reequilibrar as réplicas de partições

Utilize a ferramenta de reequilíbrio de partição Apache Kafka para reequilibrar tópicos selecionados. Esta ferramenta deve ser executada numa sessão SSH para o nó principal do cluster do Kafka.

Para obter mais informações sobre a ligação ao HDInsight através do SSH, consulte o documento Utilizar o SSH com o HDInsight.

Passos seguintes