Hoge beschikbaarheid van uw gegevens met Apache Kafka in HDInsight

Informatie over het configureren van partitiereplica's voor Apache Kafka-onderwerpen om te profiteren van de configuratie van het onderliggende hardwarerek. Deze configuratie waarborgt de beschikbaarheid van gegevens die zijn opgeslagen in Apache Kafka op HDInsight.

Fout- en updatedomeinen met Apache Kafka

Een foutdomein is een logische groepering van de onderliggende hardware in een Azure-datacenter. Elk foutdomein deelt een algemene voedingsbron en netwerkswitch. De virtuele machines en beheerde schijven die de knooppunten in een HDInsight-cluster implementeren zijn verdeeld over deze foutdomeinen. Deze architectuur beperkt de potentiƫle impact van problemen met de fysieke hardware.

Elke Azure-regio heeft een bepaald aantal foutdomeinen. Zie de Beschikbaarheidssets-documentatie voor een lijst met domeinen en het aantal foutdomeinen die ze bevatten.

Belangrijk

Kafka is niet bekend met foutdomeinen. Wanneer u een onderwerp in Kafka maakt, is het daarom mogelijk dat alle partitiereplica's in hetzelfde foutdomein worden opgeslagen. Als oplossing voor dit probleem bevat HDInsight het Kafka partition rebalance tool (hulpprogramma voor het opnieuw indelen van Kafka-partities).

Wanneer partitiereplica 's opnieuw moeten worden ingedeeld

Om de hoogst mogelijke beschikbaarheid van uw Kafka-gegevens te waarborgen, moet u de partitiereplica's voor uw onderwerp op de volgende tijden opnieuw indelen:

  • wanneer een nieuw onderwerp of partitie wordt gemaakt

  • wanneer u een cluster opschaalt

Replicatiefactor

Belangrijk

Wij raden het gebruik aan van een Azure-regio die drie foutdomeinen bevat en van een replicatiefactor van 3.

Als u een regio met slechts twee foutdomeinen moet gebruiken, gebruik dan een replicatiefactor van 4 om de replica's gelijkmatig te verdelen over de twee foutdomeinen.

Zie het document Beginnen met Apache Kafka in HDInsight voor een voorbeeld van het maken van onderwerpen en het instellen van de replicatiefactor.

Hoe partitiereplica 's opnieuw moeten worden ingedeeld

Gebruik het hulpprogramma Voor het opnieuw verdelen van partities van Apache Kafka om geselecteerde onderwerpen opnieuw in balans te brengen. Dit hulpprogramma moet vanaf een SSH-sessie naar het hoofdknooppunt van het Kafka-cluster worden uitgevoerd.

Zie het document SSH gebruiken met HDInsight voor meer informatie over verbinding maken met HDInsight met behulp van SSH.

Volgende stappen