Hochverfügbarkeit Ihrer Daten mit Apache Kafka in HDInsightHigh availability of your data with Apache Kafka on HDInsight

Erfahren Sie, wie Partitionsreplikate für Apache Kafka-Themen für die Nutzung der zugrunde liegenden Konfiguration des Hardwareracks konfiguriert werden.Learn how to configure partition replicas for Apache Kafka topics to take advantage of underlying hardware rack configuration. Diese Konfiguration stellt die Verfügbarkeit von Daten sicher, die in Apache Kafka in HDInsight gespeichert sind.This configuration ensures the availability of data stored in Apache Kafka on HDInsight.

Fehler- und Updatedomänen bei Apache KafkaFault and update domains with Apache Kafka

Eine Fehlerdomäne ist eine logische Gruppierung von zugrundeliegender Hardware in einem Azure-Rechenzentrum.A fault domain is a logical grouping of underlying hardware in an Azure data center. Jede Fehlerdomäne verwendet eine Stromquelle und einen Netzwerkswitch gemeinsam.Each fault domain shares a common power source and network switch. Die virtuellen Computer und verwalteten Datenträger, die die Knoten innerhalb eines HDInsight-Clusters implementieren, werden auf diese Fehlerdomänen verteilt.The virtual machines and managed disks that implement the nodes within an HDInsight cluster are distributed across these fault domains. Diese Architektur schränkt die potenziellen Auswirkungen physischer Hardwarefehler ein.This architecture limits the potential impact of physical hardware failures.

Jede Azure-Region weist eine bestimmte Anzahl von Fehlerdomänen auf.Each Azure region has a specific number of fault domains. Eine Liste der Domänen und die Anzahl der Fehlerdomänen, die sie enthalten, finden Sie in der Dokumentation zu Verfügbarkeitsgruppen.For a list of domains and the number of fault domains they contain, see the Availability sets documentation.

Wichtig

Fehlerdomänen sind Kafka nicht bekannt.Kafka is not aware of fault domains. Beim Erstellen eines Themas in Kafka werden u.U. alle Partitionsreplikate in der gleichen Fehlerdomäne gespeichert.When you create a topic in Kafka, it may store all partition replicas in the same fault domain. Zur Lösung dieses Problems stellt HDInsight das Tool zum Ausgleichen von Kafka-Partitionen bereit.To solve this problem, HDInsight provides the Kafka partition rebalance tool.

Wann sollten Partitionsreplikate ausgeglichen werden?When to rebalance partition replicas

Um die höchste Verfügbarkeit Ihrer Kafka-Daten sicherzustellen, sollten Sie die Partitionsreplikate für Ihr Thema zu folgenden Zeitpunkten ausgleichen:To ensure the highest availability of your Kafka data, you should rebalance the partition replicas for your topic at the following times:

  • Wenn ein neues Thema oder eine neue Partition erstellt wirdWhen a new topic or partition is created

  • Wenn Sie einen Cluster zentral hochskalierenWhen you scale up a cluster

ReplikationsfaktorReplication factor

Wichtig

Es wird empfohlen, eine Azure-Region mit drei Fehlerdomänen und den Replikationsfaktor 3 zu verwenden.We recommend using an Azure region that contains three fault domains, and using a replication factor of 3.

Wenn Sie eine Region verwenden müssen, die nur zwei Fehlerdomänen enthält, verwenden Sie den Replikationsfaktor 4, um die Replikate gleichmäßig auf die zwei Fehlerdomänen zu verteilen.If you must use a region that contains only two fault domains, use a replication factor of 4 to spread the replicas evenly across the two fault domains.

Ein Beispiel zum Erstellen von Themen und zum Festlegen des Replikationsfaktors finden Sie im Dokument Erste Schritte mit Apache Kafka in HDInsight.For an example of creating topics and setting the replication factor, see the Start with Apache Kafka on HDInsight document.

Ausgleichen von PartitionsreplikatenHow to rebalance partition replicas

Verwenden Sie das Tool zum Ausgleichen von Apache Kafka-Partitionen, um ausgewählte Themen auszugleichen.Use the Apache Kafka partition rebalance tool to rebalance selected topics. Dieses Tool muss über eine SSH-Sitzung für den Hauptknoten des Kafka-Clusters ausgeführt werden.This tool must be ran from an SSH session to the head node of your Kafka cluster.

Weitere Informationen zum Herstellen einer Verbindung mit HDInsight mithilfe von SSH finden Sie im Dokument Verwenden von SSH mit HDInsight.For more information on connecting to HDInsight using SSH, see the Use SSH with HDInsight document.

Nächste SchritteNext steps