Disponibilità elevata dei dati con Apache Kafka (anteprima) in HDInsight

Questo articolo illustra come configurare le repliche di partizione per gli argomenti Kafka in modo da sfruttare la configurazione rack hardware sottostante, che garantisce la disponibilità dei dati archiviati in Apache Kafka in HDInsight.

Domini di errore e di aggiornamento con Kafka

Un dominio di errore è un raggruppamento logico dell'hardware sottostante in un data center di Azure. Ogni dominio di errore condivide una fonte di alimentazione e un commutatore di rete comuni. Le macchine virtuali e i dischi gestiti che implementano i nodi in un cluster HDInsight sono distribuiti tra i domini di errore. Questa architettura limita il potenziale impatto dei guasti dell'hardware fisico.

Ogni area di Azure include un numero specifico di domini di errore. Per un elenco dei domini e il numero dei domini di errore in essi contenuti, vedere la documentazione relativa ai set di disponibilità.

Importante

Kafka non rileva i domini di errore. Quando si crea un argomento in Kafka, tutte le partizioni di replica potrebbero essere archiviate nello stesso dominio di errore. Per risolvere il problema, è disponibile uno strumento per il ribilanciamento delle partizioni Kafka.

Quando ribilanciare le repliche di partizione

Per garantire la massima disponibilità dei dati Kafka, è consigliabile ribilanciare le repliche di partizione per l'argomento nei momenti seguenti:

  • Quando viene creato un nuovo argomento o una nuova partizione

  • Quando si aumentano le prestazioni di un cluster

Fattore di replica

Importante

È consigliabile usare un'area di Azure contenente tre domini di errore e un fattore di replica di 3.

Se si deve usare un'area che contiene solo due domini di errore, usare un fattore di replica di 4 per distribuire uniformemente le repliche tra i due domini di errore.

Per un esempio della creazione di argomenti e dell'impostazione del fattore di replica, vedere il documento su come iniziare a usare Kafka in HDInsight.

Come ribilanciare le repliche di partizione

Usare lo strumento per il ribilanciamento delle partizioni Kafka per ribilanciare gli argomenti selezionati. Questo strumento deve essere eseguito da una sessione SSH al nodo head del cluster Kafka.

Per altre informazioni sulla connessione a HDInsight con SSH, vedere il documento su come usare SSH con HDInsight.

Passaggi successivi