Configurare l'archiviazione e la scalabilità per Apache Kafka in HDInsight

Questo articolo spiega come configurare il numero di dischi gestiti usati da Apache Kafka in HDInsight.

Kafka in HDInsight usa il disco locale delle macchine virtuali nel cluster HDInsight. Dal momento che in Kafka i processi I/O sono intensivi, viene usata la funzionalità Azure Managed Disks per assicurare una velocità effettiva elevata e fornire maggiore spazio di archiviazione per ogni nodo. Se si usano le tradizionali unità disco rigido virtuali (VHD) per Kafka, ogni nodo è limitato a 1 TB. Con i dischi gestiti, è possibile usare più dischi per ottenere 16 TB per ogni nodo del cluster.

Il diagramma seguente offre un confronto tra Kafka in HDInsight prima dei dischi gestiti e Kafka in HDInsight con i dischi gestiti:

Diagramma che mostra Kafka in HDInsight con un singolo disco rigido virtuale per ogni macchina virtuale e con più dischi gestiti per ogni macchina virtuale

Configurare i dischi gestiti: portale di Azure

  1. Seguire i passaggi riportati in Creare un cluster HDInsight per comprendere le operazioni principali per creare un cluster tramite il portale. Non completare il processo di creazione del portale.

  2. Nella sezione Dimensioni del cluster usare il campo Disks per worker node (Dischi per nodo del ruolo di lavoro) per configurare il numero di dischi.

    Nota

    Il tipo di disco gestito può essere Standard (HDD) o Premium (SSD). I dischi Premium sono usati con le macchine virtuali serie DS e GS. Tutti gli altri tipi di macchine virtuali usano dischi Standard.

    Immagine della sezione Dimensioni del cluster con i dischi per nodo del ruolo di lavoro evidenziati

Configurare i dischi gestiti: modello di Resource Manager

Per controllare il numero di dischi usati dai nodi del ruolo di lavoro in un cluster Kafka, usare la sezione seguente del modello:

"dataDisksGroups": [
    {
        "disksPerNode": "[variables('disksPerWorkerNode')]"
    }
    ],

È possibile trovare un modello completo che illustra come configurare i dischi gestiti all'indirizzo https://hditutorialdata.blob.core.windows.net/armtemplates/create-linux-based-kafka-mirror-cluster-in-vnet-v2.1.json.

Passaggi successivi

Per altre informazioni sull'uso della gestione di Kafka in HDInsight, vedere i documenti seguenti: