Configurare l'archiviazione e la scalabilità per Apache Kafka in HDInsight

Questo articolo spiega come configurare il numero di dischi gestiti usati da Apache Kafka in HDInsight.

Kafka in HDInsight usa il disco locale delle macchine virtuali nel cluster HDInsight. Dal momento che in Kafka i processi I/O sono intensivi, viene usata la funzionalità Azure Managed Disks per assicurare una velocità effettiva elevata e fornire maggiore spazio di archiviazione per ogni nodo. Se si usano le tradizionali unità disco rigido virtuali (VHD) per Kafka, ogni nodo è limitato a 1 TB. Con i dischi gestiti, è possibile usare più dischi per ottenere 16 TB per ogni nodo del cluster.

Il diagramma seguente offre un confronto tra Kafka in HDInsight prima dei dischi gestiti e Kafka in HDInsight con i dischi gestiti:

kafka with managed disks architecture.

Configurare i dischi gestiti: portale di Azure

  1. Seguire i passaggi riportati in Creare un cluster HDInsight per comprendere le operazioni principali per creare un cluster tramite il portale. Non completare il processo di creazione del portale.

  2. Nella sezione Configurazione e prezzi usare il campo Numero di nodi per configurare il numero di dischi.

    Nota

    Il tipo di disco gestito può essere Standard (HDD) o Premium (SSD). I dischi Premium sono usati con le macchine virtuali serie DS e GS. Tutti gli altri tipi di macchine virtuali usano dischi Standard.

    cluster size section with the disks per worker node highlighted.

Configurare i dischi gestiti: modello di Resource Manager

Per controllare il numero di dischi usati dai nodi del ruolo di lavoro in un cluster Kafka, usare la sezione seguente del modello:

"dataDisksGroups": [
    {
        "disksPerNode": "[variables('disksPerWorkerNode')]"
    }
    ],

Passaggi successivi

Per altre informazioni sull'uso della gestione di Apache Kafka in HDInsight, vedere i documenti seguenti: