Configuración del almacenamiento y la escalabilidad de Apache Kafka en HDInsight

Aprenda a configurar el número de discos administrados usados por Apache Kafka en HDInsight.

Kafka en HDInsight utiliza el disco local de las máquinas virtuales del clúster de HDInsight. Como Kafka tiene muchas E/S, Azure Managed Disks se utiliza para proporcionar un alto rendimiento y un mayor espacio de almacenamiento por nodo. Si los discos duros virtuales (VHD) tradicionales se utilizaron para Kafka, cada nodo se limita a 1 TB. Con Managed Disks, puede utilizar varios discos para lograr hasta 16 TB para cada nodo del clúster.

El diagrama siguiente proporciona una comparación entre Kafka en HDInsight antes de usar Managed Disks y Kafka en HDInsight ya con este:

kafka with managed disks architecture.

Configuración de Managed Disks: Azure Portal

  1. Siga los pasos que se explican en Creación de un clúster de HDInsight para comprender los pasos habituales para crear un clúster mediante el portal. No termine el proceso de creación del portal.

  2. En la sección Configuración y precios, use el campo Número de nodos para configurar el número de discos.

    Nota:

    El tipo de disco administrado puede ser Estándar (HDD) o Premium (SSD). Los discos Premium se utilizan con máquinas virtuales de las series DS y GS. Todos los otros tipos de máquina virtual usan discos estándar.

    cluster size section with the disks per worker node highlighted.

Configuración de Managed Disks: Plantilla de Resource Manager

Para controlar el número de discos usados por los nodos de trabajo en un clúster de Kafka, utilice la siguiente sección de la plantilla:

"dataDisksGroups": [
    {
        "disksPerNode": "[variables('disksPerWorkerNode')]"
    }
    ],

Pasos siguientes

Para más información sobre cómo trabajar con Apache Kafka en HDInsight, consulte los documentos siguientes: