Referencia de configuración del grupo

Artículo
04/17/2024

En este artículo se describe la configuración disponible al crear un grupo mediante la interfaz de usuario. Para saber cómo utilizar la CLI de Databricks para crear un grupo, consulte CLI de grupos de instancias (heredados). Para saber cómo utilizar la API REST para crear un grupo, consulte API Instance Pools 2.0.

Tamaño de la piscina y terminación automática

Al crear un grupo, puede establecer tres parámetros para controlar su tamaño: instancias inactivas mínimas, capacidad máxima y terminación automática de instancias inactivas.

Instancias mínimas de inactividad

Número mínimo de instancias que el grupo mantiene inactivas. Estas instancias no finalizan, independientemente de la configuración de finalización automática. Si un clúster consume instancias inactivas del grupo, Azure Databricks aprovisiona instancias adicionales para mantener el mínimo.

Capacidad máxima

El número máximo de instancias que el grupo puede aprovisionar. Si se establece, este valor restringe todas las instancias (inactivas y usadas). Si un clúster que usa el grupo solicita un número de instancias superior a este durante el escalado automático, se producirá un error INSTANCE_POOL_MAX_CAPACITY_FAILURE en la solicitud.

Esta configuración es opcional. Azure Databricks recomienda establecer un valor solo en las circunstancias siguientes:

Tiene una cuota de instancias que debe considerar como límite máximo.
Quiere evitar que un conjunto de trabajo afecte a otro. Por ejemplo, suponga que la cuota de instancias es de 100 y que tiene los equipos A y B que deben ejecutar trabajos. Puede crear el grupo A con un máximo de 50 y el grupo B con un máximo de 50 también para que ambos equipos compartan la cuota de 100 de forma equitativa.
Debe limitarse el costo.

Terminación automática de instancias inactivas

El tiempo en minutos que las instancias por encima del valor establecido en las instancias inactivas mínimas pueden estar inactivas antes de que el grupo las termine.

Tipos de instancia

Un grupo consta tanto de instancias inactivas, que se mantienen listas para los clústeres nuevos, como de instancias en uso por parte de los clústeres en ejecución. Todas estas instancias son del mismo tipo de proveedor de instancias, que se selecciona al crear un grupo.

No se puede editar el tipo de instancia de un grupo. Los clústeres asociados a un grupo usan el mismo tipo de instancia para los nodos de controlador y de trabajo. Las distintas familias de tipos de instancia se ajustan a distintos casos de uso, como cargas de trabajo con un uso intensivo de memoria o de proceso intensivo.

Azure Databricks siempre proporciona un aviso de desuso de un año antes de dejar de ofrecer compatibilidad con un tipo de instancia.

Nota:

Si los requisitos de seguridad incluyen aislamiento de proceso, seleccione una instancia Standard_F72s_V2 como tipo de trabajo. Estos tipos de instancia representan máquinas virtuales aisladas que consumen todo el host físico y proporcionan el nivel de aislamiento necesario para admitir, por ejemplo, las cargas de trabajo de nivel de impacto 5 (IL5) del Departamento de Defensa de Estados Unidos.

Versión precargada de Databricks Runtime

Para acelerar el inicio de un clúster, seleccione una versión de Databricks Runtime para cargarla en las instancias inactivas del grupo. Si un usuario selecciona ese runtime al crear un clúster respaldado por el grupo, ese clúster se iniciará incluso más rápido que un clúster respaldado por el grupo que no use una versión precargada de Databricks Runtime.

Si se establece esta opción en Ninguno, se ralentizan los inicios del clúster, ya que hace que la versión de Databricks Runtime se descargue a petición en las instancias inactivas del grupo. Cuando el clúster libera las instancias en el grupo, la versión de Databricks Runtime permanece almacenada en caché en esas instancias. La siguiente operación de creación de clúster que use la misma versión de Databricks Runtime puede beneficiarse de este comportamiento de almacenamiento en caché, pero no se garantiza.

Imagen Docker precargada

Las imágenes Docker son compatibles con grupos si se utiliza la API de grupos de instancias para crear el grupo.

Etiquetas de grupo

Las etiquetas de grupo permiten supervisar fácilmente el costo de los recursos en la nube que los diferentes grupos de la organización usan. Puede especificar etiquetas como pares clave-valor al crear un grupo, y Azure Databricks aplica estas etiquetas a recursos en la nube, como VM y volúmenes de disco, así como a informes de uso de DBU.

Por comodidad, Azure Databricks aplica tres etiquetas predeterminadas a cada grupo: Vendor, DatabricksInstancePoolId y DatabricksInstancePoolCreatorId. También puede agregar etiquetas personalizadas al crear un grupo. Puede agregar hasta 41 etiquetas personalizadas.

Custom_tags

Para agregar etiquetas adicionales al grupo, vaya a la pestaña Pestañas de la parte inferior de la página Crear grupo. Haga clic en el botón + Agregar y, a continuación, escriba el par clave-valor.

Los clústeres con respaldo de un grupo heredan las etiquetas predeterminadas y personalizadas de la configuración del grupo. Para obtener información detallada sobre cómo funcionan conjuntamente las etiquetas de grupo y de clúster, consulte Supervisión del uso mediante etiquetas.

Escalado automático del almacenamiento local

A menudo puede ser difícil calcular cuánto espacio en disco necesitará un trabajo determinado. Para evitar tener que calcular cuántos gigabytes de disco administrado se deben asociar al grupo en el momento de su creación, Azure Databricks habilita automáticamente el escalado automático del almacenamiento local en todos los grupos de Azure Databricks.

Con el escalado automático del almacenamiento local, Azure Databricks supervisa la cantidad de espacio que queda disponible en el disco en las instancias del grupo. Si una instancia se ejecuta con muy poco espacio en el disco, se asocia de forma automática un nuevo disco administrado antes de que el espacio en disco sea insuficiente. Los discos tienen asociado un límite de hasta 5 TB de espacio total en disco por máquina virtual (incluido el almacenamiento local inicial de la máquina virtual).

Los discos administrados conectados a una máquina virtual solo se desasocian cuando la máquina virtual se devuelve a Azure. Es decir, los discos administrados nunca se desasocian de una máquina virtual, siempre que forme parte de un grupo en ejecución.

Instancias de acceso puntual

Para ahorrar costos, puede elegir usar instancias de acceso puntual si selecciona el botón de radio All Spot (Todo acceso puntual).

Los clústeres del grupo se iniciarán con instancias de acceso puntual para todos los nodos, de controlador y de trabajo (a diferencia del controlador híbrido a petición y los trabajos de instancias de acceso puntual para clústeres que no son de grupo).

Si las instancias de acceso puntual se expulsan debido a la falta de disponibilidad, las instancias a petición no reemplazarán las instancias expulsadas.