Informations de référence sur la configuration de pool

Article
03/13/2024

Cet article décrit les paramètres disponibles lors de la création d’un pool à l’aide de l’interface utilisateur. Pour savoir comment utiliser l’interface CLI Databricks afin de créer un pool, consultez Interface CLI des pools d’instances (héritée). Pour savoir comment utiliser l’API REST afin de créer un pool, consultez API des pools d’instances.

Taille du pool et arrêt automatique

Quand vous créez un pool, afin de contrôler sa taille, vous pouvez définir trois paramètres : nombre minimal d’instances inactives, capacité maximale et arrêt automatique des instances inactives.

Nombre minimal d’instances inactives

Nombre minimal d’instances que le pool maintient inactives. Ces instances ne s’arrêtent pas, quels que soient les paramètres d’arrêt automatique. Si un cluster consomme des instances inactives du pool, Azure Databricks provisionne des instances supplémentaires pour maintenir la valeur minimale.

Capacité maximale

Nombre maximal d’instances que le pool peut provisionner. Si elle est définie, cette valeur contraint toutes les instances (inactives + utilisées). Si un cluster utilisant le pool demande plus d’instances que ce nombre durant la mise à l’échelle automatique, la demande échoue avec l’erreur INSTANCE_POOL_MAX_CAPACITY_FAILURE.

Cette configuration est facultative. Azure Databricks recommande de définir une valeur uniquement dans les cas suivants :

Vous avez un quota d’instances à ne pas dépasser.
Vous souhaitez éviter qu’un ensemble de travaux en impacte un autre. Par exemple, supposons que votre quota d’instances est de 100 et que les équipes A et B doivent exécuter des travaux. Vous pouvez créer un pool A avec une quantité maximale de 50 et un pool B avec une quantité maximale de 50 afin que les deux équipes partagent le quota de 100 à égalité.
Vous devez limiter les coûts.

Arrêt automatique des instances inactives

Durée en minutes au-dessus de la valeur définie dans Nombre minimal d’instances inactives pendant laquelle les instances peuvent être inactives avant d’être arrêtées par le pool.

Types d’instances

Un pool se compose d’instances inactives à la disposition de nouveaux clusters et d’instances utilisées par des clusters en cours d’exécution. Toutes ces instances sont du même type de fournisseur d’instances, sélectionné lors de la création d’un pool.

Il est impossible de modifier le type d’instance d’un pool. Les clusters attachés à un pool utilisent le même type d’instance pour les nœuds de pilote et Worker. Différentes familles de types d'instances correspondent à différents cas d'utilisation, tels que les charges de travail à forte intensité de mémoire ou de calcul.

Azure Databricks fournit toujours un préavis de dépréciation d’une année avant de cesser la prise en charge d’un type d’instance.

Remarque

Si vos exigences de sécurité incluent l’isolation de calcul, sélectionnez une instance Standard_F72s_V2 comme type de Worker. Ces types d'instance représentent des machines virtuelles isolées qui consomment la totalité de l'hôte physique et fournissent le niveau d'isolation nécessaire pour prendre en charge, par exemple, les charges de travail de niveau d'impact 5 (IL5) du ministère américain de la Défense.

Version préchargée de Databricks Runtime

Vous pouvez accélérer les lancements de cluster en sélectionnant une version de Databricks Runtime à charger sur les instances inactives dans le pool. Si un utilisateur sélectionne ce runtime quand il crée un cluster secondé par le pool, ce cluster se lance encore plus rapidement qu’un cluster de même type qui n’utilise pas de version préchargée de Databricks Runtime.

L’affectation de la valeur None à cette option ralentit les lancements de cluster, car elle entraîne le téléchargement de la version de Databricks Runtime à la demande vers les instances inactives dans le pool. Quand le cluster libère les instances dans le pool, la version de Databricks Runtime reste en cache sur ces instances. L’opération de création de cluster suivante qui utilise la même version de Databricks Runtime peut tirer parti de ce comportement de mise en cache, mais ce n’est pas garanti.

Preloaded_Docker_images

Les images Docker sont prises en charge avec les pools si vous utilisez l’API pools d’instances pour créer le pool.

Étiquettes de pool

Les étiquettes de pool vous permettent de superviser facilement le coût des ressources cloud utilisées par différents groupes de votre organisation. Vous pouvez spécifier des étiquettes sous forme de paires clé-valeur lorsque vous créez un pool, et Azure Databricks applique ces étiquettes aux ressources du cloud telles que les VM et les volumes de disque, ainsi qu'aux rapports d'utilisation des DBU.

Pour plus de commodité, Azure Databricks applique trois étiquettes par défaut à chaque pool : Vendor, DatabricksInstancePoolId et DatabricksInstancePoolCreatorId. Vous pouvez également ajouter des étiquettes personnalisées lors de la création d’un pool. Vous pouvez ajouter jusqu’à 41 étiquettes personnalisées.

Étiquettes personnalisées

Pour ajouter des étiquettes supplémentaires au pool, accédez à l’onglet Onglets au bas de la page Créer un pool. Cliquez sur le bouton + Ajouter, puis entrez la paire clé-valeur.

Les clusters secondés par le pool héritent des étiquettes par défaut et personnalisées de la configuration du pool. Pour plus d’informations sur la manière dont les étiquettes de pool et les étiquettes de cluster fonctionnent ensemble, consultez Superviser l’utilisation à l’aide d’étiquettes.

Mise à l’échelle automatique du stockage local

Il est souvent difficile d'estimer l'espace disque que prendra une tâche particulière. Pour vous éviter d’avoir à estimer le nombre de gigaoctets de disque managé à attacher à votre pool au moment de la création, Azure Databricks active automatiquement la mise à l’échelle automatique du stockage local sur tous les pools Azure Databricks.

Avec la mise à l’échelle automatique du stockage local, Azure Databricks supervise la quantité d’espace disque disponible sur les instances de votre pool. Si une instance manque excessivement d’espace disque, un nouveau disque managé est automatiquement attaché avant qu’elle ne soit privée d’espace disque. Les disques sont attachés dans la limite de 5 To d’espace disque par machine virtuelle (y compris le stockage local initial de la machine virtuelle).

Les disques managés attachés à une machine virtuelle sont détachés uniquement quand la machine virtuelle est retournée à Azure. Autrement dit, les disques managés ne sont jamais détachés d’une machine virtuelle tant qu’elle fait partie d’un pool.

Instances spot

Pour réduire les coûts, vous pouvez choisir d’utiliser des instances spot en cochant la case d’option Toutes des instances spot.

Les clusters du pool sont lancés avec des instances spot pour tous les nœuds, pilote et Worker (contrairement au pilote hybride à la demande et aux Workers d’instance spot pour les clusters autres que des clusters de pool).

Si des instances spot sont supprimées en raison d’une indisponibilité, elles ne sont pas remplacées par des instances à la demande.