Superviser l’utilisation en utilisant des étiquettes

Pour superviser les coûts et attribuer avec précision l’utilisation d’Azure Databricks aux unités et équipes commerciales de votre organisation (pour les rétrofacturations, par exemple), vous pouvez étiqueter les espaces de travail (groupes de ressources) et les ressources de calcul. Ces étiquettes s’étendent aux rapports d’analyse des coûts détaillés auxquels vous pouvez accéder dans le portail Azure.

Voici un rapport des détails de la facture d’analyse des coûts dans le Portail Azure qui détaille le coût par étiquette clusterid sur une période d’un mois :

Analyse des coûts par ID de cluster

Ressources et objets étiquetés

Object Interface d’étiquetage (IU) Interface d’étiquetage (API)
Espace de travail Portail Azure API des ressources Azure
pool Interface utilisateur des pools dans l’espace de travail Azure Databricks API du pool d’instances
Calculs polyvalents et calculs de tâches Interface utilisateur de calcul dans l’espace de travail Azure Databricks API Clusters
Entrepôt SQL Interface utilisateur de l’entrepôt SQL dans l’espace de travail Azure Databricks API Warehouses

Avertissement

N’assignez pas de balise personnalisée avec la clé Name à un cluster. Chaque cluster possède une balise Name dont la valeur est définie par Azure Databricks. Si vous modifiez la valeur associée à la clé Name , le suivi du cluster ne peut plus être effectué par Azure Databricks. Par conséquent, il se peut que le cluster ne se termine pas après avoir été inactif et continue à entraîner des coûts d’utilisation.

Balises par défaut

Azure Databricks ajoute les balises par défaut suivantes à l’unité de calcul polyvalente :

Clé à étiquettes Valeur
Vendor Valeur constante : Databricks
ClusterId ID interne Azure Databricks du cluster
ClusterName Nom du cluster
Creator Nom d’utilisateur (adresse e-mail) de l’utilisateur qui a créé le cluster

Sur les clusters de travail, Azure Databricks applique également les étiquettes par défaut suivantes :

Clé à étiquettes Valeur
RunName Nom du travail
JobId ID de travail

Azure Databricks ajoute les étiquettes par défaut suivantes à tous les pools :

Clé à étiquettes Valeur
Vendor Valeur constante : Databricks
DatabricksInstancePoolCreatorId ID interne Azure Databricks de l’utilisateur qui a créé le pool
DatabricksInstancePoolId ID interne Azure Databricks du pool

Sur l’ordinateur utilisé par Lakehouse Monitoring, Azure Databricks applique également les balises suivantes :

Clé à étiquettes Valeur
LakehouseMonitoring true
LakehouseMonitoringTableId ID de la table surveillée
LakehouseMonitoringWorkspaceId ID de l'espace de travail où le moniteur a été créé
LakehouseMonitoringMetastoreId ID du métastore où existe la table surveillée

Propagation des étiquettes

Les étiquettes d’espace de travail, de pool et de cluster sont agrégées par Azure Databricks et propagées aux machines virtuelles Azure à des fins de création de rapports d’analyse des coûts. Toutefois, les balises du pool et du cluster sont propagées différemment les uns des autres.

Hiérarchie de l’étiquetage des objets Databricks

Les étiquettes d’espace de travail et de pool sont agrégées et affectées en tant qu’étiquettes de ressource des machines virtuelles Azure qui hébergent les pools.

Les étiquettes d’espace de travail et de cluster sont agrégées et affectées en tant qu’étiquettes de ressource des machines virtuelles Azure qui hébergent les clusters.

Lorsque les clusters sont créés à partir de pools, seules les étiquettes d’espace de travail et les étiquettes de pool sont propagées aux machines virtuelles. Les étiquettes de cluster ne sont pas propagées afin de conserver les performances de démarrage du cluster de pool.

Résolution des conflits d’étiquettes

Si une étiquette personnalisée de cluster, de pool ou d’espace de travail porte le même nom qu’une étiquette de pool ou de cluster par défaut Azure Databricks, l’étiquette personnalisée est dotée du préfixe x_ quand elle est propagée.

Par exemple, si un espace de travail est étiqueté avec vendor = Azure Databricks, cette étiquette est en conflit avec l’étiquette de cluster par défaut vendor = Databricks. Les étiquettes sont donc propagées en tant que x_vendor = Azure Databricks et vendor = Databricks.

Limites

  • Il peut falloir jusqu’à une heure pour que les étiquettes d’espace de travail personnalisées se propagent à Azure Databricks après toute modification.
  • Vous ne pouvez pas assigner plus de 50 étiquettes à une ressource Azure. Si le nombre total d’étiquettes agrégées dépasse cette limite, les étiquettes dotées du préfixe x_ sont évaluées dans l’ordre alphabétique et celles qui dépassent la limite sont ignorées. Si toutes les étiquettes dotées du préfixe x_ sont ignorées et que le nombre dépasse toujours la limite, les étiquettes restantes sont évaluées dans l’ordre alphabétique et celles qui dépassent la limite sont ignorées.
  • Les clés et valeurs des étiquettes peuvent contenir uniquement des caractères de l’ensemble ISO 8859-1 (Latin1). Les étiquettes contenant d’autres caractères sont ignorées.
  • Si vous modifiez les noms ou les valeurs de clé d’étiquette, ces modifications s’appliquent uniquement après le redémarrage du cluster ou le développement du pool.
  • Si les étiquettes personnalisées du cluster sont en conflit avec les étiquettes personnalisées d’un pool, le cluster ne peut pas être créé.

Application d’étiquettes avec des stratégies

Vous pouvez appliquer des étiquettes aux clusters à l’aide de stratégies de calcul. Pour plus d’informations, consultez Application d’étiquettes personnalisées.