Packages d’espace de travail

Les packages d’espace de travail peuvent être des fichiers de roue personnalisée ou privée (Python), jar (Scala/Java) ou tar.gz (R). Vous pouvez télécharger ces packages dans votre espace de travail et les attribuer par la suite à un pool Spark spécifique.

Pour ajouter des packages d’espace de travail :

  1. Accédez à l’onglet Gérer>Packages d’espace de travail.
  2. Téléchargez vos fichiers wheel à l’aide du sélecteur de fichiers.
  3. Une fois les fichiers téléchargés dans l’espace de travail Azure Synapse, vous pouvez ajouter ces packages à un pool Apache Spark donné.

Capture d’écran mettant en évidence les packages d’espace de travail.

Avertissement

  • Dans Azure Synapse, un pool Apache Spark peut tirer parti des bibliothèques personnalisées qui sont téléchargées en tant que packages d’espace de travail ou dans un chemin d’Azure Data Lake Storage bien connu. Toutefois, ces deux options ne peuvent pas être utilisées simultanément dans le même pool Apache Spark. Si les packages sont fournis à l’aide des deux méthodes, seuls les fichiers de roues spécifiés dans la liste des packages d’espace de travail sont installés.

  • Une fois que les packages de l’espace de travail sont utilisés pour installer des packages sur un pool Apache Spark donné, vous ne pouvez plus spécifier de packages en utilisant le chemin du compte de stockage sur le même pool.

Notes

Il est recommandé de ne pas avoir plusieurs packages wheel portant le même nom au sein d’un même espace de travail. Si vous souhaitez utiliser une autre version du même package wheel, vous devez supprimer la version existante et importer la nouvelle.

Compte de stockage

Les packages Wheel personnalisés peuvent être installés sur le pool Apache Spark en chargeant tous les fichiers Wheel dans le compte Azure Data Lake Storage (Gen2) qui est lié à l’espace de travail Synapse.

Les fichiers doivent être téléchargés vers le chemin d’accès suivant dans le conteneur par défaut du compte de stockage :

abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/

Avertissement

  • Dans certains cas, vous devrez peut-être créer le chemin d’accès basé sur la structure au-dessus s’il n’existe pas déjà. Vous devrez peut-être, par exemple, ajouter le dossier python dans le dossier libraries s’il ne s’y trouve pas déjà.
  • Cette méthode de gestion des fichiers wheels personnalisés n’est pas prise en charge sur le runtime Azure Synapse pour Apache Spark 3,0. Reportez-vous à la fonctionnalité des packages d’espace de travail pour gérer les fichiers wheels personnalisés.

Important

Pour installer des bibliothèques personnalisées à l’aide de la méthode Azure DataLake Storage, vous devez disposer des autorisations Contributeur aux données Blob du stockage ou Propriétaire des données Blob du stockage sur le compte de stockage Gen2 principal qui est lié à l’espace de travail Azure Synapse Analytics.

Étapes suivantes