Configurer les dossiers Git (Repos) Databricks

Découvrez comment configurer les dossiers Databricks Git (anciennement Repos) pour la gestion de version. Une fois que vous avez configuré les dossiers Databricks Git, vous pouvez effectuer des opérations Git courantes telles que le clonage, l’extraction, la validation, l’envoi (push), le tirage (pull) et la gestion des branches à partir de l’interface utilisateur Databricks. Vous pouvez également voir les différences de vos modifications à mesure de vos développements avec des notebooks et des fichiers dans Databricks.

Configurer les paramètres utilisateur

Les dossiers Databricks Git utilise un jeton d’accès personnel (PAT) ou des informations d’identification équivalentes pour s’authentifier auprès de votre fournisseur Git afin d’effectuer des opérations telles que le clonage, l’envoi (push), le tirage (pull), etc. Pour utiliser les dossiers Git, vous devez d’abord ajouter votre PAT Git et le nom d’utilisateur du fournisseur Git à Databricks. Consultez Configurer des informations d’identification Git et connecter un dépôt distant à Azure Databricks.

Vous pouvez cloner des dépôts distants publics sans informations d’identification Git (jeton d’accès personnel et nom d’utilisateur). Pour modifier un référentiel distant public ou pour cloner ou modifier un référentiel distant privé, vous devez disposer d’un nom d’utilisateur de fournisseur Git et d’un PAT avec des autorisations d’écriture (au minimum) pour le référentiel distant.

Les dossiers Git sont activés par défaut. Pour plus de détails sur l’activation ou la désactivation de la prise en charge des dossiers Git, voir Activer ou désactiver la fonctionnalité de dossier Git de Databricks.

Ajouter ou modifier des informations d’identification Git dans Databricks

Important

Les dossiers Databricks Git ne prennent pas en charge qu’une seule information d’identification Git par utilisateur et par espace de travail.

  1. Sélectionnez la flèche vers le bas en regard du nom du compte en haut à droite de votre écran, puis sélectionnez Paramètres.

  2. Sélectionnez l’onglet Comptes liés.

  3. Si vous ajoutez des informations d’identification pour la première fois, suivez les instructions à l’écran.

    Si vous avez déjà entré des informations d’identification, cliquez sur le bouton Configurer>Modifier et passez à l’étape suivante.

  4. Dans la liste déroulante du fournisseur Git, sélectionnez le nom du fournisseur.

  5. Entrez le nom d’utilisateur ou l’adresse e-mail Git.

  6. Dans le champ Jeton, ajoutez un jeton d’accès personnel (PAT) ou d’autres informations d’identification de votre fournisseur Git. Pour plus d’informations, consultez Configurer des informations d’identification Git et connecter un dépôt distant à Azure Databricks.

    Important

    Databricks vous recommande de définir une date d’expiration pour tous les jetons d’accès personnels.

    Pour Azure DevOps, si vous n’entrez aucun jeton ou de mot de passe d’application, l’intégration Git utilise par défaut votre jeton Microsoft Entra ID (anciennement Azure Active Directory). Si vous entrez un jeton d’accès personnel Azure DevOps, l’intégration Git l’utilise à la place. Consultez Se connecter à un dépôt Azure DevOps à l’aide d’un jeton.

    Remarque

    Après avoir actualisé votre mot de passe Azure, authentifiez-vous à nouveau auprès d’Azure Databricks si vous avez besoin de la nouvelle authentification immédiatement. Si vous ne vous authentifiez pas à nouveau, la connexion Azure DevOps peut ne pas être validée pendant 24 heures au plus.

    Si votre organisation bénéficie d’une authentification unique SAML activée dans GitHub, autorisez votre jeton d’accès personnel pour l’authentification unique.

  7. Entrez votre nom d’utilisateur dans le champ Nom d’utilisateur du fournisseur Git.

  8. Cliquez sur Enregistrer.

Vous pouvez également enregistrer un jeton d’accès personnel Git et un nom d’utilisateur dans Azure Databricks à l’aide de l’API Databricks Repos.

Si vous ne parvenez pas à cloner le dépôt et utilisez Azure DevOps avec l’authentification Microsoft Entra ID, consultez Problème lié à la stratégie d’accès conditionnel (CAP) pour Microsoft Entra ID (anciennement Azure Active Directory).

Connectivité réseau entre les dossiers Databricks Git et un fournisseur Git

Les dossiers Git ont besoin d’une connectivité réseau à votre fournisseur Git pour fonctionner. Cela se fait normalement sur Internet, sans actions nécessaires. Toutefois, vous avez peut-être configuré des restrictions supplémentaires sur votre fournisseur Git pour contrôler l’accès. Par exemple, vous pouvez avoir une liste d’adresses IP autorisées en place ou héberger votre propre serveur Git local à l’aide de services tels que GitHub Enterprise (GHE), Bitbucket Server (BBS) ou Gitlab auto-managé. En fonction de l’hébergement et de la configuration de votre réseau, votre serveur Git pourrait ne pas être accessible via Internet.

Remarque

  • Si votre serveur Git est accessible par Internet mais dispose d’une liste d’adresses IP autorisées, comme les listes d’autorisation de GitHub, vous devez ajouter les adresses IP NAT du plan de contrôle Azure Databricks à la liste d’adresses IP autorisées du serveur Git. Consultez Régions Azure Databricks pour obtenir la liste des adresses IP NAT du plan de contrôle par région. Utilisez l’adresse IP de la région dans laquelle se trouve l’espace de travail Azure Databricks.
  • Si vous hébergez un serveur Git privé, lisez Configurer la connectivité Git privée pour les dossiers Databricks Git (Repos) ou contactez l’équipe de votre compte Azure Databricks pour obtenir des instructions d’accès.

Fonctionnalités de sécurité dans les dossiers Git

Les dossiers Git Databricks ont de nombreuses fonctionnalités de sécurité. Les sections suivantes vous guident à travers leur configuration et leur utilisation :

  • Utilisation d’informations d’identification Git chiffrées
  • Une liste blanche
  • Contrôle d’accès aux espaces de travail
  • Journalisation d’audit
  • Détection des secrets

Bring Your Own Key(Apportez vos propres clés) : chiffrer des informations d’identification Git

Vous pouvez utiliser Azure Key Vault pour chiffrer un jeton d’accès personnel (PAT) Git ou d’autres informations d’identification Git. L’utilisation d’une clé à partir d’un service de chiffrement est appelée clé gérée par le client (CMK) ou BYOK (Bring Your Own Key).

Pour plus d’informations, consultez Chiffrement à l’aide de clés gérées par le client.

Limiter l’utilisation aux URL d’une liste d’autorisation

Si vous utilisez Microsoft Entra ID pour l’authentification auprès d’Azure DevOps, la liste verte par défaut limite les URL Git aux URL suivantes :

  • dev.azure.com
  • visualstudio.com

Pour AAD avec des alias personnalisés d’URL CNAMES ou Git, votre administrateur d’espace de travail peut configurer une liste verte personnalisée, comme indiqué dans les étapes suivantes. Si vous utilisez une liste verte personnalisée, votre administrateur d’espace de travail doit ajouter ces URL si vous souhaitez les utiliser : dev.azure.com et visualstudio.com.

Un administrateur d’espace de travail peut limiter les clonages, commits et envois (push) effectués par les utilisateurs à certains dépôts distants. Cela permet d’éviter l’exfiltration de votre code. Par exemple, les utilisateurs ne peuvent pas envoyer (push) un code vers un référentiel arbitraire si vous avez activé des restrictions de liste d’autorisation. Vous pouvez également empêcher les utilisateurs d’utiliser du code sans licence en limitant l’opération de clonage à une liste de référentiels autorisés.

Pour configurer une liste d’autorisation :

  1. Accédez à la page des paramètres.
  2. Cliquez sur l’onglet Administrateur(-trice) de l’espace de travail (il est ouvert par défaut).
  3. Dans la section Développement, choisissez une option à partir de l’autorisation de liste Git URL :
    • Désactivé (aucune restriction) : aucune vérification n’est effectuée sur la liste verte.
    • Restreindre les clonages, les commits et les envois aux référentiel Git autorisés : les opérations cloner, commiter et envoyer sont autorisées uniquement pour les URL de référentiel figurant dans la liste verte.
    • Restreindre uniquement les commits et les envois vers les référentiels Git autorisés : les opérations commiter et envoyer sont autorisées uniquement pour les URL de référentiel figurant dans la liste verte. Les opérations de clonage et d’extraction ne sont pas limitées.

Volet Développement sous Paramètres d’administration, utilisé pour définir l’accès Git utilisateur

  1. Cliquez sur le bouton Modifier à côté de la liste verte Git URL : Liste vide et entrez une liste de préfixes d’URL séparés par des virgules.

Bouton Modifier la liste verte dans les paramètres de l’administrateur de développement

  1. Cliquez sur Enregistrer.

Remarque

  • La liste que vous enregistrez remplace l’ensemble existant de préfixes d’URL enregistrés.
  • L’application des modifications peut prendre jusqu’à 15 minutes.

Autoriser l’accès à tous les référentiels

Pour désactiver une liste verte existante et autoriser l’accès à tous les référentiels :

  1. Accédez à la page des paramètres.
  2. Cliquez sur l’onglet Administration de l’espace de travail.
  3. Dans la section Développement, sous Autorisation de liste verte de l’URL Git : sélectionnez Désactiver (aucune restriction).

Contrôler l’accès d’un référentiel dans votre espace de travail

Remarque

Le contrôle d'accès est disponible uniquement dans le plan Premium.

Définissez les autorisations d’un référentiel pour contrôler l’accès. Les autorisations d’un référentiel s’appliquent à tout le contenu de ce référentiel. Vous pouvez affecter cinq niveaux d’autorisation aux fichiers : AUCUNE AUTORISATION, PEUT LIRE, PEUT EXÉCUTER, PEUT MODIFIER et PEUT GÉRER.

Pour plus de détails sur les permissions des dossiers Git, voir Dossier Git ACLs.

(facultatif) Configurer un proxy pour des serveurs d’entreprise Git

Si votre entreprise utilise un service local Git d’entreprise, tel que GitHub Enterprise ou Azure DevOps Server, vous pouvez utiliser le Proxy de serveur Git Databricks pour connecter vos espaces de travail Databricks au référentiel qu’il sert.

Journalisation d’audit

Quand la journalisation d’audit est activée, les événements d’audit sont consignés lorsque vous interagissez avec un dossier Git. Par exemple, un événement d’audit est enregistré lorsque vous créez, mettez à jour ou supprimez un dossier Git, lorsque vous listez tous les dossiers Git associés à un espace de travail et lorsque vous synchronisez les modifications entre votre dossier Git et le référentiel Git distant.

Détection des secrets

Les dossiers Git analysent le code des ID de clé d’accès qui commencent par le préfixe AKIA et avertissent l’utilisateur(-trice) avant d’opérer la validation.

Utiliser un fichier de configuration de référentiel

Vous pouvez ajouter des paramètres pour chaque notebook à votre référentiel dans un fichier .databricks/commit_outputs que vous créez manuellement.

Spécifiez le notebook pour lequel vous voulez inclure des sorties en utilisant des modèles similaires aux modèles gitignore.

Modèles pour un fichier de configuration de référentiel

Le fichier contient des modèles de chemin d’accès aux fichiers positifs et négatifs. Les modèles de chemin d’accès de fichier incluent l’extension de fichier notebook, telle que .ipynb.

  • Les modèles positifs permettent l’inclusion de sorties pour des notebooks correspondants.
  • Les modèles négatifs désactivent l’inclusion de sorties pour des notebooks correspondants.

Les modèles sont évalués dans l’ordre pour tous les notebooks. Les chemins d’accès non valides ou ceux qui ne sont pas résolus en notebooks .ipynb sont ignorés.

Pour inclure des sorties du chemin d’accès d’un notebookfolder/innerfolder/notebook.ipynb, utilisez les modèles suivants :

**/*
folder/**
folder/innerfolder/note*

Pour exclure des sorties d’un notebook, vérifiez qu’aucun des modèles positifs ne correspond ou n’ajoute un modèle négatif dans un emplacement correct du fichier de configuration. Les modèles négatifs (exclure) commencent par ! :

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Déplacer le dossier Git vers la corbeille (supprimer)

Pour supprimer un dossier Git de votre espace de travail :

  1. Faites un clic droit sur le dossier Git, puis sélectionnez Déplacer vers la corbeille.

  2. Dans la boîte de dialogue, tapez le nom du dossier Git que vous souhaitez supprimer. Cliquez ensuite sur Confirmer et placer dans la corbeille.

    La boîte de dialogue Confirmer le déplacement vers la corbeille s'affiche.

Étapes suivantes