Tutoriel Databricks Connect

Article
09/03/2023

Cet article montre comment démarrer rapidement avec Databricks Connect à l’aide de Python et PyCharm.

Databricks Connect vous permet de connecter des environnements de développement intégré (IDE) populaires tels que PyCharm, des serveurs notebook et d’autres applications personnalisées aux clusters Azure Databricks.

Notes

Cet article concerne Databricks Connect pour Databricks Runtime 13.0 et ses versions ultérieures.

Pour plus d’informations au-delà de ce tutoriel sur Databricks Connect pour Databricks Runtime 13.0 et versions ultérieures, consultez les informations de référence sur Databricks Connect.

Pour plus d’informations sur Databricks Connect pour les versions antérieures de Databricks Runtime, voir Databricks Connect pour Databricks Runtime 12.2 LTS et moins.

Spécifications

Le tutoriel pratique suivant suppose :

PyCharm est installé.
Vous avez un espace de travail Azure Databricks et son compte correspondant activés pour Unity Catalog. Consultez la page Prise en main d’Unity Catalog et Activer un espace de travail pour Unity Catalog.
Vous avez un cluster Azure Databricks dans l’espace de travail. Le cluster a Databricks Runtime 13.0 ou une version ultérieure est installé. Le cluster dispose également d’un mode d’accès au cluster attribué ou partagé. Voir Modes d’accès aux fichiers.
Python 3 est installé sur votre machine de développement et la version mineure de l’installation Python de votre client est la même que la version mineure de Python de votre cluster Azure Databricks. La table suivante indique la version de Python installée avec chaque version de Databricks Runtime.

Version de Databricks Runtime Version Python

13.2 ML, 13.2 3.10

13.1 ML, 13.1 3.10

13.0 ML, 13.0 3.10

Version de Databricks Runtime	Version Python
13.2 ML, 13.2	3.10
13.1 ML, 13.1	3.10
13.0 ML, 13.0	3.10

Pour ce tutoriel, procédez comme suit :

Étape 1 : créer un jeton d’accès personnel

Ce tutoriel utilise l’authentification par jeton d’accès personnel Azure Databricks et un profil de configuration Azure Databricks pour l’authentification auprès de votre espace de travail Azure Databricks. Si vous disposez déjà d’un jeton d’accès personnel Azure Databricks et d’un profil de configuration Azure Databricks correspondant, passez à l’étape 3.

Pour créer un jeton d’accès personnel :

Dans votre espace de travail Azure Databricks, cliquez sur votre nom d’utilisateur Azure Databricks dans la barre supérieure, puis sélectionnez Paramètres utilisateur dans la liste déroulante.
Dans l’onglet Jetons d’accès, sélectionnez Générer un nouveau jeton.
(Facultatif) Entrez un commentaire qui vous aide à identifier ce jeton à l’avenir et modifiez sa durée de vie par défaut (90 jours). Pour créer un jeton sans durée de vie (non recommandé), laissez vide la zone Durée de vie (en jours).
Cliquez sur Générer.
Copiez le jeton affiché dans un emplacement sécurisé, puis cliquez sur Terminé.

Veillez à enregistrer le jeton copié dans un emplacement sécurisé. Ne partagez pas votre jeton copié avec d'autres. Si vous le perdez, vous ne pouvez pas régénérer exactement le même. Vous devez donc répéter cette procédure pour créer un jeton. Si vous perdez le jeton copié ou si vous pensez que le jeton a été compromis, Databricks vous recommande vivement de supprimer immédiatement ce jeton de votre espace de travail en cliquant sur le X à côté du jeton dans l'onglet Jetons d'accès.
Notes

Si vous n'êtes pas en mesure de créer ou d'utiliser des jetons dans votre espace de travail, cela peut être dû au fait que votre administrateur d'espace de travail a désactivé les jetons ou ne vous a pas donné l'autorisation de créer ou d'utiliser des jetons. Consultez votre administrateur d'espace de travail ou les personnes suivantes :
- Activer ou désactiver l'authentification par jeton d'accès personnel pour l'espace de travail
- Autorisations de jeton d'accès personnel

Étape 2 : créer un profil de configuration d’authentification

Créez un profil de configuration d’authentification Azure Databricks pour stocker les informations nécessaires sur votre jeton d’accès personnel sur votre ordinateur local. Les outils de développement et le kit de développement logiciel (SDK) Azure Databricks peuvent utiliser ce profil de configuration pour s’authentifier rapidement auprès de votre espace de travail Azure Databricks.

Pour créer un profil :

Créez un fichier nommé .databrickscfg à la racine du répertoire de base de votre utilisateur sur votre ordinateur, si ce fichier n’existe pas déjà. Pour Linux et macOS, le chemin d’accès est ~/.databrickscfg. Pour Windows, le chemin d’accès est %USERPROFILE%\.databrickscfg.
Utilisez un éditeur de texte pour ajouter le profil de configuration suivant à ce fichier, puis enregistrez le fichier :
```
[<some-unique-profile-name>]
host = <my-workspace-url>
token = <my-personal-access-token-value>
cluster_id = <my-cluster-id>
```
Remplacez les espaces réservés suivants :
- Remplacez <some-unique-profile-name> par un nom unique pour ce profil. Ce nom doit être unique au sein du fichier .databrickscfg.
- Remplacer <my-workspace-url> par l’URL de votre espace de travail Azure Databricks, commençant par https://. Consultez Noms d’instance, URL et ID d’espace de travail.
- Remplacez <my-personal-access-token-value> par la valeur de votre jeton d’accès personnel Azure Databricks. Consultez Authentification à l’aide de jetons d’accès personnels Azure Databricks.
- Remplacez <my-cluster-id> par l’ID de votre cluster Azure Databricks. Consultez URL et ID du cluster.
Par exemple :
```
[DEFAULT]
host = https://my-workspace-url.com
token = dapi...
cluster_id = abc123...
```
Notes

Les champs précédents host et token concernent l’authentification par jeton d’accès personnel Azure Databricks, qui est le type d’authentification Azure Databricks le plus courant. Certains outils de développement Databricks et le kit de développement logiciel (SDK) utilisent également le champ cluster_id dans certains scénarios. Pour connaître les autres types et scénarios d’authentification Azure Databricks pris en charge, consultez la documentation de votre outil ou votre kit de développement logiciel (SDK) ou l’authentification unifiée du client Databricks.

Étape 3 : créer le projet

Démarrez PyCharm.
Cliquez sur Fichier > Nouveau projet.
Pour Emplacement, cliquez sur l’icône de dossier et suivez les instructions à l’écran pour spécifier le chemin d’accès à votre nouveau projet Python.
Développez Interpréteur Python : Nouvel environnement.
Cliquez sur l’option Nouvel environnement à l’aide de l’option .
Dans la liste déroulante, sélectionnez Virtualenv.
Laissez Emplacement avec le chemin d’accès suggéré du dossier venv.
Pour Interpréteur de base, utilisez la liste déroulante ou cliquez sur les points de suspension pour spécifier le chemin d’accès à l’interpréteur Python à partir des exigences précédentes.
Cliquez sur Créer.

Étape 4 : ajouter le package Databricks Connect

Dans le menu main de PyCharm, cliquez sur Afficher les > packages Windows Python de l’outil>.
Dans la zone de recherche, entrez databricks-connect.
Dans la liste référentiel PyPI, cliquez sur databricks-connect.
Dans la liste déroulante la plus récente du volet de résultats, sélectionnez la version qui correspond à la version de Databricks Runtime de votre cluster. Par exemple, si Databricks Runtime 13.2 est installé sur votre cluster, sélectionnez 13.2.0.
Cliquez sur Installer.
Une fois le package installé, vous pouvez fermer la fenêtre Packages Python.

Étape 5 : ajouter un code

Dans la fenêtre Outil Projet, cliquez avec le bouton droit de la souris sur le répertoire racine du projet et cliquez sur Nouveau> fichier Python.
Entrez main.py et cliquez sur Fichier Python.

Entrez le code suivant dans le fichier, puis enregistrez-le :

from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

df = spark.read.table("samples.nyctaxi.trips")
df.show(5)

Étape 6 : déboguer le code

Démarrer le cluster cible dans votre espace de travail Azure Databricks distant.
Dans le code précédent, cliquez sur la gouttière en regard de df.show(5) pour définir un point d’arrêt.
Une fois le cluster démarré, dans le menu main, cliquez sur Exécuter > le débogage. Si vous y êtes invité, sélectionnez Principal> Débogue.
Dans la fenêtre Outil Déboguer (Afficher> Fenêtre Outil > Déboguer), dans le volet Variables de l’onglet Débogueur, développez les nœuds df et spark variable pour parcourir des informations sur le code df et les spark variables.
Dans la barre latérale de la fenêtre Outil de débogage, cliquez sur l’icône flèche verte (Reprendre le programme).
Dans le volet Console de l’onglet Débogueur, les 5 premières lignes de l’écransamples.nyctaxi.trips apparaissent.

Étapes suivantes

Pour en savoir plus sur Databricks Connect et tester un exemple de code plus complexe, consultez la référence Databricks Connect. Cet article de référence contient de l’aide pour les rubriques suivantes :

Types d’authentification Azure Databricks pris en charge en plus de l’authentification par jeton d’accès personnel Azure Databricks.
Comment utiliser SparkShell et utiliser des IDE en plus de PyCharm, tels que JupyterLab, classic Jupyter Notebook, Visual Studio Code et Eclipse avec PyDev.
Migrer de Databricks Connect pour Databricks Runtime 12.2 LTS et inférieur vers Databricks Connect pour Databricks Runtime 13.0 et supérieur.
Comment utiliser Databricks Connect pour accéder aux Utilitaires Databricks.
Fournit des utilitaires de résolution des problèmes.
Liste les limitations de Databricks Connect.