Verwenden von Visual Studio Code mit Databricks Connect für Python

Artikel
03/01/2024

Hinweis

In diesem Artikel wird Databricks Connect für Databricks Runtime 13.0 und höher behandelt.

In diesem Artikel wird beschrieben, wie Databricks Connect für Python mit Visual Studio Code verwendet wird. Mit Databricks Connect können Sie beliebte IDEs, Notebookserver und andere benutzerdefinierte Anwendungen mit Azure Databricks-Clustern verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?. Die Scala-Version dieses Artikels finden Sie unter Verwenden von Visual Studio Code mit Databricks Connect für Scala.

Hinweis

Bevor Sie beginnen, Databricks Connect zu verwenden, müssen Sie den Databricks Connect-Client einrichten.

Tipp

Die Databricks-Erweiterung für Visual Studio Code verfügt bereits über integrierten Support für Databricks Connect für Databricks Runtime 13.0 und neuer. Siehe Debug Code mithilfe von Databricks Connect für die Databricks-Erweiterung für Visual Studio Code.

Um Databricks Connect mit Visual Studio Code und Python zu verwenden, befolgen Sie diese Anweisungen.

Starten Sie Visual Studio Code.
Öffnen Sie den Ordner, der Ihre virtuelle Python-Umgebung enthält (Datei > Ordner öffnen).
Aktivieren Sie im Visual Studio Code-Terminal (Ansicht > Terminal) die virtuelle Umgebung.
Legen Sie den aktuellen Python-Interpreter auf den in der virtuellen Umgebung referenzierten Interpreter fest:
1. Geben Sie in der Befehlspalette (Ansicht > Befehlspalette) Python: Select Interpreter ein, und drücken Sie dann die EINGABETASTE.
2. Wählen Sie den Pfad zum Python-Interpreter aus, der in der virtuellen Umgebung referenziert ist.
Fügen Sie dem Ordner eine Python-Codedatei (.py) hinzu, die entweder den Beispielcode oder Ihren eigenen Code enthält. Wenn Sie eigenen Code verwenden, müssen Sie mindestens DatabricksSession initialisieren, wie im Beispielcode gezeigt.
Wählen Sie zum Ausführen des Codes im Hauptmenü Ausführen > Ohne Debuggen ausführen aus. Der gesamte Python-Code wird lokal ausgeführt, während der gesamte PySpark-Code, einschließlich DataFrame-Vorgängen, im Cluster im Azure Databricks-Remotearbeitsbereich ausgeführt wird. Die Ausführungsantworten werden an den lokalen Aufrufer zurückgesendet.
So debuggen Sie den Code
1. Legen Sie bei geöffneter Python-Codedatei alle Breakpoints fest, an denen der Code während der Ausführung angehalten werden soll.
2. Klicken Sie auf der Seitenleiste auf das Symbol Ausführen und debuggen, oder klicken Sie im Hauptmenü auf Ansicht > Ausführen.
3. Klicken Sie in der Ansicht Ausführen und Debuggen auf die Schaltfläche Ausführen und Debuggen.
4. Befolgen Sie die Anweisungen auf dem Bildschirm, um mit der Ausführung und dem Debuggen des Codes zu beginnen.
Der gesamte Python-Code wird lokal debuggt, während der gesamte PySpark-Code weiterhin im Cluster im Azure Databricks-Remotearbeitsbereich ausgeführt wird. Der Kerncode der Spark-Engine kann nicht direkt vom Client aus debuggt werden.

Genauere Ausführungs- und Debuganweisungen finden Sie unter Konfigurieren und Ausführen des Debuggers und Python debugging in VS Code (Python-Debugging in VS Code).

Share via

Verwenden von Visual Studio Code mit Databricks Connect für Python

Zusätzliche Ressourcen