Installieren von Databricks Connect für Python
Hinweis
In diesem Artikel wird Databricks Connect für Databricks Runtime 13.0 und höher behandelt.
In diesem Artikel wird beschrieben, wie Sie Databricks Connect für Python installieren. Weitere Informationen finden Sie unter Was ist Databricks Connect?. Die Scala-Version dieses Artikels finden Sie unter Installieren von Databricks Connect für Scala.
Anforderungen
Ihr Azure Databricks-Zielarbeitsbereich und -Zielcluster müssen die Anforderungen für die Clusterkonfiguration für Databricks Connect erfüllen.
Sie müssen Python 3 auf Ihrem Entwicklungscomputer installieren, und die Nebenversion Ihrer Python-Clientinstallation muss mit der Python-Nebenversion Ihres Azure Databricks-Clusters identisch sein. Informationen zur Python-Nebenversion Ihres Clusters finden Sie im Abschnitt „Systemumgebung“ der Versionshinweise zu Databricks Runtime für Ihr Cluster. Weitere Informationen finden Sie unter Versionshinweise, Versionen und Kompatibilität von Databricks Runtime.
Hinweis
Wenn Sie PySpark-UDFs verwenden möchten, ist es wichtig, dass die installierte Nebenversion Ihres Entwicklungscomputers mit der Nebenversion von Python übereinstimmt, die mit der im Cluster installierten Databricks Runtime enthalten ist.
Die Databricks Connect-Haupt- und Nebenpaketversion sollte mit Ihrer Databricks Runtime-Version übereinstimmen. Databricks empfiehlt, dass Sie immer das neueste Paket von Databricks Connect verwenden, die mit Ihrer Databricks Runtime-Version übereinstimmt. Beispiel: Wenn Sie einen Databricks Runtime 14.0-Cluster verwenden, sollten Sie auch das die Version
14.0
des Paketsdatabricks-connect
verwenden.Hinweis
Eine Liste mit verfügbaren Databricks Connect-Releases und Wartungsupdates finden Sie in den Versionshinweisen zu Databricks Connect.
Die Verwendung des neuesten Databricks Connect-Pakets, das Ihrer Databricks Runtime-Version entspricht, ist keine Anforderung. Für Databricks Runtime 13.3 LTS und höher können Sie das Databricks Connect-Paket für alle Versionen von Databricks Runtime ab der Version des Databricks Connect-Pakets verwenden. Wenn Sie jedoch Features verwenden möchten, die in späteren Versionen der Databricks Runtime verfügbar sind, müssen Sie das Databricks Connect-Paket entsprechend aktualisieren.
Databricks empfiehlt dringend, eine virtuelle Python-Umgebung für jede Python-Version zu aktivieren, die Sie mit Databricks Connect verwenden. Mithilfe virtueller Python-Umgebungen kann sichergestellt werden, dass Sie die richtigen Versionen von Python und Databricks Connect zusammen verwenden. Dies kann dazu beitragen, damit verbundene technische Probleme zu reduzieren oder die Zeit zum Beheben dieser Probleme zu verkürzen. In den folgenden Abschnitten erfahren Sie, wie Sie eine virtuelle Python-Umgebung für
venv
oder Poetry aktivieren. Weitere Informationen zu diesen Tools finden Sie unter venv oder Poetry.
Aktivieren einer virtuellen Python-Umgebung mit venv
Wenn Sie venv
auf Ihrem Entwicklungscomputer verwenden und Ihr Cluster Python 3.10 ausführt, müssen Sie eine venv
-Umgebung mit dieser Version erstellen. Der folgende Beispielbefehl generiert die Skripts, um eine venv
-Umgebung mit Python 3.10 zu aktivieren, und dieser Befehl platziert diese Skripts dann in einem ausgeblendeten Ordner mit Namen .venv
innerhalb des aktuellen Arbeitsverzeichnisses:
# Linux and macOS
python3.10 -m venv ./.venv
# Windows
python3.10 -m venv .\.venv
Um diese Skripts zu verwenden, um diese venv
-Umgebung zu aktivieren, lesen Sie Funktionsweise von venvs (virtual environments, virtuelle Umgebungen).
Fahren Sie fort, um den Clienten einzurichten.
Aktivieren einer virtuellen Python-Umgebung mit Poetry
Installieren Sie Poetry, wenn Sie dies noch nicht getan haben.
Wenn Sie Poetry auf Ihrem Entwicklungscomputer verwenden und Ihr Cluster Python 3.10 ausführt, müssen Sie eine virtuelle Poetry-Umgebung mit dieser Version erstellen. Weisen Sie im Stammverzeichnis Ihres vorhandenen Python-Codeprojekts
poetry
an, Ihr Python-Codeprojekt für Poetry zu initialisieren, indem Sie den folgenden Befehl ausführen:poetry init
Poetry zeigt mehrere Eingabeaufforderungen an. Keine dieser Eingabeaufforderungen ist spezifisch für Databricks Connect. Informationen zu diesen Eingabeaufforderungen finden Sie unter init.
Nachdem Sie die Eingabeaufforderungen abgeschlossen haben, fügt Poetry Ihrem Python-Projekt eine Datei vom Typ
pyproject.toml
hinzu. Informationen zur Dateipyproject.toml
finden Sie unter Datei „pyproject.toml“.Weisen Sie im Stammverzeichnis Ihres Python-Codeprojekts
poetry
an, die Dateipyproject.toml
zu lesen, die Abhängigkeiten aufzulösen und zu installieren sowie eine Datei vom Typpoetry.lock
zum Sperren der Abhängigkeiten und schließlich eine virtuelle Umgebung zu erstellen. Führen Sie zu diesem Zweck den folgenden Befehl aus:poetry install
Weisen Sie im Stammverzeichnis Ihres Python-Codeprojekts
poetry
an, die virtuelle Umgebung zu aktivieren und die Shell aufzurufen. Führen Sie zu diesem Zweck den folgenden Befehl aus:poetry shell
Sie wissen, dass Ihre virtuelle Umgebung aktiviert ist und die Shell aufgerufen wurde, wenn der Name der virtuellen Umgebung direkt vor der Terminalaufforderung in Klammern angezeigt wird, z. B. (my-project-py3.10)
.
Sie können die virtuelle Umgebung jederzeit deaktivieren und die Shell beenden, indem Sie den Befehl exit
ausführen.
Sie wissen, dass Sie die Shell beendet haben, wenn der Name der virtuellen Umgebung nicht mehr direkt vor der Terminalaufforderung in Klammern angezeigt wird.
Weitere Informationen zum Erstellen und Verwalten von virtuellen Poetry-Umgebungen finden Sie unter Verwalten von Umgebungen.
Einrichten des Clients
Tipp
Wenn Sie bereits die Databricks-Erweiterung für Visual Studio Code installiert haben, müssen Sie diese Setupanweisungen nicht befolgen.
Die Databricks-Erweiterung für Visual Studio Code verfügt bereits über integrierten Support für Databricks Connect für Databricks Runtime ab Version 13.0. Fahren Sie mit dem Debuggen von Code fort, indem Sie Databricks Connect für die Databricks-Erweiterung für Visual Studio Code verwenden.
Nachdem Sie die Anforderungen für Databricks Connect erfüllt haben, schließen Sie die folgenden Schritte ab, um den Databricks Connect-Client einzurichten.
Schritt 1: Installieren des Databricks Connect-Clients
In diesen Abschnitten wird beschrieben, wie Sie den Databricks Connect-Client mit venv oder Poetry installieren.
Installieren des Databricks Connect-Clients mit venv
Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark, falls es bereits installiert ist, indem Sie den
uninstall
-Befehl ausführen. Dieser Schritt ist erforderlich, da dasdatabricks-connect
-Paket mit PySpark in Konflikt steht. Weitere Informationen finden Sie unter In Konflikt stehende PySpark-Installationen. Um zu überprüfen, ob PySpark bereits installiert ist, führen Sie denshow
-Befehl aus.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Wenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie den Databricks Connect-Client, indem Sie den
install
-Befehl ausführen. Verwenden Sie die--upgrade
-Option, um für alle vorhandenen Clientinstallationen ein Upgrade auf die angegebene Version durchzuführen.pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Hinweis
Databricks empfiehlt, die Notation „Punkt-Sternchen“ anzufügen, um
databricks-connect==X.Y.*
anstelle vondatabricks-connect=X.Y
anzugeben, um sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.
Fahren Sie mit Schritt 2: Konfigurieren von Verbindungseigenschaften fort.
Installieren des Databricks Connect-Clients mit Poetry
Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark, falls es bereits installiert ist, indem Sie den
remove
-Befehl ausführen. Dieser Schritt ist erforderlich, da dasdatabricks-connect
-Paket mit PySpark in Konflikt steht. Weitere Informationen finden Sie unter In Konflikt stehende PySpark-Installationen. Um zu überprüfen, ob PySpark bereits installiert ist, führen Sie denshow
-Befehl aus.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Wenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie den Databricks Connect-Client, indem Sie den
add
-Befehl ausführen.poetry add databricks-connect@~14.0 # Or X.Y to match your cluster version.
Hinweis
Databricks empfiehlt, die Notation „@-Tilde“ zu verwenden, um
databricks-connect@~14.0
anstelle vondatabricks-connect==14.0
anzugeben und sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.
Schritt 2: Konfigurieren von Verbindungseigenschaften
In diesem Abschnitt konfigurieren Sie Eigenschaften, um eine Verbindung zwischen Databricks Connect und Ihrem Azure Databricks-Remotecluster herzustellen. Diese Eigenschaften umfassen Einstellungen zum Authentifizieren von Databricks Connect bei Ihrem Cluster.
Ab Databricks Connect für Databricks Runtime 13.1 und höher umfasst Databricks Connect das Databricks SDK für Python. Dieses SDK implementiert den Standard für die einheitliche Databricks-Clientauthentifizierung, einen konsolidierten und konsistenten architektonischen und programmgesteuerten Ansatz für die Authentifizierung. Dieser Ansatz gestaltet die Einrichtung und Automatisierung der Authentifizierung mit Azure Databricks zentralisierter und vorhersagbarer. Er ermöglicht Ihnen, die Azure Databricks-Authentifizierung einmal zu konfigurieren und diese Konfiguration dann für mehrere Azure Databricks-Tools und -SDKs ohne weitere Änderungen an der Authentifizierungskonfiguration zu verwenden.
Hinweis
Die OAuth-User-to-Machine-Authentifizierung (U2M) wird unter Databricks SDK für Python 0.19.0 und höher unterstützt. Möglicherweise müssen Sie die installierte Version ihres Codeprojekts des Databricks SDK für Python auf 0.19.0 oder höher aktualisieren, um die OAuth U2M-Authentifizierung zu verwenden. Weitere Informationen unter Erste Schritte mit dem Databricks SDK für Python.
Für die OAuth U2M-Authentifizierung müssen Sie die Databricks CLI verwenden, um sich zu authentifizieren, bevor Sie Ihren Python-Code ausführen. Weitere Informationen finden Sie im Tutorial.
OAuth Machine-to-Machine (M2M)-Authentifizierung OAuth Machine-to-Machine (M2M)-Authentifizierung wird unter Databricks SDK für Python 0.18.0 und höher unterstützt. Möglicherweise müssen Sie die installierte Version ihres Codeprojekts des Databricks SDK für Python auf 0.18.0 oder höher aktualisieren, um die OAuth M2M-Authentifizierung zu verwenden. Weitere Informationen unter Erste Schritte mit dem Databricks SDK für Python.
Das Databricks SDK für Python hat noch keine Authentifizierung mit von Azure verwalteten Identitäten implementiert.
Databricks Connect für Databricks Runtime 13.0 unterstützt nur die Authentifizierung mit persönlichem Zugriffstoken in Azure Databricks.
Sammeln Sie die folgenden Konfigurationseigenschaften.
- Den Instanzennamen des Arbeitsbereichs von Azure Databricks. Dies entspricht dem Wert des Hostnamen des Servers für Ihren Cluster. Weitere Informationen finden Sie unter Abrufen von Verbindungsdetails für eine Azure Databricks-Computeressource.
- Die ID Ihres Clusters. Sie können die Cluster-ID über die URL abrufen. Weitere Informationen finden Sie unter Cluster-URL und -ID.
- Alle anderen Eigenschaften, die für den Databricks-Authentifizierungstypen erforderlich sind, den Sie verwenden möchten. Diese Eigenschaften werden in diesem Abschnitt beschrieben.
Konfigurieren Sie die Verbindung innerhalb Ihres Codes. Databricks Connect sucht nach Konfigurationseigenschaften in der folgenden Reihenfolge, bis diese gefunden werden. Sobald sie gefunden werden, wird die Suche nach den verbleibenden Optionen beendet. Die Details für jede Option werden nach der folgenden Tabelle angezeigt:
Konfigurationseigenschaftenoption Gilt für: 1. Die remote()
-Methode derDatabricksSession
-KlasseNur Authentifizierung mit persönlichem Zugriffstoken für Azure Databricks 2. Ein Azure Databricks-Konfigurationsprofil Alle Azure Databricks-Authentifizierungstypen 3. Die SPARK_REMOTE
-UmgebungsvariableNur Authentifizierung mit persönlichem Zugriffstoken für Azure Databricks 4. Die DATABRICKS_CONFIG_PROFILE
-UmgebungsvariableAlle Azure Databricks-Authentifizierungstypen 5. Eine Umgebungsvariable für jede Konfigurationseigenschaft Alle Azure Databricks-Authentifizierungstypen 6. Ein Azure Databricks-Konfigurationsprofil mit dem Namen DEFAULT
Alle Azure Databricks-Authentifizierungstypen Die
remote()
-Methode derDatabricksSession
-KlasseGeben Sie für diese Option, die nur für die Authentifizierung mit persönlichem Zugriffstoken in Azure Databricks gilt, den Instanzname des Arbeitsbereichs, das persönliche Zugriffstoken in Azure Databricks und die ID des Clusters an.
Sie können die
DatabricksSession
-Klasse auf verschiedene Arten initialisieren, und zwar wie folgt:- Legen Sie die Felder
host
,token
undcluster_id
inDatabricksSession.builder.remote()
fest. - Verwenden Sie die
Config
-Klasse des Databricks SDK. - Geben Sie ein Databricks-Konfigurationsprofil zusammen mit dem
cluster_id
-Feld an. - Legen Sie die Spark Connect-Verbindungszeichenfolge in
DatabricksSession.builder.remote()
fest.
Databricks empfiehlt nicht, diese Verbindungseigenschaften direkt in Ihrem Code anzugeben. Stattdessen empfiehlt Databricks, Eigenschaften über Umgebungsvariablen oder Konfigurationsdateien zu konfigurieren, wie in späteren Optionen beschrieben. In den folgenden Codebeispielen wird davon ausgegangen, dass Sie selbst eine Implementierung der vorgeschlagenen
retrieve_*
-Funktionen bereitstellen, um die erforderlichen Eigenschaften vom Benutzer oder aus einem anderen Konfigurationsspeicher abzurufen, z. B. dem Azure KeyVault.Der Code für jede dieser Ansätze lautet wie folgt:
# Set the host, token, and cluster_id fields in DatabricksSession.builder.remote. # If you have already set the DATABRICKS_CLUSTER_ID environment variable with the # cluster's ID, you do not also need to set the cluster_id field here. from databricks.connect import DatabricksSession spark = DatabricksSession.builder.remote( host = f"https://{retrieve_workspace_instance_name()}", token = retrieve_token(), cluster_id = retrieve_cluster_id() ).getOrCreate() # Use the Databricks SDK's Config class. # If you have already set the DATABRICKS_CLUSTER_ID environment variable with the # cluster's ID, you do not also need to set the cluster_id field here. from databricks.connect import DatabricksSession from databricks.sdk.core import Config config = Config( host = f"https://{retrieve_workspace_instance_name()}", token = retrieve_token(), cluster_id = retrieve_cluster_id() ) spark = DatabricksSession.builder.sdkConfig(config).getOrCreate() # Specify a Databricks configuration profile along with the `cluster_id` field. # If you have already set the DATABRICKS_CLUSTER_ID environment variable with the # cluster's ID, you do not also need to set the cluster_id field here. from databricks.connect import DatabricksSession from databricks.sdk.core import Config config = Config( profile = "<profile-name>", cluster_id = retrieve_cluster_id() ) spark = DatabricksSession.builder.sdkConfig(config).getOrCreate() # Set the Spark Connect connection string in DatabricksSession.builder.remote. from databricks.connect import DatabricksSession workspace_instance_name = retrieve_workspace_instance_name() token = retrieve_token() cluster_id = retrieve_cluster_id() spark = DatabricksSession.builder.remote( f"sc://{workspace_instance_name}:443/;token={token};x-databricks-cluster-id={cluster_id}" ).getOrCreate()
- Legen Sie die Felder
Ein Azure Databricks-Konfigurationsprofil
Erstellen oder identifizieren Sie für diese Option ein Azure Databricks-Konfigurationsprofil mit dem Feld
cluster_id
und allen anderen Felder, die für den Databricks-Authentifizierungstyp erforderlich sind, den Sie verwenden möchten.Die folgenden Konfigurationsprofilfelder sind für die einzelnen Authentifizierungstypen erforderlich:
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
host
undtoken
- Für OAuth-M2M-Authentifizierung (sofern unterstützt):
host
,client_id
undclient_secret
. - Für die OAuth-User-to-Machine-Authentifizierung (U2M) (wo unterstützt):
host
. - Für die Dienstprinzipalauthentifizierung in Microsoft Entra ID (früher Azure Active Directory):
host
,azure_tenant_id
,azure_client_id
,azure_client_secret
und möglicherweiseazure_workspace_resource_id
. - Für die Azure CLI-Authentifizierung:
host
- Für die Authentifizierung mit von Azure verwalteten Identitäten (sofern unterstützt):
host
,azure_use_msi
,azure_client_id
und eventuellazure_workspace_resource_id
.
Legen Sie dann den Namen dieses Konfigurationsprofils über die
Config
-Klasse fest.Sie können
cluster_id
auf verschiedene Arten wie folgt angeben:- Fügen Sie das
cluster_id
-Feld in Ihr Konfigurationsprofil ein, und geben Sie dann einfach den Namen des Konfigurationsprofils an. - Geben Sie den Konfigurationsprofilnamen zusammen mit dem
cluster_id
-Feld an.
Wenn Sie die
DATABRICKS_CLUSTER_ID
-Umgebungsvariable bereits mit der Cluster-ID festgelegt haben, müssen Siecluster_id
nicht ebenfalls angeben.Der Code für jeden dieser Ansätze lautet wie folgt:
# Include the cluster_id field in your configuration profile, and then # just specify the configuration profile's name: from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() # Specify the configuration profile name along with the cluster_id field. # In this example, retrieve_cluster_id() assumes some custom implementation that # you provide to get the cluster ID from the user or from some other # configuration store: from databricks.connect import DatabricksSession from databricks.sdk.core import Config config = Config( profile = "<profile-name>", cluster_id = retrieve_cluster_id() ) spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
Die
SPARK_REMOTE
-UmgebungsvariableLegen Sie für diese Option, die nur für die Authentifizierung mit persönlichem Zugriffstoken in Azure Databricks gilt, die
SPARK_REMOTE
-Umgebungsvariable auf die folgende Zeichenfolge fest, und ersetzen Sie die Platzhalter durch die entsprechenden Werte.sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>
Initialisieren Sie dann die
DatabricksSession
-Klasse wie folgt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate()
Informationen zum Festlegen von Umgebungsvariablen finden Sie in der Dokumentation des Betriebssystems.
Die
DATABRICKS_CONFIG_PROFILE
-UmgebungsvariableErstellen oder identifizieren Sie für diese Option ein Azure Databricks-Konfigurationsprofil mit dem Feld
cluster_id
und allen anderen Felder, die für den Databricks-Authentifizierungstyp erforderlich sind, den Sie verwenden möchten.Wenn Sie die
DATABRICKS_CLUSTER_ID
-Umgebungsvariable bereits mit der Cluster-ID festgelegt haben, müssen Siecluster_id
nicht ebenfalls angeben.Die folgenden Konfigurationsprofilfelder sind für die einzelnen Authentifizierungstypen erforderlich:
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
host
undtoken
- Für OAuth-M2M-Authentifizierung (sofern unterstützt):
host
,client_id
undclient_secret
. - Für die OAuth-User-to-Machine-Authentifizierung (U2M) (wo unterstützt):
host
. - Für die Dienstprinzipalauthentifizierung in Microsoft Entra ID (früher Azure Active Directory):
host
,azure_tenant_id
,azure_client_id
,azure_client_secret
und möglicherweiseazure_workspace_resource_id
. - Für die Azure CLI-Authentifizierung:
host
- Für die Authentifizierung mit von Azure verwalteten Identitäten (sofern unterstützt):
host
,azure_use_msi
,azure_client_id
und eventuellazure_workspace_resource_id
.
Legen Sie die
DATABRICKS_CONFIG_PROFILE
-Umgebungsvariable auf den Namen dieses Konfigurationsprofils fest. Initialisieren Sie dann dieDatabricksSession
-Klasse wie folgt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate()
Informationen zum Festlegen von Umgebungsvariablen finden Sie in der Dokumentation des Betriebssystems.
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
Eine Umgebungsvariable für jede Verbindungseigenschaft
Legen Sie für diese Option die
DATABRICKS_CLUSTER_ID
-Umgebungsvariable und alle anderen Umgebungsvariablen fest, die für den Databricks-Authentifizierungstyp erforderlich sind, den Sie verwenden möchten.Die folgenden Umgebungsvariablen sind für die einzelnen Authentifizierungstypen erforderlich:
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
DATABRICKS_HOST
undDATABRICKS_TOKEN
- Für OAuth-M2M-Authentifizierung (sofern unterstützt):
DATABRICKS_HOST
,DATABRICKS_CLIENT_ID
undDATABRICKS_CLIENT_SECRET
. - Für die OAuth-User-to-Machine-Authentifizierung (U2M) (wo unterstützt):
DATABRICKS_HOST
. - Für die Dienstprinzipalauthentifizierung in Microsoft Entra ID (früher Azure Active Directory):
DATABRICKS_HOST
,ARM_TENANT_ID
,ARM_CLIENT_ID
,ARM_CLIENT_SECRET
und möglicherweiseDATABRICKS_AZURE_RESOURCE_ID
. - Für die Azure CLI-Authentifizierung:
DATABRICKS_HOST
- Für die Authentifizierung mit von Azure verwalteten Identitäten (sofern unterstützt):
DATABRICKS_HOST
,ARM_USE_MSI
,ARM_CLIENT_ID
und eventuellDATABRICKS_AZURE_RESOURCE_ID
.
Initialisieren Sie dann die
DatabricksSession
-Klasse wie folgt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate()
Informationen zum Festlegen von Umgebungsvariablen finden Sie in der Dokumentation des Betriebssystems.
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
Ein Azure Databricks-Konfigurationsprofil mit Namen
DEFAULT
Erstellen oder identifizieren Sie für diese Option ein Azure Databricks-Konfigurationsprofil mit dem Feld
cluster_id
und allen anderen Felder, die für den Databricks-Authentifizierungstyp erforderlich sind, den Sie verwenden möchten.Wenn Sie die
DATABRICKS_CLUSTER_ID
-Umgebungsvariable bereits mit der Cluster-ID festgelegt haben, müssen Siecluster_id
nicht ebenfalls angeben.Die folgenden Konfigurationsprofilfelder sind für die einzelnen Authentifizierungstypen erforderlich:
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
host
undtoken
- Für OAuth-M2M-Authentifizierung (sofern unterstützt):
host
,client_id
undclient_secret
. - Für die OAuth-User-to-Machine-Authentifizierung (U2M) (wo unterstützt):
host
. - Für die Dienstprinzipalauthentifizierung in Microsoft Entra ID (früher Azure Active Directory):
host
,azure_tenant_id
,azure_client_id
,azure_client_secret
und möglicherweiseazure_workspace_resource_id
. - Für die Azure CLI-Authentifizierung:
host
- Für die Authentifizierung mit von Azure verwalteten Identitäten (sofern unterstützt):
host
,azure_use_msi
,azure_client_id
und eventuellazure_workspace_resource_id
.
Benennen Sie dieses Konfigurationsprofil
DEFAULT
.Initialisieren Sie dann die
DatabricksSession
-Klasse wie folgt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate()
- Für die Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken:
Überprüfen Ihrer Umgebung und der Verbindung mit dem Databricks-Cluster
Der folgende Befehl überprüft, ob Ihre Umgebung, die Standardanmeldeinformationen und die Verbindung mit dem Cluster für Databricks Connect ordnungsgemäß eingerichtet sind.
databricks-connect test
Mit diesem Befehl werden die in der Umgebung konfigurierten Standardanmeldeinformationen ausgewählt (z. B. das
DEFAULT
-Konfigurationsprofil oder über Umgebungsvariablen).Der Befehl schlägt mit einem Exitcode ungleich 0 und einer entsprechenden Fehlermeldung fehl, wenn eine Inkompatibilität im Setup erkannt wird.
Darüber hinaus können Sie auch die
pyspark
-Shell verwenden, die im Rahmen von Databricks Connect für Python enthalten ist. Starten Sie die Shell, indem Sie Folgendes ausführen:pyspark
Die Spark-Shell wird angezeigt, z. B.:
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
Führen Sie an der
>>>
-Eingabeaufforderung einen einfachen PySpark-Befehl aus, z. B.spark.range(1,10).show()
. Wenn keine Fehler vorhanden sind, haben Sie erfolgreich eine Verbindung hergestellt.Wenn Sie die Verbindung erfolgreich hergestellt haben, drücken Sie
Ctrl + d
oderCtrl + z
, oder führen Sie den Befehlquit()
oderexit()
aus, um die Spark-Shell zu beenden.Weitere Details zur
databricks-connect
-Binärdatei finden Sie unter Erweiterte Verwendung von Databricks Connect für Python