Använda Spark-gränssnittet med Databricks Anslut för Python
Kommentar
Den här artikeln beskriver Databricks Anslut för Databricks Runtime 13.0 och senare.
Den här artikeln beskriver hur du använder Databricks Anslut för Python och Spark-gränssnittet. Med Databricks Anslut kan du ansluta populära program till Azure Databricks-kluster. Se Vad är Databricks Anslut?.
Kommentar
Innan du börjar använda Databricks Anslut måste du konfigurera Databricks-Anslut-klienten.
Spark-gränssnittet fungerar endast med autentisering av personlig åtkomsttoken för Azure Databricks.
Följ dessa instruktioner om du vill använda Databricks Anslut med Spark-gränssnittet och Python.
Om du vill starta Spark-gränssnittet och ansluta det till ditt kluster som körs kör du något av följande kommandon från den aktiverade virtuella Python-miljön:
Om du angav
SPARK_REMOTE
miljövariabeln tidigare kör du följande kommando:pyspark
Om du inte angav
SPARK_REMOTE
miljövariabeln tidigare kör du följande kommando i stället:pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
Spark-gränssnittet visas till exempel:
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
Se Interaktiv analys med Spark Shell för information om hur du använder Spark-gränssnittet med Python för att köra kommandon i klustret.
Använd den inbyggda
spark
variabeln för att representeraSparkSession
på det kluster som körs, till exempel:>>> df = spark.read.table("samples.nyctaxi.trips") >>> df.show(5) +--------------------+---------------------+-------------+-----------+----------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171| | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110| | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023| | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017| | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282| +--------------------+---------------------+-------------+-----------+----------+-----------+ only showing top 5 rows
All Python-kod körs lokalt, medan all PySpark-kod som involverar DataFrame-åtgärder körs på klustret på den fjärranslutna Azure Databricks-arbetsytan och körningssvar skickas tillbaka till den lokala anroparen.
Om du vill stoppa Spark-gränssnittet trycker
Ctrl + d
du på ellerCtrl + z
, eller kör kommandotquit()
ellerexit()
.