Delen via


Wat is Databricks Verbinding maken?

Notitie

Dit artikel bevat informatie over Databricks Verbinding maken voor Databricks Runtime 13.0 en hoger.

Zie Databricks Verbinding maken voor Databricks Runtime 12.2 LTS en hieronder voor meer informatie over de verouderde versie van Databricks Verbinding maken.

Overzicht

Met Databricks Verbinding maken kunt u populaire IDE's, zoals Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks-clusters. In dit artikel wordt uitgelegd hoe Databricks Verbinding maken werkt.

Databricks Verbinding maken is een clientbibliotheek voor databricks Runtime. Hiermee kunt u code schrijven met behulp van Spark-API's en deze op afstand uitvoeren op een Azure Databricks-cluster in plaats van in de lokale Spark-sessie.

Wanneer u bijvoorbeeld de DataFrame-opdracht spark.read.format(...).load(...).groupBy(...).agg(...).show() uitvoert met behulp van Databricks Verbinding maken, wordt de logische weergave van de opdracht verzonden naar de Spark-server die wordt uitgevoerd in Azure Databricks voor uitvoering op het externe cluster.

Met Databricks Verbinding maken kunt u het volgende doen:

  • Voer grootschalige Spark-code uit vanuit elke Python-, R- of Scala-toepassing. Overal waar u voor Python, library(sparklyr) R of import org.apache.spark Scala kuntimport pyspark, kunt u spark-code nu rechtstreeks vanuit uw toepassing uitvoeren, zonder dat u IDE-invoegtoepassingen hoeft te installeren of Spark-inzendingsscripts hoeft te gebruiken.

    Notitie

    Databricks Verbinding maken voor Databricks Runtime 13.0 en hoger ondersteunen het uitvoeren van Python-toepassingen. R en Scala worden alleen ondersteund in Databricks Verbinding maken voor Databricks Runtime 13.3 LTS en hoger.

  • Voer stapsgewijs de code in uw IDE uit, zelfs wanneer u met een extern cluster werkt.

  • Snel herhalen bij het ontwikkelen van bibliotheken. U hoeft het cluster niet opnieuw op te starten nadat u afhankelijkheden van de Python- of Scala-bibliotheek hebt gewijzigd in Databricks Verbinding maken, omdat elke clientsessie van elkaar in het cluster is geïsoleerd.

  • Schakel niet-actieve clusters uit zonder werk te verliezen. Omdat de clienttoepassing losgekoppeld is van het cluster, wordt deze niet beïnvloed door het opnieuw opstarten of upgraden van het cluster, waardoor u normaal gesproken alle variabelen, RDD's en DataFrame-objecten kwijtraakt die zijn gedefinieerd in een notebook.

Voor Databricks Runtime 13.3 LTS en hoger is Databricks-Verbinding maken nu gebaseerd op opensource Spark-Verbinding maken. Spark Verbinding maken introduceert een losgekoppelde clientserverarchitectuur voor Apache Spark waarmee externe connectiviteit met Spark-clusters mogelijk is met behulp van de DataFrame-API en onopgeloste logische plannen als protocol. Met deze V2-architectuur op basis van Spark Verbinding maken wordt Databricks Verbinding maken een thin client die eenvoudig en eenvoudig te gebruiken is. Spark-Verbinding maken kunnen overal worden ingesloten om verbinding te maken met Azure Databricks: in IDE's, notebooks en toepassingen, zodat individuele gebruikers en partners nieuwe (interactieve) gebruikerservaringen kunnen bouwen op basis van het Databricks-platform. Zie Inleiding tot Spark-Verbinding maken voor meer informatie over Spark-Verbinding maken.

Databricks Verbinding maken bepaalt waar uw code wordt uitgevoerd en fouten opsporen, zoals wordt weergegeven in de volgende afbeelding.

Afbeelding van databricks Verbinding maken codeuitvoeringen en foutopsporing

Voor het uitvoeren van code: alle code wordt lokaal uitgevoerd, terwijl alle code met Betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale beller.

Voor foutopsporingscode: alle code wordt lokaal opgespoord, terwijl alle Spark-code blijft worden uitgevoerd op het cluster in de externe Azure Databricks-werkruimte. De kerncode van de Spark-engine kan niet rechtstreeks vanuit de client worden opgespoord.

Volgende stappen