Mi az a Databricks Csatlakozás?

Feljegyzés

Ez a cikk a Databricks Runtime 13.0-s és újabb verziókhoz készült Databricks Csatlakozás ismerteti.

A Databricks Csatlakozás örökölt verziójáról további információt a Databricks Runtime 12.2 LTS-hez készült Databricks Csatlakozás és alább talál.

  • A cikk kihagyásához és a Pythonhoz készült Databricks Csatlakozás használatának megkezdéséhez tekintse meg a Pythonhoz készült Databricks Csatlakozás.
  • A cikk kihagyásához és az R-hez készült Databricks Csatlakozás használatának megkezdéséhez tekintse meg az R-hez készült Databricks Csatlakozás.
  • A cikk kihagyásához és a Scalához készült Databricks Csatlakozás használatának megkezdéséhez tekintse meg a Scala Databricks Csatlakozás című cikket.

Áttekintés

A Databricks Csatlakozás lehetővé teszi olyan népszerű azonosítók csatlakoztatását, mint a Visual Studio Code, a PyCharm, az RStudio Desktop, az IntelliJ IDEA, a notebook-kiszolgálók és más egyéni alkalmazások az Azure Databricks-fürtökhöz. Ez a cikk a Databricks Csatlakozás működését ismerteti.

A Databricks Csatlakozás a Databricks Runtime ügyfélkódtára. Lehetővé teszi kód írását Spark API-k használatával, és távolról futtathatja őket egy Azure Databricks-fürtön a helyi Spark-munkamenet helyett.

Ha például a DataFrame parancsot spark.read.format(...).load(...).groupBy(...).agg(...).show() a Databricks Csatlakozás használatával futtatja, a rendszer elküldi a parancs logikai ábrázolását az Azure Databricksben futó Spark-kiszolgálónak a távoli fürt végrehajtásához.

A Databricks Csatlakozás a következőt teheti:

  • Nagy méretű Spark-kódot futtathat bármely Python-, R- vagy Scala-alkalmazásból. import pyspark A Pythonhoz, library(sparklyr) az R-hez vagy import org.apache.spark a Scalához bárhol futtathatja a Spark-kódot közvetlenül az alkalmazásból anélkül, hogy ide beépülő modulokat kellene telepítenie, vagy Spark-beküldési szkripteket kellene használnia.

    Feljegyzés

    A Databricks-Csatlakozás a Databricks Runtime 13.0-s és újabb verziója támogatja a Python-alkalmazások futtatását. Az R és a Scala csak a Databricks Csatlakozás a Databricks Runtime 13.3 LTS és újabb verziókban támogatott.

  • A kód hibakeresése és végrehajtása az IDE-ben akkor is, ha távoli fürttel dolgozik.

  • A kódtárak fejlesztésekor gyorsan iterál. A Databricks-Csatlakozás Python- vagy Scala-kódtár-függőségeinek módosítása után nem kell újraindítania a fürtöt, mert minden ügyfél-munkamenet el van különítve egymástól a fürtben.

  • Inaktív fürtök leállítása a munka elvesztése nélkül. Mivel az ügyfélalkalmazás leválasztva van a fürtről, a fürt újraindítása vagy frissítései nem érintik, ami általában a jegyzetfüzetben definiált összes változót, RDD-t és DataFrame-objektumot elveszíti.

A Databricks Runtime 13.3 LTS-hez és újabb verziókhoz a Databricks Csatlakozás már nyílt forráskódú Spark-Csatlakozás épül. A Spark Csatlakozás egy leválasztott ügyfél-kiszolgáló architektúrát vezet be az Apache Sparkhoz, amely lehetővé teszi a Spark-fürtökhöz való távoli kapcsolódást a DataFrame API használatával, és a feloldatlan logikai terveket protokollként. A Spark Csatlakozás alapuló "V2" architektúrával a Databricks Csatlakozás egyszerű és könnyen használható vékony ügyfél lesz. A Spark Csatlakozás mindenhol beágyazhatók az Azure Databrickshez való csatlakozáshoz: azonosítókban, jegyzetfüzetekben és alkalmazásokban, így az egyes felhasználók és partnerek egyaránt új (interaktív) felhasználói élményt hozhatnak létre a Databricks platform alapján. A Spark Csatlakozás a Spark Csatlakozás bemutatása című témakörben talál további információt.

A Databricks Csatlakozás határozza meg a kód futtatásának és hibakeresésének helyét az alábbi ábrán látható módon.

Ábra a Databricks Csatlakozás kódfuttatásokról és hibakeresésekről

Kód futtatásához: Minden kód helyileg fut, míg a DataFrame-műveleteket tartalmazó összes kód a távoli Azure Databricks-munkaterület fürtjén fut, és a futtatási válaszok vissza lesznek küldve a helyi hívónak.

Hibakeresési kód esetén: Az összes kód helyileg van hibakereséssel, míg az összes Spark-kód továbbra is fut a fürtön a távoli Azure Databricks-munkaterületen. Az alapvető Spark-motorkódot nem lehet közvetlenül az ügyfélből hibakeresésre használni.

Következő lépések