Share via


Databricks Csatlakozás Pythonhoz

Feljegyzés

Ez a cikk a Databricks Runtime 13.0-s és újabb verziókhoz készült Databricks Csatlakozás ismerteti.

Ez a cikk bemutatja, hogyan kezdheti el gyorsan a Databricks Csatlakozás a Python és a PyCharm használatával.

A Databricks Csatlakozás lehetővé teszi a népszerű azonosítók, például a PyCharm, a notebook-kiszolgálók és más egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd: Mi az a Databricks Csatlakozás?.

Oktatóanyag

Ha ki szeretné hagyni ezt az oktatóanyagot, és ehelyett egy másik IDE-t szeretne használni, tekintse meg a következő lépéseket.

Követelmények

Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:

  • A cél Azure Databricks-munkaterületnek és -fürtnek meg kell felelnie a Databricks-Csatlakozás fürtkonfigurációjának követelményeinek.

  • A fürtazonosítónak elérhetőnek kell lennie. A fürtazonosító lekéréséhez a munkaterületen kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja ki a karakterek sztringjét az URL-cím között clusters és configuration az URL-címben.

  • A PyCharm telepítve van. Ezt az oktatóanyagot a PyCharm Community Edition 2023.3.5-ös verziójával teszteltük. Ha a PyCharm másik verzióját vagy kiadását használja, az alábbi utasítások eltérhetnek.

  • Telepítve van a Python 3 a fejlesztői gépen, és az ügyfél Python-telepítésének alverziója megegyezik az Azure Databricks-fürt al Python-verziójával. Az alábbi táblázat az egyes Databricks Runtime-okkal telepített Python-verziót mutatja be.

    Databricks Runtime verzió Python-verzió
    15.0 ML,
    15,0
    3.11
    13,0 ML - 14,3 ML,
    13.0 - 14.3
    3,10

1. lépés: Az Azure Databricks-hitelesítés konfigurálása

Ez az oktatóanyag az Azure Databricks OAuth felhasználói (U2M) hitelesítését és egy Azure Databricks-konfigurációs profilt használ az Azure Databricks-munkaterület hitelesítéséhez. Ha ehelyett más hitelesítési típust szeretne használni, olvassa el a Kapcsolat tulajdonságainak konfigurálása című témakört.

Az OAuth U2M-hitelesítés konfigurálásához a Databricks parancssori felületre van szükség az alábbiak szerint:

  1. Ha még nincs telepítve, telepítse a Databricks parancssori felületét az alábbiak szerint:

    Linux, macos

    A Következő két parancs futtatásával telepítse a Databricks parancssori felületet a Homebrew használatával:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    A Databricks parancssori felület telepítéséhez használhat winget, Chocolatey vagy Linuxos Windows-alrendszer (WSL). Ha a Chocolatey vagy a WSL nem használható winget, hagyja ki ezt az eljárást, és a parancssor vagy a PowerShell használatával telepítse a Databricks PARANCSSOR-t a forrásból .

    Feljegyzés

    A Databricks CLI és a Chocolatey telepítése kísérleti.

    winget A Databricks parancssori felület telepítéséhez futtassa a következő két parancsot, majd indítsa újra a parancssort:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    A Databricks parancssori felület telepítéséhez futtassa a következő parancsot a Chocolatey használatával:

    choco install databricks-cli
    

    A WSL használata a Databricks parancssori felület telepítéséhez:

    1. Telepítse curl és telepítse a zip WSL-t. További információkért tekintse meg az operációs rendszer dokumentációját.

    2. A Következő parancs futtatásával telepítse a Databricks PARANCSSOR-t a WSL használatával:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Ellenőrizze, hogy a Databricks parancssori felület telepítve van-e a következő parancs futtatásával, amely megjeleníti a telepített Databricks parancssori felület aktuális verzióját. Ennek a verziónak a 0.205.0-s vagy újabb verziónak kell lennie:

    databricks -v
    

    Feljegyzés

    Ha futtat, databricks de hibaüzenetet kap, például command not found: databricks, vagy ha fut databricks -v , és a 0.18-as vagy újabb verziószám jelenik meg, ez azt jelenti, hogy a gép nem találja a Databricks parancssori felületének megfelelő végrehajtható verzióját. A probléma megoldásához tekintse meg a parancssori felület telepítésének ellenőrzése című témakört.

OAuth U2M-hitelesítés kezdeményezése az alábbiak szerint:

  1. Az OAuth-jogkivonatok helyi felügyeletének elindításához használja a Databricks parancssori felületét az alábbi parancs futtatásával minden cél-munkaterületen.

    Az alábbi parancsban cserélje le <workspace-url> például az Azure Databricks munkaterületenkénti URL-címéthttps://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. A Databricks parancssori felülete kéri, hogy mentse az Azure Databricks konfigurációs profiljaként megadott adatokat. Nyomja le Enter a javasolt profilnevet, vagy adja meg egy új vagy meglévő profil nevét. Az azonos nevű meglévő profilokat felülírja a megadott adatokkal. Profilok használatával gyorsan válthat a hitelesítési környezetre több munkaterületen.

    A meglévő profilok listájának lekéréséhez egy külön terminálban vagy parancssorban futtassa a Parancsot databricks auth profilesa Databricks parancssori felületével. Egy adott profil meglévő beállításainak megtekintéséhez futtassa a parancsot databricks auth env --profile <profile-name>.

  3. A webböngészőben végezze el a képernyőn megjelenő utasításokat az Azure Databricks-munkaterületre való bejelentkezéshez.

  4. A terminálban vagy parancssorban megjelenő elérhető fürtök listájában a felfelé és lefelé mutató nyílbillentyűkkel válassza ki a munkaterületen a cél Azure Databricks-fürtöt, majd nyomja le Entera billentyűt. A fürt megjelenítendő nevének bármely részét beírhatja az elérhető fürtök listájának szűréséhez.

  5. A profil aktuális OAuth-tokenértékének és a jogkivonat közelgő lejárati időbélyegének megtekintéséhez futtassa az alábbi parancsok egyikét:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Ha több azonos értékű profillal rendelkezik--host, előfordulhat, hogy együtt kell megadnia azokat és -p a --host beállításokat, hogy a Databricks parancssori felülete megkeresse a megfelelő OAuth-jogkivonat-információkat.

2. lépés: A projekt létrehozása

  1. Indítsa el a PyCharmot.
  2. A főmenüben kattintson az Új projekt fájlja elemre>.
  3. Az Új projekt párbeszédpanelen kattintson a Tiszta Python elemre.
  4. A Hely beállításhoz kattintson a mappa ikonra, és végezze el a képernyőn megjelenő utasításokat az új Python-projekt elérési útjának megadásához.
  5. Hagyja bejelölve main.py üdvözlőprogram létrehozását.
  6. Értelmező típus esetén kattintson a Project venv elemre.
  7. Bontsa ki a Python-verziót, és a mappaikon vagy a legördülő lista használatával adja meg a Python-értelmező elérési útját az előző követelmények alapján.
  8. Kattintson a Létrehozás gombra.

A PyCharm-projekt létrehozása

3. lépés: A Databricks Csatlakozás csomag hozzáadása

  1. A PyCharm főmenüjében kattintson a Windows > Python-csomagok megtekintése eszközre>.
  2. A keresőmezőbe írja be a databricks-connect kifejezést.
  3. A PyPI-adattár listájában kattintson a databricks-connect elemre.
  4. Az eredménypanel legújabb legördülő listájában válassza ki a fürt Databricks Runtime-verziójának megfelelő verziót. Ha például a fürtön telepítve van a Databricks Runtime 14.3, válassza a 14.3.1-et.
  5. Kattintson a Csomag telepítése elemre.
  6. A csomag telepítése után bezárhatja a Python Packages ablakot.

A Databricks Csatlakozás csomag telepítése

4. lépés: Kód hozzáadása

  1. A Project eszközablakban kattintson a jobb gombbal a projekt gyökérmappájára, és válassza az Új > Python-fájl parancsot.

  2. Írja be main.py és kattintson duplán a Python-fájlra.

  3. Írja be a következő kódot a fájlba, majd mentse a fájlt a konfigurációs profil nevétől függően.

    Ha az 1. lépésben megadott konfigurációs profil neve el van nevezve DEFAULT, írja be a következő kódot a fájlba, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Ha az 1. lépésben megadott konfigurációs profil neve nem DEFAULTszerepel, írja be helyette a következő kódot a fájlba. Cserélje le a helyőrzőt <profile-name> a konfigurációs profil nevére az 1. lépésben, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

5. lépés: A kód futtatása

  1. Indítsa el a célfürtöt a távoli Azure Databricks-munkaterületen.
  2. A fürt elindítása után a főmenüben kattintson a Futtatás főmenüre>.
  3. A Futtatás eszközablakban (Windows futtatás megtekintése >>) a Futtatás lap fő ablaktábláján megjelenik a samples.nyctaxi.trips lap első 5 sora.

6. lépés: A kód hibakeresése

  1. Ha a fürt továbbra is fut, az előző kódban a töréspont beállításához kattintson a mellette lévő ereszcsatornára df.show(5) .
  2. A főmenüben kattintson a "fő" hibakeresés futtatása > parancsra.
  3. A Hibakeresési eszköz ablakában (Az eszköz Windows > hibakeresésének megtekintése>) a Hibakereső lap Változók paneljén bontsa ki az elosztott fájlrendszer és a Spark változócsomópontot a kód és spark a változók információinak df böngészéséhez.
  4. A Hibakeresés eszköz ablakának oldalsávján kattintson a zöld nyílra (Program folytatása) ikonra.
  5. A Hibakereső lap Konzol paneljén megjelenik a samples.nyctaxi.trips hibakereső lap első 5 sora.

A PyCharm-projekt hibakeresése

Következő lépések

A Databricks Csatlakozás az alábbi cikkekben talál további információt: