Azure Databricks-fogalmak

Ez a cikk az Azure Databricks hatékony használatához szükséges alapvető fogalmakat ismerteti.

Fiókok és munkaterületek

Az Azure Databricksben a munkaterület egy Azure Databricks-üzembe helyezés a felhőben, amely környezetként működik a csapat számára a Databricks-objektumok eléréséhez. A szervezet az igényeitől függően több munkaterületet vagy csak egyet is választhat.

Az Azure Databricks-fiókok egyetlen entitást jelölnek, amely több munkaterületet is tartalmazhat. A Unity Catalogban engedélyezett fiókok a felhasználók és az adatokhoz való hozzáférés központi kezelésére használhatók a fiók összes munkaterületén.

Számlázás: Databricks-egységek (DBU-k)

Az Azure Databricks-számlák a Databricks-egységek (DBU-k) alapján, a virtuálisgép-példány típusától függően óránkénti feldolgozási egységek.

Tekintse meg az Azure Databricks díjszabási oldalát.

Hitelesítés és engedélyezés

Ez a szakasz az Azure Databricks-identitások kezelésekor és az Azure Databricks-objektumokhoz való hozzáférésük során szükséges fogalmakat ismerteti.

User

Egy egyedi személy, aki hozzáféréssel rendelkezik a rendszerhez. A felhasználói identitásokat e-mail-címek jelölik. Lásd: Felhasználók kezelése.

Szolgáltatásnév

Szolgáltatásidentitás feladatokhoz, automatizált eszközökhöz és rendszerekhez, például szkriptekhez, alkalmazásokhoz és CI/CD-platformokhoz. A szolgáltatásnevek egy alkalmazásazonosítóval vannak jelölve. Tekintse meg az alkalmazáspéldányok kezelését ismertető cikket.

Csoport

Identitások gyűjteménye. A csoportok egyszerűbbé teszik az identitáskezelést, így egyszerűbben rendelhetők hozzá a munkaterületekhez, adatokhoz és más biztonságos objektumokhoz való hozzáféréshez. Minden Databricks-identitás csoporttagként rendelhető hozzá. Lásd: Csoportok kezelése

Hozzáférés-vezérlési lista (ACL)

A munkaterülethez, fürthöz, feladathoz, táblához vagy kísérlethez csatolt engedélyek listája. Az ACL meghatározza, hogy mely felhasználók vagy rendszerfolyamatok férhetnek hozzá az objektumokhoz, valamint hogy milyen műveletek engedélyezettek az objektumokon. Egy tipikus ACL minden bejegyzése egy tárgyat és egy műveletet határoz meg. Hozzáférés-vezérlési listák megtekintése

Személyes hozzáférési jogkivonat

Egy átlátszatlan sztringet használnak a REST API-val való hitelesítéshez, valamint a technológiai partnerek eszközei az SQL-raktárakhoz való csatlakozáshoz. Tekintse meg az Azure Databricks személyes hozzáférési jogkivonatának hitelesítését.

A Microsoft Entra ID (korábbi nevén Azure Active Directory) jogkivonatok a REST API-ban való hitelesítéshez is használhatók.

Felhasználói felület

Az Azure Databricks felhasználói felülete egy grafikus felület a funkciók, például a munkaterületi mappák és a bennük lévő objektumok, adatobjektumok és számítási erőforrások kezeléséhez.

Adatelemzés és -tervezés

Az adatelemzési és -mérnöki eszközök az adattudósok, az adatmérnökök és az adatelemzők együttműködését segítik. Ez a szakasz az alapvető fogalmakat ismerteti.

Munkaterület

A munkaterület az összes Azure Databricks-eszköz elérésére szolgáló környezet. A munkaterület mappákba rendezi az objektumokat (jegyzetfüzeteket, tárakat, irányítópultokat és kísérleteket), és hozzáférést biztosít az adatobjektumokhoz és számítási erőforrásokhoz.

Jegyzetfüzet

Webalapú felület adatelemzési és gépi tanulási munkafolyamatok létrehozásához, amelyek futtatható parancsokat, vizualizációkat és elbeszélő szöveget tartalmazhatnak. Lásd a Databricks-jegyzetfüzetek bemutatása című témakört.

Irányítópult

Egy felület, amely szervezett hozzáférést biztosít a vizualizációkhoz. Tekintse meg a jegyzetfüzetek irányítópultjait.

Könyvtár

A fürtön futó jegyzetfüzet vagy feladat számára elérhető kódcsomag. A Databricks-futtatókörnyezetek számos kódtárat tartalmaznak, és saját kódtárat is hozzáadhat.

Git mappa (korábbi nevén Repos)

Egy mappa, amelynek tartalma közösen van szinkronizálva egy távoli Git-adattárral. A Databricks Git-mappák a Gittel integrálva biztosítják a projektek forrás- és verziókövetését.

Experiment

Az MLflow-gyűjtemény egy gépi tanulási modell betanításához fut . Lásd: Betanítási futtatások rendszerezése MLflow-kísérletekkel.

Azure Databricks-felületek

Ez a szakasz az Azure Databricks által a felhasználói felületen kívül az eszközök eléréséhez használható felületeket ismerteti: API és parancssori felület.

REST API

A Databricks API-dokumentációt biztosít a munkaterülethez és a fiókhoz.

CLI

A GitHubon üzemeltetett nyílt forráskód projekt. A CLI a Databricks REST API-ra épül.

Adatkezelés

Ez a szakasz azokat az objektumokat ismerteti, amelyeken elemzést végez, és gépi tanulási algoritmusokba táplálja az adatokat.

Databricks fájlrendszer (DBFS)

Fájlrendszer absztrakciós rétege egy blobtárolón keresztül. Könyvtárakat tartalmaz, amelyek fájlokat (adatfájlokat, kódtárakat és képeket) és más könyvtárakat tartalmazhatnak. A DBFS automatikusan fel van töltve néhány adatkészlettel , amelyekkel megismerheti az Azure Databrickset. Lásd : Mi a Databricks fájlrendszer (DBFS)?.

Adatbázis

Adatobjektumok, például táblák, nézetek és függvények gyűjteménye, amely úgy van rendszerezve, hogy azok könnyen elérhetők, kezelhetők és frissíthetők legyenek. Lásd : Mi az az adatbázis?

Tábla

Strukturált adatok ábrázolása. Táblákat kérdez le Apache Spark SQL-sel és Apache Spark API-kkal. Lásd : Mi az a tábla?

Delta tábla

Alapértelmezés szerint az Azure Databricksben létrehozott összes tábla Delta-táblák. A Delta-táblák a Delta Lake nyílt forráskód projekten alapulnak, amely a felhőalapú objektumtárolókon keresztüli nagy teljesítményű ACID-táblatárolás keretrendszere. A Delta-táblák fájlkönyvtárként tárolják az adatokat a felhőobjektum-tárolóban, és regisztrálják a tábla metaadatait a katalógusban és a sémában lévő metaadattárba.

További információ a Delta márkájú technológiákról.

Metaadattár

Az az összetevő, amely az adattárházban tárolja a különböző táblák és partíciók összes szerkezeti információját, beleértve az oszlop- és oszloptípus-információkat, az adatok olvasásához és írásához szükséges szerializálókat és deszerializálókat, valamint az adatokat tároló megfelelő fájlokat. Lásd : Mi az a metaadattár?

Az Azure Databricks minden üzemelő példánya rendelkezik egy központi Hive-metaadattárral, amely az összes fürt számára hozzáférhető a tábla metaadatainak megőrzéséhez. Lehetősége van egy meglévő külső Hive-metaadattár használatára is.

Vizualizáció

Egy lekérdezés futtatásának eredményének grafikus bemutatója. Lásd : Vizualizációk a Databricks-jegyzetfüzetekben.

Számításkezelés

Ez a szakasz olyan fogalmakat ismertet, amelyeket ismernie kell a számítások Azure Databricksben való futtatásához.

Fürt

Számítási erőforrások és konfigurációk készlete, amelyen jegyzetfüzeteket és feladatokat futtat. A fürtöknek két típusa van: minden célra és feladatra. Lásd: Compute.

  • Egy teljes körű fürtöt a felhasználói felület, a parancssori felület vagy a REST API használatával hozhat létre. Az univerzális fürtök manuálisan leállíthatók és újraindíthatók. Több felhasználó is megoszthat ilyen fürtöket a közös interaktív elemzés elvégzéséhez.
  • Az Azure Databricks feladatütemezője létrehoz egy feladatfürtöt, amikor feladatot futtat egy új feladatfürtön, és leállítja a fürtöt a feladat befejezésekor. Feladatfürt nem indítható újra.

Készlet

Tétlen, használatra kész példányok készlete, amelyek csökkentik a fürtindítási és automatikus skálázási időt. Készlethez csatolva a fürt lefoglalja az illesztőprogram- és feldolgozó csomópontokat a készletből. Lásd: Készletkonfigurációs referencia.

Ha a készlet nem rendelkezik elegendő tétlen erőforrással a fürt kérésének kielégítéséhez, a készlet úgy bővül, hogy új példányokat helyez ki a példányszolgáltatótól. Ha egy csatolt fürt leáll, a használt példányok visszakerülnek a készletbe, és egy másik fürt újra felhasználhatja.

Databricks-futtatókörnyezet

Az Azure Databricks által felügyelt fürtökön futó alapvető összetevők készlete. Lásd: Compute.* Az Azure Databricks a következő futtatókörnyezetekkel rendelkezik:

  • A Databricks Runtime tartalmazza az Apache Sparkot, de számos olyan összetevőt és frissítést is hozzáad, amelyek jelentősen javítják a big data-elemzések használhatóságát, teljesítményét és biztonságát.
  • A Databricks Runtime for Machine Tanulás a Databricks Runtime-ra épül, és előre összeállított gépi tanulási infrastruktúrát biztosít, amely integrálva van az Azure Databricks-munkaterület összes funkciójával. Több népszerű kódtárat tartalmaz, köztük a TensorFlow, a Keras, a PyTorch és az XGBoost.

Munkafolyamatok

Adatfeldolgozási folyamatok fejlesztésére és futtatására vonatkozó keretrendszerek:

  • Feladatok: Jegyzetfüzet vagy tár azonnali vagy ütemezett futtatására szolgáló nem interaktív mechanizmus.
  • Delta Live Tables: Keretrendszer megbízható, karbantartható és tesztelhető adatfeldolgozási folyamatok létrehozásához.

Lásd : Bevezetés az Azure Databricks-munkafolyamatok használatába.

Számítási feladat

Az Azure Databricks kétféle számítási feladatot azonosít, amelyek különböző díjszabási sémák hatálya alá tartoznak: adatmérnöki (feladat) és adatelemzés (teljes körű).

  • Adatfejlesztés Egy (automatizált) számítási feladat egy feladatfürtönfut, amelyet az Azure Databricks feladatütemezője hoz létre az egyes számítási feladatokhoz.
  • Adatelemzés : Egy (interaktív) számítási feladat egy teljes célú fürtön fut. Az interaktív számítási feladatok általában parancsokat futtatnak egy Azure Databricks-jegyzetfüzetben. A feladat futtatása azonban egy meglévő teljes célú fürtön interaktív számítási feladatként is működik.

Végrehajtás környezete

A read-eval–print loop (REPL) környezet állapota minden támogatott programozási nyelvhez. A támogatott nyelvek a Python, az R, a Scala és az SQL.

Gépi tanulás

Az Azure Databricks gépi Tanulás egy integrált, végpontok közötti környezet, amely felügyelt szolgáltatásokat tartalmaz a kísérletkövetéshez, a modell betanításához, a funkciók fejlesztéséhez és felügyeletéhez, valamint a funkciók és modellek kiszolgálásához.

Kísérletek

A gépi tanulási modellek fejlesztésének nyomon követésére szolgáló szervezet fő egysége. Lásd: Betanítási futtatások rendszerezése MLflow-kísérletekkel. Kísérletek a modellbetanítási kód egyes naplózott futtatásaihoz való hozzáférés rendszerezésére, megjelenítésére és vezérlésére.

Funkciótár

Szolgáltatások központosított adattára. Lásd : Mi az a szolgáltatástár? A Feature Store lehetővé teszi a szolgáltatások megosztását és felderítését a szervezeten belül, valamint biztosítja, hogy ugyanazt a funkciószámítási kódot használja a modell betanításához és következtetéséhez.

Modellek > modellregisztrációs adatbázis

A Modellregisztrációs adatbázisban regisztrált betanított gépi tanulási vagy mélytanulási modell.

SQL

SQL REST API

Egy felület, amellyel automatizálhatja a feladatokat AZ SQL-objektumokon. Lásd az SQL API-t.

Irányítópult

Adatvizualizációk és kommentárok bemutatója. Lásd: Irányítópultok. Az örökölt irányítópultokért lásd : Örökölt irányítópultok.

SQL-lekérdezések

Ez a szakasz olyan fogalmakat ismertet, amelyeket ismernie kell az SQL-lekérdezések Azure Databricksben való futtatásához.