Azure Databricks-begrepp
Den här artikeln beskriver de grundläggande begrepp som du behöver förstå för att kunna använda Azure Databricks effektivt.
Konton och arbetsytor
I Azure Databricks är en arbetsyta en Azure Databricks-distribution i molnet som fungerar som en miljö där ditt team kan komma åt Databricks-tillgångar. Din organisation kan välja att antingen ha flera arbetsytor eller bara en, beroende på dess behov.
Ett Azure Databricks-konto representerar en enda entitet som kan innehålla flera arbetsytor. Konton som är aktiverade för Unity Catalog kan användas för att hantera användare och deras åtkomst till data centralt över alla arbetsytor i kontot.
Fakturering: Databricks-enheter (DBUs)
Azure Databricks-fakturor baserat på Databricks-enheter (DBUs), bearbetningsenheter per timme baserat på vm-instanstyp.
Se prissättningssidan för Azure Databricks.
Autentisering och auktorisering
I det här avsnittet beskrivs begrepp som du behöver veta när du hanterar Azure Databricks-identiteter och deras åtkomst till Azure Databricks-tillgångar.
User
En unik person som har åtkomst till systemet. Användaridentiteter representeras av e-postadresser. Se Hantera användare.
Tjänstens huvudnamn
En tjänstidentitet för användning med jobb, automatiserade verktyg och system som skript, appar och CI/CD-plattformar. Tjänstens huvudnamn representeras av ett program-ID. Läs mer i Hantera tjänstens huvudnamn.
Grupp
En samling identiteter. Grupper förenklar identitetshantering, vilket gör det enklare att tilldela åtkomst till arbetsytor, data och andra skyddsbara objekt. Alla Databricks-identiteter kan tilldelas som medlemmar i grupper. Se Hantera grupper
Åtkomstkontrollista (ACL)
En lista över behörigheter som är kopplade till arbetsytan, klustret, jobbet, tabellen eller experimentet. En ACL anger vilka användare eller systemprocesser som beviljas åtkomst till objekten, samt vilka åtgärder som tillåts på tillgångarna. Varje post i en typisk ACL anger ett ämne och en åtgärd. Se Översikt över åtkomstkontroll
Personlig åtkomsttoken
En ogenomskinlig sträng används för att autentisera till REST-API:et och med verktyg i teknikpartners för att ansluta till SQL-lager. Mer information finns i autentisering med personlig åtkomsttoken i Azure Databricks.
Microsoft Entra-ID-token (tidigare Azure Active Directory) kan också användas för att autentisera till REST-API:et.
UI
Azure Databricks-användargränssnittet är ett grafiskt gränssnitt för att interagera med funktioner, till exempel arbetsytemappar och deras inneslutna objekt, dataobjekt och beräkningsresurser.
Datavetenskap och teknik
Data science & engineering tools underlättar samarbete mellan dataforskare, datatekniker och dataanalytiker. I det här avsnittet beskrivs de grundläggande begreppen.
Arbetsyta
En arbetsyta är en miljö för åtkomst till alla dina Azure Databricks-tillgångar. En arbetsyta organiserar objekt (notebook-filer, bibliotek, instrumentpaneler och experiment) i mappar och ger åtkomst till dataobjekt och beräkningsresurser.
Notebook-fil
Ett webbaserat gränssnitt för att skapa arbetsflöden för datavetenskap och maskininlärning som kan innehålla runnable-kommandon, visualiseringar och narrativ text. Se Introduktion till Databricks-notebook-filer.
Instrumentpanel
Ett gränssnitt som ger organiserad åtkomst till visualiseringar. Se Instrumentpaneler i notebook-filer.
Bibliotek
Ett kodpaket som är tillgängligt för notebook-filen eller jobbet som körs i klustret. Databricks-runtimes innehåller många bibliotek och du kan lägga till egna.
Lagringsplats
En mapp vars innehåll samversioneras tillsammans genom att synkronisera dem till en fjärransluten Git-lagringsplats. Databricks Repos integreras med Git för att tillhandahålla käll- och versionskontroll för dina projekt.
Experiment
En samling MLflow-körningar för träning av en maskininlärningsmodell. Se Ordna träningskörningar med MLflow-experiment.
Azure Databricks-gränssnitt
I det här avsnittet beskrivs de gränssnitt som Azure Databricks stöder, förutom användargränssnittet, för åtkomst till dina tillgångar: API och kommandorad (CLI).
REST-API
Databricks tillhandahåller API-dokumentation för arbetsytan och kontot.
CLI
Ett öppen källkod projekt som finns på GitHub. CLI bygger på Databricks REST API.
Datahantering
I det här avsnittet beskrivs de objekt som innehåller de data som du utför analys och matar in i maskininlärningsalgoritmer.
Databricks-filsystem (DBFS)
Ett abstraktionslager för filsystem över ett bloblager. Den innehåller kataloger som kan innehålla filer (datafiler, bibliotek och bilder) och andra kataloger. DBFS fylls automatiskt i med vissa datauppsättningar som du kan använda för att lära dig Azure Databricks. Se Vad är Databricks-filsystemet (DBFS)?.
Databas
En samling dataobjekt, till exempel tabeller eller vyer och funktioner, som är ordnade så att de enkelt kan nås, hanteras och uppdateras. Se Vad är en databas?
Register
En representation av strukturerade data. Du kör frågor mot tabeller med Apache Spark SQL- och Apache Spark-API:er. Se Vad är en tabell?
Deltatabell
Som standard är alla tabeller som skapats i Azure Databricks Delta-tabeller. Deltatabeller baseras på Projektet Delta Lake öppen källkod, ett ramverk för acid-tabelllagring med höga prestanda över molnobjektlager. En Delta-tabell lagrar data som en katalog med filer i molnobjektlagring och registrerar tabellmetadata till metaarkivet i en katalog och ett schema.
Läs mer om tekniker som är märkta som Delta.
Metaarkiv
Komponenten som lagrar all strukturinformation för de olika tabellerna och partitionerna i informationslagret, inklusive information om kolumn- och kolumntyp, serialiserare och deserialiserare som krävs för att läsa och skriva data och motsvarande filer där data lagras. Se Vad är ett metaarkiv?
I varje Azure Databricks-distribution finns ett centralt Hive-metaarkiv som kan nås av alla kluster för att bevara tabellmetadata. Du kan också använda ett befintligt externt Hive-metaarkiv.
Visualisering
En grafisk presentation av resultatet av att köra en fråga. Se Visualiseringar i Databricks-notebook-filer.
Beräkningshantering
I det här avsnittet beskrivs begrepp som du behöver veta för att köra beräkningar i Azure Databricks.
Kluster
En uppsättning beräkningsresurser och konfigurationer där du kör notebook-filer och jobb. Det finns två typer av kluster: all-purpose och job. Se Beräkning.
- Du skapar ett kluster för alla syften med hjälp av användargränssnittet, CLI eller REST-API:et. Du kan avsluta och starta om ett kluster för alla syften manuellt. Flera användare kan dela klustren för att samarbeta kring interaktiva analyser.
- Azure Databricks jobbschema skapar ett jobbkluster när du kör ett jobb på ett nytt jobbkluster och avslutar klustret när jobbet är slutfört. Du kan inte starta om ett jobbkluster.
Pool
En uppsättning inaktiva instanser som är redo att användas och som minskar tiden för klusterstart och automatisk skalning. När det är kopplat till en pool allokerar ett kluster sina drivrutins- och arbetsnoder från poolen. Se Skapa en pool.
Om poolen inte har tillräckligt med inaktiva resurser för att hantera klustrets begäran expanderar poolen genom att allokera nya instanser från instansprovidern. När ett anslutet kluster avslutas returneras de instanser som det använde till poolen och kan återanvändas av ett annat kluster.
Databricks-körning
Uppsättningen kärnkomponenter som körs på de kluster som hanteras av Azure Databricks. Se Compute.* Azure Databricks har följande körningar:
- Databricks Runtime innehåller Apache Spark men lägger även till ett antal komponenter och uppdateringar som avsevärt förbättrar användbarhet, prestanda och säkerhet för stordataanalys.
- Databricks Runtime for Machine Learning bygger på Databricks Runtime och tillhandahåller en fördefinierad maskininlärningsinfrastruktur som är integrerad med alla funktioner i Azure Databricks-arbetsytan. Den innehåller flera populära bibliotek, inklusive TensorFlow, Keras, PyTorch och XGBoost.
Arbetsflöden
Ramverk för att utveckla och köra pipelines för databearbetning:
- Jobb: En icke-interaktiv mekanism för att köra en notebook-fil eller ett bibliotek antingen omedelbart eller enligt schema.
- Delta Live Tables: Ett ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines.
Se Introduktion till Azure Databricks-arbetsflöden.
Arbetsbelastning
Azure Databricks identifierar två typer av arbetsbelastningar som omfattas av olika prissättningssystem : datateknik (jobb) och dataanalys (all-purpose).
- Datateknik En (automatiserad) arbetsbelastning körs på ett jobbkluster som Azure Databricks-jobbschemaläggaren skapar för varje arbetsbelastning.
- Dataanalys En (interaktiv) arbetsbelastning körs på ett kluster för alla syften. Interaktiva arbetsbelastningar kör vanligtvis kommandon i en Azure Databricks-notebook-fil. Men att köra ett jobb på ett befintligt kluster för alla syften behandlas också som en interaktiv arbetsbelastning.
Körningskontext
Tillståndet för en REPL-miljö (read-eval-print loop) för varje programmeringsspråk som stöds. De språk som stöds är Python, R, Scala och SQL.
Maskininlärning
Machine Learning på Azure Databricks är en integrerad miljö från slutpunkt till slutpunkt som innehåller hanterade tjänster för experimentspårning, modellträning, funktionsutveckling och hantering samt funktions- och modelltjänster.
Experiment
Huvudenheten i organisationen för att spåra utveckling av maskininlärningsmodeller. Se Ordna träningskörningar med MLflow-experiment. Experiment organiserar, visar och styr åtkomsten till enskilda loggade körningar av modellträningskod.
Funktionsarkiv
En centraliserad lagringsplats med funktioner. Se Vad är en funktionsbutik? Funktionslager möjliggör funktionsdelning och identifiering i hela organisationen och säkerställer även att samma funktionsberäkningskod används för modellträning och slutsatsdragning.
Modell- och modellregister
En tränad maskininlärnings- eller djupinlärningsmodell som har registrerats i Model Registry.
SQL
SQL REST API
Ett gränssnitt som gör att du kan automatisera uppgifter på SQL-objekt. Se SQL API.
Instrumentpanel
En presentation av datavisualiseringar och kommentarer. Se Databricks SQL-instrumentpaneler.
SQL-frågor
I det här avsnittet beskrivs begrepp som du behöver veta för att köra SQL-frågor i Azure Databricks.
- Fråga: En giltig SQL-instruktion.
- SQL-lager: En beräkningsresurs där du kör SQL-frågor.
- Frågehistorik: En lista över körda frågor och deras prestandaegenskaper.