Azure Databricks-begrepp

Den här artikeln beskriver de grundläggande begrepp som du behöver förstå för att kunna använda Azure Databricks effektivt.

Konton och arbetsytor

I Azure Databricks är en arbetsyta en Azure Databricks-distribution i molnet som fungerar som en miljö där ditt team kan komma åt Databricks-tillgångar. Din organisation kan välja att antingen ha flera arbetsytor eller bara en, beroende på dess behov.

Ett Azure Databricks-konto representerar en enda entitet som kan innehålla flera arbetsytor. Konton som är aktiverade för Unity Catalog kan användas för att hantera användare och deras åtkomst till data centralt över alla arbetsytor i kontot.

Fakturering: Databricks-enheter (DBUs)

Azure Databricks-fakturor baserat på Databricks-enheter (DBUs), bearbetningsenheter per timme baserat på vm-instanstyp.

Se prissättningssidan för Azure Databricks.

Autentisering och auktorisering

I det här avsnittet beskrivs begrepp som du behöver veta när du hanterar Azure Databricks-identiteter och deras åtkomst till Azure Databricks-tillgångar.

User

En unik person som har åtkomst till systemet. Användaridentiteter representeras av e-postadresser. Se Hantera användare.

Tjänstens huvudnamn

En tjänstidentitet för användning med jobb, automatiserade verktyg och system som skript, appar och CI/CD-plattformar. Tjänstens huvudnamn representeras av ett program-ID. Läs mer i Hantera tjänstens huvudnamn.

Grupp

En samling identiteter. Grupper förenklar identitetshantering, vilket gör det enklare att tilldela åtkomst till arbetsytor, data och andra skyddsbara objekt. Alla Databricks-identiteter kan tilldelas som medlemmar i grupper. Se Hantera grupper

Åtkomstkontrollista (ACL)

En lista över behörigheter som är kopplade till arbetsytan, klustret, jobbet, tabellen eller experimentet. En ACL anger vilka användare eller systemprocesser som beviljas åtkomst till objekten, samt vilka åtgärder som tillåts på tillgångarna. Varje post i en typisk ACL anger ett ämne och en åtgärd. Se Översikt över åtkomstkontroll

Personlig åtkomsttoken

En ogenomskinlig sträng används för att autentisera till REST-API:et och med verktyg i teknikpartners för att ansluta till SQL-lager. Mer information finns i autentisering med personlig åtkomsttoken i Azure Databricks.

Microsoft Entra-ID-token (tidigare Azure Active Directory) kan också användas för att autentisera till REST-API:et.

UI

Azure Databricks-användargränssnittet är ett grafiskt gränssnitt för att interagera med funktioner, till exempel arbetsytemappar och deras inneslutna objekt, dataobjekt och beräkningsresurser.

Datavetenskap och teknik

Data science & engineering tools underlättar samarbete mellan dataforskare, datatekniker och dataanalytiker. I det här avsnittet beskrivs de grundläggande begreppen.

Arbetsyta

En arbetsyta är en miljö för åtkomst till alla dina Azure Databricks-tillgångar. En arbetsyta organiserar objekt (notebook-filer, bibliotek, instrumentpaneler och experiment) i mappar och ger åtkomst till dataobjekt och beräkningsresurser.

Notebook-fil

Ett webbaserat gränssnitt för att skapa arbetsflöden för datavetenskap och maskininlärning som kan innehålla runnable-kommandon, visualiseringar och narrativ text. Se Introduktion till Databricks-notebook-filer.

Instrumentpanel

Ett gränssnitt som ger organiserad åtkomst till visualiseringar. Se Instrumentpaneler i notebook-filer.

Bibliotek

Ett kodpaket som är tillgängligt för notebook-filen eller jobbet som körs i klustret. Databricks-runtimes innehåller många bibliotek och du kan lägga till egna.

Lagringsplats

En mapp vars innehåll samversioneras tillsammans genom att synkronisera dem till en fjärransluten Git-lagringsplats. Databricks Repos integreras med Git för att tillhandahålla käll- och versionskontroll för dina projekt.

Experiment

En samling MLflow-körningar för träning av en maskininlärningsmodell. Se Ordna träningskörningar med MLflow-experiment.

Azure Databricks-gränssnitt

I det här avsnittet beskrivs de gränssnitt som Azure Databricks stöder, förutom användargränssnittet, för åtkomst till dina tillgångar: API och kommandorad (CLI).

REST-API

Databricks tillhandahåller API-dokumentation för arbetsytan och kontot.

CLI

Ett öppen källkod projekt som finns på GitHub. CLI bygger på Databricks REST API.

Datahantering

I det här avsnittet beskrivs de objekt som innehåller de data som du utför analys och matar in i maskininlärningsalgoritmer.

Databricks-filsystem (DBFS)

Ett abstraktionslager för filsystem över ett bloblager. Den innehåller kataloger som kan innehålla filer (datafiler, bibliotek och bilder) och andra kataloger. DBFS fylls automatiskt i med vissa datauppsättningar som du kan använda för att lära dig Azure Databricks. Se Vad är Databricks-filsystemet (DBFS)?.

Databas

En samling dataobjekt, till exempel tabeller eller vyer och funktioner, som är ordnade så att de enkelt kan nås, hanteras och uppdateras. Se Vad är en databas?

Register

En representation av strukturerade data. Du kör frågor mot tabeller med Apache Spark SQL- och Apache Spark-API:er. Se Vad är en tabell?

Deltatabell

Som standard är alla tabeller som skapats i Azure Databricks Delta-tabeller. Deltatabeller baseras på Projektet Delta Lake öppen källkod, ett ramverk för acid-tabelllagring med höga prestanda över molnobjektlager. En Delta-tabell lagrar data som en katalog med filer i molnobjektlagring och registrerar tabellmetadata till metaarkivet i en katalog och ett schema.

Läs mer om tekniker som är märkta som Delta.

Metaarkiv

Komponenten som lagrar all strukturinformation för de olika tabellerna och partitionerna i informationslagret, inklusive information om kolumn- och kolumntyp, serialiserare och deserialiserare som krävs för att läsa och skriva data och motsvarande filer där data lagras. Se Vad är ett metaarkiv?

I varje Azure Databricks-distribution finns ett centralt Hive-metaarkiv som kan nås av alla kluster för att bevara tabellmetadata. Du kan också använda ett befintligt externt Hive-metaarkiv.

Visualisering

En grafisk presentation av resultatet av att köra en fråga. Se Visualiseringar i Databricks-notebook-filer.

Beräkningshantering

I det här avsnittet beskrivs begrepp som du behöver veta för att köra beräkningar i Azure Databricks.

Kluster

En uppsättning beräkningsresurser och konfigurationer där du kör notebook-filer och jobb. Det finns två typer av kluster: all-purpose och job. Se Beräkning.

  • Du skapar ett kluster för alla syften med hjälp av användargränssnittet, CLI eller REST-API:et. Du kan avsluta och starta om ett kluster för alla syften manuellt. Flera användare kan dela klustren för att samarbeta kring interaktiva analyser.
  • Azure Databricks jobbschema skapar ett jobbkluster när du kör ett jobb på ett nytt jobbkluster och avslutar klustret när jobbet är slutfört. Du kan inte starta om ett jobbkluster.

Pool

En uppsättning inaktiva instanser som är redo att användas och som minskar tiden för klusterstart och automatisk skalning. När det är kopplat till en pool allokerar ett kluster sina drivrutins- och arbetsnoder från poolen. Se Skapa en pool.

Om poolen inte har tillräckligt med inaktiva resurser för att hantera klustrets begäran expanderar poolen genom att allokera nya instanser från instansprovidern. När ett anslutet kluster avslutas returneras de instanser som det använde till poolen och kan återanvändas av ett annat kluster.

Databricks-körning

Uppsättningen kärnkomponenter som körs på de kluster som hanteras av Azure Databricks. Se Compute.* Azure Databricks har följande körningar:

  • Databricks Runtime innehåller Apache Spark men lägger även till ett antal komponenter och uppdateringar som avsevärt förbättrar användbarhet, prestanda och säkerhet för stordataanalys.
  • Databricks Runtime for Machine Learning bygger på Databricks Runtime och tillhandahåller en fördefinierad maskininlärningsinfrastruktur som är integrerad med alla funktioner i Azure Databricks-arbetsytan. Den innehåller flera populära bibliotek, inklusive TensorFlow, Keras, PyTorch och XGBoost.

Arbetsflöden

Ramverk för att utveckla och köra pipelines för databearbetning:

  • Jobb: En icke-interaktiv mekanism för att köra en notebook-fil eller ett bibliotek antingen omedelbart eller enligt schema.
  • Delta Live Tables: Ett ramverk för att skapa tillförlitliga, underhållsbara och testbara databearbetningspipelines.

Se Introduktion till Azure Databricks-arbetsflöden.

Arbetsbelastning

Azure Databricks identifierar två typer av arbetsbelastningar som omfattas av olika prissättningssystem : datateknik (jobb) och dataanalys (all-purpose).

  • Datateknik En (automatiserad) arbetsbelastning körs på ett jobbkluster som Azure Databricks-jobbschemaläggaren skapar för varje arbetsbelastning.
  • Dataanalys En (interaktiv) arbetsbelastning körs på ett kluster för alla syften. Interaktiva arbetsbelastningar kör vanligtvis kommandon i en Azure Databricks-notebook-fil. Men att köra ett jobb på ett befintligt kluster för alla syften behandlas också som en interaktiv arbetsbelastning.

Körningskontext

Tillståndet för en REPL-miljö (read-eval-print loop) för varje programmeringsspråk som stöds. De språk som stöds är Python, R, Scala och SQL.

Maskininlärning

Machine Learning på Azure Databricks är en integrerad miljö från slutpunkt till slutpunkt som innehåller hanterade tjänster för experimentspårning, modellträning, funktionsutveckling och hantering samt funktions- och modelltjänster.

Experiment

Huvudenheten i organisationen för att spåra utveckling av maskininlärningsmodeller. Se Ordna träningskörningar med MLflow-experiment. Experiment organiserar, visar och styr åtkomsten till enskilda loggade körningar av modellträningskod.

Funktionsarkiv

En centraliserad lagringsplats med funktioner. Se Vad är en funktionsbutik? Funktionslager möjliggör funktionsdelning och identifiering i hela organisationen och säkerställer även att samma funktionsberäkningskod används för modellträning och slutsatsdragning.

Modell- och modellregister

En tränad maskininlärnings- eller djupinlärningsmodell som har registrerats i Model Registry.

SQL

SQL REST API

Ett gränssnitt som gör att du kan automatisera uppgifter på SQL-objekt. Se SQL API.

Instrumentpanel

En presentation av datavisualiseringar och kommentarer. Se Databricks SQL-instrumentpaneler.

SQL-frågor

I det här avsnittet beskrivs begrepp som du behöver veta för att köra SQL-frågor i Azure Databricks.

  • Fråga: En giltig SQL-instruktion.
  • SQL-lager: En beräkningsresurs där du kör SQL-frågor.
  • Frågehistorik: En lista över körda frågor och deras prestandaegenskaper.