Databricks Data Science & Engineering-begrepp
Den här artikeln innehåller en uppsättning grundläggande begrepp som du behöver förstå för att kunna använda Azure Databricks Workspace på ett effektivt sätt.
Arbetsyta
En arbetsyta är en miljö för åtkomst till alla dina Azure Databricks tillgångar. En arbetsyta organiserar objekt (notebook-filer, bibliotek, instrumentpaneler och experiment) i mappar och ger åtkomst till dataobjekt och beräkningsresurser.
I det här avsnittet beskrivs de objekt som finns i Azure Databricks arbetsytemappar.
Ett webbaserat gränssnitt för dokument som innehåller körbara kommandon, visualiseringar och berättelsetext.
Ett gränssnitt som ger ordnad åtkomst till visualiseringar.
Ett paket med kod som är tillgängligt för anteckningsboken eller jobbet som körs i klustret. Databricks-körningar innehåller många bibliotek och du kan lägga till egna.
En mapp vars innehåll samversioneras tillsammans genom att synkronisera dem till en fjärransluten Git-lagringsplats.
En samling MLflow körs för träning av en maskininlärningsmodell.
Gränssnitt
I det här avsnittet beskrivs de gränssnitt Azure Databricks stöder för åtkomst till dina tillgångar: UI, API och kommandorad (CLI).
UI
Användargränssnittet Azure Databricks ett lättanvändnings grafiskt gränssnitt för arbetsytemappar och deras inneslutna objekt, dataobjekt och beräkningsresurser.

Det finns tre versioner av REST API: 2.1,2.0och 1.2. REST-API:erna 2.1 och 2.0 stöder de flesta av funktionerna i REST API 1.2 och ytterligare funktioner och rekommenderas.
Ett projekt med öppen källkod som finns på GitHub. CLI bygger på den REST API (senaste).
Datahantering
I det här avsnittet beskrivs de objekt som innehåller de data som du utför analyser på och matar in i maskininlärningsalgoritmer.
Ett filsystemabstraheringslager över ett bloblager. Den innehåller kataloger som kan innehålla filer (datafiler, bibliotek och bilder) och andra kataloger. DBFS fylls automatiskt i med vissa datauppsättningar som du kan använda för att lära Azure Databricks.
En samling information som är ordnad så att den enkelt kan nås, hanteras och uppdateras.
En representation av strukturerade data. Du frågar tabeller med Apache Spark SQL och Apache Spark API:er.
Komponenten som lagrar all strukturinformation för de olika tabellerna och partitionerna i informationslagret, inklusive information om kolumn- och kolumntyp, serialiserare och deserialiserare som behövs för att läsa och skriva data samt motsvarande filer där data lagras. I varje Azure Databricks-distribution finns ett centralt Hive-metaarkiv som kan nås av alla kluster för att bevara tabellmetadata. Du kan också välja att använda ett befintligt externt Hive-metaarkiv.
Beräkningshantering
I det här avsnittet beskrivs begrepp som du behöver känna till för att köra beräkningar i Azure Databricks.
En uppsättning beräkningsresurser och konfigurationer där du kör notebook-datorer och jobb. Det finns två typer av kluster: alla syften och jobb.
- Du skapar ett kluster för alla syften med hjälp av användargränssnittet, CLI eller REST API. Du kan avsluta och starta om ett kluster för alla syften manuellt. Flera användare kan dela klustren för att samarbeta kring interaktiva analyser.
- Den Azure Databricks skapar ett jobbkluster när du kör ett jobb i ett nytt jobbkluster och avslutar klustret när jobbet har slutförts. Du kan inte starta om ett jobbkluster.
En uppsättning inaktiva, färdiga instanser som minskar klustrets start- och autoskalningstider. När klustret är kopplat till en pool allokerar det dess drivrutins- och arbetsnoder från poolen. Om poolen inte har tillräckligt med inaktiva resurser för att hantera klustrets begäran expanderas poolen genom att nya instanser allokeras från instansprovidern. När ett anslutet kluster avslutas returneras de instanser som det använde till poolen och kan återanvändas av ett annat kluster.
Den uppsättning kärnkomponenter som körs på de kluster som hanteras av Azure Databricks. Azure Databricks erbjuder flera typer av körningar:
- Databricks Runtime innehåller Apache Spark men lägger också till ett antal komponenter och uppdateringar som avsevärt förbättrar användbarheten, prestanda och säkerheten för stordataanalys.
- Databricks Runtime för Machine Learning bygger på Databricks Runtime och tillhandahåller en färdig miljö för maskininlärning och datavetenskap. Den innehåller flera populära bibliotek, inklusive TensorFlow, Keras, PyTorch och XGBoost.
- Databricks Runtime för Genomics är en version av Databricks Runtime optimerad för att arbeta med genomiska och biotiska data.
- Databricks Light är Azure Databricks paketering av Apache Spark öppen källkod. Det ger ett körningsalternativ för jobb som inte behöver de avancerade prestanda-, tillförlitlighets- eller autoskalningsfördelar som Databricks Runtime. Du kan bara välja Databricks Light när du skapar ett kluster för att köra ett JAR-, Python- eller spark-submit-jobb. Du kan inte välja den här körningen för kluster där du kör interaktiva arbetsbelastningar eller notebook-jobbarbetsbelastningar.
En icke-interaktiv mekanism för att köra en notebook-dator eller ett bibliotek antingen omedelbart eller enligt ett schema.
Arbetsbelastning
Azure Databricks två typer av arbetsbelastningar som omfattas av olika prisscheman: datateknik (jobb) och dataanalys (all-purpose).
- Datateknik En (automatiserad) arbetsbelastning körs på ett jobbkluster som Azure Databricks skapar för varje arbetsbelastning.
- Dataanalys En (interaktiv) arbetsbelastning körs på ett kluster för alla syften. Interaktiva arbetsbelastningar kör vanligtvis kommandon inom en Azure Databricks notebook-. Men att köra ett jobb i ett befintligt kluster för alla syften behandlas också som en interaktiv arbetsbelastning.
Körningskontext
Tillståndet för en REPL-miljö för varje programmeringsspråk som stöds. De språk som stöds är Python, R, Scala och SQL.
Maskininlärning
I det här avsnittet beskrivs begrepp som rör maskininlärning i Azure Databricks.
Den huvudsakliga organisationsenheten för att spåra utveckling av maskininlärningsmodeller. Experiment organiserar, visar och styr åtkomsten till enskilda loggade körningar av modellträningskoden.
En central lagringsplats med funktioner. Databricks-funktionslagret möjliggör delning och identifiering av funktioner i organisationen och säkerställer också att samma funktionsberäkningskod används för modellträning och slutsatsledning.
En tränad maskininlärnings- eller djupinlärningsmodell som har registrerats i Model Registry.
Autentisering och auktorisering
I det här avsnittet beskrivs begrepp som du behöver känna till när du hanterar Azure Databricks användare och deras åtkomst till Azure Databricks tillgångar.
En unik person som har åtkomst till systemet.
En samling av användare.
En lista över behörigheter som är kopplade till arbetsytan, klustret, jobbet, tabellen eller experimentet. En ACL anger vilka användare eller systemprocesser som beviljas åtkomst till objekten, samt vilka åtgärder som tillåts för tillgångarna. Varje post i en typisk ACL anger ett ämne och en åtgärd.