Databricks Data Science & Engineering-begrepp

Den här artikeln innehåller en uppsättning grundläggande begrepp som du behöver förstå för att kunna använda Azure Databricks Workspace på ett effektivt sätt.

Arbetsyta

En arbetsyta är en miljö för åtkomst till alla dina Azure Databricks tillgångar. En arbetsyta organiserar objekt (notebook-filer, bibliotek, instrumentpaneler och experiment) i mappar och ger åtkomst till dataobjekt och beräkningsresurser.

I det här avsnittet beskrivs de objekt som finns i Azure Databricks arbetsytemappar.

Notebook-fil

Ett webbaserat gränssnitt för dokument som innehåller körbara kommandon, visualiseringar och berättelsetext.

Instrumentpanel

Ett gränssnitt som ger ordnad åtkomst till visualiseringar.

Bibliotek

Ett paket med kod som är tillgängligt för anteckningsboken eller jobbet som körs i klustret. Databricks-körningar innehåller många bibliotek och du kan lägga till egna.

Lagringsplats

En mapp vars innehåll samversioneras tillsammans genom att synkronisera dem till en fjärransluten Git-lagringsplats.

Experiment

En samling MLflow körs för träning av en maskininlärningsmodell.

Gränssnitt

I det här avsnittet beskrivs de gränssnitt Azure Databricks stöder för åtkomst till dina tillgångar: UI, API och kommandorad (CLI).

UI

Användargränssnittet Azure Databricks ett lättanvändnings grafiskt gränssnitt för arbetsytemappar och deras inneslutna objekt, dataobjekt och beräkningsresurser.

Landningssida

REST API

Det finns tre versioner av REST API: 2.1,2.0och 1.2. REST-API:erna 2.1 och 2.0 stöder de flesta av funktionerna i REST API 1.2 och ytterligare funktioner och rekommenderas.

CLI

Ett projekt med öppen källkod som finns på GitHub. CLI bygger på den REST API (senaste).

Datahantering

I det här avsnittet beskrivs de objekt som innehåller de data som du utför analyser på och matar in i maskininlärningsalgoritmer.

Databricks-filsystem (DBFS)

Ett filsystemabstraheringslager över ett bloblager. Den innehåller kataloger som kan innehålla filer (datafiler, bibliotek och bilder) och andra kataloger. DBFS fylls automatiskt i med vissa datauppsättningar som du kan använda för att lära Azure Databricks.

Databas

En samling information som är ordnad så att den enkelt kan nås, hanteras och uppdateras.

Tabell

En representation av strukturerade data. Du frågar tabeller med Apache Spark SQL och Apache Spark API:er.

Metastore

Komponenten som lagrar all strukturinformation för de olika tabellerna och partitionerna i informationslagret, inklusive information om kolumn- och kolumntyp, serialiserare och deserialiserare som behövs för att läsa och skriva data samt motsvarande filer där data lagras. I varje Azure Databricks-distribution finns ett centralt Hive-metaarkiv som kan nås av alla kluster för att bevara tabellmetadata. Du kan också välja att använda ett befintligt externt Hive-metaarkiv.

Beräkningshantering

I det här avsnittet beskrivs begrepp som du behöver känna till för att köra beräkningar i Azure Databricks.

Kluster

En uppsättning beräkningsresurser och konfigurationer där du kör notebook-datorer och jobb. Det finns två typer av kluster: alla syften och jobb.

  • Du skapar ett kluster för alla syften med hjälp av användargränssnittet, CLI eller REST API. Du kan avsluta och starta om ett kluster för alla syften manuellt. Flera användare kan dela klustren för att samarbeta kring interaktiva analyser.
  • Den Azure Databricks skapar ett jobbkluster när du kör ett jobb i ett nytt jobbkluster och avslutar klustret när jobbet har slutförts. Du kan inte starta om ett jobbkluster.

Pool

En uppsättning inaktiva, färdiga instanser som minskar klustrets start- och autoskalningstider. När klustret är kopplat till en pool allokerar det dess drivrutins- och arbetsnoder från poolen. Om poolen inte har tillräckligt med inaktiva resurser för att hantera klustrets begäran expanderas poolen genom att nya instanser allokeras från instansprovidern. När ett anslutet kluster avslutas returneras de instanser som det använde till poolen och kan återanvändas av ett annat kluster.

Databricks-körning

Den uppsättning kärnkomponenter som körs på de kluster som hanteras av Azure Databricks. Azure Databricks erbjuder flera typer av körningar:

  • Databricks Runtime innehåller Apache Spark men lägger också till ett antal komponenter och uppdateringar som avsevärt förbättrar användbarheten, prestanda och säkerheten för stordataanalys.
  • Databricks Runtime för Machine Learning bygger på Databricks Runtime och tillhandahåller en färdig miljö för maskininlärning och datavetenskap. Den innehåller flera populära bibliotek, inklusive TensorFlow, Keras, PyTorch och XGBoost.
  • Databricks Runtime för Genomics är en version av Databricks Runtime optimerad för att arbeta med genomiska och biotiska data.
  • Databricks Light är Azure Databricks paketering av Apache Spark öppen källkod. Det ger ett körningsalternativ för jobb som inte behöver de avancerade prestanda-, tillförlitlighets- eller autoskalningsfördelar som Databricks Runtime. Du kan bara välja Databricks Light när du skapar ett kluster för att köra ett JAR-, Python- eller spark-submit-jobb. Du kan inte välja den här körningen för kluster där du kör interaktiva arbetsbelastningar eller notebook-jobbarbetsbelastningar.

Jobb

En icke-interaktiv mekanism för att köra en notebook-dator eller ett bibliotek antingen omedelbart eller enligt ett schema.

Arbetsbelastning

Azure Databricks två typer av arbetsbelastningar som omfattas av olika prisscheman: datateknik (jobb) och dataanalys (all-purpose).

  • Datateknik En (automatiserad) arbetsbelastning körs på ett jobbkluster som Azure Databricks skapar för varje arbetsbelastning.
  • Dataanalys En (interaktiv) arbetsbelastning körs på ett kluster för alla syften. Interaktiva arbetsbelastningar kör vanligtvis kommandon inom en Azure Databricks notebook-. Men att köra ett jobb i ett befintligt kluster för alla syften behandlas också som en interaktiv arbetsbelastning.

Körningskontext

Tillståndet för en REPL-miljö för varje programmeringsspråk som stöds. De språk som stöds är Python, R, Scala och SQL.

Maskininlärning

I det här avsnittet beskrivs begrepp som rör maskininlärning i Azure Databricks.

Experiment

Den huvudsakliga organisationsenheten för att spåra utveckling av maskininlärningsmodeller. Experiment organiserar, visar och styr åtkomsten till enskilda loggade körningar av modellträningskoden.

Funktionslager

En central lagringsplats med funktioner. Databricks-funktionslagret möjliggör delning och identifiering av funktioner i organisationen och säkerställer också att samma funktionsberäkningskod används för modellträning och slutsatsledning.

Modeller

En tränad maskininlärnings- eller djupinlärningsmodell som har registrerats i Model Registry.

Autentisering och auktorisering

I det här avsnittet beskrivs begrepp som du behöver känna till när du hanterar Azure Databricks användare och deras åtkomst till Azure Databricks tillgångar.

Användaren

En unik person som har åtkomst till systemet.

Group

En samling av användare.

Åtkomstkontrollista (ACL)

En lista över behörigheter som är kopplade till arbetsytan, klustret, jobbet, tabellen eller experimentet. En ACL anger vilka användare eller systemprocesser som beviljas åtkomst till objekten, samt vilka åtgärder som tillåts för tillgångarna. Varje post i en typisk ACL anger ett ämne och en åtgärd.