Azure Databricks-Konzepte

Artikel
04/16/2024

In diesem Artikel werden die grundlegenden Konzepte vorgestellt, mit denen Sie vertraut sein müssen, um den Azure Databricks-Arbeitsbereich effektiv nutzen zu können.

Konten und Arbeitsbereiche

In Azure Databricks ist ein Arbeitsbereich eine Azure Databricks-Bereitstellung in der Cloud, die als Umgebung für Ihr Team für den Zugriff auf Databricks-Ressourcen fungiert. Je nach Anforderung kann Ihre Organisation ganz nach Bedarf entweder mehrere Arbeitsbereiche verwenden oder nur einen einzelnen.

Ein Azure Databricks-Konto stellt eine einzelne Entität dar, die mehrere Arbeitsbereiche umfassen kann. Mithilfe von Konten, die für Unity Catalog aktiviert sind, können Benutzer und ihr Zugriff auf Daten zentral in allen Arbeitsbereichen im Konto verwaltet werden.

Abrechnung: Databricks-Einheiten (DBUs)

Azure Databricks rechnet auf der Grundlage von Databricks-Einheiten (DBUs) ab, Einheiten der Verarbeitungskapazität pro Stunde auf der Grundlage des VM-Instanztyps.

Weitere Informationen finden Sie auf der Azure Databricks-Preisseite.

Authentifizierung und Autorisierung

In diesem Abschnitt werden Konzepte beschrieben, mit denen Sie vertraut sein müssen, wenn Sie Azure Databricks-Identitäten und deren Zugriff auf Azure Databricks-Ressourcen verwalten.

Benutzer

Eine Einzelperson mit Zugriff auf das System. Benutzeridentitäten werden durch E-Mail-Adressen dargestellt. Weitere Informationen finden Sie unter Verwalten von Benutzern.

Dienstprinzipal

Eine Dienstidentität zur Verwendung mit Aufträgen, automatisierten Tools und Systemen wie Skripts, Apps und CI/CD-Plattformen. Dienstprinzipale werden durch eine Anwendungs-ID dargestellt. Siehe Verwalten von Dienstprinzipalen.

Group

Eine Sammlung von Identitäten. Gruppen vereinfachen die Identitätsverwaltung und erleichtern die Zuweisung des Zugriffs auf Arbeitsbereiche, Daten und andere sicherungsfähige Objekte. Alle Databricks-Identitäten können als Mitglieder von Gruppen zugewiesen werden. Weitere Informationen finden Sie unter Verwalten von Gruppen.

Zugriffssteuerungsliste (Access Control List, ACL)

Eine Liste der Berechtigungen, die an den Arbeitsbereich, den Cluster, den Auftrag, die Tabelle oder das Experiment angefügt sind. Eine Zugriffssteuerungsliste gibt an, welchen Benutzern oder Systemprozessen Zugriff auf die Objekte gewährt wird und welche Vorgänge für die Ressourcen zulässig sind. In einer typischen ACL umfasst jeder Eintrag ein Subjekt und einen Vorgang. Weitere Informationen finden Sie unter Zugriffssteuerungslisten.

Persönliches Zugriffstoken

Eine nicht transparente Zeichenfolge wird für die Authentifizierung bei der REST-API sowie von Tools in den Technologiepartnern verwendet, um eine Verbindung mit SQL-Warehouses herzustellen. Siehe Authentifizieren mit persönlichen Azure Databricks-Zugriffstoken.

Microsoft Entra ID-Token (früher Azure Active Directory) können auch zur Authentifizierung bei der REST-API verwendet werden.

UI

Die Azure Databricks-Benutzeroberfläche ist eine grafische Benutzeroberfläche für die Interaktion mit Features wie z. B. mit Arbeitsbereichsordnern und den darin enthaltenen Objekten, Datenobjekten und Computeressourcen.

Data Science und Entwicklung

Data Science und Entwicklungs-Tools unterstützen die Zusammenarbeit zwischen Datenwissenschaftlern, Datentechnikern und Datenanalysten. In diesem Abschnitt werden die grundlegenden Konzepte beschrieben.

Arbeitsbereich

Ein Arbeitsbereich ist eine Umgebung, in der Sie auf alle Ihre Azure Databricks-Ressourcen zugreifen können. In einem Arbeitsbereich werden Objekte (Notebooks, Bibliotheken, Dashboards und Experimente) in Ordnern strukturiert, und er ermöglicht den Zugriff auf Datenobjekte und Computeressourcen.

Notebook

Eine webbasierte Schnittstelle zum Erstellen von Data Science- und Machine Learning-Workflows, die ausführungsfähige Befehle, Visualisierungen und narrativen Text enthalten können. Siehe Einführung in Databricks-Notebooks.

Dashboard

Eine Schnittstelle für strukturierten Zugriff auf Visualisierungen. Weitere Informationen finden Sie unter Dashboards in Notebooks.

Bibliothek

Ein Paket mit Code, das für das Notebook oder den Auftrag verfügbar ist, das bzw. der in Ihrem Cluster ausgeführt wird. Databricks-Runtimes enthalten zahlreiche Bibliotheken, und Sie können auch eigene Bibliotheken hinzufügen.

Git-Ordner (ehemals Repos)

Ein Ordner, dessen Inhalte mittels Synchronisierung mit einem Git-Remoterepository gemeinsam versioniert werden. Databricks-Git-Ordner sind in Git integriert und stellen die Quellcode- und Versionskontrolle für Ihre Projekte bereit.

Experiment

Eine Sammlung von MLflow-Ausführungen zum Trainieren eines Machine Learning-Modells. Weitere Informationen finden Sie unter Organisieren von Trainingsausführungen mit MLflow-Experimenten.

Azure Databricks-Schnittstellen

In diesem Abschnitt werden die Schnittstellen beschrieben, die Azure Databricks neben der Benutzeroberfläche für den Zugriff auf Ihre Ressourcen unterstützt: API und Befehlszeile (CLI).

REST-API

Databricks stellt API-Dokumentation für den Arbeitsbereich und das Konto bereit.

Befehlszeilenschnittstelle (CLI)

Ein auf GitHub gehostetes Open-Source-Projekt. Die CLI basiert auf der Databricks-REST-API.

Datenverwaltung

In diesem Abschnitt werden die Objekte beschrieben, die die Daten enthalten, für die Sie Analysen durchführen und die in Machine Learning-Algorithmen einfließen.

Databricks File System (DBFS)

Eine Dateisystem-Abstraktionsschicht über einem Blobspeicher. Sie enthält Verzeichnisse, die wiederum Dateien (Datendateien, Bibliotheken und Bilder) und weitere Verzeichnisse enthalten können. DBFS wird automatisch mit einigen Datasets aufgefüllt, die Sie verwenden können, um sich mit Azure Databricks vertraut zu machen. Weitere Informationen finden Sie unter Was ist das Databricks-Dateisystem (Databricks File System, DBFS)?.

Datenbank

Eine Sammlung von Datenobjekten, z. B. Tabellen oder Ansichten und Funktionen, die so organisiert sind, dass sie leicht zugänglich, verwaltet und aktualisiert werden können. Unter Was ist eine Datenbank? finden Sie weitere Informationen.

Table

Eine Darstellung strukturierter Daten. Tabellen werden über Apache Spark SQL und Apache Spark-APIs abgefragt. Unter Was ist eine Tabelle? finden Sie weitere Informationen

Delta-Tabelle

Standardmäßig sind alle in Azure Databricks erstellten Tabellen Delta-Tabellen. Delta-Tabellen basieren auf dem Delta Lake Open Source-Projekt, einem Framework für leistungsstarken ACID-Tabellenspeicher über Cloudobjektspeicher. Eine Delta-Tabelle speichert Daten als Datenverzeichnis im Cloudobjektspeicher und registriert Tabellenmetadaten im Metaspeicher innerhalb eines Katalogs und Schemas.

Erfahren Sie mehr über Technologien, die als Delta gebrandet werden.

Metastore

Die Komponente, in der alle Strukturinformationen der verschiedenen Tabellen und Partitionen im Data Warehouse gespeichert werden. Hierzu zählen unter anderem Spalten- und Spaltentypinformationen, die zum Lesen und Schreiben von Daten erforderlichen Serialisierer und Deserialisierer sowie die entsprechenden Dateien, in denen die Daten gespeichert sind. Unter Was ist ein Metastore? finden Sie weitere Informationen.

Jede Azure Databricks-Bereitstellung verfügt über einen zentralen Hive-Metastore, auf den alle Cluster zugreifen können, um Tabellenmetadaten dauerhaft zu speichern. Sie können auch einen bereits vorhandenen externen Hive-Metastore verwenden.

Visualisierung

Eine grafische Darstellung des Ergebnisses der Ausführung einer Abfrage. Siehe Visualisierungen in Databricks-Notebooks.

Berechnungsmanagement

In diesem Abschnitt werden Konzepte beschrieben, mit denen Sie vertraut sein müssen, um Berechnungen in Azure Databricks ausführen zu können.

Cluster

Eine Reihe von Berechnungsressourcen und Konfigurationen, mit denen Sie Notebooks und Aufträge ausführen. Es gibt zwei Arten von Clustern: Universalcluster und Auftragscluster. Siehe Compute.

Universalcluster können über die Benutzeroberfläche, mithilfe der CLI oder per REST-API erstellt werden. Sie können einen Universalcluster manuell beenden und neu starten. Diese Cluster können von mehreren Benutzern gemeinsam verwendet werden, um an interaktiven Analysen zusammenzuarbeiten.
Der Auftragsplaner von Azure Databricks erstellt einen Auftragscluster, wenn Sie einen Auftrag in einem neuen Auftragscluster ausführen, und beendet den Cluster, wenn der Auftrag abgeschlossen ist. Auftragscluster können nicht neu gestartet werden.

Pool

Eine Reihe sofort einsatzbereiter Instanzen, die sich im Leerlauf befinden und die Zeit für den Clusterstart und die automatische Skalierung verkürzen. Wenn ein Cluster an einen Pool angefügt wird, werden seine Treiber- und Workerknoten aus dem Pool zugeordnet. Siehe Poolkonfigurationsreferenz.

Verfügt der Pool nicht über genügend Leerlaufressourcen für die Anforderung des Clusters, wird der Pool erweitert, indem neue Instanzen des Instanzanbieters zugewiesen werden. Wenn ein angefügter Cluster beendet wird, werden die verwendeten Instanzen an den Pool zurückgegeben und können von einem anderen Cluster wiederverwendet werden.

Databricks-Runtime

Die Kernkomponenten, die auf der Grundlage der von Azure Databricks verwalteten Cluster ausgeführt werden. Siehe Compute.* Azure Databricks verfügt über die folgenden Runtimes:

Databricks Runtime umfasst Apache Spark sowie eine Reihe von Komponenten und Updates, die die Benutzerfreundlichkeit, Leistung und Sicherheit von Big Data-Analysen erheblich verbessern.
Databricks Runtime für Machine Learning basiert auf Databricks Runtime und bietet eine vorgefertigte Machine Learning-Infrastruktur, die in alle Funktionen des Azure Databricks-Arbeitsbereichs integriert ist. und umfasst mehrere gängige Bibliotheken, darunter TensorFlow, Keras, PyTorch und XGBoost.

Workflows

Frameworks zum Entwickeln und Ausführen von Datenverarbeitungspipelines:

Aufträge: Ein nicht interaktiver Mechanismus zum sofortigen oder geplanten Ausführen eines Notebooks oder einer Bibliothek.
Delta Live Tables: Ein Framework für die Erstellung zuverlässiger, verwaltbarer und testbarer Datenverarbeitungspipelines.

Weitere Informationen finden Sie unter Einführung in Azure Databricks-Workflows.

Workload

Von Azure Databricks werden zwei Arten von Workloads identifiziert, die unterschiedlichen Preisschemas unterliegen: Datentechnik (auftragsbezogen) und Datenanalyse (universell).

Datentechnik: Eine (automatisierte) Workload wird in einem Auftragscluster ausgeführt, der vom Azure Databricks Auftragsplaner für jede Workload erstellt wird.
Datenanalyse: Eine (interaktive) Workload wird in einem Universalcluster ausgeführt. Von interaktiven Workloads werden in der Regel Befehle in einem Azure Databricks-Notebook ausgeführt. Das Ausführen eines Auftrags in einem vorhandenen Universalcluster wird allerdings ebenfalls als interaktive Workload behandelt.

Ausführungskontext

Der Status für eine Read-Eval-Print-Loop-(REPL-)Umgebung für jede unterstützte Programmiersprache. Zu den unterstützten Sprachen zählen Python, R, Scala und SQL.

Machine Learning

Machine Learning ist eine integrierte End-to-End-Umgebung in Azure Databricks mit verwalteten Diensten für Experimentnachverfolgung, Modelltraining, Featureentwicklung und -verwaltung sowie für die Bereitstellung von Features und Modellen.

Experimente

Die Hauptorganisationseinheit zum Nachverfolgen der Entwicklung von Machine Learning-Modellen. Weitere Informationen finden Sie unter Organisieren von Trainingsausführungen mit MLflow-Experimenten. Experimente dienen zum Organisieren, Anzeigen und Steuern des Zugriffs auf die einzelnen protokollierten Ausführungen des Codes für das Modelltraining.

Featurespeicher

Ein zentrales Repository mit Features. Weitere Informationen finden Sie unter Was ist ein Featurespeicher?. Der Featurespeicher ermöglicht die Ermittlung und gemeinsame Nutzung von Features in Ihrer gesamten Organisation und stellt zudem sicher, dass für Modelltraining und Rückschlüsse der gleiche Featureberechnungscode verwendet wird.

Modelle und Modellregistrierung

Ein trainiertes Machine Learning- oder Deep Learning-Modell, das in der Modellregistrierung registriert wurde.

SQL

SQL-REST-API

Eine Schnittstelle, mit der Sie Aufgaben für SQL-Objekte automatisieren können. Weitere Informationen finden Sie unter SQL-API.

Dashboard

Eine Präsentation von Datenvisualisierungen und Kommentaren. Weitere Informationen finden Sie unter Dashboards. Weitere Informationen zu Legacy-Dashboards finden Sie unter Legacy-Dashboards.

SQL-Abfragen

In diesem Abschnitt werden Konzepte beschrieben, mit denen Sie vertraut sein müssen, um SQL-Abfragen in Azure Databricks ausführen zu können.

Abfrage: Eine gültige SQL-Anweisung.
SQL-Warehouse: Eine Computeressource zum Ausführen von SQL-Abfragen.
Abfrageverlauf: Eine Liste der ausgeführten Abfragen und deren Leistungsmerkmale.

Azure Databricks-Konzepte

Konten und Arbeitsbereiche

Abrechnung: Databricks-Einheiten (DBUs)

Authentifizierung und Autorisierung

Benutzer

Dienstprinzipal

Group

Zugriffssteuerungsliste (Access Control List, ACL)

Persönliches Zugriffstoken

UI

Data Science und Entwicklung

Arbeitsbereich

Notebook

Dashboard

Bibliothek

Git-Ordner (ehemals Repos)

Experiment

Azure Databricks-Schnittstellen

REST-API

Befehlszeilenschnittstelle (CLI)

Datenverwaltung

Databricks File System (DBFS)

Datenbank

Table

Delta-Tabelle

Metastore

Visualisierung

Berechnungsmanagement

Cluster

Pool

Databricks-Runtime

Workflows

Workload

Ausführungskontext

Machine Learning

Experimente

Featurespeicher

Modelle und Modellregistrierung

SQL

SQL-REST-API

Dashboard

SQL-Abfragen

Zusätzliche Ressourcen