Azure Databricks Konzepte Azure Databricks concepts

In diesem Artikel werden die grundlegenden Konzepte vorgestellt, die Sie verstehen müssen, um Azure Databricks Arbeitsbereich effektiv zu verwenden.This article introduces the set of fundamental concepts you need to understand in order to use Azure Databricks Workspace effectively.

ArbeitsbereichWorkspace

Der Arbeitsbereich ist eine Umgebung für den Zugriff auf all Ihre Azure Databricks Assets.The workspace is an environment for accessing all of your Azure Databricks assets. Der Arbeitsbereich organisiert Objekte (Notebooks, Bibliotheken, Dashboards und Experimente) in Ordnern und ermöglicht den Zugriff auf Datenobjekte und Rechenressourcen.The workspace organizes objects (notebooks, libraries, dashboards, and experiments) into folders and provides access to data objects and computational resources.

In diesem Abschnitt werden die Objekte beschrieben, die in den Azure Databricks Arbeitsbereichs Ordnern enthalten sind.This section describes the objects contained in the Azure Databricks workspace folders.

NotenNotebook

Eine webbasierte Schnittstelle für Dokumente, die ausführbare Befehle, Visualisierungen und den Text enthalten.A web-based interface to documents that contain runnable commands, visualizations, and narrative text.

DashboardDashboard

Eine Schnittstelle, die den organisierten Zugriff auf Visualisierungen ermöglicht.An interface that provides organized access to visualizations.

BibliothekLibrary

Ein Code Paket, das für das Notebook oder den Auftrag verfügbar ist, das in Ihrem Cluster ausgeführt wird.A package of code available to the notebook or job running on your cluster. Databricks-Laufzeiten enthalten viele Bibliotheken, und Sie können eigene Bibliotheken hinzufügen.Databricks runtimes include many libraries and you can add your own.

ExperimentExperiment

Eine Sammlung von mlflow -Ausführungen zum Trainieren eines Machine Learning-Modells.A collection of MLflow runs for training a machine learning model.

SchnittstelleInterface

In diesem Abschnitt werden die Schnittstellen beschrieben, die Azure Databricks für den Zugriff auf Ihre Assets unterstützt: UI, API und Befehlszeile (CLI).This section describes the interfaces that Azure Databricks supports for accessing your assets: UI, API, and command-line (CLI).

BenutzeroberflächeUI

Die Azure Databricks-Benutzeroberfläche bietet eine benutzerfreundliche grafische Oberfläche für Arbeitsbereichs Ordner und die darin enthaltenen Objekte, Datenobjekte und Berechnungs Ressourcen.The Azure Databricks UI provides an easy-to-use graphical interface to workspace folders and their contained objects, data objects, and computational resources.

Landing PageLanding page

REST-APIREST API

Es gibt zwei Versionen der Rest-API: Rest-API 2,0 und Rest-API 1,2.There are two versions of the REST API: REST API 2.0 and REST API 1.2. Die Rest-API 2,0 unterstützt die meisten Funktionen der Rest-API 1,2 sowie zusätzliche Funktionen und wird bevorzugt.The REST API 2.0 supports most of the functionality of the REST API 1.2, as well as additional functionality and is preferred.

Befehlszeilenschnittstelle (CLI)CLI

Ein Open Source-Projekt, das auf GitHubgehostet wird.An open source project hosted on GitHub. Die CLI baut auf der Rest-API 2,0auf.The CLI is built on top of the REST API 2.0.

DatenverwaltungData management

In diesem Abschnitt werden die Objekte beschrieben, die die Daten enthalten, auf denen Sie Analysen ausführen und in Machine Learning-Algorithmen einfließen.This section describes the objects that hold the data on which you perform analytics and feed into machine learning algorithms.

Databricks File System (DBFS)Databricks File System (DBFS)

Eine Dateisystem-Abstraktions Ebene über einen BLOB-Speicher.A filesystem abstraction layer over a blob store. Sie enthält Verzeichnisse, in denen Dateien (Datendateien, Bibliotheken und Bilder) und andere Verzeichnisse enthalten sein können.It contains directories, which can contain files (data files, libraries, and images), and other directories. DBFS wird automatisch mit einigen DataSets aufgefüllt, die Sie verwenden können, um Azure Databricks zu erlernen.DBFS is automatically populated with some datasets that you can use to learn Azure Databricks.

DatenbankDatabase

Eine Auflistung von Informationen, die so organisiert ist, dass Sie problemlos aufgerufen, verwaltet und aktualisiert werden kann.A collection of information that is organized so that it can be easily accessed, managed, and updated.

TableTable

Eine Darstellung strukturierter Daten.A representation of structured data. Sie Fragen Tabellen mit Apache Spark SQL-und Apache Spark-APIs ab.You query tables with Apache Spark SQL and Apache Spark APIs.

MetastoreMetastore

Die Komponente, die alle Strukturinformationen der verschiedenen Tabellen und Partitionen in der Data Warehouse speichert, einschließlich Spalten-und Spaltentyp Informationen, die für das Lesen und Schreiben von Daten erforderlichen serialisierungssoren und deserialisierungssoren sowie die entsprechenden Dateien, in denen die Daten gespeichert werden.The component that stores all the structure information of the various tables and partitions in the data warehouse including column and column type information, the serializers and deserializers necessary to read and write data, and the corresponding files where the data is stored. Jede Azure Databricks-Bereitstellung verfügt über einen zentralen Hive-Metastore, auf den alle Cluster zugreifen können, um Tabellenmetadaten dauerhaft zu speichern.Every Azure Databricks deployment has a central Hive metastore accessible by all clusters to persist table metadata. Sie haben auch die Möglichkeit, eine vorhandene externe Hive-metastorezu verwenden.You also have the option to use an existing external Hive metastore.

Berechnungs VerwaltungComputation management

In diesem Abschnitt werden die Konzepte beschrieben, die Sie kennen müssen, um Berechnungen in Azure Databricks auszuführen.This section describes concepts that you need to know to run computations in Azure Databricks.

ClusterCluster

Eine Reihe von Berechnungs Ressourcen und Konfigurationen, auf denen Sie Notebooks und Aufträge ausführen.A set of computation resources and configurations on which you run notebooks and jobs. Es gibt zwei Arten von Clustern: alle Zwecke und Aufträge.There are two types of clusters: all-purpose and job.

  • Sie erstellen einen gesamten Cluster mithilfe der Benutzeroberfläche, der CLI oder der Rest-API.You create an all-purpose cluster using the UI, CLI, or REST API. Sie können einen Universalcluster manuell beenden und neu starten.You can manually terminate and restart an all-purpose cluster. Diese Cluster können von mehreren Benutzern gemeinsam verwendet werden, um an interaktiven Analysen zusammenzuarbeiten.Multiple users can share such clusters to do collaborative interactive analysis.
  • Der Azure Databricks Auftrags Planer erstellt einen Auftrags Cluster , wenn Sie einen Auftrag in einem neuen Auftrags Cluster ausführen und den Cluster nach Abschluss des Auftrags beendet.The Azure Databricks job scheduler creates a job cluster when you run a job on a new job cluster and terminates the cluster when the job is complete. Ein Auftrags Cluster kann nicht neu gestartet werden.You cannot restart an job cluster.

PoolPool

Ein Satz von sofort einsatzbereiten Instanzen, die die Start-und automatische Skalierungs Zeiten von Clustern verringern.A set of idle, ready-to-use instances that reduce cluster start and auto-scaling times. Wenn ein Cluster an einen Pool angefügt ist, ordnet er dessen Treiber-und workerknoten dem Pool zu.When attached to a pool, a cluster allocates its driver and worker nodes from the pool. Wenn der Pool nicht über genügend Leerlauf Ressourcen verfügt, um die Anforderung des Clusters zu erfüllen, wird der Pool erweitert, indem neue Instanzen vom Instanzanbieter zugeordnet werden.If the pool does not have sufficient idle resources to accommodate the cluster’s request, the pool expands by allocating new instances from the instance provider. Wenn ein angefügter Cluster beendet wird, werden die verwendeten Instanzen an den Pool zurückgegeben und können von einem anderen Cluster wieder verwendet werden.When an attached cluster is terminated, the instances it used are returned to the pool and can be reused by a different cluster.

Databricks-LaufzeitDatabricks runtime

Der Satz von Kernkomponenten, die in den Clustern ausgeführt werden, die von Azure Databricks verwaltet werden.The set of core components that run on the clusters managed by Azure Databricks. Azure Databricks bietet verschiedene Runtime-Typen:Azure Databricks offers several types of runtimes:

  • Databricks Runtime umfasst Apache Spark, bietet aber auch eine Reihe von Komponenten und Updates, die die Benutzerfreundlichkeit, Leistung und Sicherheit von Big Data Analytics erheblich verbessern.Databricks Runtime includes Apache Spark but also adds a number of components and updates that substantially improve the usability, performance, and security of big data analytics.
  • Databricks Runtime für Machine Learning auf Databricks Runtime basiert und eine sofort einsatzbereite Umgebung für Machine Learning und Data Science bereitstellt.Databricks Runtime for Machine Learning is built on Databricks Runtime and provides a ready-to-go environment for machine learning and data science. und umfasst mehrere gängige Bibliotheken, darunter TensorFlow, Keras, PyTorch und XGBoost.It contains multiple popular libraries, including TensorFlow, Keras, PyTorch, and XGBoost.
  • Databricks Runtime für Genomics ist eine Version von Databricks Runtime die für die Arbeit mit genomischen und biomedizinischen Daten optimiert ist.Databricks Runtime for Genomics is a version of Databricks Runtime optimized for working with genomic and biomedical data.
  • Databricks Light ist das Azure Databricks Verpacken der Open Source-Apache Spark Laufzeit.Databricks Light is the Azure Databricks packaging of the open source Apache Spark runtime. Es bietet eine Runtimeoption für Aufträge, die ohne die Vorteile der erweiterten Leistung, Zuverlässigkeit oder automatischen Skalierung auskommen, die Databricks Runtime bietet.It provides a runtime option for jobs that don’t need the advanced performance, reliability, or autoscaling benefits provided by Databricks Runtime. Databricks Light kann nur verwendet werden, wenn Sie einen Cluster zum Ausführen eines JAR-, Python- oder spark-submit-Auftrags erstellen. Für Cluster, in denen Sie Workloads für interaktive oder Notebookaufträge ausführen, steht diese Runtime nicht zur Verfügung.You can select Databricks Light only when you create a cluster to run a JAR, Python, or spark-submit job; you cannot select this runtime for clusters on which you run interactive or notebook job workloads.

AuftragJob

Ein nicht interaktiver Mechanismus zum Ausführen eines Notebooks oder einer Bibliothek entweder direkt oder auf einem Zeitplan.A non-interactive mechanism for running a notebook or library either immediately or on a scheduled basis.

WorkloadWorkload

Azure Databricks identifiziert zwei Typen von Arbeits Auslastungen, die unterschiedlichen Preis Schemas unterliegen: Data Engineering (Job) und Data Analytics (alles Zweck).Azure Databricks identifies two types of workloads subject to different pricing schemes: data engineering (job) and data analytics (all-purpose).

  • Data Engineering Eine (automatisierte) Arbeitsauslastung wird in einem Auftrags Cluster ausgeführt, den der Azure Databricks Auftrags Planer für die einzelnen Arbeits Auslastungen erstellt.Data engineering An (automated) workload runs on a job cluster which the Azure Databricks job scheduler creates for each workload.
  • Datenanalyse Eine (interaktive) Arbeitsauslastung wird in einem _gesamten Cluster_ausgeführt.Data analytics An (interactive) workload runs on an all-purpose cluster. Interaktive Workloads führen in der Regel Befehle in einem Azure Databricks Notebookaus.Interactive workloads typically run commands within an Azure Databricks notebook. Das Ausführen eines Auftrags in einem vorhandenen gesamten Cluster wird jedoch auch als interaktive Arbeitsauslastung behandelt.However, running a job on an existing all-purpose cluster is also treated as an interactive workload.

AusführungskontextExecution context

Der Status für eine repl -Umgebung für jede unterstützte Programmiersprache.The state for a REPL environment for each supported programming language. Die unterstützten Sprachen sind python, R, Scala und SQL.The languages supported are Python, R, Scala, and SQL.

ModellverwaltungModel management

In diesem Abschnitt werden die Konzepte beschrieben, die Sie kennen müssen, um Machine Learning-Modelle zu trainieren.This section describes concepts that you need to know to train machine learning models.

ModellsModel

Eine mathematische Funktion, die die Beziehung zwischen einem Satz von präktoren und einem Ergebnis darstellt.A mathematical function that represents the relationship between a set of predictors and an outcome. Machine Learning besteht aus Schulungs -und Rück Schluss Schritten.Machine learning consists of training and inference steps. Wenn Sie ein Modell mit einem vorhandenen DataSet trainieren , verwenden Sie dieses Modell, um die Ergebnisse (Rück_Schlüsse_) der neuen Daten vorherzusagen.You train a model using an existing dataset, and then use that model to predict the outcomes (inference) of new data.

LaufRun

Eine Auflistung von Parametern, Metriken und Tags im Zusammenhang mit dem Training eines Machine Learning-Modells.A collection of parameters, metrics, and tags related to training a machine learning model.

ExperimentExperiment

Die primäre Organisationseinheit und die Zugriffs Steuerung für Ausführungen Alle mlflow-Ausführungen gehören zu einem Experiment.The primary unit of organization and access control for runs; all MLflow runs belong to an experiment. Ein Experiment ermöglicht Ihnen das visualisieren, durchsuchen und Vergleichen von Ausführungen sowie das Herunterladen von Elementen oder Metadaten für die Analyse in anderen Tools.An experiment lets you visualize, search, and compare runs, as well as download run artifacts or metadata for analysis in other tools.

Authentifizierung und AutorisierungAuthentication and authorization

In diesem Abschnitt werden die Konzepte beschrieben, die Sie kennen müssen, wenn Sie Azure Databricks Benutzer und deren Zugriff auf Azure Databricks Assets verwalten.This section describes concepts that you need to know when you manage Azure Databricks users and their access to Azure Databricks assets.

BenutzerUser

Eine eindeutige Person, die Zugriff auf das System hat.A unique individual who has access to the system.

KreisGroup

Eine Sammlung von BenutzernA collection of users.

Zugriffs Steuerungs Liste (ACL)Access control list (ACL)

Eine Liste der Berechtigungen, die an den Arbeitsbereich, den Cluster, den Auftrag, die Tabelle oder das Experiment angehängt sind.A list of permissions attached to the Workspace, cluster, job, table, or experiment. Eine ACL gibt an, welchen Benutzern oder System Prozessen Zugriff auf die Objekte gewährt wird und welche Vorgänge für die Assets zulässig sind.An ACL specifies which users or system processes are granted access to the objects, as well as what operations are allowed on the assets. Jeder Eintrag in einer typischen ACL gibt einen Betreff und einen Vorgang an.Each entry in a typical ACL specifies a subject and an operation.