Was ist Azure Databricks?What is Azure Databricks?

Azure Databricks ist eine Apache Spark-basierte Analyseplattform, die für die Microsoft Azure-Clouddienstplattform optimiert ist.Azure Databricks is an Apache Spark-based analytics platform optimized for the Microsoft Azure cloud services platform. Databricks wurde zusammen mit den Gründern von Apache Spark entworfen und ist in Azure integriert, um Folgendes zu ermöglichen: Einrichtung mit nur einem Klick, optimierte Workflows und einen interaktiven Arbeitsbereich für die Zusammenarbeit von Datenspezialisten, Data Engineers und Business Analysts.Designed with the founders of Apache Spark, Databricks is integrated with Azure to provide one-click setup, streamlined workflows, and an interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.

Was ist Azure Databricks?What is Azure Databricks?

Azure Databricks ist ein schneller, einfacher und zusammenarbeitsorientierter Analysedienst auf Apache Spark-Basis.Azure Databricks is a fast, easy, and collaborative Apache Spark-based analytics service. Für eine Big Data-Pipeline werden Rohdaten oder strukturierte Daten in Batches über Azure Data Factory in Azure erfasst oder mithilfe von Kafka, Event Hub oder IoT Hub nahezu in Echtzeit gestreamt.For a big data pipeline, the data (raw or structured) is ingested into Azure through Azure Data Factory in batches, or streamed near real-time using Kafka, Event Hub, or IoT Hub. Diese Daten werden langfristig in einem Data Lake (Azure Blob Storage oder Azure Data Lake Storage) gespeichert.This data lands in a data lake for long term persisted storage, in Azure Blob Storage or Azure Data Lake Storage. Mit Azure Databricks können Sie im Rahmen Ihres Analyseworkflows Daten aus mehreren Datenquellen (beispielsweise aus Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB oder Azure SQL Data Warehouse) lesen und mithilfe von Spark bahnbrechende Erkenntnisse gewinnen.As part of your analytics workflow, use Azure Databricks to read data from multiple data sources such as Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB, or Azure SQL Data Warehouse and turn it into breakthrough insights using Spark.

Databricks-Pipeline

Apache Spark-basierte AnalyseplattformApache Spark-based analytics platform

Azure Databricks umfasst sämtliche Open Source-Technologien und -Funktionen für Apache Spark-Cluster.Azure Databricks comprises the complete open-source Apache Spark cluster technologies and capabilities. Spark in Azure Databricks enthält folgende Komponenten:Spark in Azure Databricks includes the following components:

Apache Spark in Azure DatabricksApache Spark in Azure Databricks

  • Spark SQL und DataFrames: Spark SQL ist das Spark-Modul für die Verwendung strukturierter Daten.Spark SQL and DataFrames: Spark SQL is the Spark module for working with structured data. Ein DataFrame ist eine verteilte Sammlung von Daten, die in benannten Spalten organisiert sind.A DataFrame is a distributed collection of data organized into named columns. Hierbei handelt es sich um das gleiche Konzept wie bei einer Tabelle in einer relationalen Datenbank oder bei einem Datenrahmen in R/Python.It is conceptually equivalent to a table in a relational database or a data frame in R/Python.

  • Streaming: Echtzeitdatenverarbeitung und -analyse für analytische und interaktive Anwendungen.Streaming: Real-time data processing and analysis for analytical and interactive applications. Bietet HDFS-, Flume- und Kafka-Integration.Integrates with HDFS, Flume, and Kafka.

  • MLib: Machine Learning-Bibliothek mit gängigen Lernalgorithmen und Hilfsprogrammen – einschließlich Klassifizierung, Regression, Clustering, kombinierten Filtern und Reduktion der Anzahl von Dimensionen sowie zugrunde liegenden Optimierungsprimitiven.MLib: Machine Learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives.

  • GraphX: Diagramme und Diagrammberechnung für ein breites Spektrum von Anwendungsfällen – von kognitiven Analysen bis hin zu Datenuntersuchungen.GraphX: Graphs and graph computation for a broad scope of use cases from cognitive analytics to data exploration.

  • Spark Core-API: Bietet Unterstützung für R, SQL, Python, Scala und Java.Spark Core API: Includes support for R, SQL, Python, Scala, and Java.

Apache Spark in Azure DatabricksApache Spark in Azure Databricks

Azure Databricks basiert auf den Funktionen von Spark und bietet eine verwaltungsfreie Cloudplattform mit Folgendem:Azure Databricks builds on the capabilities of Spark by providing a zero-management cloud platform that includes:

  • Vollständig verwaltete Spark-ClusterFully managed Spark clusters
  • Interaktiver Arbeitsbereich zur Untersuchung und VisualisierungAn interactive workspace for exploration and visualization
  • Plattform für Ihre bevorzugten Spark-basierten AnwendungenA platform for powering your favorite Spark-based applications

Vollständig verwaltete Apache Spark-Cluster in der CloudFully managed Apache Spark clusters in the cloud

Azure Databricks verfügt über eine sichere und zuverlässige Produktionsumgebung in der Cloud, die von Spark-Experten verwaltet und betreut wird.Azure Databricks has a secure and reliable production environment in the cloud, managed and supported by Spark experts. Ihre Möglichkeiten:You can:

  • Sekundenschnelle ClustererstellungCreate clusters in seconds.
  • Dynamische automatische Clusterskalierung (auch für serverlose Cluster) und teamübergreifende ClusterverwendungDynamically autoscale clusters up and down, including serverless clusters, and share them across teams.
  • Programmgesteuerte Verwendung von Clustern mithilfe der REST-APIsUse clusters programmatically by using the REST APIs.
  • Verwendung sicherer, Spark-basierter Datenintegrationsfunktionen zur Vereinheitlichung Ihrer Daten ohne ZentralisierungUse secure data integration capabilities built on top of Spark that enable you to unify your data without centralization.
  • Sofortiger Zugriff auf die neuesten Apache Spark-Features jeder neuen VersionGet instant access to the latest Apache Spark features with each release.

Databricks-LaufzeitDatabricks Runtime

Die Databricks-Laufzeit basiert auf Apache Spark und ist von Grund auf für die Azure-Cloud konzipiert.The Databricks Runtime is built on top of Apache Spark and is natively built for the Azure cloud.

Mit der serverlosen Option können Sie Ihre Dateninfrastruktur dank vollständiger Abstrahierung der Infrastrukturkomplexität ohne spezielles Fachwissen einrichten und konfigurieren.With the Serverless option, Azure Databricks completely abstracts out the infrastructure complexity and the need for specialized expertise to set up and configure your data infrastructure. Datenspezialisten können mit der serverlosen Option Daten schnell als Team durchlaufen.The Serverless option helps data scientists iterate quickly as a team.

Für Data Engineers, die sich für die Leistung von Produktionsaufträgen interessieren, bietet Azure Databricks ein Spark-Modul, das dank verschiedenster Optimierungen auf E/A- und Verarbeitungsebene (Databricks-E/A) schneller und performanter ist.For data engineers, who care about the performance of production jobs, Azure Databricks provides a Spark engine that is faster and performant through various optimizations at the I/O layer and processing layer (Databricks I/O).

Arbeitsbereich für die ZusammenarbeitWorkspace for collaboration

Über eine zusammenarbeitsorientierte und integrierte Umgebung optimiert Azure Databricks das Untersuchen von Daten, das Erstellen von Prototypen sowie das Ausführen datengesteuerter Anwendungen in Spark.Through a collaborative and integrated environment, Azure Databricks streamlines the process of exploring data, prototyping, and running data-driven applications in Spark.

  • Ermitteln Sie dank unkomplizierter Datenuntersuchung, wie Sie Daten verwenden.Determine how to use data with easy data exploration.
  • Dokumentieren Sie Ihre Fortschritte in Notizbüchern in R, Python, Scala oder SQL.Document your progress in notebooks in R, Python, Scala, or SQL.
  • Visualisieren Sie Daten mit wenigen Mausklicks, und verwenden Sie vertraute Tools wie Matplotlib, ggplot oder d3.Visualize data in a few clicks, and use familiar tools like Matplotlib, ggplot, or d3.
  • Erstellen Sie mithilfe interaktiver Dashboards dynamische Berichte.Use interactive dashboards to create dynamic reports.
  • Verwenden Sie Spark, und interagieren Sie gleichzeitig mit den Daten.Use Spark and interact with the data simultaneously.

UnternehmenssicherheitEnterprise security

Azure Databricks bietet Azure-Sicherheit für Unternehmen – einschließlich Azure Active Directory-Integration, rollenbasierter Zugriffssteuerung und SLAs zum Schutz Ihrer Daten und Ihres Unternehmens.Azure Databricks provides enterprise-grade Azure security, including Azure Active Directory integration, role-based controls, and SLAs that protect your data and your business.

  • Dank Azure Active Directory-Integration können Sie vollständige Azure-basierte Lösungen mit Azure Databricks ausführen.Integration with Azure Active Directory enables you to run complete Azure-based solutions using Azure Databricks.
  • Die rollenbasierte Zugriffssteuerung von Azure Databricks ermöglicht die Verwendung präziser Benutzerberechtigungen für Notizbücher, Cluster, Aufträge und Daten.Azure Databricks roles-based access enables fine-grained user permissions for notebooks, clusters, jobs, and data.
  • SLAs auf Unternehmensniveau.Enterprise-grade SLAs.

Integration in Azure-DiensteIntegration with Azure services

Azure Databricks ist tief in Azure-Datenbanken und -Speicher integriert: SQL Data Warehouse, Cosmos DB, Data Lake Store und Blob Storage.Azure Databricks integrates deeply with Azure databases and stores: SQL Data Warehouse, Cosmos DB, Data Lake Store, and Blob Storage.

Power BI-IntegrationIntegration with Power BI

Dank umfangreicher Power BI-Integration können Sie mit Azure Databricks schnell und einfach wichtige Erkenntnisse gewinnen und weitergeben.Through rich integration with Power BI, Azure Databricks allows you to discover and share your impactful insights quickly and easily. Sie können aber auch andere BI-Tools wie etwa Tableau Software über JDBC-/ODBC-Clusterendpunkte verwenden.You can use other BI tools as well, such as Tableau Software via JDBC/ODBC cluster endpoints.

Nächste SchritteNext steps