Was ist Databricks Data Science & Engineering?

Databricks Data Science & Engineering (manchmal einfach als "Arbeitsbereich" bezeichnet) ist eine Analyseplattform, die auf Apache Spark basiert. Sie ist in Azure integriert, um Folgendes zu ermöglichen: Einrichtung mit nur einem Klick, optimierte Workflows und einen interaktiven Arbeitsbereich für die Zusammenarbeit von Datentechnikern, Data Scientists und Machine Learning-Technikern.

Was ist Azure Databricks?

Für eine Big Data-Pipeline werden Rohdaten oder strukturierte Daten in Batches über Azure Data Factory in Azure erfasst oder mithilfe von Apache Kafka, Event Hub oder IoT Hub nahezu in Echtzeit gestreamt. Diese Daten werden langfristig in einem Data Lake (Azure Blob Storage oder Azure Data Lake Storage) gespeichert. Mit Azure Databricks können Sie im Rahmen Ihres Analyseworkflows Daten aus mehreren Datenquellen (beispielsweise aus Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB oder Azure SQL Data Warehouse) lesen und mithilfe von Spark bahnbrechende Erkenntnisse gewinnen.

Databricks-Pipeline

Apache Spark-Analyseplattform

Databricks Data Science & Engineering umfasst die vollständigen Open-Source-Apache Spark Clustertechnologien und -funktionen. Spark in Databricks Data Science & Engineering umfasst die folgenden Komponenten:

Apache Spark in Azure Databricks

  • Spark SQL und DataFrames: Spark SQL ist das Spark-Modul für die Verwendung strukturierter Daten. Ein DataFrame ist eine verteilte Sammlung von Daten, die in benannten Spalten organisiert sind. Hierbei handelt es sich um das gleiche Konzept wie bei einer Tabelle in einer relationalen Datenbank oder bei einem Datenrahmen in R/Python.

  • Streaming: Echtzeitdatenverarbeitung und -analyse für analytische und interaktive Anwendungen. Bietet HDFS-, Flume- und Kafka-Integration.

  • MLlib: Machine Learning-Bibliothek mit gängigen Lernalgorithmen und Hilfsprogrammen – einschließlich Klassifizierung, Regression, Clustering, kombinierten Filtern und Reduktion der Anzahl von Dimensionen sowie zugrunde liegenden Optimierungsprimitiven.

  • GraphX: Diagramme und Diagrammberechnung für ein breites Spektrum von Anwendungsfällen – von kognitiven Analysen bis hin zu Datenuntersuchungen.

  • Spark Core-API: Bietet Unterstützung für R, SQL, Python, Scala und Java.

Apache Spark in Azure Databricks

Azure Databricks basiert auf den Funktionen von Spark und bietet eine verwaltungsfreie Cloudplattform mit Folgendem:

  • Vollständig verwaltete Spark-Cluster
  • Interaktiver Arbeitsbereich zur Untersuchung und Visualisierung
  • Plattform für Ihre bevorzugten Spark-Anwendungen

Vollständig verwaltete Apache Spark-Cluster in der Cloud

Azure Databricks verfügt über eine sichere und zuverlässige Produktionsumgebung in der Cloud, die von Spark-Experten verwaltet und betreut wird. Ihre Möglichkeiten:

  • Sekundenschnelle Clustererstellung
  • Dynamische automatische Clusterskalierung und teamübergreifende Clusterverwendung
  • Programmgesteuerte Verwendung von Clustern durch Aufrufen der REST-APIs
  • Verwendung sicherer, Spark-basierter Datenintegrationsfunktionen zur Vereinheitlichung Ihrer Daten ohne Zentralisierung
  • Sofortiger Zugriff auf die neuesten Apache Spark-Features jeder neuen Version

Databricks Runtime

Databricks Runtime basiert auf Apache Spark und ist von Grund auf für die Azure-Cloud konzipiert.

Sie können Ihre Dateninfrastruktur dank vollständiger Abstrahierung der Infrastrukturkomplexität durch Azure Databricks ohne spezielles Fachwissen einrichten und konfigurieren.

Für Data Engineers, die sich für die Leistung von Produktionsaufträgen interessieren, bietet Azure Databricks ein Spark-Modul, das dank verschiedenster Optimierungen auf E/A- und Verarbeitungsebene (Databricks-E/A) schneller und performanter ist.

Arbeitsbereich für die Zusammenarbeit

Durch eine zusammenarbeitsorientierte und integrierte Umgebung optimiert Databricks Data Science & Engineering den Prozess der Untersuchung von Daten, der Prototyperstellung und der Ausführung datengesteuerter Anwendungen in Spark.

  • Ermitteln Sie dank unkomplizierter Datenuntersuchung, wie Sie Daten verwenden.
  • Dokumentieren Sie Ihre Fortschritte in Notizbüchern in R, Python, Scala oder SQL.
  • Visualisieren Sie Daten mit wenigen Mausklicks, und verwenden Sie vertraute Tools wie Matplotlib, ggplot oder d3.
  • Erstellen Sie mithilfe interaktiver Dashboards dynamische Berichte.
  • Verwenden Sie Spark, und interagieren Sie gleichzeitig mit den Daten.

Unternehmenssicherheit

Azure Databricks bietet Azure-Sicherheit für Unternehmen – einschließlich Azure Active Directory-Integration, rollenbasierter Zugriffssteuerung und SLAs zum Schutz Ihrer Daten und Ihres Unternehmens.

  • Dank Azure Active Directory-Integration können Sie vollständige Azure-basierte Lösungen mit Azure Databricks ausführen.
  • Die rollenbasierte Zugriffssteuerung von Azure Databricks ermöglicht die Verwendung präziser Benutzerberechtigungen für Notizbücher, Cluster, Aufträge und Daten.
  • SLAs auf Unternehmensniveau.

Wichtig

Azure Databricks ist ein Erstanbieterdienst von Microsoft Azure, der in der öffentlichen Global Azure-Cloudinfrastruktur bereitgestellt wird. Die gesamte Kommunikation zwischen den Dienstkomponenten einschließlich der zwischen den öffentlichen IP-Adressen in der Steuerungsebene und der Kundendatenebene verbleibt im Netzwerkbackbone von Microsoft Azure. Siehe auch Globales Microsoft-Netzwerk.

Integration in Azure-Dienste

Databricks Data Science & Engineering ist tief in Azure-Datenbanken und -Speicher integriert: Synapse Analytics, Cosmos DB, Data Lake Store und Blob Storage.

Power BI-Integration

Dank der umfassenden Integration in Power BI können Sie mit Databricks Data Science & Engineering Ihre wertvollen Erkenntnisse schnell und einfach ermitteln und freigeben. Sie können aber auch andere BI-Tools wie etwa Tableau Software verwenden.

Nächste Schritte