Data Engineering mit Azure Databricks

Fortgeschrittene Anfänger
Datentechniker
Databricks

Erfahren Sie, wie Sie die Leistungsfähigkeit von Apache Spark und leistungsstarke Cluster auf Basis der Azure Databricks-Plattform nutzen können, um große Data-Engineering-Workloads in der Cloud zu bewältigen.

Voraussetzungen

Keine

Module in diesem Lernpfad

Entdecken Sie die Funktionen von Azure Databricks und das Apache Spark-Notebook für die Verarbeitung großer Dateien. Außerdem erhalten Sie Informationen zur Azure Databricks-Plattform, und Sie lernen die Aufgabentypen kennen, die sich für Apache Spark eignen.

Lernen Sie die Architektur eines Azure Databricks-Spark-Clusters sowie Spark-Aufträge kennen.

Arbeiten Sie mit großen Datenmengen aus mehreren Quellen in unterschiedlichen Rohformaten. Azure Databricks unterstützt alltägliche Datenverarbeitungsfunktionen wie Lese- und Schreibvorgänge sowie Abfragen.

Die Datenverarbeitung in Azure Databricks erfolgt durch Definieren von DataFrames zum Lesen und Verarbeiten der Daten. Im Folgenden finden Sie Informationen, wie Sie Datentransformationen in DataFrames durchführen und Aktionen zum Anzeigen der transformierten Daten ausführen.

In diesem Modul wird der Unterschied zwischen einer Transformation und einer Aktion, verzögerten und strikten Auswertungen, breiten und schmalen Transformationen und anderen Optimierungen in Azure Databricks erläutert.

Mithilfe der DataFrame-Klasse „Column“ in Azure Databricks können Sie Transformationen wie Sortierungen, Filter und Aggregationen auf Spaltenebene anwenden.

Verwenden Sie erweiterte Dataframe-Funktionsvorgänge zum Bearbeiten von Daten, Anwenden von Aggregaten und Ausführen von Datums- und Zeitvorgängen in Azure Databricks.

Verstehen der Komponenten der Azure Databricks-Plattform sowie der bewährten Methoden zur Sicherung Ihres Arbeitsbereichs durch die nativen Funktionen von Databricks und die Integration in Azure-Dienste.

Erfahren Sie, wie Sie Delta Lake zum Erstellen, Anfügen und Ausführen von Upsert-Vorgängen für Daten in Apache Spark-Tabellen verwenden, die die integrierte Zuverlässigkeit und Optimierungen nutzen.

Hier erfahren Sie, wie Sie mithilfe von Structured Streaming in Echtzeit Streamingaten verarbeiten und Daten über Zeitfenster aggregieren können.

Verwenden Sie Delta Lake als Optimierungsebene zusätzlich zu Blobspeicher, um die Zuverlässigkeit und geringe Latenz innerhalb einheitlicher Streaming- und Batchdatenpipelines sicherzustellen.

Azure Data Factory unterstützt Sie beim Erstellen von Workflows, die die Datenverschiebung und -transformation im großen Stil orchestrieren. Integrieren Sie Azure Databricks in Ihre Produktionspipelines, indem Sie Notebooks und Bibliotheken aufrufen.

CI/CD ist nicht nur für Entwickler. Erfahren Sie, wie Sie Azure Databricks-Notebooks in einem Azure DevOps-Repository unter Versionskontrolle stellen und Bereitstellungspipelines aufbauen, um Ihren Releaseprozess zu verwalten.

Azure Databricks ist nur einer von vielen leistungsstarken Datendiensten in Azure. Erfahren Sie, wie Sie die Integration in Azure Synapse Analytics als Teil Ihrer Datenarchitektur durchführen.

Sie lernen bewährte Methoden für Arbeitsbereichsverwaltung, Sicherheit, Tools, Integration, Databricks Runtime, Hochverfügbarkeit/Notfallwiederherstellung (HA/DR) und Cluster in Azure Databricks kennen.