Apache Spark in Azure Databricks

Artikel
05/04/2024

In diesem Artikel wird beschrieben, wie Apache Spark mit Azure Databricks und der Azure Databricks Data Intelligence-Plattform verknüpft ist.

Apache Spark ist das Herzstück der Azure Databricks-Plattform und die Technologie, die Computecluster und SQL-Warehouses unterstützt. Azure Databricks ist eine optimierte Plattform für Apache Spark, die eine effiziente und einfache Plattform zum Ausführen von Apache Spark-Workloads bietet.

Wie ist die Beziehung von Apache Spark zu Azure Databricks?

Das Unternehmen Databricks wurde von den ursprünglichen Schöpfern von Apache Spark gegründet. Als Open-Source-Softwareprojekt verfügt Apache Spark über Committer aus vielen führenden Unternehmen, einschließlich Databricks.

Databricks entwickelt und veröffentlicht weiterhin Features für Apache Spark. Die Databricks Runtime umfasst zusätzliche Optimierungen und proprietäre Features, die auf Apache Spark aufbauen und es erweitern, einschließlich Photon, einer optimierten Version von Apache Spark, die in C++ neu geschrieben wurde.

Wie funktioniert Apache Spark in Azure Databricks?

Wann immer Sie einen Computecluster oder ein SQL Warehouse in Azure Databricks bereitstellen, wird Apache Spark konfiguriert und auf virtuellen Computern bereitgestellt. Sie müssen einen Spark-Kontext oder eine Spark-Sitzung weder konfigurieren, noch initialisieren, da diese von Azure Databricks für Sie verwaltet werden.

Kann ich Azure Databricks ohne Apache Spark verwenden?

Azure Databricks unterstützt eine Vielzahl von Workloads und enthält andere Open-Source-Bibliotheken in der Databricks Runtime. Databricks SQL verwendet Apache Spark „unter der Haube“, aber Endbenutzer verwenden SQL-Standardsyntax, um Datenbankobjekte zu erstellen und abzufragen.

Die Databricks Runtime für Machine Learning ist für ML-Workloads optimiert, und viele Datenanalysten verwenden primäre Open-Source-Bibliotheken wie TensorFlow und SciKit Learn, während sie in Azure Databricks arbeiten. Sie können Workflows verwenden, um beliebige Workloads für Computeressourcen zu planen, die von Azure Databricks bereitgestellt und verwaltet werden.

Gründe für die Verwendung von Apache Spark in Azure Databricks

Die Databricks-Plattform bietet eine sichere, kollaborative Umgebung für die Entwicklung und Bereitstellung von Unternehmenslösungen, die sich mit den Größenveränderungen Ihres Unternehmens skalieren lassen. Zu den Mitarbeitern von Databricks gehören viele der weltweit erfahrensten Wartungsexperten und Benutzer von Apache Spark. Das Unternehmen entwickelt und veröffentlicht kontinuierlich neue Optimierungen, um sicherzustellen, dass Benutzer auf die schnellste Umgebung für die Ausführung von Apache Spark zugreifen können.

Wie kann ich mehr über die Verwendung von Apache Spark in Azure Databricks erfahren?

Beginnen Sie gleich mit der Verwendung von Apache Spark in Azure Databricks! Das Apache Spark DataFrames-Tutorial führt Sie durch das Laden und Transformieren von Daten in Python, R oder Scala. Siehe Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark DataFrames.

Weitere Informationen zur Unterstützung der Sprachen Python, R und Scala in Spark finden Sie unter PySpark in Azure Databricks, in der SparkR-Übersicht, im Abschnitt Entwickler für Azure Databricks für Scala und in der Referenz für Apache Spark-APIs.