Koalas

Wichtig

Diese Dokumentation wurde eingestellt und wird unter Umständen nicht aktualisiert. Die in diesem Inhalt erwähnten Produkte, Dienste oder Technologien werden nicht mehr unterstützt. Weitere Informationen finden Sie unter Pandas-API in Spark.

Hinweis

Koalas ist veraltet. Wenn Sie versuchen, Koalas in Clustern mit Databricks Runtime 10.0 (nicht unterstützt) und höher zu verwenden, wird eine Informationsmeldung mit der Empfehlung angezeigt, dass Sie stattdessen die Pandas-API in Spark verwenden sollten.

Koalas bietet einen Drop-In-Ersatz für Pandas. Pandas wird häufig von Datenanalysten verwendet und ist ein Python-Paket, das benutzerfreundliche Datenstrukturen und Datenanalysetools für die Python-Programmiersprache bereitstellt. Pandas ist allerdings nicht für Big Data geeignet. Koalas schließt diese Lücke durch die Bereitstellung von Pandas-äquivalenten APIs, die mit Apache Spark kompatibel sind. Koalas ist nicht nur für Pandas-Benutzer, sondern auch für PySpark-Benutzer nützlich, da Koalas viele Aufgaben unterstützt, die mit PySpark schwer zu erledigen sind, z. B. das direkte Plotten von Daten aus einem PySpark-Datenrahmen.

Anforderungen

  • Koalas ist in Clustern enthalten, auf denen Databricks Runtime 7.3 bis 9.1 ausgeführt wird. Verwenden Sie für Cluster mit Databricks Runtime 10.0 und höher stattdessen die Pandas-API in Spark.
  • Um Koalas in einem Cluster zu verwenden, der Databricks Runtime 7.0 oder niedriger ausführt, installieren Sie Koalas als PyPI-Bibliothek von Azure Databricks.
  • Um Koalas in einer IDE, auf einem Notebook-Server oder mit anderen benutzerdefinierten Anwendungen zu verwenden, die eine Verbindung mit einem Azure Databricks-Cluster herstellen, installieren Sie Databricks Connect, und befolgen Sie die Installationsanweisungen für Koalas.

Notebook

Das folgende Notebook zeigt, wie Sie von Pandas zu Koalas migrieren können.

„Pandas zu Koalas“-Notebook

Notebook abrufen

Ressourcen