Interfejs API biblioteki Pandas na platformie Apache Spark

Uwaga

Ta funkcja jest dostępna w klastrach z uruchomionym środowiskiem Databricks Runtime 10.0 (nieobsługiwanym) i nowszym. W przypadku klastrów z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym należy zamiast tego użyć narzędzia Koalas .

Często używane przez analityków danych biblioteka pandas to pakiet języka Python, który zapewnia łatwe w użyciu struktury danych i narzędzia do analizy danych dla języka programowania Python. Jednak biblioteka pandas nie jest skalowana w poziomie do danych big data. Interfejs API biblioteki Pandas na platformie Spark wypełnia tę lukę, zapewniając równoważne interfejsy API biblioteki pandas działające na platformie Apache Spark. Interfejs API biblioteki Pandas na platformie Spark jest przydatny nie tylko dla użytkowników biblioteki pandas, ale także użytkowników PySpark, ponieważ interfejs API biblioteki pandas na platformie Spark obsługuje wiele zadań, które są trudne do wykonania w przypadku narzędzia PySpark, na przykład wykreślenia danych bezpośrednio z ramki danych PySpark.

Wymagania

Interfejs API biblioteki Pandas na platformie Spark jest dostępny począwszy od platformy Apache Spark 3.2 (który jest dołączany do środowiska Databricks Runtime 10.0 (nieobsługiwane)) przy użyciu następującej import instrukcji:

import pyspark.pandas as ps

Notes

W poniższym notesie pokazano, jak przeprowadzić migrację z biblioteki pandas do interfejsu API biblioteki pandas na platformie Spark.

Biblioteka pandas do interfejsu API biblioteki pandas w notesie platformy Spark

Pobierz notes

Zasoby