واجهة برمجة تطبيقات الباندا على Spark
ملاحظة
تتوفر هذه الميزة على المجموعات التي تقوم بتشغيل Databricks Runtime 10.0 والإصدارات الأحدث. بالنسبة للمجموعات التي تقوم بتشغيل Databricks Runtime 9.1 LTS والإصدارات الأحدث، استخدم Koalas بدلا من ذلك.
الباندا هي حزمة Python شائعة الاستخدام من قبل علماء البيانات ، وهي عبارة عن حزمة Python توفر هياكل بيانات سهلة الاستخدام وأدوات تحليل البيانات للغة برمجة Python. ومع ذلك ، فإن الباندا لا تتوسع إلى البيانات الضخمة. تملأ واجهة برمجة تطبيقات Pandas على Spark هذه الفجوة من خلال توفير واجهات برمجة تطبيقات مكافئة للباندا تعمل على Apache Spark. تعد واجهة برمجة تطبيقات Pandas على Spark مفيدة ليس فقط لمستخدمي الباندا ولكن أيضا لمستخدمي PySpark ، لأن واجهة برمجة تطبيقات الباندا على Spark تدعم العديد من المهام التي يصعب القيام بها باستخدام PySpark ، على سبيل المثال رسم البيانات مباشرة من PySpark DataFrame.
المتطلبات
تتوفر واجهة برمجة تطبيقات Pandas على Spark بدءا من Apache Spark 3.2 (والتي يتم تضمينها بدءا من Databricks Runtime 10.0) باستخدام العبارة التالية :
import pyspark.pandas as ps
دفتر الملاحظات
يوضح دفتر الملاحظات التالي كيفية الترحيل من الباندا إلى واجهة برمجة تطبيقات الباندا على Spark.
الباندا إلى الباندا API على دفتر ملاحظات Spark
الموارد
- واجهة برمجة تطبيقات الباندا على دليل مستخدم Spark على موقع Apache Spark على الويب
- الهجرة من الكوالا إلى واجهة برمجة تطبيقات الباندا على Spark على موقع Apache Spark
- واجهة برمجة تطبيقات الباندا على مرجع Spark على موقع Apache Spark على الويب