واجهة برمجة تطبيقات الباندا على Spark

ملاحظة

تتوفر هذه الميزة على المجموعات التي تقوم بتشغيل Databricks Runtime 10.0 والإصدارات الأحدث. بالنسبة للمجموعات التي تقوم بتشغيل Databricks Runtime 9.1 LTS والإصدارات الأحدث، استخدم Koalas بدلا من ذلك.

الباندا هي حزمة Python شائعة الاستخدام من قبل علماء البيانات ، وهي عبارة عن حزمة Python توفر هياكل بيانات سهلة الاستخدام وأدوات تحليل البيانات للغة برمجة Python. ومع ذلك ، فإن الباندا لا تتوسع إلى البيانات الضخمة. تملأ واجهة برمجة تطبيقات Pandas على Spark هذه الفجوة من خلال توفير واجهات برمجة تطبيقات مكافئة للباندا تعمل على Apache Spark. تعد واجهة برمجة تطبيقات Pandas على Spark مفيدة ليس فقط لمستخدمي الباندا ولكن أيضا لمستخدمي PySpark ، لأن واجهة برمجة تطبيقات الباندا على Spark تدعم العديد من المهام التي يصعب القيام بها باستخدام PySpark ، على سبيل المثال رسم البيانات مباشرة من PySpark DataFrame.

المتطلبات

تتوفر واجهة برمجة تطبيقات Pandas على Spark بدءا من Apache Spark 3.2 (والتي يتم تضمينها بدءا من Databricks Runtime 10.0) باستخدام العبارة التالية :

import pyspark.pandas as ps

دفتر الملاحظات

يوضح دفتر الملاحظات التالي كيفية الترحيل من الباندا إلى واجهة برمجة تطبيقات الباندا على Spark.

الباندا إلى الباندا API على دفتر ملاحظات Spark

الحصول على دفتر ملاحظات

الموارد