Spark'ta Pandas API'si
Not
Bu özellik Databricks Runtime 10.0 (desteklenmeyen) ve üzerini çalıştıran kümelerde kullanılabilir. Databricks Runtime 9.1 LTS ve altında çalışan kümeler için bunun yerine Koalas kullanın.
Veri bilimcileri tarafından yaygın olarak kullanılan pandas, Python programlama dili için kullanımı kolay veri yapıları ve veri çözümleme araçları sağlayan bir Python paketidir. Ancak pandas büyük veri ölçeğini genişletmez. Spark üzerinde Pandas API'si, Apache Spark üzerinde çalışan pandas eşdeğer API'leri sağlayarak bu boşluğu doldurur. Spark'ta Pandas API'leri yalnızca pandas kullanıcıları için değil PySpark kullanıcıları için de yararlıdır çünkü Spark'ta pandas API'si PySpark ile yapılması zor olan birçok görevi destekler; örneğin doğrudan PySpark DataFrame'den veri çizme.
Gereksinimler
Spark üzerinde Pandas API'sini Apache Spark 3.2'den (Databricks Runtime 10.0'da (desteklenmeyen) başlayarak) aşağıdaki deyimi kullanarak import
kullanabilirsiniz:
import pyspark.pandas as ps
Not Defteri
Aşağıdaki not defteri, Spark üzerinde pandas'tan pandas API'sine nasıl geçiş yapılacağını gösterir.
Spark not defterinde pandas-pandas API
Kaynaklar
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin