API do Pandas no Spark
Observação
Esse recurso está disponível nos clusters que executam o Databricks Runtime 10.0 (sem suporte) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS e inferiores, use o Koalas.
Geralmente usado por cientistas de dados, o pandas é um pacote do Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação do Python. No entanto, o Pandas não escala horizontalmente para Big Data. A API do Pandas no Spark preenche esse espaço fornecendo APIs equivalentes ao Pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários do pandas, mas também para usuários do PySpark, pois ela oferece suporte a muitas tarefas que são difíceis de realizar com o PySpark, por exemplo, a plotagem de dados diretamente de um Dataframe PySpark.
Requisitos
A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que é incluído a partir do Databricks Runtime 10.0 (sem suporte)) usando a seguinte instrução import
:
import pyspark.pandas as ps
Notebook
O notebook a seguir mostra como migrar do pandas para a API do Pandas no Spark.
API do Pandas para Pandas no Notebook do Spark
Recursos
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de