Share via


Pandas API en Spark

Nota:

Esta característica está disponible en clústeres que ejecutan Databricks Runtime 10.0 (sin soporte) y posteriores. En el caso de los clústeres que ejecutan Databricks Runtime 9.1 LTS y anteriores, use Koalas en su lugar.

Usado normalmente por científicos de datos, Pandas es un paquete de Python que proporciona estructuras de datos fáciles de usar y herramientas de análisis de datos para el lenguaje de programación Python. Sin embargo, Pandas no se escala horizontalmente a macrodatos. La API de Pandas en Spark rellena esta brecha al proporcionar API equivalentes de Pandas que funcionan en Apache Spark. La API de Pandas en Spark es útil no solo para los usuarios de Pandas, sino también para los usuarios de PySpark, ya que la API de Pandas en Spark admite muchas tareas que son difíciles de hacer con PySpark, por ejemplo, trazar datos directamente desde un objeto DataFrame de PySpark.

Requisitos

La API de Pandas en Spark está disponible a partir de Apache Spark 3.2 (que se incluye desde Databricks Runtime 10.0 (sin soporte)) mediante la siguiente import instrucción:

import pyspark.pandas as ps

Notebook

En el cuaderno siguiente se muestra cómo migrar de Pandas a la API de Pandas en Spark.

De Pandas a la API de Pandas en un cuaderno de Spark

Obtener el cuaderno

Recursos