Koalas

Importante

Esta documentación se ha retirado y es posible que no se actualice. Los productos, servicios o tecnologías mencionados en este contenido ya no se admiten. Consulte API de Pandas en Spark.

Nota:

Koalas está en desuso. Si intenta usar Koalas en clústeres que ejecutan Databricks Runtime 10.0 (sin soporte técnico) y versiones superiores, se muestra un mensaje informativo en el que se recomienda usar en su lugar Pandas API en Spark.

Koalas proporciona un reemplazo directo para Pandas. Usado normalmente por científicos de datos, Pandas es un paquete de Python que proporciona estructuras de datos fáciles de usar y herramientas de análisis de datos para el lenguaje de programación Python. Sin embargo, Pandas no se escala horizontalmente a macrodatos. Koala subsana esta carencia, ya que proporciona API equivalentes a Pandas, que funcionan en Apache Spark. Koalas es útil no solo para los usuarios de Pandas, sino también para los usuarios de PySpark, ya que Koalas admite muchas tareas que son difíciles de hacer con PySpark, por ejemplo, trazar datos directamente desde un objeto DataFrame de PySpark.

Requisitos

  • Koalas se incluye en los clústeres que ejecutan las versiones 7.3 a 9.1 de Databricks Runtime. En el caso de los clústeres que usan Databricks Runtime 10.0, y las versiones superiores, use Pandas API en Spark en su lugar.
  • Para usar Koalas en un clúster que usa Databricks Runtime 7.0, o cualquier versión inferior, instale Koalas en forma de una biblioteca PyPI de Azure Databricks.
  • Para usar Koalas en un entorno de desarrollo integrado, un servidor de cuadernos u otras aplicaciones personalizadas que se conectan a un clúster de Azure Databricks, instale Databricks Connect y siga las instrucciones de instalación de Koalas.

Notebook

En el cuaderno siguiente se muestra cómo migrar de Pandas a Koalas.

cuaderno Pandas a Koalas

Obtener el cuaderno

Recursos