Koalas

Koalas es un proyecto de código abierto que proporciona un reemplazo directo para Pandas. Normalmente usado por los científicos de datos, Pandas es un paquete de Python que proporciona estructuras de datos fáciles de usar y herramientas de análisis de datos para el lenguaje de programación Python. Sin embargo, Pandas no se escala horizontalmente a los big data. Koalas rellena esta brecha proporcionando API equivalentes de Pandas que funcionan en Apache Spark. Koalas no solo es útil para los usuarios de Pandas, sino también para los usuarios de PySpark, ya que Koalas admite muchas tareas que son difíciles de realizar con PySpark, por ejemplo, el trazado de datos directamente desde un dataframe de PySpark.

Requisitos

  • Koalas se incluye en clústeres que ejecutan Databricks Runtime 7.3 y posteriores.
  • Para usar Koalas en un clúster que Databricks Runtime 7.0 o una versión inferior, instale Koalas como una biblioteca Azure Databricks PyPI.
  • Para usar Koalas en un IDE, un servidor de cuadernos u otras aplicaciones personalizadas que se conectan a un clúster de Azure Databricks, instale Databricks Connect y siga las instrucciones de instalación de Koalas.

Notebook

En el cuaderno siguiente se muestra cómo migrar de Pandas a Koalas.

Cuaderno de Pandas a Koalas

Obtener el cuaderno

Recursos