Поделиться через


Koalas

Важно!

Поддержка этой документации прекращена, она может больше не обновляться. Продукты, службы или технологии, упоминание в этом содержимом больше не поддерживаются. См . API Pandas в Spark.

Примечание.

Коала не рекомендуется. Если вы попытаетесь использовать Koalas в кластерах, которые выполняют Databricks Runtime 10.0 (неподдерживаемые) и выше, появится информационное сообщение, которое рекомендуется использовать API Pandas в Spark .

Koalas является упрощенной заменой для pandas. Пакет pandas для Python широко применяется специалистами по обработке и анализу данных, так как предоставляет удобные структуры данных и средства анализа для языка программирования Python. Однако pandas не масштабируется до больших данных. Koalas восполняет этот недостаток, обеспечивая эквивалентные API-интерфейсы для работы в Apache Spark. Koalas полезен не только для пользователей pandas, но и для пользователей PySpark, так как поддерживает множество задач, которые трудно выполнить с помощью PySpark, например построение данных непосредственно из PySpark DataFrame.

Требования

  • Koalas включается в кластеры на основе Databricks Runtime версий 7.3–9.1. Для кластеров с Databricks Runtime 10.0 и более поздних версий используйте API Pandas в Spark.
  • Чтобы использовать Koalas в кластере на основе Databricks Runtime 7.0 или более старой версии, установите Koalas в виде библиотеки PyPI для Azure Databricks.
  • Чтобы использовать Koalas в интегрированной среде разработки, на сервере записной книжки или в других пользовательских приложениях, которые подключены к кластеру Azure Databricks, установите Databricks Connect и следуйте инструкциям по установке Koalas.

Записная книжка

В следующей записной книжке показано, как выполнить миграцию с pandas на Koalas.

Записная книжка для перехода с pandas на Koalas

Получить записную книжку

Ресурсы