Koalas

重要

此檔已淘汰,且可能未更新。 不再支援此內容中所提及的產品、服務或技術。 請參閱 Spark 上的 Pandas API。

注意

考拉已被取代。 如果您嘗試在執行 Databricks Runtime 10.0 (不支援) 和更新版本之 叢集上使用 Koalas,則會顯示參考訊息,建議您改為在 Spark 上使用 Pandas API。

考拉斯 為大熊貓 提供了下降的替代品 。 pandas 通常由資料科學家使用,是 Python 套件,可提供適用于 Python 程式設計語言的便於使用的資料結構和資料分析工具。 不過,pandas 不會向外延展至巨量資料。 Koalas 藉由提供在 Apache Spark 上運作的 pandas 對等 API 來填補這個空白。 Koalas 不僅適用于 pandas 使用者,而且適用于 PySpark 使用者,因為 Koalas 支援許多使用 PySpark 難以執行的工作,例如直接從 PySpark 資料框架繪製資料。

需求

  • Koalas 包含在執行 Databricks Runtime 7.3 到 9.1 的叢集上。 對於執行 Databricks Runtime 10.0 和更新版本之叢集,請改用 Spark 上的 Pandas API。
  • 若要在執行 Databricks Runtime 7.0 或以下的叢集上使用 Koalas,請將 Koalas 安裝為 Azure Databricks PyPI 程式庫
  • 若要在 IDE、Notebook 伺服器或其他連線至 Azure Databricks 叢集的自訂應用程式中使用 Koalas,請安裝 Databricks 連線 ,並遵循 Koalas 安裝指示

Notebook

下列筆記本示範如何從 Pandas 遷移至 Koalas。

pandas to Koalas Notebook

取得筆記本

資源