Koalas

Viktigt!

Den här dokumentationen har dragits tillbaka och kanske inte uppdateras. De produkter, tjänster eller tekniker som nämns i det här innehållet stöds inte längre. Se Pandas API på Spark.

Kommentar

Koalas är inaktuell. Om du försöker använda Koalas i kluster som kör Databricks Runtime 10.0 (stöds inte) och senare visas ett informationsmeddelande som rekommenderar att du använder Pandas API på Spark i stället.

Koalas ger en drop-in ersättning för Pandas. Pandas används ofta av dataforskare och är ett Python-paket som tillhandahåller lätthanterade datastrukturer och dataanalysverktyg för programmeringsspråket Python. Pandas skalar dock inte ut till stordata. Koalas fyller det här tomrummet genom att tillhandahålla Pandas motsvarande API:er som fungerar på Apache Spark. Koalas är användbart inte bara för Pandas-användare utan även PySpark-användare, eftersom Koalas stöder många uppgifter som är svåra att göra med PySpark, till exempel att rita data direkt från en PySpark DataFrame.

Behov

  • Koalas ingår i kluster som kör Databricks Runtime 7.3 till 9.1. För kluster som kör Databricks Runtime 10.0 och senare använder du Pandas API på Spark i stället.
  • Om du vill använda Koalas i ett kluster som kör Databricks Runtime 7.0 eller senare installerar du Koalas som ett Azure Databricks PyPI-bibliotek.
  • Om du vill använda Koalas i en IDE, notebook-server eller andra anpassade program som ansluter till ett Azure Databricks-kluster installerar du Databricks Anslut och följer installationsanvisningarna för Koalas.

Notebook-fil

Följande notebook-fil visar hur du migrerar från Pandas till Koalas.

pandas till Koalas notebook-fil

Hämta notebook-fil

Resurser