Share via


Koalas

Important

이 설명서는 사용 중지되었으며 업데이트되지 않을 수 있습니다. 이 콘텐츠에 언급된 제품, 서비스 또는 기술은 더 이상 지원되지 않습니다. Spark 기반 Pandas API를 참조하세요.

참고 항목

Koalas는 사용되지 않습니다. Databricks Runtime 10.0(지원되지 않음) 이상을 실행하는 클러스터에서 Koalas를 사용하려고 하면 정보 메시지가 표시되어 Spark에서 Pandas API를 대신 사용하는 것이 좋습니다.

Koalaspandas를 즉시 대체합니다. 데이터 과학자가 일반적으로 사용하는 pandas는 Python 프로그래밍 언어에 사용하기 쉬운 데이터 구조 및 데이터 분석 도구를 제공하는 Python 패키지입니다. 그러나 pandas는 빅 데이터로 스케일 아웃되지 않습니다. Koalas는 Apache Spark에서 작동하는 pandas와 동등한 API를 제공하여 이 격차를 메웁니다. Koalas는 PySpark DataFrame에서 직접 데이터를 플로팅하는 것과 같이 PySpark로 수행하기 어려운 많은 작업을 지원하므로 Koalas는 pandas 사용자뿐만 아니라 PySpark 사용자에게도 유용합니다.

요구 사항

  • Koalas는 Databricks Runtime 7.3~9.1을 실행하는 클러스터에 포함됩니다. Databricks Runtime 10.0 이상을 실행하는 클러스터의 경우 대신 Spark의 Pandas API를 사용하세요.
  • Databricks Runtime 7.0 이하를 실행하는 클러스터에서 Koala를 사용하려면 Koala를 Azure Databricks PyPI 라이브러리로 설치하세요.
  • Azure Databricks 클러스터에 연결하는 IDE, Notebook 서버 또는 기타 사용자 지정 애플리케이션에서 Koalas를 사용하려면 Databricks Connect를 설치하고 Koalas 설치 지침을 따르세요.

Notebook

다음 Notebook은 pandas에서 Koalas로 마이그레이션하는 방법을 보여줍니다.

pandas에서 Koalas로의 Notebook

전자 필기장 가져오기

리소스