Azure Databricks의 Apache Spark

이 문서에서는 Apache Spark가 Azure Databricks 및 Databricks Data Intelligence Platform과 어떻게 관련되어 있는지 설명합니다.

Apache Spark는 Azure Databricks 플랫폼의 핵심이며 컴퓨팅 클러스터 및 SQL 웨어하우스를 구동하는 기술입니다. Azure Databricks는 Apache Spark에 최적화된 플랫폼이며, Apache Spark 워크로드를 실행하기 위한 효율적이고 간단한 플랫폼을 제공입니다.

Apache Spark와 Azure Databricks는 어떤 관계가 있나요?

Databricks 회사는 Apache Spark의 원래 제작자에 의해 설립되었습니다. 오픈 소스 소프트웨어 프로젝트인 Apache Spark는 Databricks를 비롯한 여러 상위 회사의 위탁자를 보유하고 있습니다.

Databricks는 지속적으로 Apache Spark의 기능을 개발하고 릴리스합니다. Databricks 런타임에는 최적화된 버전의 Apache Spark를 C++로 다시 작성한 Photon을 포함하여 Apache Spark를 기반으로 빌드하고 확장하는 추가 최적화 및 독점 기능이 포함되어 있습니다.

Apache Spark는 Azure Databricks에서 어떻게 작동하나요?

Azure Databricks에 컴퓨팅 클러스터 또는 SQL 웨어하우스를 배포하면 Apache Spark가 구성되고 가상 머신에 배포됩니다. Azure Databricks에서 관리하므로 Spark 컨텍스트 또는 Spark 세션을 구성하거나 초기화할 필요가 없습니다.

Apache Spark를 사용하지 않고 Azure Databricks를 사용할 수 있나요?

Azure Databricks는 다양한 워크로드를 지원하며 Databricks 런타임에 오픈 소스 라이브러리를 포함합니다. Databricks SQL은 내부적으로 Apache Spark를 사용하지만, 최종 사용자는 표준 SQL 구문을 사용하여 데이터베이스 개체를 만들고 쿼리합니다.

Machine Learning용 Databricks Runtime은 ML 워크로드에 최적화되어 있으며, 많은 데이터 과학자들이 Azure Databricks에서 작업하는 동안 TensorFlow 및 SciKit Learn과 같은 주요 오픈 소스 라이브러리를 사용합니다. 워크플로를 사용하여 Azure Databricks에 배포되고 관리되는 컴퓨팅 리소스를 대상으로 임의의 워크로드를 예약할 수 있습니다.

Azure Databricks에서 Apache Spark를 사용하는 이유는 무엇인가요?

Databricks 플랫폼은 비즈니스에 맞게 확장되는 엔터프라이즈 솔루션을 개발하고 배포하기 위한 안전하고 공동 작업적인 환경을 제공합니다. Databricks 직원은 세계에서 가장 지식이 많은 Apache Spark 기본 테인러 및 사용자를 포함합니다. 이 회사는 사용자가 Apache Spark를 실행하기 위해 가장 빠른 환경에 액세스할 수 있도록 새로운 최적화를 지속적으로 개발하고 릴리스합니다.

Azure Databricks에서 Apache Spark를 사용하는 방법에 대해 자세히 알아보려면 어떻게 해야 하나요?

Azure Databricks에서 Apache Spark를 시작하려면 바로 살펴보세요! Apache Spark DataFrames 자습서에서는 Python, R 또는 Scala에서 데이터를 로드하고 변환하는 방법을 안내합니다. 자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환을 참조하세요.

Spark의 Python, R 및 Scala 언어 지원에 대한 추가 정보는 Apache Spark API에 대한 참조뿐만 아니라 Azure Databricks, SparkR 개요Scala용 Azure Databricks 개발자 섹션의 PySpark에서 찾을 수 있습니다.