Azure Databricks란?What is Azure Databricks?

Azure Databricks는 Microsoft Azure Cloud Services 플랫폼에 대해 최적화된 Apache Spark 기반 분석 플랫폼입니다.Azure Databricks is an Apache Spark-based analytics platform optimized for the Microsoft Azure cloud services platform. Apache Spark의 기반으로 설계된 Databricks는 Azure와 통합되어 원클릭 설정, 간소화된 워크플로 및 데이터 과학자, 데이터 엔지니어, 비즈니스 분석가가 협업할 수 있도록 하는 대화형 작업 영역을 제공합니다.Designed with the founders of Apache Spark, Databricks is integrated with Azure to provide one-click setup, streamlined workflows, and an interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.

Azure Databricks란?What is Azure Databricks?

Azure Databricks는 빠르고 쉬운 공동 작업 Apache Spark 기반 분석 서비스입니다.Azure Databricks is a fast, easy, and collaborative Apache Spark-based analytics service. 빅 데이터 파이프라인의 경우 데이터(원시 또는 구조적 데이터)는 Azure Data Factory를 통해 일괄 처리로 수집되거나 Kafka, 이벤트 허브 또는 IoT Hub를 사용하여 거의 실시간으로 스트리밍됩니다.For a big data pipeline, the data (raw or structured) is ingested into Azure through Azure Data Factory in batches, or streamed near real-time using Kafka, Event Hub, or IoT Hub. 이 데이터는 Azure Blob Storage 또는 Azure Data Lake Storage에서 장기 저장을 위한 데이터 레이크에 배치됩니다.This data lands in a data lake for long term persisted storage, in Azure Blob Storage or Azure Data Lake Storage. 분석 워크플로의 일부로, Azure Databricks를 사용하여 Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB, Azure SQL Data Warehouse 등의 여러 데이터 원본에서 데이터를 읽고 Spark를 사용하여 혁신적인 인사이트로 바꿀 수 있습니다.As part of your analytics workflow, use Azure Databricks to read data from multiple data sources such as Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB, or Azure SQL Data Warehouse and turn it into breakthrough insights using Spark.

Databricks 파이프라인

Apache Spark 기반 분석 플랫폼Apache Spark-based analytics platform

Azure Databricks는 완전한 오픈 소스 Apache Spark 클러스터 기술 및 기능으로 구성됩니다.Azure Databricks comprises the complete open-source Apache Spark cluster technologies and capabilities. Azure Databricks의 Spark는 다음 구성 요소가 포함되어 있습니다.Spark in Azure Databricks includes the following components:

Azure Databricks의 Apache SparkApache Spark in Azure Databricks

  • Spark SQL 및 DataFrames: Spark SQL는 정형 데이터로 작업하기 위한 Spark 모듈입니다.Spark SQL and DataFrames: Spark SQL is the Spark module for working with structured data. DataFrame은 명명된 열로 구성된 데이터의 분산된 컬렉션입니다.A DataFrame is a distributed collection of data organized into named columns. 관계형 데이터베이스의 테이블이나 R/Python의 데이터 프레임과 개념적으로 동일합니다.It is conceptually equivalent to a table in a relational database or a data frame in R/Python.

  • 스트리밍: 분석 및 대화형 애플리케이션을 위한 실시간 데이터 처리 및 분석입니다.Streaming: Real-time data processing and analysis for analytical and interactive applications. HDFS, Flume 및 Kafka와 통합합니다.Integrates with HDFS, Flume, and Kafka.

  • MLlib: 분류, 재발, 클러스터링, 공동 작업 필터링, 차원 감소, 기본 최적화 기본 요소 등 일반적인 학습 알고리즘 및 유틸리티로 구성된 Machine Learning 라이브러리입니다.MLlib: Machine Learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives.

  • GraphX: 인지 분석에서 데이터 탐색에 이르는 광범위한 사용 사례에 대한 그래프 및 그래프 계산입니다.GraphX: Graphs and graph computation for a broad scope of use cases from cognitive analytics to data exploration.

  • Spark Core API: R, SQL, Python, Scala 및 Java에 대한 지원을 포함합니다.Spark Core API: Includes support for R, SQL, Python, Scala, and Java.

Azure Databricks의 Apache SparkApache Spark in Azure Databricks

Azure Databricks는 다음을 포함하는 무 관리 클라우드 플랫폼을 제공함으로써 Spark의 기능을 기반으로 합니다.Azure Databricks builds on the capabilities of Spark by providing a zero-management cloud platform that includes:

  • 완전히 관리되는 Spark 클러스터Fully managed Spark clusters
  • 탐색 및 시각화를 위한 대화형 작업 영역An interactive workspace for exploration and visualization
  • 즐겨 찾는 Spark 기반 애플리케이션을 구동할 수 있는 플랫폼A platform for powering your favorite Spark-based applications

클라우드에서 완전히 관리되는 Apache Spark 클러스터Fully managed Apache Spark clusters in the cloud

Azure Databricks는 Spark 전문가가 관리하고 지원하는 클라우드에서 안전하고 안정적인 프로덕션 환경을 갖추고 있습니다.Azure Databricks has a secure and reliable production environment in the cloud, managed and supported by Spark experts. 다음을 수행할 수 있습니다.You can:

  • 몇 초 만에 클러스터를 만듭니다.Create clusters in seconds.
  • 서버가 없는 클러스터를 포함하여 클러스터를 위아래로 동적으로 자동 크기 조정하고 팀간에 공유합니다.Dynamically autoscale clusters up and down, including serverless clusters, and share them across teams.
  • REST API를 사용하여 프로그래밍 방식으로 클러스터를 사용합니다.Use clusters programmatically by using the REST APIs.
  • Spark 위에 구축된 보안 데이터 통합 기능을 사용하면 중앙 집중화 하지 않고도 데이터를 통합할 수 있습니다.Use secure data integration capabilities built on top of Spark that enable you to unify your data without centralization.
  • 각 릴리스와 함께 최신 Apache Spark 기능에 즉시 액세스합니다.Get instant access to the latest Apache Spark features with each release.

Databricks RuntimeDatabricks Runtime

Databricks 런타임은 Apache Spark를 기반으로 구축되었으며 기본적으로 Azure 클라우드용으로 구축되었습니다.The Databricks Runtime is built on top of Apache Spark and is natively built for the Azure cloud.

서버 없음 옵션을 사용하면 Azure Databricks가 인프라 복잡성과 데이터 인프라를 설정하고 구성하기 위해 전문 기술의 필요성을 완전히 추상화합니다.With the Serverless option, Azure Databricks completely abstracts out the infrastructure complexity and the need for specialized expertise to set up and configure your data infrastructure. 서버 없음 옵션을 통해 데이터 과학자들은 팀으로 빠르게 반복할 수 있습니다.The Serverless option helps data scientists iterate quickly as a team.

프로덕션 작업의 성능에 신경을 쓰는 데이터 엔지니어를 위해 Azure Databricks는 I/O 레이어 및 프로세스 레이어(Databricks I/O)에서 다양한 최적화를 통해 빠르고 성능이 우수한 Spark 엔진을 제공합니다.For data engineers, who care about the performance of production jobs, Azure Databricks provides a Spark engine that is faster and performant through various optimizations at the I/O layer and processing layer (Databricks I/O).

협업을 위한 작업 영역Workspace for collaboration

Azure Databricks는 공동 작업 및 통합 환경을 통해 Spark에서 데이터 탐색, 프로토타입 생성 및 데이터 기반 애플리케이션 실행 프로세스를 간소화합니다.Through a collaborative and integrated environment, Azure Databricks streamlines the process of exploring data, prototyping, and running data-driven applications in Spark.

  • 손쉬운 데이터 탐색으로 데이터를 사용하는 방법을 결정합니다.Determine how to use data with easy data exploration.
  • R, Python, Scala 또는 SQL로 진행 상황을 노트북에 문서화합니다.Document your progress in notebooks in R, Python, Scala, or SQL.
  • 몇 번의 클릭만으로 데이터를 시각화하고 Matplotlib, ggplot 또는 d3과 같은 친숙한 도구를 사용합니다.Visualize data in a few clicks, and use familiar tools like Matplotlib, ggplot, or d3.
  • 대화형 대시보드를 사용하여 동적 보고서를 만듭니다.Use interactive dashboards to create dynamic reports.
  • Spark를 사용하여 동시에 데이터와 상호 작용합니다.Use Spark and interact with the data simultaneously.

엔터프라이즈 보안Enterprise security

Azure Databricks는 Azure Active Directory 통합, 역할 기반 제어 및 데이터 및 비즈니스를 보호하는 SLA를 비롯하여 엔터프라이즈급 Azure 보안을 제공합니다.Azure Databricks provides enterprise-grade Azure security, including Azure Active Directory integration, role-based controls, and SLAs that protect your data and your business.

  • Azure Active Directory와 통합하면 Azure Databricks를 사용하여 완전한 Azure 기반 솔루션을 실행할 수 있습니다.Integration with Azure Active Directory enables you to run complete Azure-based solutions using Azure Databricks.
  • Azure Databricks 역할 기반 액세스는 노트북, 클러스터, 작업 및 데이터에 대한 세밀한 사용자 권한을 가능하게 합니다.Azure Databricks roles-based access enables fine-grained user permissions for notebooks, clusters, jobs, and data.
  • 엔터프라이즈급 SLA.Enterprise-grade SLAs.

중요

Azure Databricks는 글로벌 Azure 퍼블릭 클라우드 인프라에 배포되는 Microsoft Azure 자사 서비스입니다.Azure Databricks is a Microsoft Azure first-party service that is deployed on the Global Azure Public Cloud infrastructure. 컨트롤 플레인과 고객 데이터 평면의 공용 IP 간을 포함하여 서비스 구성 요소 간의 모든 통신은 Microsoft Azure 네트워크 백본 내에 유지됩니다.All communications between components of the service, including between the public IPs in the control plane and the customer data plane, remain within the Microsoft Azure network backbone. Microsoft 글로벌 네트워크도 참조하세요.See also Microsoft global network.

Azure 서비스와의 통합Integration with Azure services

Azure Databricks는 Azure 데이터베이스 및 저장소와 긴밀히 통합됩니다. SQL Data Warehouse, Cosmos DB, Data Lake Store 및 Blob Storage입니다.Azure Databricks integrates deeply with Azure databases and stores: SQL Data Warehouse, Cosmos DB, Data Lake Store, and Blob Storage.

Power BI와 통합Integration with Power BI

Power BI와의 풍부한 통합을 통해 Azure Databricks는 유용한 정보를 빠르고 쉽게 찾아 공유할 수 있습니다.Through rich integration with Power BI, Azure Databricks allows you to discover and share your impactful insights quickly and easily. JDBC/ODBC 클러스터 엔드포인트를 통해 Tableau 소프트웨어와 같은 다른 BI 도구도 사용할 수 있습니다.You can use other BI tools as well, such as Tableau Software via JDBC/ODBC cluster endpoints.

다음 단계Next steps