Azure Databricks 개념

이 문서에서는 Azure Databricks를 효과적으로 사용하기 위해 이해해야 하는 기본 개념 집합을 소개합니다.

계정 및 작업 영역

Azure Databricks 에서 작업 영역 은 팀이 Databricks 자산에 액세스할 수 있는 환경으로 작동하는 클라우드의 Azure Databricks 배포입니다. 조직은 필요에 따라 여러 작업 영역 또는 작업 영역 하나를 선택할 수 있습니다.

Azure Databricks 계정은 여러 작업 영역을 포함할 수 있는 단일 엔터티를 나타냅니다. Unity 카탈로그사용하도록 설정된 계정은 계정의 모든 작업 영역에서 중앙에서 사용자 및 데이터에 대한 액세스를 관리하는 데 사용할 수 있습니다.

청구: Databricks 단위(DPU)

Azure Databricks는 VM 인스턴스 유형에 따라 시간당 처리 기능 단위인 DBU(Databricks 단위)를 기준으로 요금을 청구합니다.

Azure Databricks 가격 책정 페이지를 참조하세요.

인증 및 권한 부여

이 섹션에서는 Azure Databricks ID 및 Azure Databricks 자산에 대한 액세스를 관리할 때 알아야 할 개념을 설명합니다.

사용자

시스템에 액세스할 수 있는 고유한 개인입니다. 사용자 ID는 이메일 주소로 표시됩니다. 사용자 관리를 참조하세요.

서비스 사용자

작업, 자동화된 도구 및 스크립트, 앱, CI/CD 플랫폼과 같은 시스템에서 사용하기 위한 서비스 ID입니다. 서비스 주체는 애플리케이션 ID로 표시됩니다. 서비스 주체 관리를 참조하세요.

그룹

ID 컬렉션입니다. 그룹은 ID 관리를 간소화하여 작업 영역, 데이터 및 기타 보안 개체에 대한 액세스를 더 쉽게 할당할 수 있도록 합니다. 모든 Databricks ID는 그룹의 멤버로 할당할 수 있습니다. 그룹 관리를 참조하세요.

ACL(액세스 제어 목록)

작업 영역, 클러스터, 작업, 테이블 또는 실험에 연결된 사용 권한 목록입니다. ACL은 개체에 대한 액세스 권한이 부여되는 사용자 또는 시스템 프로세스와 자산에 허용되는 작업을 지정합니다. 일반적인 ACL의 각 항목은 제목과 작업을 지정합니다. 액세스 제어 목록 참조

개인용 액세스 토큰

불투명 문자열은 SQL 웨어하우스에 연결하기 위해 기술 파트너도구 및 REST API에 인증하는 데 사용됩니다. Azure Databricks 개인용 액세스 토큰 인증을 참조하세요.

Microsoft Entra ID(이전의 Azure Active Directory) 토큰을 사용하여 REST API에 인증할 수도 있습니다.

UI

Azure Databricks UI는 작업 영역 폴더 및 포함된 개체, 데이터 개체 및 계산 리소스와 같은 기능과 상호 작용하기 위한 그래픽 인터페이스입니다.

데이터 과학 및 엔지니어링

데이터 과학 및 엔지니어링 도구는 데이터 과학자, 데이터 엔지니어 및 데이터 분석가 간의 협업을 지원합니다. 이 섹션에서는 기본 개념을 설명합니다.

작업 영역

작업 영역은 모든 Azure Databricks 자산에 액세스하기 위한 환경입니다. 작업 영역은 개체(Notebook, 라이브러리, 대시보드 및 실험)를 폴더로 구성하고 데이터 개체 및 계산 리소스에 대한 액세스를 제공합니다.

Notebook

실행 가능한 명령, 시각화 및 설명 텍스트를 포함할 수 있는 데이터 과학 및 기계 학습 워크플로를 만들기 위한 웹 기반 인터페이스입니다. Databricks Notebook 소개를 참조 하세요.

대시보드

시각화에 대한 조직화된 액세스를 제공하는 인터페이스입니다. Notebook의 대시보드를 참조 하세요.

라이브러리

클러스터에서 실행 중인 Notebook 또는 작업에 사용할 수 있는 코드 패키지입니다. Databricks 런타임에는 많은 라이브러리가 포함되며 사용자 고유의 라이브러리 를 추가할 수 있습니다.

Git 폴더(이전의 Repos)

콘텐츠를 원격 Git 리포지토리에 동기화하여 함께 버전이 조정되는 폴더입니다. Databricks Git 폴더는 Git과 통합되어 프로젝트에 대한 원본 및 버전 제어를 제공합니다.

실험

MLflow 컬렉션 은 기계 학습 모델을 학습하기 위해 실행됩니다 . MLflow 실험을 사용하여 학습 실행 구성을 참조 하세요.

Azure Databricks 인터페이스

이 섹션에서는 자산에 액세스하기 위해 UI 외에도 Azure Databricks가 지원하는 인터페이스인 API 및 CLI(명령줄)에 대해 설명합니다.

REST API

Databricks는 작업 영역계정에 대한 API 설명서를 제공합니다.

CLI

GitHub에서 호스트되는 오픈 소스 프로젝트입니다. CLI는 Databricks REST API를 기반으로 빌드됩니다.

데이터 관리

이 섹션에서는 분석을 수행하고 기계 학습 알고리즘에 피드하는 데이터를 보유하는 개체를 설명합니다.

DBFS(Databricks 파일 시스템)

Blob 저장소를 통해 파일 시스템 추상화 계층입니다. 여기에는 파일(데이터 파일, 라이브러리 및 이미지)을 포함할 수 있는 디렉터리와 기타 디렉터리가 포함됩니다. DBFS는 Azure Databricks를 학습하는 데 사용할 수 있는 일부 데이터 세트 로 자동으로 채워집니다. DBFS(Databricks 파일 시스템)란?을 참조하세요.

데이터베이스

쉽게 액세스, 관리 및 업데이트할 수 있도록 구성된 테이블 또는 뷰 및 함수와 같은 데이터 개체의 컬렉션입니다. 데이터베이스란?

테이블

구조화된 데이터의 표현입니다. Apache Spark SQL 및 Apache Spark API를 사용하여 테이블을 쿼리합니다. 테이블이란?

델타 테이블

기본적으로 Azure Databricks에서 만든 모든 테이블은 델타 테이블입니다. 델타 테이블은 클라우드 개체 저장소를 통해 고성능 ACID 테이블 스토리지를 위한 프레임워크인 Delta Lake 오픈 소스 프로젝트를 기반으로 합니다. Delta 테이블은 데이터를 클라우드 개체 스토리지에 파일 디렉터리로 저장하고 테이블 메타데이터를 카탈로그 및 스키마 내의 메타스토어에 등록합니다.

Delta로 브랜딩된 기술에 대해 자세히 알아보세요.

메타 저장소

열 및 열 형식 정보, 데이터를 읽고 쓰는 데 필요한 직렬 변환기 및 역직렬 변환기, 데이터가 저장된 해당 파일을 포함하여 데이터 웨어하우스에 있는 다양한 테이블 및 파티션의 모든 구조 정보를 저장하는 구성 요소입니다. 메타스토어가란?

모든 Azure Databricks 배포에는 테이블 메타데이터를 유지하기 위해 모든 클러스터에서 액세스할 수 있는 중앙 Hive 메타스토어가 있습니다. 기존 외부 Hive 메타스토어를 사용할 수도 있습니다.

시각화

쿼리 실행 결과를 그래픽으로 표시합니다. Databricks Notebook의 시각화를 참조 하세요.

계산 관리

이 섹션에서는 Azure Databricks에서 계산을 실행하기 위해 알아야 할 개념을 설명합니다.

클러스터

Notebook 및 작업을 실행하는 계산 리소스 및 구성 집합입니다. 클러스터에는 다목적 및 작업의 두 가지 유형이 있습니다. 컴퓨팅을 참조하세요.

  • 다목적 클러스터는 UI, CLI 또는 REST API를 사용하여 만들 수 있습니다. 다목적 클러스터를 수동으로 종료하고 다시 시작할 수 있습니다. 여러 사용자가 클러스터를 공유하여 공동으로 대화형 분석을 수행할 수 있습니다.
  • Azure Databricks 작업 스케줄러는 새 작업 클러스터에서 작업을 실행할 때 작업 클러스터를 만들고, 작업이 완료되면 클러스터를 종료합니다. 작업 클러스터를 다시 시작할 수 없습니다.

클러스터 시작 및 자동 크기 조정 시간을 줄이는 유휴, 즉시 사용할 수 있는 인스턴스 집합입니다. 풀에 연결된 경우 클러스터는 풀에서 해당 드라이버 및 작업자 노드를 할당합니다. 풀 구성 참조를 참조하세요.

풀에 클러스터의 요청을 수용하기에 충분한 유휴 리소스가 없는 경우 인스턴스 공급자에서 새 인스턴스를 할당하여 풀이 확장됩니다. 연결된 클러스터가 종료되면 사용된 인스턴스가 풀로 반환되고 다른 클러스터에서 다시 사용할 수 있습니다.

Databricks 런타임

Azure Databricks에서 관리하는 클러스터에서 실행되는 핵심 구성 요소 집합입니다. Compute.* Azure Databricks에는 다음과 같은 런타임이 있습니다.

  • Databricks Runtime 에는 Apache Spark가 포함되지만 빅 데이터 분석의 유용성, 성능 및 보안을 크게 향상시키는 여러 구성 요소 및 업데이트가 추가됩니다.
  • Machine Learning 용 Databricks 런타임은 Databricks 런타임을 기반으로 하며 Azure Databricks 작업 영역의 모든 기능과 통합된 미리 빌드된 기계 학습 인프라를 제공합니다. TensorFlow, Keras, PyTorch 및 XGBoost를 비롯한 여러 인기 있는 라이브러리가 포함되어 있습니다.

워크플로

데이터 처리 파이프라인을 개발하고 실행하는 프레임워크:

  • 작업: 즉시 또는 예약된 기준으로 Notebook 또는 라이브러리를 실행하기 위한 비대화형 메커니즘입니다.
  • Delta Live Tables: 안정적이고 유지 관리가 가능하며 테스트할 수 있는 데이터 처리 파이프라인을 빌드하기 위한 프레임워크입니다.

Azure Databricks 워크플로 소개를 참조 하세요.

작업 부하

Azure Databricks는 데이터 엔지니어링(작업) 및 데이터 분석(다목적)이라는 서로 다른 가격 책정 체계가 적용되는 두 가지 유형의 워크로드를 식별합니다.

  • 데이터 엔지니어링 An(자동화된) 워크로드는 Azure Databricks 작업 스케줄러가 각 워크로드에 대해 만드는 작업 클러스터 에서 실행됩니다.
  • 데이터 분석 (대화형) 워크로드는 다목적 클러스터에서 실행됩니다. 대화형 워크로드는 일반적으로 Azure Databricks Notebook 내에서 명령을 실행합니다. 그러나 기존 다목적 클러스터에서 작업을 실행하면 대화형 워크로드로도 처리됩니다.

실행 컨텍스트

지원되는 각 프로그래밍 언어에 대한 REPL(읽기-eval-print 루프) 환경의 상태입니다. 지원되는 언어는 Python, R, Scala 및 SQL입니다.

기계 학습

Azure Databricks의 Machine Learning 은 실험 추적, 모델 학습, 기능 개발 및 관리, 기능 및 모델 제공을 위한 관리 서비스를 통합하는 통합 엔드 투 엔드 환경입니다.

실험

기계 학습 모델 개발을 추적하기 위한 조직의 주요 단위입니다. MLflow 실험을 사용하여 학습 실행 구성을 참조 하세요. 실험은 모델 학습 코드의 기록된 개별 실행에 대한 액세스를 구성, 표시 및 제어합니다.

기능 저장소

기능의 중앙 집중식 리포지토리입니다. 기능 저장소란? 기능 저장소를 사용하면 조직 전체에서 기능 공유 및 검색이 가능하며 모델 학습 및 유추에도 동일한 기능 계산 코드가 사용됩니다.

모델 및 모델 레지스트리

모델 레지스트리에 등록된 학습된 기계 학습 또는 딥 러닝 모델입니다.

SQL

SQL REST API

SQL 개체에 대한 작업을 자동화할 수 있는 인터페이스입니다. SQL API를 참조하세요.

대시보드

데이터 시각화 및 해설의 프레젠테이션입니다. 대시보드를 참조 하세요. 레거시 대시보드는 레거시 대시보드를 참조 하세요.

SQL 쿼리

이 섹션에서는 Azure Databricks에서 SQL 쿼리를 실행하기 위해 알아야 할 개념에 대해 설명합니다.