ML 및 DL에 대한 데이터 및 환경 준비

아티클
03/01/2024

이 섹션에서는 기계 학습 및 딥 러닝을 위해 데이터 및 Azure Databricks 환경을 준비하는 방법을 설명합니다.

데이터 준비

이 섹션의 문서에서는 ML 및 DL 애플리케이션과 관련된 데이터 로드 및 전처리의 측면을 다룹니다.

환경 준비

Machine Learning 용 Databricks 런타임(Databricks Runtime ML)은 기계 학습 및 데이터 과학에 최적화된 즉시 사용할 수 있는 환경입니다. Databricks Runtime ML은 TensorFlow, PyTorch, Horovod, scikit-learn, XGBoost 등의 여러 외부 라이브러리를 포함하고 있으며, XGBoost의 GPU 가속, HorovodRunner를 사용하는 분산형 딥 러닝, DBFS(Databricks File System) FUSE 마운트를 사용하는 모델 검사점 등의 성능을 향상할 수 있는 확장을 제공합니다.

Databricks Runtime ML을 사용하려면 클러스터를 만들 때 ML 버전의 런타임을 선택합니다.

참고 항목

기계 학습 워크플로를 위해 Unity 카탈로그의 데이터에 액세스하려면 클러스터에 대한 액세스 모드 가 단일 사용자(할당됨)여야 합니다. 공유 클러스터는 Machine Learning용 Databricks Runtime과 호환되지 않습니다.

라이브러리 설치

추가 라이브러리를 설치하여 Notebook 또는 클러스터에 대한 사용자 지정 환경을 만들 수 있습니다.

클러스터에서 실행되는 모든 Notebook에서 라이브러리를 사용할 수 있도록 하려면 클러스터 라이브러리를 만듭니다. 또한 init 스크립트를 사용하여 만들 때 클러스터에 라이브러리를 설치할 수 있습니다.
특정 Notebook 세션에 한해 사용할 수 있는 라이브러리를 설치하려면 Notebook 범위 Python 라이브러리를 사용합니다.

GPU 클러스터 사용

GPU 클러스터를 만들어 딥 러닝 작업을 가속화할 수 있습니다. Azure Databricks GPU 클러스터를 만드는 방법에 대한 자세한 내용은 GPU 사용 컴퓨팅을 참조 하세요. Databricks Runtime ML에는 GPU 하드웨어 드라이버와 CUDA와 같은 NVIDIA 라이브러리가 포함되어 있습니다.

ML 및 DL에 대한 데이터 및 환경 준비

데이터 준비

환경 준비

라이브러리 설치

GPU 클러스터 사용

추가 리소스