Azure Databricks에서 XGBoost 사용

이 문서에서는 Azure Databricks에서 XGBoost를 사용하여 기계 학습 모델을 학습하는 예제를 제공합니다. Machine Learning용 Databricks Runtime에는 Python 및 Scala용 XGBoost 라이브러리가 포함되어 있습니다. XGBoost 모델을 개별 컴퓨터에서 또는 분산 방식으로 학습할 수 있습니다.

단일 노드에서 XGBoost 모델 학습

Python xgboost 패키지를 사용하여 모델을 학습시킬 수 있습니다. 이 패키지는 단일 노드 워크로드만 지원합니다. PySpark ML 파이프라인을 학습시키고 분산 학습을 활용하려면 XGBoost 모델의 분산 학습을 참조하세요.

XGBoost Python Notebook

전자 필기장 가져오기

XGBoost 모델의 분산 학습

XGBoost 모델의 분산 학습을 위해 Databricks에는 xgboost 패키지를 기반으로 하는 PySpark 예측 도구가 포함됩니다. Databricks에는 Scala 패키지 xgboost-4j도 포함됩니다. 자세한 내용 및 예제 Notebook은 다음을 참조하세요.

Azure Databricks에 XGBoost 설치

Databricks Runtime에 XGBoost를 설치해야 하거나 Databricks Runtime ML과 함께 미리 설치된 버전과 다른 버전을 사용해야 하는 경우 다음 지침을 따릅니다.

Databricks Runtime ML에 XGBoost 설치

XGBoost는 Databricks 런타임 ML에 포함되어 있습니다. 패키지를 설치하지 않고 Databricks Runtime ML에서 이러한 라이브러리를 사용할 수 있습니다.

사용 중인 Databricks Runtime ML 버전에 설치된 XGBoost 버전은 릴리스 정보를 참조하세요. Databricks Runtime ML에 다른 Python 버전을 설치하려면 Databricks PyPI 라이브러리로 XGBoost를 설치합니다. 다음으로 지정하고 원하는 버전으로 바꿉 <xgboost version> 다.

xgboost==<xgboost version>

Databricks 런타임에 XGBoost 설치

  • Python 패키지: Notebook 셀에서 다음 명령을 실행합니다.

    %pip install xgboost
    

특정 버전을 설치하려면 <xgboost version>을 원하는 버전으로 바꿉니다.

  %pip install xgboost==<xgboost version>