Použití XGBoost v Azure Databricks

Tento článek obsahuje příklady trénování modelů strojového učení pomocí XGBoost v Azure Databricks. Databricks Runtime pro machine Učení zahrnuje knihovny XGBoost pro Python i Scala. Modely XGBoost můžete trénovat na jednotlivých počítačích nebo distribuovaným způsobem.

Trénování modelů XGBoost na jednom uzlu

Modely můžete trénovat pomocí balíčku Pythonu xgboost . Tento balíček podporuje pouze úlohy s jedním uzlem. Informace o trénování kanálu PySpark ML a využití distribuovaného trénování najdete v tématu Distribuované trénování modelů XGBoost.

Poznámkový blok Pythonu pro XGBoost

Získat poznámkový blok

Distribuované trénování modelů XGBoost

Pro distribuované trénování modelů XGBoost zahrnuje Databricks estimátory PySpark založené na xgboost balíčku. Databricks obsahuje také balíček xgboost-4jScala . Podrobnosti a ukázkové poznámkové bloky najdete v následujících tématech:

Instalace XGBoost v Azure Databricks

Pokud potřebujete nainstalovat XGBoost do Databricks Runtime nebo použít jinou verzi než ta, která je předinstalovaná v Databricks Runtime ML, postupujte podle těchto pokynů.

Instalace knihovny XGBoost v modulu Databricks Runtime ML

XGBoost je součástí modulu Databricks Runtime ML. Tyto knihovny můžete v modulu Databricks Runtime ML používat bez nutnosti instalovat jakékoli balíčky.

Informace o verzi knihovny XGBoost nainstalované ve vaší verzi modulu Databricks Runtime ML najdete v poznámkách k verzím. Pokud chcete v modulu Databricks Runtime ML nainstalovat jinou verzi Pythonu, nainstalujte XGBoost jako knihovnu Databricks PyPI. Zadejte ji následujícím způsobem a nahraďte <xgboost version> požadovanou verzí.

xgboost==<xgboost version>

Instalace knihovny XGBoost v modulu Databricks Runtime

  • Balíček Pythonu: V buňce poznámkového bloku spusťte následující příkaz:

    %pip install xgboost
    

Pokud chcete nainstalovat konkrétní verzi, nahraďte <xgboost version> požadovanou verzí:

  %pip install xgboost==<xgboost version>
  • Balíčky Scala/Java: Nainstalujte jako knihovnu Databricks s názvem xgboost-linux64balíčku Spark .