XGBoost gebruiken in Azure Databricks

Dit artikel bevat voorbeelden van het trainen van machine learning-modellen met behulp van XGBoost in Azure Databricks. Databricks Runtime voor Machine Learning bevat XGBoost-bibliotheken voor zowel Python als Scala. U kunt XGBoost-modellen trainen op een afzonderlijke machine of op gedistribueerde wijze.

XGBoost-modellen trainen op één knooppunt

U kunt modellen trainen met behulp van het Python-pakket xgboost . Dit pakket ondersteunt alleen workloads met één knooppunt. Zie Gedistribueerde training van XGBoost-modellen om een PySpark ML-pijplijn te trainen en te profiteren van gedistribueerde training.

Python-notebook voor XGBoost

Notebook downloaden

Gedistribueerde training van XGBoost-modellen

Voor gedistribueerde training van XGBoost-modellen bevat Databricks PySpark-schattingen op basis van het xgboost pakket. Databricks bevat ook het Scala-pakket xgboost-4j. Zie het volgende voor meer informatie en voorbeeldnotitieblokken:

XGBoost installeren in Azure Databricks

Als u XGBoost wilt installeren in Databricks Runtime of een andere versie moet gebruiken dan de versie die vooraf is geïnstalleerd met Databricks Runtime ML, volgt u deze instructies.

XGBoost installeren op Databricks Runtime ML

XGBoost is opgenomen in Databricks Runtime ML. U kunt deze bibliotheken gebruiken in Databricks Runtime ML zonder pakketten te installeren.

Raadpleeg de opmerkingen bij de release om te achterhalen welke versie van XGBoost is geïnstalleerd in de Databricks Runtime ML-versie die u gebruikt. Installeer XGBoost als Databricks PyPI-bibliotheek als u andere Python-versies in Databricks Runtime ML wilt installeren. Geef deze als volgt op en vervang <xgboost version> door de gewenste versie.

xgboost==<xgboost version>

XGBoost installeren op Databricks Runtime

  • Python-pakket: voer de volgende opdracht uit in een notebookcel:

    %pip install xgboost
    

Als u een specifieke versie wilt installeren, vervangt u deze door <xgboost version> de gewenste versie:

  %pip install xgboost==<xgboost version>
  • Scala-/Java-pakketten: Installeren als een Databricks-bibliotheek met de naam xgboost-linux64van het Spark-pakket.