Usar XGBoost no Azure Databricks

Este artigo fornece exemplos de modelos de aprendizado de máquina de treinamento usando XGBoost no Azure Databricks. O Databricks Runtime for Machine Learning inclui bibliotecas XGBoost para Python e Scala. Você pode treinar modelos XGBoost em uma máquina individual ou de forma distribuída.

Treinar modelos XGBoost em um único nó

Você pode treinar modelos usando o pacote Python xgboost . Este pacote suporta apenas cargas de trabalho de nó único. Para treinar um pipeline de ML do PySpark e aproveitar o treinamento distribuído, consulte Treinamento distribuído de modelos XGBoost.

Bloco de notas de Python para XGBoost

Obter o bloco de notas

Treinamento distribuído de modelos XGBoost

Para treinamento distribuído de modelos XGBoost, o xgboost Databricks inclui estimadores PySpark baseados no pacote. Databricks também inclui o pacote Scala xgboost-4j. Para obter detalhes e exemplos de blocos de anotações, consulte o seguinte:

Instalar o XGBoost no Azure Databricks

Se você precisar instalar o XGBoost no Databricks Runtime ou usar uma versão diferente da pré-instalada com o Databricks Runtime ML, siga estas instruções.

Instalar o XGBoost no Databricks Runtime ML

O XGBoost está incluído no Databricks Runtime ML. Pode utilizar estas bibliotecas no Databricks Runtime ML sem instalar nenhum pacote.

Relativamente à versão do XGBoost instalado na versão do Databricks Runtime ML que está a utilizar, veja as notas de versão. Para instalar outras versões de Python no Databricks Runtime ML, instale o XGBoost como uma biblioteca PyPI do Databricks. Especifique-a da seguinte forma e substitua <xgboost version> pela versão pretendida.

xgboost==<xgboost version>

Instalar o XGBoost no Databricks Runtime

  • Pacote Python: execute o seguinte comando em uma célula do bloco de anotações:

    %pip install xgboost
    

Para instalar uma versão específica, substitua <xgboost version> pela versão desejada:

  %pip install xgboost==<xgboost version>
  • Pacotes Scala/Java: Instale como uma biblioteca Databricks com o nome xgboost-linux64do pacote Spark.