Componente Regressão de Árvore de Decisão Aumentada

Este artigo descreve o componente no Azure Machine Learning Designer.

Use esse componente para criar um conjunto de árvores de regressão com o aumento. Aumento significa que cada árvore depende de árvores anteriores. O algoritmo aprende ajustando o resíduo das árvores anteriores. Assim, impulsionada em um ensemble de árvore de decisão tende a aumentar a precisão com um pequeno risco de menos cobertura.

Esse componente é baseado no algoritmo LightGBM.

Esse método de regressão é um método de aprendizado supervisionado e, portanto, requer um conjunto de dados rotulado. A coluna de rótulo deve conter valores numéricos.

Observação

Use esse componente somente com conjuntos de dados que usam variáveis numéricas.

Depois de definir o modelo, treine-o usando Treinar Modelo.

Mais sobre as árvores de regressão aumentadas

O impulsionamento é um dos vários métodos clássicos para criar modelos ensemble, juntamente com bagging, florestas aleatórias e assim por diante. No Azure Machine Learning, as árvores de decisão aumentadas usam uma implementação eficiente do algoritmo de gradient boosting MART. O aumento de gradiente é uma técnica de aprendizado de máquina para problemas de regressão. Ele cria cada árvore de regressão por etapas, usando uma função de perda predefinida para medir o erro em cada etapa e corrigi-lo na próxima. Portanto, o modelo de previsão é realmente um ensemble de modelos de previsão mais fracos.

Em problemas de regressão, o aumento cria uma série de árvores etapa por etapa e seleciona a árvore ideal usando uma função de perda diferenciável arbitrária.

Para obter mais informações, consulte estes artigos:

O método de impulsionamento de gradiente também pode ser usado para problemas de classificação, reduzindo-os à regressão com uma função de perda adequada. Para saber mais sobre a implementação de árvores aumentadas para tarefas de classificação, confira Árvore de decisão aumentada de duas classes.

Como configurar a Regressão de Árvore de Decisão Aumentada

  1. Adicione o componente Árvore de Decisão Impulsionada ao seu pipeline. Você pode encontrar esse componente em Machine Learning, Inicializar, na categoria Regressão.

  2. Especifique como você deseja que o modelo seja treinado definindo a opção Criar modo de aprendizagem.

    • Parâmetro único: selecione essa opção se você sabe como deseja configurar o modelo e informe um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: selecione essa opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iteração, e Ajustar os Hiperparâmetros do Modelo itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.

  3. Número máximo de folhas por árvore: indique o número máximo de nós de terminal (folhas) que podem ser criados em qualquer árvore.

    Aumentando este valor, você aumenta potencialmente o tamanho da árvore e obtém maior precisão, com o risco de sobreajuste e tempo de treinamento maior.

  4. Número mínimo de amostras por nó folha: indique o número mínimo de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.

  5. Taxa de aprendizagem: insira um número entre 0 e 1 que define o tamanho da etapa durante a aprendizagem. A taxa de aprendizagem determina a velocidade com que o aprendiz converge para a solução ideal. Se o tamanho da etapa for muito grande, você poderá exceder a solução ideal. Se ele for muito pequeno, o treinamento levará mais tempo para convergir para a melhor solução.

  6. Número de árvores construídas: indique o número total de árvores de decisão a serem criadas no conjunto. Criando mais árvores de decisão, você tem o potencial de obter uma melhor cobertura, mas o tempo de treinamento aumenta.

    No entanto, se você definir o valor como 1, apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional será executada.

  7. Semente de número aleatório: digite um inteiro não negativo opcional para ser usado como o valor de semente aleatória. A especificação de uma semente assegura a capacidade de reprodução entre execuções que usam os mesmos dados e parâmetros.

    Por padrão, a semente aleatória é definida como 0, o que significa que o valor inicial da semente é obtido do relógio do sistema.

  8. Treinar o modelo:

    • Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.

    • Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Observação

    Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  9. Enviar o pipeline.

Resultados

Após a conclusão do treinamento:

  • Para usar o modelo de pontuação, conecte Treinar Modelo a Pontuar Modelo para prever valores para novos exemplos de entrada.

  • Para salvar um instantâneo do modelo treinado, selecione a guia Saídas no painel direito do Modelo treinado e clique no ícone Registrar conjunto de dados. A cópia do modelo treinado será salva como componente na árvore de componente e não será atualizada nas execuções sucessivas do pipeline.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.