Componente Árvore de Decisão Aumentada de Duas Classes

Este artigo descreve o componente no Azure Machine Learning Designer.

Use este componente para criar um modelo de machine learning baseado no algoritmo de árvores de decisão aumentada.

Uma árvore de decisão aumentada é um método de aprendizado Ensemble no qual a segunda árvore corrige os erros da primeira árvore, a terceira árvore corrige os erros da primeira e segunda árvores e assim por diante. As previsões são baseadas em toda a Ensemble de árvores juntas que faz a previsão.

Em geral, quando configuradas corretamente, as árvores de decisão ampliadas são os métodos mais fáceis com os quais obter o melhor desempenho em uma ampla variedade de tarefas de aprendizado de máquina. No entanto, eles também são um dos mais aprendizes com uso intensivo de memória e a implementação atual contém tudo na memória. Portanto, um modelo de árvore de decisão reforçada pode não ser capaz de processar grandes conjuntos de dados que alguns alunos lineares podem manipular.

Esse componente é baseado no algoritmo LightGBM.

Como configurar

Este componente cria um modelo de classificação não treinado. Como a classificação é um método de aprendizado supervisionado, para treinar o modelo, você precisa de um conjuntos de dados marcados que inclua uma coluna de rótulo com um valor para todas as linhas.

Você pode treinar esse tipo de modelo usando o Modelo de Treinamento.

  1. No Azure Machine Learning, adicione o componente Árvore de Decisão Aumentada ao pipeline.

  2. Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.

    • Parâmetro Único: se você sabe como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos.

    • Intervalo de Parâmetros: caso não tenha certeza de quais são os melhores parâmetros, você pode encontrar os parâmetros ideais usando o componente Ajustar Hiperparâmetros do Modelo. Você fornece algum intervalo de valores, e o treinador itera com várias combinações de configurações para determinar a combinação de valores que produz o melhor resultado.

  3. Para o número máximo de folhas por árvore: indique o número máximo de nós de terminal (folhas) que podem ser criados em qualquer árvore.

    Aumentando este valor, você aumenta potencialmente o tamanho da árvore e obtém maior precisão, com o risco de sobreajuste e tempo de treinamento maior.

  4. Para o número mínimo de amostras por nó folha: indique o número de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos cinco casos que atendem as mesmas condições.

  5. Para taxa de aprendizagem: insira um número entre 0 e 1 que define o tamanho da etapa durante a aprendizagem.

    A taxa de aprendizagem determina a velocidade com que o aprendiz converge para a solução ideal. Se o tamanho da etapa for muito grande, você poderá exceder a solução ideal. Se ele for muito pequeno, o treinamento levará mais tempo para convergir para a melhor solução.

  6. Para número de árvores construídas, indique o número total de árvores de decisão a serem criadas no conjunto. Criando mais árvores de decisão, você pode potencialmente obter melhor cobertura, mas aumentará o tempo de treinamento.

    Se você definir o valor como 1, apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional será executada.

  7. Para semente de número aleatório, opcionalmente, digite um inteiro não negativo para usar como o valor de semente aleatória. A especificação de uma semente assegura a capacidade de reprodução entre execuções que usam os mesmos dados e parâmetros.

    A semente aleatória é definida por padrão como 0, o que significa que o valor de semente inicial é obtido do relógio do sistema. As sequências sucessivas usando uma semente aleatória podem ter resultados diferentes.

  8. Treinar o modelo:

    • Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.

    • Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Observação

    Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

Resultados

Após a conclusão do treinamento:

  • Para salvar um instantâneo do modelo treinado, escolha a guia Saídas no painel direito do componente Treinar modelo. Escolha o ícone Registrar conjunto de dados para salvá-lo como um componente reutilizável.

  • Para usar o modelo para pontuação, adicione o componente Pontuação de Modelo a um pipeline.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.