Árvore de Decisão Aumentada Multiclasse

Este artigo descreve um módulo no designer de Azure Machine Learning.

Use este módulo para criar um modelo de aprendizado de máquina baseado no algoritmo árvores de decisão aumentada.

Uma árvore de decisão aumentada é um método de aprendizado Ensemble no qual a segunda árvore corrige os erros da primeira árvore, a terceira árvore corrige os erros da primeira e segunda árvores e assim por diante. As previsões são baseadas na Ensemble de árvores juntas.

Como configurar

Este módulo cria um modelo de classificação não treinado. Como a classificação é um método de aprendizado supervisionado, você precisa de um conjunto de informações rotulado que inclua uma coluna de rótulo com um valor para todas as linhas.

Você pode treinar esse tipo de modelo usando o modelo de treinamento.

  1. Adicione o módulo árvore de decisão aumentada multiclasse ao seu pipeline.

  2. Especifique como você deseja que o modelo seja treinado definindo a opção criar modo de instrutor .

    • Parâmetro único: se você souber como deseja configurar o modelo, poderá fornecer um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: Selecione esta opção se você não tiver certeza dos melhores parâmetros e quiser executar uma limpeza de parâmetro. Selecione um intervalo de valores para iteração e os hiperparâmetros de modelo de ajuste iteram sobre todas as combinações possíveis das configurações que você forneceu para determinar os hiperparâmetros que produzem os resultados ideais.

  3. O número máximo de folhas por árvore limita o número máximo de nós de terminal (folhas) que podem ser criados em qualquer árvore.

    Ao aumentar esse valor, você pode aumentar o tamanho da árvore e obter uma precisão maior, com o risco de superajuste e tempo de treinamento mais longo.

  4. O número mínimo de amostras por nó folha indica o número de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos cinco casos que atendem as mesmas condições.

  5. A taxa de aprendizagem define o tamanho da etapa durante o aprendizado. Insira um número entre 0 e 1.

    A taxa de aprendizagem determina o quão rápido ou lento o aprendiz convergi em uma solução ideal. Se o tamanho da etapa for muito grande, você poderá exceder a solução ideal. Se o tamanho da etapa for muito pequeno, o treinamento levará mais tempo para convergir na melhor solução.

  6. Número de árvores construídas indica o número total de árvores de decisão a serem criadas no Ensemble. Criando mais árvores de decisão, você pode potencialmente obter melhor cobertura, mas aumentará o tempo de treinamento.

  7. A semente de número aleatório define opcionalmente um inteiro não negativo para usar como o valor de semente aleatória. A especificação de uma semente garante reprodução entre as execuções que têm os mesmos dados e parâmetros.

    A semente aleatória é definida por padrão como 42. As execuções sucessivas usando sementes aleatórias diferentes podem ter resultados diferentes.

  8. Treine o modelo:

    • Se você definir criar modo de instrutor como um único parâmetro, conecte um conjunto de um DataSet marcado e o módulo treinar modelo .

    • Se você definir criar modo de instrutor como intervalo de parâmetros, conecte um conjunto de um DataSet marcado e treine o modelo usando ajustar hiperparâmetros de modelo.

    Observação

    Se você passar um intervalo de parâmetros para treinar o modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar um único conjunto de valores de parâmetro para o módulo ajustar hiperparâmetros de modelo , quando ele esperar um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se você selecionar a opção intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

Próximas etapas

Confira o conjunto de módulos disponíveis no Azure Machine Learning.