Selva de Decisão Multiclasse

Cria um modelo de classificação multiclasse usando o algoritmo da selva de decisão

Categoria: Machine Learning / Initialize Model / Classification

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo Multiclass Decision Jungle no Azure Machine Learning Studio (clássico), para criar um modelo de machine learning que se baseia num algoritmo de aprendizagem supervisionado chamado selvas de decisão.

Define o modelo e os seus parâmetros utilizando este módulo e, em seguida, liga-se um conjunto de dados de formação rotulado para treinar o modelo utilizando um dos módulos de treino. O modelo treinado pode ser usado para prever um alvo que tenha múltiplos valores.

Mais sobre as selvas de decisão

As selvas de decisão são uma extensão recente às florestas de decisão. Uma selva de decisão consiste num conjunto de gráficos acíclicos direcionados para decisão (DAGs).

As selvas de decisão têm as seguintes vantagens:

  • Ao permitir a fusão de ramos de árvores, uma decisão da DAG tem tipicamente uma pegada de memória mais baixa e um melhor desempenho de generalização do que uma árvore de decisão, embora à custa de um tempo de treino um pouco mais elevado.

  • As selvas de decisão são modelos não paramétricos, que podem representar limites de decisão não lineares.

  • Realizam seleção e classificação integradas de recursos e são resistentes na presença de características ruidosas.

Para obter mais informações sobre a pesquisa por trás deste algoritmo de aprendizagem automática, consulte Decision Jungles: Compact and Rich Models for Classification (PDF transferível).

Como configurar modelo de selva de decisão multiclasse

  1. Adicione o módulo Multiclass Decision Jungle à sua experiência em Studio (clássico). Pode encontrar este módulo em Machine Learning, Initialize Modele Classification.

  2. Clique duas vezes no módulo para abrir o painel Propriedades.

  3. Método de resampling, escolha o método para criar várias árvores, seja ensacar ou replicar.

    • Embalamento: Selecione esta opção para usar o embalamento, também chamado de agregação de botas.

      Cada árvore numa decisão florestal produz uma distribuição gaussiana por previsão. A agregação é encontrar um gaussiano cujos dois primeiros momentos combinam com os momentos da mistura de gaussianos dados combinando todos os gaussianos devolvidos por árvores individuais.

    • Replicar: Selecione esta opção para utilizar a replicação. Neste método, cada árvore é treinada com os mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatório, por isso são criadas árvores diversas.

  4. Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Create.

    • Parâmetro único: Utilize esta opção quando souber como pretende configurar o modelo.

    • Intervalo de parâmetros: Utilize esta opção se não tiver a certeza dos melhores parâmetros e pretender utilizar uma varredura de parâmetros.

  5. Número de decisão DAGs: Indicar o número máximo de gráficos que podem ser criados no conjunto.

  6. Profundidade máxima da decisão DAGs: Especifique a profundidade máxima de cada gráfico.

  7. Largura máxima da decisão DAGs: Especifique a largura máxima de cada gráfico.

  8. Número de etapas de otimização por decisão da camada DAG: Indique quantas iterações sobre os dados a executar ao construir cada DAG.

  9. Permitir valores desconhecidos para funcionalidades categóricas: Selecione esta opção para criar um grupo para valores desconhecidos em dados de teste ou validação. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).

    Se desmarcar esta opção, o modelo só pode aceitar valores que estiveram presentes nos dados de formação.

  10. Ligue um conjunto de dados rotulado e um dos módulos de treino:

    • Se definir Criar modo de treinador para single parâmetro, utilize o módulo Modelo de Comboio.

    • Se definir Criar o modo de treinador para a gama de parâmetros, utilize o módulo de hiperparametros do modelo de melodia. Com esta opção, o algoritmo iteração sobre várias combinações das configurações fornecidas e determina a combinação de valores que produz o melhor modelo.

    Nota

    Se passar uma gama de parâmetros para o Modelo de Comboio,utiliza apenas o primeiro valor na lista de parâmetros.

    Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters, quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.

    Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único especificado é utilizado ao longo da varredura, mesmo que outros parâmetros se alterem numa gama de valores.

  11. Execute a experimentação.

Resultados

Após o treino estar completo:

  • Para ver a árvore que foi criada em cada iteração, clique com a direita na saída do módulo Train Model ou do módulo Tune Model Hyperparameters e selecione Visualize.

  • Para ver as regras de cada nó, clique em cada árvore para perfurar as divisões.

Exemplos

Por exemplo, como as florestas de decisão são utilizadas na aprendizagem automática, consulte a Galeria Azure AI:

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Para obter mais informações sobre o processo de treino com a opção Replicar, consulte:

Dicas de utilização

Se tiver dados limitados ou quiser minimizar o tempo gasto a treinar o modelo, experimente estas recomendações:

Conjunto de formação limitado

Se o conjunto de formação contiver um número limitado de casos:

  • Criar a selva de decisão usando um grande número de dags de decisão (por exemplo, mais de 20)
  • Utilize a opção de ensaboamento para resampling.
  • Especifique um grande número de etapas de otimização por camada DAG (por exemplo, mais de 10.000).

Tempo de treino limitado

Se o conjunto de formação contiver um grande número de casos e o tempo de treino for limitado:

  • Crie a selva de decisão que utiliza um número menor de dações de decisão (por exemplo, 5-10).
  • Utilize a opção Replicar para resampling.
  • Especifique um número menor de etapas de otimização por camada DAG (por exemplo, menos de 2000).

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Método de resampling Qualquer ResamplingMethod Embalamento Escolha um método de resampling
Número de decisão DAGs >=1 Número inteiro 8 Especificar o número de gráficos de decisão que podem ser criados no conjunto
Profundidade máxima dos DAGs de decisão >=1 Número inteiro 32 Especificar a profundidade máxima dos gráficos de decisão a criar no conjunto
Largura máxima dos DAGs de decisão >=8 Número inteiro 128 Especificar a largura máxima dos gráficos de decisão a criar no conjunto
Número de etapas de otimização por decisão da camada DAG >=1000 Número inteiro 2048 Especificar o número de passos a utilizar para otimizar cada nível dos gráficos de decisão
Permitir valores desconhecidos para características categóricas Qualquer Booleano Verdadeiro Indicar se valores desconhecidos das características categóricas existentes podem ser mapeados para uma nova funcionalidade adicional

Saídas

Nome Tipo Descrição
Modelo destreinado Interface ILearner Um modelo de classificação multiclasse não treinado

Ver também

Selva de Decisão de duas classes
Classificação
Lista de Módulos A-Z