Selva de Decisão Multiclasse

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Cria um modelo de classificação multiclasse usando o algoritmo da selva de decisão

Categoria: Machine Learning / Modelo de Inicialização / Classificação

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo Multiclass Decision Jungle em Machine Learning Studio (clássico), para criar um modelo de machine learning que se baseia num algoritmo de aprendizagem supervisionado chamado selvas de decisão.

Define o modelo e os seus parâmetros usando este módulo e, em seguida, liga-se um conjunto de dados de treino rotulado para treinar o modelo utilizando um dos módulos de treino. O modelo treinado pode ser usado para prever um alvo que tem vários valores.

Mais sobre as selvas de decisão

As selvas de decisão são uma extensão recente às florestas de decisão. Uma selva de decisão consiste num conjunto de gráficos acíclicos direcionados para decisão (DAGs).

As selvas de decisão têm as seguintes vantagens:

  • Ao permitir a fusão de ramos de árvores, uma decisão da DAG tem tipicamente uma pegada de memória mais baixa e um melhor desempenho de generalização do que uma árvore de decisão, embora à custa de um tempo de treino um pouco maior.

  • As selvas de decisão são modelos não paramétricos, que podem representar limites de decisão não lineares.

  • Realizam seleção e classificação integradas de recursos e são resistentes na presença de características ruidosas.

Para obter mais informações sobre a pesquisa por trás deste algoritmo de aprendizagem automática, consulte Decision Jungles: Compact and Rich Models for Classification (PDF transferível).

Como configurar modelo de selva de decisão multiclasse

  1. Adicione o módulo Multiclass Decision Jungle à sua experiência em Studio (clássico). Pode encontrar este módulo em Machine Learning, Modelo inicializ eClassificação.

  2. Clique duas vezes no módulo para abrir o painel Propriedades .

  3. Método de resampling, escolha o método para criar várias árvores, quer ensacar ou replicar.

    • Embalamento: Selecione esta opção para usar o embalamento, também chamado de agregação de botas.

      Cada árvore numa decisão florestal produz uma distribuição gaussiana a título de previsão. A agregação é encontrar um gaussiano cujos dois primeiros momentos combinam com os momentos da mistura de gaussianos dados combinando todos os gaussianos devolvidos por árvores individuais.

    • Replicar: Selecione esta opção para utilizar a replicação. Neste método, cada árvore é treinada com os mesmos dados de entrada. A determinação de que predicado dividido é usado para cada nó de árvore permanece aleatório, por isso são criadas árvores diversas.

  4. Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Criar .

    • Parâmetro único: Utilize esta opção quando souber como pretende configurar o modelo.

    • Intervalo de parâmetros: Utilize esta opção se não tiver a certeza dos melhores parâmetros e pretender utilizar uma varredura de parâmetros.

  5. Número de decisão DAGs: Indicar o número máximo de gráficos que podem ser criados no conjunto.

  6. Profundidade máxima da decisão DAGs: Especifique a profundidade máxima de cada gráfico.

  7. Largura máxima da decisão DAGs: Especifique a largura máxima de cada gráfico.

  8. Número de etapas de otimização por decisão da camada DAG: Indique quantas iterações sobre os dados a executar ao construir cada DAG.

  9. Permitir valores desconhecidos para funcionalidades categóricas: Selecione esta opção para criar um grupo para valores desconhecidos em dados de teste ou validação. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).

    Se desmarcar esta opção, o modelo só pode aceitar valores que estiveram presentes nos dados de formação.

  10. Ligação um conjunto de dados rotulado, e um dos módulos de treino:

    • Se definir Criar modo de treinador para único parâmetro, utilize o módulo Modelo de Comboio .

    • Se definir Criar modo de treinador para intervalo de parâmetros, utilize o módulo de hiperparametros do modelo de melodia . Com esta opção, o algoritmo itera sobre várias combinações das configurações fornecidas e determina a combinação de valores que produz o melhor modelo.

    Nota

    Se passar uma gama de parâmetros para o Modelo de Comboio, utiliza apenas o primeiro valor na lista de parâmetros.

    Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters , quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.

    Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único especificado é utilizado ao longo da varredura, mesmo que outros parâmetros se alterem através de uma gama de valores.

  11. Execute a experimentação.

Resultados

Após o treino estar completo:

  • Para utilizar o modelo para pontuar, conecte-o ao Modelo de Pontuação, para prever valores para novos exemplos de entrada.

Exemplos

Por exemplo, como as florestas de decisão são utilizadas na aprendizagem automática, consulte a Galeria Azure AI:

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Para obter mais informações sobre o processo de treino com a opção Replicar , consulte:

Dicas de utilização

Se tiver dados limitados ou quiser minimizar o tempo gasto a treinar o modelo, experimente estas recomendações:

Conjunto de formação limitado

Se o conjunto de formação contiver um número limitado de casos:

  • Criar a selva de decisão usando um grande número de dags de decisão (por exemplo, mais de 20)
  • Utilize a opção de ensacandimento .
  • Especifique um grande número de etapas de otimização por camada DAG (por exemplo, mais de 10.000).

Tempo de treino limitado

Se o conjunto de formação contiver um grande número de casos e o tempo de treino for limitado:

  • Crie a selva de decisão que usa um número menor de dações de decisão (por exemplo, 5-10).
  • Utilize a opção Replicar para resampling.
  • Especifique um número menor de etapas de otimização por camada DAG (por exemplo, menos de 2000).

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Método de resampling Qualquer ResamplingMethod Embalamento Escolha um método de resampling
Número de decisão DAGs >=1 Número inteiro 8 Especificar o número de gráficos de decisão que podem ser criados no conjunto
Profundidade máxima dos DAGs de decisão >=1 Número inteiro 32 Especificar a profundidade máxima dos gráficos de decisão a criar no conjunto
Largura máxima dos DAGs de decisão >=8 Número inteiro 128 Especificar a largura máxima dos gráficos de decisão a criar no conjunto
Número de etapas de otimização por decisão da camada DAG >=1000 Número inteiro 2048 Especificar o número de passos a utilizar para otimizar cada nível dos gráficos de decisão
Permitir valores desconhecidos para características categóricas Qualquer Booleano Verdadeiro Indicar se valores desconhecidos das características categóricas existentes podem ser mapeados para uma nova funcionalidade adicional

Saídas

Nome Tipo Description
Modelo destreinado Interface ILearner Um modelo de classificação multiclasse não treinado

Ver também

Selva de Decisão de duas classes
Classificação
Lista de Módulos A-Z