Selva de decisão multiclasse

Cria um modelo de classificação multiclasse usando o algoritmo de floresta de decisão

Categoria: Machine Learning/inicializar modelo/classificação

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo selva de decisão multiclasse no Azure Machine Learning Studio (clássico) para criar um modelo de aprendizado de máquina baseado em um algoritmo de aprendizado supervisionado chamado de selvas de decisão.

Você define o modelo e seus parâmetros usando esse módulo e, em seguida, conecta um conjunto de dados de treinamento rotulado para treinar o modelo usando um dos módulos de treinamento. O modelo treinado pode ser usado para prever um destino com vários valores.

Mais sobre as selvas de decisão

As selvas de decisão são uma extensão recente às florestas de decisão. Uma selva de decisão consiste em um ensemble de grafos acíclicos direcionado de decisão (DAGs).

As florestas de decisão têm as seguintes vantagens:

  • Permitindo a mesclagem de três ramificações, um DAG de decisão geralmente tem um requisito de espaço de memória menor e um melhor desempenho de generalização do que uma árvore de decisão, embora às custas de um tempo de treinamento um pouco maior.

  • Selvas de decisão são modelos não paramétricos que podem representar limites de decisão não lineares.

  • Realizam seleção e classificação de recursos integrados e são resilientes na presença de recursos com ruídos.

Para obter mais informações sobre a pesquisa por trás deste algoritmo de aprendizado de máquina, consulte selvas de decisão: modelos compactados e avançados para classificação (PDF baixável).

Como configurar o modelo de selva de decisão multiclasse

  1. Adicione o módulo selva de decisão multiclasse ao seu experimento no estúdio (clássico). Você pode encontrar esse módulo em Machine Learning, inicializar modelo e classificação.

  2. Clique duas vezes no módulo para abrir o painel Propriedades .

  3. Método de reamostragem, escolha o método para criar várias árvores, bagging ou Replication.

    • Bagging: Selecione esta opção para usar bagging, também chamada de agregação de bootstrap.

      Cada árvore em uma floresta de decisão gera uma distribuição gaussiana por meio de previsão. A agregação é para localizar um gaussiano cujo primeiro dois momentos corresponda ao tempo da mistura de gaussianos, dado pela combinação de todos os gaussianos retornados por árvores individuais.

    • Replicate: Selecione esta opção para usar a replicação. Nesse método, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatório e, portanto, árvores diversas são criadas.

  4. Especifique como você deseja que o modelo seja treinado, definindo a opção criar modo de instrutor .

    • Parâmetro único: Use essa opção quando você souber como deseja configurar o modelo.

    • Intervalo de parâmetros: Use essa opção se você não tiver certeza dos melhores parâmetros e quiser usar uma limpeza de parâmetro.

  5. Número de DAGs de decisão: indica o número máximo de grafos que podem ser criados no Ensemble.

  6. Profundidade máxima do DAGs de decisão: Especifique a profundidade máxima de cada grafo.

  7. Largura máxima da decisão DAGs: Especifique a largura máxima de cada grafo.

  8. Número de etapas de otimização por camada de DAG de decisão: indique quantas iterações sobre os dados executar ao criar cada DAG.

  9. Permitir valores desconhecidos para recursos categóricos: Selecione esta opção para criar um grupo de valores desconhecidos em dados de teste ou validação. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer previsões melhores para valores novos (desconhecidos).

    Se você desmarcar essa opção, o modelo poderá aceitar somente os valores que estavam presentes nos dados de treinamento.

  10. Conecte um DataSet rotulado e um dos módulos de treinamento:

    • Se você definir criar modo de instrutor como um único parâmetro, use o módulo treinar modelo .

    • Se você definir criar modo de instrutor como intervalo de parâmetros, use o módulo ajustar hiperparâmetros de modelo . Com essa opção, o algoritmo itera em várias combinações das configurações fornecidas e determina a combinação de valores que produz o melhor modelo.

    Observação

    Se você passar um intervalo de parâmetros para treinar o modelo, ele usará apenas o primeiro valor na lista intervalo de parâmetros.

    Se você passar um único conjunto de valores de parâmetro para o módulo ajustar hiperparâmetros de modelo , quando ele esperar um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se você selecionar a opção intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  11. Execute o experimento.

Resultados

Após a conclusão do treinamento:

  • Para usar o modelo de pontuação, conecte-o ao modelo de Pontuaçãopara prever valores para novos exemplos de entrada.

Exemplos

Para obter exemplos de como as florestas de decisão são usadas no aprendizado de máquina, consulte o Galeria de ia do Azure:

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Para obter mais informações sobre o processo de treinamento com a opção replicar , consulte:

Dicas de uso

Se você tiver dados limitados ou desejar minimizar o tempo gasto treinando o modelo, tente estas recomendações:

Conjunto de treinamento limitado

Se o conjunto de treinamento contiver um número limitado de instâncias:

  • Crie a selva de decisão usando um grande número de DAGs de decisão (por exemplo, mais de 20)
  • Use a opção Bagging para reamostragem.
  • Especifique um grande número de etapas de otimização por camada de DAG (por exemplo, mais de 10.000).

Tempo de treinamento limitado

Se o conjunto de treinamento contiver um grande número de instâncias e o tempo de treinamento for limitado:

  • Crie a selva de decisão que usa um número menor de DAGs de decisão (por exemplo, 5-10).
  • Use a opção Replicar para reamostragem.
  • Especifique um número menor de etapas de otimização por camada de DAG (por exemplo, mais de 2.000).

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Método de reamostragem Qualquer ResamplingMethod Bagging Escolha um método de reamostragem
Número de DAGs de decisão >= 1 Inteiro 8 Especifique o número de gráficos de decisão que podem ser criados no ensemble
Profundidade máxima dos DAGs de decisão >= 1 Inteiro 32 Especifique a profundidade máxima dos gráficos de decisão a serem criados no ensemble
Largura máxima dos DAGs de decisão >= 8 Inteiro 128 Especifique a largura máxima dos gráficos de decisão a serem criados no ensemble
Número de etapas de otimização por camada de DAG de decisão >= 1000 Inteiro 2.048 Especifique o número de etapas usadas para otimização de cada nível dos gráficos de decisão
Permitir valores desconhecidos para recursos categóricos Qualquer Booliano verdadeiro Indique se valores desconhecidos de recursos categóricos existentes podem ser mapeados para um novo recurso adicional

Saídas

Nome Type Descrição
Modelo não treinado Interface ILearner Um modelo de classificação multiclasse não treinado

Veja também

Selva de decisão de duas classes
Classificação
Lista de Módulo A-Z