Two-Class Decisão Selva

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Cria um modelo de classificação de duas classes usando o algoritmo da selva de decisão

Categoria: Machine Learning / Modelo de Inicialização / Classificação

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo de duas classes Decision Jungle em Machine Learning Studio (clássico), para criar um modelo de machine learning que se baseia num algoritmo de aprendizagem supervisionado chamado selvas de decisão.

O módulo De Decisão Jungle de duas classes devolve um classificador destreinado. Em seguida, treina este modelo num conjunto de dados de treino rotulado, utilizando o Modelo de Comboio ou os Hiperparametros do Modelo de Sintonização. O modelo treinado pode então ser usado para fazer previsões.

Mais sobre as selvas de decisão

As selvas de decisão são uma extensão recente às florestas de decisão. Uma selva de decisão consiste num conjunto de gráficos acíclicos direcionados para decisão (DAGs).

As selvas de decisão têm as seguintes vantagens:

  • Ao permitir a fusão de ramos de árvores, uma decisão da DAG tem tipicamente uma pegada de memória mais baixa e melhor desempenho de generalização do que uma árvore de decisão, embora à custa de um tempo de treino um pouco mais longo.

  • As selvas de decisão são modelos não paramétricos que podem representar limites de decisão não lineares.

  • Realizam seleção e classificação integradas de recursos e são resistentes na presença de características ruidosas.

Dica

Para obter mais informações sobre a pesquisa por trás deste algoritmo de aprendizagem automática, consulte Decision Jungles: Compact and Rich Models for Classification (PDF transferível).

Como configurar Two-Class Decisão Selva

  1. Adicione o módulo de duas classes Decision Jungle à sua experiência em Studio (clássico).

  2. Para o método de resampling, escolha o método utilizado para criar as árvores individuais. Pode escolher entre Embalar ou Replicar.

    • Embalamento: Selecione esta opção para usar o embalamento, também chamado de agregação de botas.

      Cada árvore numa decisão, a selva produz uma distribuição gaussiana como previsão. A agregação é encontrar um gaussiano cujos dois primeiros momentos combinam com os momentos da mistura de gaussianos dados combinando todos os gaussianos devolvidos por árvores individuais.

    • Replicação: Na replicação, cada árvore é treinada exatamente nos mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatório e as árvores serão diversas.

      Para mais informações, consulte As Florestas de Decisão para Visão Computacional e Análise de Imagem Médica. Criminisi e J. Shotton. Springer 2013.

  3. Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Criar .

    • Parâmetro único: Se souber como pretende configurar o modelo, pode fornecer um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: Se não tiver a certeza dos melhores parâmetros, pode encontrar os parâmetros ideais especificando vários valores e utilizando o módulo Tune Model Hyperparameters para encontrar a configuração ideal. O treinador irá iterar sobre várias combinações das configurações fornecidas e determinar a combinação de valores que produz o melhor modelo.

  4. Para o número de decisão DAGs, indique o número máximo de gráficos que podem ser criados no conjunto.

  5. Para a profundidade máxima dos DAGs de decisão, indique a profundidade máxima de cada gráfico.

  6. Para a largura máxima dos DAGs de decisão, indique a largura máxima de cada gráfico.

  7. Em Número de etapas de otimização por decisão da camada DAG, indique quantas iterações sobre os dados a executar ao construir cada DAG.

  8. Selecione a opção Permitir valores desconhecidos para a opção de funcionalidades categóricas para criar um grupo para valores desconhecidos em dados de teste ou validação.

    Se o desmarcar, o modelo só pode aceitar os valores contidos nos dados de treino. No primeiro caso, o modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).

  9. Adicione um conjunto de dados marcado à experiência e ligue um dos módulos de treino.

    Nota

    Se passar uma gama de parâmetros para o Modelo de Comboio, utiliza apenas o primeiro valor na lista de parâmetros.

    Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters , quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.

    Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único especificado é utilizado ao longo da varredura, mesmo que outros parâmetros se alterem através de uma gama de valores.

Resultados

Após o treino estar completo:

  • Para utilizar o modelo para pontuar, conecte-o ao Modelo de Pontuação, para prever valores para novos exemplos de entrada.

Exemplos

Por exemplo, como as selvas de decisão são usadas na aprendizagem automática, consulte a Galeria Azure AI:

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Dicas de utilização

Se tiver dados limitados ou quiser minimizar o tempo gasto a treinar o modelo, experimente estas definições.

Conjunto de formação limitado

Se o seu conjunto de treino for pequeno:

  • Crie a selva de decisão utilizando um grande número de dags de decisão (por exemplo, mais de 20).
  • Utilize a opção de ensacandimento .
  • Especifique um grande número de etapas de otimização por camada DAG (por exemplo, mais de 10.000).

Tempo de treino limitado

Se o conjunto de treino for grande, mas o tempo de treino é limitado:

  • Crie a selva de decisão utilizando um número menor de dags de decisão (por exemplo, 5-10).
  • Utilize a opção Replicar para resampling.
  • Especifique um número menor de etapas de otimização por camada DAG (por exemplo, menos de 2000).

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Método de resampling Qualquer ResamplingMethod Embalamento Escolha um método de resampling
Número de decisão DAGs >=1 Número inteiro 8 Especificar o número de gráficos de decisão a construir no conjunto
Profundidade máxima dos DAGs de decisão >=1 Número inteiro 32 Especificar a profundidade máxima dos gráficos de decisão no conjunto
Largura máxima dos DAGs de decisão >=8 Número inteiro 128 Especificar a largura máxima dos gráficos de decisão no conjunto
Número de etapas de otimização por decisão da camada DAG >=1000 Número inteiro 2048 Especificar o número de passos a utilizar para otimizar cada nível dos gráficos de decisão
Permitir valores desconhecidos para características categóricas Qualquer Booleano Verdadeiro Indicar se valores desconhecidos das características categóricas existentes podem ser mapeados para uma nova funcionalidade adicional

Saída

Nome Tipo Description
Modelo destreinado Interface ILearner Um modelo de classificação binária destreinada

Ver também

Classificação
Selva de Decisão Multiclasse
Lista de Módulos A-Z