Selva de decisão multiclasse

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de classificação multiclasse usando o algoritmo de floresta de decisão

Categoria: Machine Learning/Inicializar modelo/classificação

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo multiclasse DecisionClassEs do Machine Learning Studio (clássico) para criar um modelo de machine learning baseado em um algoritmo de aprendizado supervisionado chamado florestas de decisão.

Você define o modelo e seus parâmetros usando este módulo e, em seguida, conecta um conjunto de dados de treinamento rotulado para treinar o modelo usando um dos módulos de treinamento. O modelo treinado pode ser usado para prever um destino que tem vários valores.

Mais sobre as florestas de decisão

As florestas de decisão são uma extensão recente para florestas de decisão. Uma selva de decisão consiste em um ensemble de grafos acíclicos direcionado de decisão (DAGs).

As florestas de decisão têm as seguintes vantagens:

Permitindo a mesclagem de três ramificações, um DAG de decisão geralmente tem um requisito de espaço de memória menor e um melhor desempenho de generalização do que uma árvore de decisão, embora às custas de um tempo de treinamento um pouco maior.
Selvas de decisão são modelos não paramétricos que podem representar limites de decisão não lineares.
Realizam seleção e classificação de recursos integrados e são resilientes na presença de recursos com ruídos.

Para obter mais informações sobre a pesquisa por trás desse algoritmo de aprendizado de máquina, consulte Florestas de decisão: modelos compactos e avançados para classificação (PDF para download).

Como configurar o modelo de floresta de decisão multiclasse

Adicione o módulo Multiclasse DecisionClass Ao seu experimento no Studio (clássico). Você pode encontrar esse módulo em Machine Learning, inicializar modeloe classificação.
Clique duas vezes no módulo para abrir o painel Propriedades .
Método de resampling, escolha o método para criar várias árvores, seja de replicação ou de replicação.
- Ressarçamento: selecione esta opção para usar a decodagem, também chamada de agreging de inicialização.
  
  Cada árvore em uma floresta de decisão gera uma distribuição Gaussiana como forma de previsão. A agregação é encontrar um gaussiano cujos primeiros dois instantes corresponderem aos momentos da combinação de gaussianos fornecidas combinando todos os gaussianos retornados por árvores individuais.
- Replicar: selecione esta opção para usar a replicação. Nesse método, cada árvore é treinada exatamente nos mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatória, portanto, árvores diversas são criadas.
Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.
- Parâmetro Único: use essa opção quando você sabe como deseja configurar o modelo.
- Intervalo de Parâmetros: use essa opção se você não tiver certeza dos melhores parâmetros e quiser usar uma varredura de parâmetro.
Número de DAGs de decisão: indique o número máximo de grafos que podem ser criados no ensemble.
Profundidade máxima dos DAGs de decisão: especifique a profundidade máxima de cada grafo.
Largura máxima dos DAGs de decisão: especifique a largura máxima de cada grafo.
Número de etapas de otimização por camada de DAG de decisão: indique quantas ierações sobre os dados executar ao criar cada DAG.
Permitir valores desconhecidos para recursos categóricos: selecione esta opção para criar um grupo para valores desconhecidos em dados de teste ou validação. O modelo pode ser menos preciso para valores conhecidos, mas ele pode fornecer melhores previsões para novos valores (desconhecidos).

Se você desmarcar essa opção, o modelo poderá aceitar apenas valores que estavam presentes nos dados de treinamento.
Conexão um conjuntos de dados rotulado e um dos módulos de treinamento:
- Se você configurar Criar modo treinador como Parâmetro único, use o módulo Treinar modelo.
- Se você configurar Criar modo treinador como Intervalo de parâmetros, use o módulo Ajustar hiperparâmetros do modelo. Com essa opção, o algoritmo itera em várias combinações das configurações fornecidas e determina a combinação de valores que produz o melhor modelo.
Observação

Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.

Se você transmitir um só conjunto de valores de parâmetro para o módulo Ajustar hiperparâmetros do modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele vai ignorar os valores e usará os valores padrão para o aprendiz.

Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Execute o experimento.

Resultados

Após a conclusão do treinamento:

Para usar o modelo para pontuação, conecte-o ao Modelo de Pontuação para prever valores para novos exemplos de entrada.

Exemplos

Para exemplos de como as florestas de decisão são usadas no aprendizado de máquina, consulte o Galeria de IA do Azure:

Exemplo comparar classificadores multiclasse: usa vários algoritmos e discute seus prós e contras.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Para obter mais informações sobre o processo de treinamento com a opção Replicar , consulte:

Florestas de decisão para a visão computacional e análise de imagem médica. Criminisi e Shotton. Springer 2013

Dicas de uso

Se você tiver dados limitados ou quiser minimizar o tempo gasto treinando o modelo, tente estas recomendações:

Conjunto de treinamento limitado

Se o conjunto de treinamento contiver um número limitado de instâncias:

Crie a selva de decisão usando um grande número de DAGs de decisão (por exemplo, mais de 20)
Use a opção Bagging para reamostragem.
Especifique um grande número de etapas de otimização por camada de DAG (por exemplo, mais de 10.000).

Tempo de treinamento limitado

Se o conjunto de treinamento contiver um grande número de instâncias e o tempo de treinamento for limitado:

Crie a floresta de decisão que usa um número menor de DAGs de decisão (por exemplo, 5 a 10).
Use a opção Replicar para reamostragem.
Especifique um número menor de etapas de otimização por camada de DAG (por exemplo, mais de 2.000).

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Método de reamostragem	Qualquer	ResamplingMethod	Bagging	Escolha um método de reamostragem
Número de DAGs de decisão	>=1	Integer	8	Especifique o número de gráficos de decisão que podem ser criados no ensemble
Profundidade máxima dos DAGs de decisão	>=1	Integer	32	Especifique a profundidade máxima dos gráficos de decisão a serem criados no ensemble
Largura máxima dos DAGs de decisão	>=8	Inteiro	128	Especifique a largura máxima dos gráficos de decisão a serem criados no ensemble
Número de etapas de otimização por camada de DAG de decisão	>=1000	Inteiro	2.048	Especifique o número de etapas usadas para otimização de cada nível dos gráficos de decisão
Permitir valores desconhecidos para recursos categóricos	Qualquer	Booliano	verdadeiro	Indique se valores desconhecidos de recursos categóricos existentes podem ser mapeados para um novo recurso adicional

Saídas

Nome	Tipo	Descrição
Modelo não treinado	Interface ILearner	Um modelo de classificação multiclasse não treinado

Confira também

Selva de decisão de duas classes
Classificação
Lista de Módulo A-Z