Floresta de Decisão Multiclasse

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de classificação multiclasse usando o algoritmo de floresta de decisão

categoria: Machine Learning/inicializar modelo/classificação

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo floresta de decisão multiclasse no Machine Learning Studio (clássico) para criar um modelo de aprendizado de máquina com base no algoritmo de floresta de decisão . Uma floresta de decisão é um modelo Ensemble que cria rapidamente uma série de árvores de decisão e, ao mesmo tempo, aprende com dados marcados.

Mais sobre as florestas de decisão

O algoritmo de floresta de decisão é um método de aprendizado Ensemble para classificação. O algoritmo funciona criando várias árvores de decisão e, em seguida, votando a classe de saída mais popular. A votação é uma forma de agregação, na qual cada árvore em uma floresta de decisão de classificação gera um histograma de frequência não normalizado de rótulos. O processo de agregação soma esses histogramas e normaliza o resultado para obter as "probabilidades" para cada rótulo. As árvores que têm alta confiança de previsão têm um peso maior na decisão final do Ensemble.

As árvores de decisão em geral são modelos não paramétricos, o que significa que dão suporte a dados com distribuições variadas. Em cada árvore, uma sequência de testes simples é executada para cada classe, aumentando os níveis de uma estrutura de árvore até que um nó folha (decisão) seja atingido.

Árvores de decisão têm muitas vantagens:

Podem representar limites de decisão não lineares.
São eficientes no uso de memória e computação durante o treinamento e a previsão.
Elas executam a seleção de recursos integrados e classificação.
Elas são flexíveis na presença de recursos com ruídos.

o classificador de floresta de decisão no Machine Learning Studio (clássico) consiste em um ensemble de árvores de decisão. Em termos gerais, os modelos de ensemble fornecem melhor cobertura e precisão que árvores de decisão únicas. Para obter mais informações, consulte Árvores de decisão.

Como configurar a floresta de decisão multiclasse

Dica

Se você não tiver certeza dos melhores parâmetros, recomendamos o uso do módulo ajustar hiperparâmetros de modelo para treinar e testar vários modelos e encontrar os parâmetros ideais.

Adicione o módulo floresta de decisão multiclasse ao seu experimento no estúdio (clássico). Você pode encontrar esse módulo em Machine Learning, inicializar modeloe classificação.
Clique duas vezes no módulo para abrir o painel Propriedades .
Para o Método de reamostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre bagging ou replicação.
- Bagging: bagging também é chamado de agregação de inicialização. Nesse método, cada árvore é expandida em uma nova amostra, criada pela amostragem aleatória do conjunto de dados original com substituição, até que você tenha um conjunto de dados com o tamanho original. As saídas dos modelos são combinadas por votação, que é uma forma de agregação. Para obter mais informações, consulte o registro na Wikipédia de agregação de inicialização.
- Replicar: na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatório, criando árvores diversas.
Consulte a seção como configurar um modelo de floresta de decisão multiclasse para obter diretrizes.
Especifique como você deseja que o modelo seja treinado definindo a opção Criar modo de aprendizagem.
- Parâmetro único: use essa opção se você sabe como configurar o modelo, informe um conjunto específico de valores como argumentos.
- Intervalo de parâmetros: Use essa opção se você não tiver certeza dos melhores parâmetros e quiser usar uma limpeza de parâmetro.
Número de árvores de decisão: digite o número máximo de árvores de decisão que podem ser criadas no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma cobertura melhor, mas o tempo de treinamento pode aumentar.

Esse valor também controla o número de árvores exibidas nos resultados, ao visualizar o modelo treinado. Para ver ou imprimir uma única árvore, você pode definir o valor como 1; no entanto, isso significa que apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional é executada.
Profundidade máxima das árvores de decisão: digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, mas você corre o risco de algum tempo de treinamento com overfitting e maior.
Número de divisões aleatórias por nó: digite o número de divisões a serem usadas ao criar cada nó da árvore. Uma divisão significa que os recursos em cada nível da árvore (nó) são divididos aleatoriamente.
Número mínimo de amostras por nó folha: indique o número mínimo de casos necessários para criar qualquer nó terminal (folha) em uma árvore. Aumentando esse valor, você aumenta o limite para a criação de novas regras.

Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.
Permitir valores desconhecidos para recursos categóricos: Selecione esta opção para criar um grupo de valores desconhecidos nos conjuntos de treinamento ou validação. O modelo pode ser menos preciso para valores conhecidos, mas ele pode fornecer melhores previsões para novos valores (desconhecidos).

Se você desmarcar essa opção, o modelo poderá aceitar somente os valores que estão presentes nos dados de treinamento.
Conexão um rotulado conjunto e um dos módulos de treinamento:
- Se você configurar Criar modo treinador como Parâmetro único, use o módulo Treinar modelo.
- Se você definir a opção criar modo de instrutor como intervalo de parâmetros, use o módulo ajustar hiperparâmetros de modelo . Com essa opção, o treinador pode iterar várias combinações das configurações e determinar os valores de parâmetro que produzem o melhor modelo.
Observação

Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.

Se você transmitir um só conjunto de valores de parâmetro para o módulo Ajustar hiperparâmetros do modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele vai ignorar os valores e usará os valores padrão para o aprendiz.

Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Execute o experimento.

Resultados

Após a conclusão do treinamento:

Para ver a árvore que foi criada em cada iteração, clique com o botão direito do mouse em treinar modelo módulo e selecione modelo treinado para visualizar. Se você usar os hiperparâmetros de modelo de ajuste, clique com o botão direito do mouse no módulo e selecione melhor modelo treinado para visualizar o melhor modelo. Para ver as regras para cada nó, clique em cada árvore para fazer uma busca detalhada nas divisões.

Exemplos

Para obter exemplos de como as florestas de decisão são usadas no aprendizado de máquina, consulte o Galeria de ia do Azure:

Exemplo de comparação de classificadoresde várias classes: usa vários algoritmos e discute seus prós e contras.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Detalhes de implementação

Cada árvore em uma floresta de decisão de classificação gera um histograma de frequência não normalizado de rótulos. A agregação é somar esses histogramas e normalizar para obter as "probabilidades" para cada rótulo. Dessa forma, as árvores que têm alta confiança de previsão têm um peso maior na decisão final do Ensemble.

Para obter mais informações sobre o processo de treinamento com a opção replicar , consulte:

Florestas de decisão para pesquisa Visual computacional e análise de imagens médicas. Criminisi e Shotton. Springer 2013.

Como configurar um modelo de floresta de decisão multiclasse

Você pode alterar a maneira como o módulo é configurado para acomodar cenários como muito poucos dados ou tempo limitado para treinamento.

Tempo de treinamento limitado

Se o conjunto de treinamento contiver um grande número de instâncias, mas o tempo disponível para treinar o modelo for limitado, tente usar estas opções:

Criar uma floresta de decisão usando um número menor de árvores de decisão (por exemplo, de 5 a 10).
Use a opção Replicar para reamostragem.
Especifique um número menor de divisões aleatórias por nó (por exemplo, menos de 100).

Conjunto de treinamento limitado

Se o conjunto de treinamento contiver um número limitado de instâncias, tente usar estas opções:

Crie uma floresta de decisão usando um grande número de árvores de decisão (por exemplo, mais de 20).
Use a opção Bagging para reamostragem.
Especifique um grande número de divisões aleatórias por nó (por exemplo, mais de 1.000).

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Método de reamostragem	Qualquer	ResamplingMethod	Bagging	Escolha um método de reamostragem: bagging ou replicate
Número de árvores de decisão	>=1	Integer	8	Especifique o número de árvores de decisão para criar o ensemble
Profundidade máxima das árvores de decisão	>=1	Integer	32	Especifique a profundidade máxima de qualquer árvore de decisão que possa ser criada
Número de divisões aleatórias por nó	>=1	Integer	128	Especifique o número de divisões geradas por nó, a partir das quais a divisão ideal é selecionada
Número mínimo de amostras por nó folha	>=1	Integer	1	Especifique o número mínimo de exemplos de treinamento necessários para gerar um nó folha
Permitir valores desconhecidos para recursos categóricos	Qualquer	Booliano	verdadeiro	Indique se valores desconhecidos de recursos categóricos existentes podem ser mapeados para um novo recurso adicional

Saídas

Nome	Tipo	Descrição
Modelo não treinado	Interface ILearner	Um modelo de classificação multiclasse não treinado

Confira também

Classificação
Floresta de Decisão de Duas Classes
Regressão de Floresta de Decisão
Lista de Módulo A-Z