Floresta de Decisão de Duas Classes

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de classificação de duas classes usando o algoritmo de floresta de decisão

categoria: Machine Learning/inicializar modelo/classificação

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo floresta de decisão de duas classes no Machine Learning Studio (clássico) para criar um modelo de aprendizado de máquina com base no algoritmo florestas de decisão.

As florestas de decisão são modelos ensemble rápidos e supervisionados. Esse módulo é uma boa opção se você quiser prever um destino com, no máximo, dois resultados. Se você não tiver certeza de como configurar um modelo de árvore de decisão para obter os melhores resultados, recomendamos o uso do módulo ajustar hiperparâmetros de modelo para treinar e testar vários modelos. o ajuste faz a iteração em várias possibilidades e localiza a solução ideal para você.

Noções básicas sobre as florestas de decisão

Esse algoritmo da floresta de decisão é um método de aprendizado ensemble destinado a tarefas de classificação. Os métodos ensemble são baseados no princípio geral que, em vez de depender de um único modelo, você pode obter resultados melhores e um modelo mais generalizado criando vários modelos relacionados e combinando-os de alguma forma. Em termos gerais, os modelos de ensemble fornecem melhor cobertura e precisão que árvores de decisão únicas.

Há várias maneiras de criar modelos individuais e combiná-los em um ensemble. Essa implementação específica de uma floresta de decisão funciona criando várias árvores de decisão e, em seguida, votando na classe de saída mais popular. A votação é um dos métodos mais conhecidos para gerar resultados em um modelo ensemble.

Muitas árvores de classificação individuais são criadas, usando o conjunto de dados completo, mas pontos de partida diferentes (geralmente aleatórios). Isso difere da abordagem de floresta aleatória, na qual as árvores de decisão individuais podem usar apenas uma parte aleatória dos dados ou recursos.
Cada árvore na árvore da floresta de decisão gera um histograma de frequência não normalizado dos rótulos.
O processo de agregação soma esses histogramas e normaliza o resultado para obter as "probabilidades" para cada rótulo.
As árvores que têm alta confiabilidade de previsão terão um peso maior na decisão final do ensemble.

As árvores de decisão em geral têm muitas vantagens para tarefas de classificação:

Eles podem capturar limites de decisão não lineares.
Você pode treinar e prever muitos dados, pois eles são eficientes no uso de memória e computação.
A seleção de recursos é integrada nos processos de treinamento e classificação.
As árvores podem acomodar dados com ruído e muitos recursos.
Eles são modelos não paramétricos, o que significa que podem manipular dados com distribuições variadas.

No entanto, as árvores de decisão simples podem sobreajustar dados e são menos generalizadas do que os ensembles de árvore.

Para obter mais informações, consulte florestas de decisãoou outros documentos listados na seção notas técnicas .

Como configurar Two-Class floresta de decisão

adicione o módulo floresta de decisão de duas classes ao experimento no Machine Learning Studio (clássico) e abra o painel propriedades do módulo.

Você pode encontrar o módulo em Machine Learning. Expanda Inicializare, em seguida, Classificação.
Para o Método de reamostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre Bagging ou Replicar.
- Bagging: bagging também é chamado de agregação de inicialização. Nesse método, cada árvore é expandida em uma nova amostra, criada pela amostragem aleatória do conjunto de dados original com substituição, até que você tenha um conjunto de dados com o tamanho original.
  
  As saídas dos modelos são combinadas por votação, que é uma forma de agregação. Cada árvore em uma floresta de decisão de classificação produz um histograma de frequência não normalizado dos rótulos. A agregação é somar esses histogramas e normalise para obter as "probabilidades" para cada rótulo. Desta forma, as árvores que têm alta confiabilidade de previsão terão um peso maior na decisão final do ensemble.
  
  Para obter mais informações, consulte o registro na Wikipédia de agregação de inicialização.
- Replicar: na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatório e as árvores serão diversificadas.
  
  Para obter mais informações sobre o processo de treinamento com a opção replicar , consulte os documentos listados na seção notas técnicas .
Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.
- Parâmetro Único: se você sabe como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos.
- Intervalo de parâmetros: se você não tiver certeza dos melhores parâmetros, poderá encontrar os parâmetros ideais especificando vários valores e usando o módulo ajustar hiperparâmetros de modelo para localizar a configuração ideal. O instrutor itera em várias combinações das configurações fornecidas e determina a combinação de valores que produz o melhor modelo.
Para Número de árvores de decisão, digite o número máximo de árvores de decisão que podem ser criadas no conjunto. Criando mais árvores de decisão, você pode potencialmente obter melhor cobertura, o tempo de treinamento aumenta.

Observação

Esse valor também controla o número de árvores exibidas ao visualizar o modelo treinado. Se você quiser ver ou imprimir uma única árvore, poderá definir o valor como 1. No entanto, apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional é executada.
Para obter a Profundidade máxima das árvores de decisão, digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, mas você corre o risco de algum tempo de treinamento com overfitting e maior.
Para o Número de divisões aleatórias por nó, digite o número de divisões a serem usadas ao criar cada nó da árvore. Uma divisão significa que os recursos em cada nível da árvore (nó) são divididos aleatoriamente.
Para o Número mínimo de amostras por nó folha, indique o número mínimo de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.

Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.
Selecione a opção Permitir valores desconhecidos para recursos categóricos para criar um grupo de valores desconhecidos nos conjuntos de treinamento ou validação. O modelo pode ser menos preciso para valores conhecidos, mas ele pode fornecer melhores previsões para novos valores (desconhecidos).

Se você desmarcar essa opção, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento.
Anexe um DataSet rotulado e um dos módulos de treinamento:
- Se você configurar Criar modo treinador como Parâmetro único, use o módulo Treinar modelo.
- Se você definir criar modo de instrutor como intervalo de parâmetros, use ajustar hiperparâmetros de modelo.
Observação

Se você passar um intervalo de parâmetros para treinar modelo, somente o primeiro valor na lista intervalo de parâmetros será usado.

Se você passar apenas um conjunto de valores de parâmetro para o módulo Ajustar hiperparâmetros do modelo quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

Se você selecionar a opção intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse valor único será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

Resultados

Após a conclusão do treinamento:

Para ver a árvore que foi criada em cada iteração, clique com o botão direito do mouse em treinar modelo módulo e selecione modelo treinado para visualizar. Se você usar os hiperparâmetros de modelo de ajuste, clique com o botão direito do mouse no módulo e selecione melhor modelo treinado para visualizar o melhor modelo.

Clique em cada árvore para fazer uma busca detalhada nas divisões e ver as regras para cada nó.
Para salvar um instantâneo do modelo, clique com o botão direito do mouse na saída do modelo treinado e selecione salvar modelo. O modelo salvo não é atualizado em execuções sucessivas do experimento.
Para usar o modelo de pontuação, adicione o módulo modelo de Pontuação a um experimento.

Exemplos

Para obter exemplos de como as florestas de decisão são usadas no aprendizado de máquina, consulte os experimentos de exemplo na Galeria de ia do Azure:

Categorização de notícias: compara um classificador multiclasse com um modelo criado usando o algoritmo de floresta de decisão de duas classes com o multiclasse um contra todos.
Manutenção preditiva: uma explicação detalhada que usa o algoritmo de floresta de decisão de duas classes para prever se um ativo falhará dentro de um determinado período de tempo.

Observações técnicas

Esta seção contém detalhes adicionais de implementação, pesquisa e perguntas frequentes.

Dicas de uso

Se você tiver dados limitados ou se quiser minimizar o tempo gasto treinando o modelo, tente estas configurações:

Conjunto de treinamento limitado

Se o conjunto de treinamento contiver um número limitado de instâncias:

Criar a floresta de decisão usando um grande número de árvores de decisão (por exemplo, mais de 20).
Use a opção Bagging para reamostragem.
Especifique um grande número de divisões aleatórias por nó (por exemplo, mais de 1.000).

Tempo de treinamento limitado

Se o conjunto de treinamento contiver um grande número de instâncias e o tempo de treinamento for limitado:

Crie a floresta de decisão usando menos árvores de decisão (por exemplo, de 5 a 10).
Use a opção Replicar para reamostragem.
Especifique um número menor de divisões aleatórias por nó (por exemplo, menos de 100).

Detalhes de implementação

Este artigo da Microsoft Research fornece informações úteis sobre métodos ensemble que usam árvores de decisão. De árvores a árvores até florestas.

Para obter mais informações sobre o processo de treinamento com a opção Replicar, consulte Florestas de decisão para Pesquisa Visual Computacional análise de imagem médica. Criminisi e J. Shotton. Springer 2013.

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Método de reamostragem	Qualquer	ResamplingMethod	Bagging	Escolha um método de reamostragem
Número de árvores de decisão	>=1	Integer	8	Especifique o número de árvores de decisão para criar o ensemble
Profundidade máxima das árvores de decisão	>=1	Integer	32	Especifique a profundidade máxima de qualquer árvore de decisão que possa ser criada
Número de divisões aleatórias por nó	>=1	Integer	128	Especifique o número de divisões geradas por nó, a partir das quais a divisão ideal é selecionada
Número mínimo de amostras por nó folha	>=1	Integer	1	Especifique o número mínimo de exemplos de treinamento necessários para produzir um nó folha
Permitir valores desconhecidos para recursos categóricos	Qualquer	Booliano	verdadeiro	Indique se valores desconhecidos de recursos categóricos existentes podem ser mapeados para um novo recurso adicional

Saída

Nome	Tipo	Descrição
Modelo não treinado	Interface ILearner	Um modelo de classificação binária não treinado

Confira também

Classificação
Regressão de Floresta de Decisão
Floresta de Decisão Multiclasse
Lista de Módulo A-Z