Floresta de Decisão de Duas Classes

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Cria um modelo de classificação de duas classes usando o algoritmo da floresta de decisão

Categoria: Machine Learning / Modelo de Inicialização / Classificação

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo de duas classes Decision Forest em Machine Learning Studio (clássico), para criar um modelo de aprendizagem automática baseado no algoritmo das florestas de decisão.

As florestas de decisão são modelos de conjuntos rápidos e supervisionados. Este módulo é uma boa escolha se quiser prever um alvo com um máximo de dois resultados. Se não sabe como configurar um modelo de árvore de decisão para obter os melhores resultados, recomendamos que utilize o módulo Tune Model Hyperparameters para treinar e testar vários modelos. Sintonizando iterados sobre múltiplas possibilidades e encontra a solução ideal para si.

Compreender as florestas de decisão

Este algoritmo de decisão floresta é um método de aprendizagem conjunto destinado a tarefas de classificação. Os métodos conjuntos baseiam-se no princípio geral de que, em vez de depender de um único modelo, é possível obter melhores resultados e um modelo mais generalizado, criando vários modelos relacionados e combinando-os de alguma forma. Geralmente, os modelos conjuntos proporcionam uma melhor cobertura e precisão do que as árvores de decisão únicas.

Há muitas formas de criar modelos individuais e combiná-los num conjunto. Esta implementação particular de uma decisão florestal funciona construindo múltiplas árvores de decisão e, em seguida, votando na classe de produção mais popular. Votar é um dos métodos mais conhecidos para gerar resultados num modelo conjunto.

  • Muitas árvores de classificação individual são criadas, usando todo o conjunto de dados, mas diferentes (geralmente aleatórios) pontos de partida. Isto difere da abordagem florestal aleatória, na qual as árvores de decisão individuais só podem usar alguma porção aleatória dos dados ou características.
  • Cada árvore na decisão florestal produz um histograma de frequência não normalizado de rótulos.
  • O processo de agregação resume estes histogramas e normaliza o resultado para obter as "probabilidades" de cada rótulo.
  • As árvores que têm alta confiança de previsão terão um maior peso na decisão final do conjunto.

As árvores de decisão em geral têm muitas vantagens para tarefas de classificação:

  • Podem capturar limites de decisão não lineares.
  • Você pode treinar e prever em muitos dados, uma vez que são eficientes no cálculo e uso da memória.
  • A seleção de recursos está integrada nos processos de formação e classificação.
  • As árvores podem acomodar dados ruidosos e muitas características.
  • São modelos não paramétricos, o que significa que podem lidar com dados com distribuição variada.

No entanto, as árvores de decisão simples podem sobreatilar em dados, e são menos generalizáveis do que os conjuntos de árvores.

Para mais informações, consulte As Florestas de Decisão ou os outros documentos listados na secção notas técnicas .

Como configurar a Two-Class Decisão Floresta

  1. Adicione o módulo De duas classes Decision Forest à sua experiência no Machine Learning Studio (clássico) e abra o painel de propriedades do módulo.

    Pode encontrar o módulo debaixo de Machine Learning. Expandir Inicialize e, em seguida, Classificação.

  2. Para o método de resampling, escolha o método utilizado para criar as árvores individuais. Pode escolher entre Embalar ou Replicar.

    • Embalamento: O embalamento também é chamado de agregação de botas. Neste método, cada árvore é cultivada numa nova amostra, criada por amostragem aleatória do conjunto de dados original com substituição até ter um conjunto de dados do tamanho do original.

      As saídas dos modelos são combinadas por votação, que é uma forma de agregação. Cada árvore numa decisão de classificação a floresta produz um histograma de frequência não normalizado de rótulos. A agregação é resumir estes histogramas e normalizar para obter as "probabilidades" de cada rótulo. Desta forma, as árvores que têm alta confiança de previsão terão um maior peso na decisão final do conjunto.

      Para mais informações, consulte a entrada na Wikipédia para a agregação de Bootstrap.

    • Replicação: Na replicação, cada árvore é treinada exatamente nos mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatório e as árvores serão diversas.

      Para obter mais informações sobre o processo de formação com a opção Replicar , consulte os trabalhos listados na secção Notas Técnicas .

  3. Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Criar .

    • Parâmetro único: Se souber como pretende configurar o modelo, pode fornecer um conjunto específico de valores como argumentos.

    • Intervalo de parâmetros: Se não tiver a certeza dos melhores parâmetros, pode encontrar os parâmetros ideais especificando vários valores e utilizando o módulo Tune Model Hyperparameters para encontrar a configuração ideal. O treinador itera sobre várias combinações das configurações fornecidas e determina a combinação de valores que produz o melhor modelo.

  4. Para o Número de árvores de decisão, digite o número máximo de árvores de decisão que podem ser criadas no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treino aumenta.

    Nota

    Este valor também controla o número de árvores exibidas ao visualizar o modelo treinado. Se quiser ver ou imprimir uma única árvore, pode definir o valor para 1. No entanto, apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e não são realizadas mais iterações.

  5. Para a profundidade máxima das árvores de decisão, escreva um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de alguma adaptação excessiva e maior tempo de treino.

  6. Para o número de divisões aleatórias por nó, digite o número de divisões a utilizar ao construir cada nó da árvore. Uma divisão significa que as características em cada nível da árvore (nó) são divididas aleatoriamente.

  7. Para o número mínimo de amostras por nó folha, indique o número mínimo de caixas necessárias para criar qualquer nó terminal (folha) numa árvore.

    Ao aumentar este valor, aumenta-se o limiar para a criação de novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que uma nova regra seja criada. Se aumentar o valor para 5, os dados da formação terão de conter pelo menos 5 casos que satisfaçam as mesmas condições.

  8. Selecione a opção Permitir valores desconhecidos para a opção de funcionalidades categóricas para criar um grupo para valores desconhecidos nos conjuntos de treino ou validação. O modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).

    Se desmarcar esta opção, o modelo só pode aceitar os valores contidos nos dados de treino.

  9. Anexar um conjunto de dados rotulado e um dos módulos de treino:

    Nota

    Se passar uma gama de parâmetros para o Modelo de Comboio, apenas é utilizado o primeiro valor da lista de parâmetros.

    Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters , quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.

    Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único é utilizado ao longo da varredura, mesmo que outros parâmetros se alterem através de uma gama de valores.

Resultados

Após o treino estar completo:

  • Para ver a árvore que foi criada em cada iteração, clique com o botão direito módulo Modelo de Trem e selecione modelo treinado para visualizar. Se utilizar hiperparmetros Tune Model, clique em linha com o módulo e selecione o melhor modelo treinado para visualizar o melhor modelo.

    Clique em cada árvore para perfurar as divisões e ver as regras de cada nó.

  • Para guardar uma imagem do modelo, clique com o botão direito na saída do Modelo Treinado e selecione Save Model. O modelo salvo não é atualizado em sucessivas execuções da experiência.

  • Para utilizar o modelo para pontuar, adicione o módulo 'Score Model ' a uma experiência.

Exemplos

Por exemplo, como as florestas de decisão são utilizadas na aprendizagem automática, consulte as experiências de amostragem na Galeria Azure AI:

Notas técnicas

Esta secção contém detalhes adicionais de implementação, pesquisa e perguntas frequentes.

Dicas de utilização

Se tiver dados limitados, ou se quiser minimizar o tempo gasto a treinar o modelo, experimente estas definições:

Conjunto de formação limitado

Se o conjunto de formação contiver um número limitado de casos:

  • Crie a floresta de decisão utilizando um grande número de árvores de decisão (por exemplo, mais de 20).
  • Utilize a opção de ensacandimento .
  • Especifique um grande número de divisões aleatórias por nó (por exemplo, mais de 1.000).

Tempo de treino limitado

Se o conjunto de formação contiver um grande número de casos e o tempo de treino for limitado:

  • Crie a floresta de decisão utilizando menos árvores de decisão (por exemplo, 5-10).
  • Utilize a opção Replicar para resampling.
  • Especifique um número menor de divisões aleatórias por nó (por exemplo, menos de 100).

Detalhes de implementação

Este artigo da Microsoft Research fornece informações úteis sobre métodos conjuntos que usam árvores de decisão. De troncos a árvores a florestas.

Para obter mais informações sobre o processo de formação com a opção Replicate , consulte As Florestas de Decisão para Visão Computacional e Análise de Imagem Médica. Criminisi e J. Shotton. Springer 2013.

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Método de resampling Qualquer ResamplingMethod Embalamento Escolha um método de resampling
Número de árvores de decisão >=1 Número inteiro 8 Especificar o número de decisão que as árvores devem criar no conjunto
Profundidade máxima das árvores de decisão >=1 Número inteiro 32 Especificar a profundidade máxima de qualquer árvore de decisão que possa ser criada
Número de divisões aleatórias por nó >=1 Número inteiro 128 Especificar o número de divisões geradas por nó, a partir do qual é selecionada a divisão ideal
Número mínimo de amostras por nó de folha >=1 Número inteiro 1 Especificar o número mínimo de amostras de treino necessárias para produzir um nó folha
Permitir valores desconhecidos para características categóricas Qualquer Booleano Verdadeiro Indicar se valores desconhecidos das características categóricas existentes podem ser mapeados para uma nova funcionalidade adicional

Saída

Nome Tipo Description
Modelo destreinado Interface ILearner Um modelo de classificação binária destreinada

Ver também

Classificação
Regressão da Floresta de Decisão
Floresta de Decisão de Várias Classes
Lista de Módulos A-Z