Componente Floresta de Decisão de Duas Classes

Este artigo descreve o componente no Azure Machine Learning Designer.

Use este componente para criar um modelo de aprendizado de máquina com base no algoritmo de florestas de decisão.

As florestas de decisão são modelos ensemble rápidos e supervisionados. Esse componente é uma boa opção se você quiser prever um destino com, no máximo, dois resultados.

Noções básicas sobre as florestas de decisão

Esse algoritmo da floresta de decisão é um método de aprendizado ensemble destinado a tarefas de classificação. Os métodos ensemble são baseados no princípio geral que, em vez de depender de um único modelo, você pode obter resultados melhores e um modelo mais generalizado criando vários modelos relacionados e combinando-os de alguma forma. Em termos gerais, os modelos de ensemble fornecem melhor cobertura e precisão que árvores de decisão únicas.

Há várias maneiras de criar modelos individuais e combiná-los em um ensemble. Essa implementação específica de uma floresta de decisão funciona criando várias árvores de decisão e, em seguida, votando na classe de saída mais popular. A votação é um dos métodos mais conhecidos para gerar resultados em um modelo ensemble.

  • Muitas árvores de classificação individuais são criadas, usando o conjunto de dados completo, mas pontos de partida diferentes (geralmente aleatórios). Isso difere da abordagem de floresta aleatória, na qual as árvores de decisão individuais podem usar apenas uma parte aleatória dos dados ou recursos.
  • Cada árvore na árvore da floresta de decisão gera um histograma de frequência não normalizado dos rótulos.
  • O processo de agregação soma esses histogramas e normaliza o resultado para obter as "probabilidades" para cada rótulo.
  • As árvores que têm alta confiabilidade de previsão terão um peso maior na decisão final do ensemble.

As árvores de decisão em geral têm muitas vantagens para tarefas de classificação:

  • Eles podem capturar limites de decisão não lineares.
  • Você pode treinar e prever muitos dados, pois eles são eficientes no uso de memória e computação.
  • A seleção de recursos é integrada nos processos de treinamento e classificação.
  • As árvores podem acomodar dados sonoros e muitos recursos.
  • Eles são modelos não paramétricos, o que significa que podem manipular dados com distribuições variadas.

No entanto, as árvores de decisão simples podem sobreajustar dados e são menos generalizadas do que os ensembles de árvore.

Para obter mais informações, consulte Florestas de Decisão.

Como configurar

  1. Adicione o componente Floresta de Decisão de Duas Classes ao seu pipeline no Azure Machine Learning e abra o painel Propriedades do componente.

    Você pode encontrar o componente em Machine Learning. Expanda Inicializare, em seguida, Classificação.

  2. Para o Método de reamostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre Bagging ou Replicar.

    • Bagging: bagging também é chamado de agregação de inicialização. Nesse método, cada árvore é expandida em uma nova amostra, criada pela amostragem aleatória do conjunto de dados original com substituição, até que você tenha um conjunto de dados com o tamanho original.

      As saídas dos modelos são combinadas por votação, que é uma forma de agregação. Cada árvore em uma floresta de decisão de classificação gera um histograma de frequência não normalizado dos rótulos. A agregação é somar esses histogramas e normalizar para obter as "probabilidades" para cada rótulo. Desta forma, as árvores que têm alta confiabilidade de previsão terão um peso maior na decisão final do ensemble.

      Para obter mais informações, consulte o registro na Wikipédia de agregação de inicialização.

    • Replicar: na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatório e as árvores serão diversificadas.

  3. Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.

    • Parâmetro Único: se você sabe como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos.

    • Intervalo de Parâmetros: caso não tenha certeza de quais são os melhores parâmetros, você pode encontrar os parâmetros ideais usando o componente Ajustar Hiperparâmetros do Modelo. Você fornece algum intervalo de valores, e o instrutor itera em várias combinações de configurações para determinar a combinação de valores que produz o melhor resultado.

  4. Para Número de árvores de decisão, digite o número máximo de árvores de decisão que podem ser criadas no conjunto. Criando mais árvores de decisão, você pode potencialmente obter melhor cobertura, o tempo de treinamento aumenta.

    Observação

    Se você definir o valor como 1. No entanto, apenas uma árvore pode ser produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional é executada.

  5. Para obter a Profundidade máxima das árvores de decisão, digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, mas você corre o risco de algum tempo de treinamento com overfitting e maior.

  6. Para o Número mínimo de amostras por nó folha, indique o número mínimo de casos necessários para criar qualquer nó terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos cinco casos que atendem as mesmas condições.

  7. Selecione a opção Permitir valores desconhecidos para recursos categóricos para criar um grupo de valores desconhecidos nos conjuntos de treinamento ou validação. O modelo pode ser menos preciso para valores conhecidos, mas ele pode fornecer melhores previsões para novos valores (desconhecidos).

    Se você desmarcar essa opção, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento.

  8. Anexe um conjunto de dados rotulado e treine o modelo:

    • Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.

    • Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Observação

    Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

Resultados

Após a conclusão do treinamento:

  • Para salvar um instantâneo do modelo treinado, escolha a guia Saídas no painel direito do componente Treinar modelo. Escolha o ícone Registrar conjunto de dados para salvá-lo como um componente reutilizável.

  • Para usar o modelo para pontuação, adicione o componente Pontuação de Modelo a um pipeline.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.