Componente Regressão de Floresta de Decisão

Este artigo descreve o componente no Azure Machine Learning Designer.

Use-o para criar um componente de regressão baseado em um conjunto de árvores de decisão.

Depois de configurar o modelo, você precisa treiná-lo usando um conjunto de dados rotulado e o componente Treinar Modelo. O modelo treinado pode então ser usado para fazer previsões.

Como ele funciona

Árvores de decisão são modelos não paramétricos que executam uma sequência de testes simples para cada instância, percorrendo uma estrutura de dados de árvore binária até que um nó folha (decisão) seja atingido.

As árvores de decisão têm estas vantagens:

  • São eficientes no uso de memória e computação durante o treinamento e a previsão.

  • Podem representar limites de decisão não lineares.

  • Realizam seleção e classificação de recursos integrados e são resilientes na presença de recursos com ruídos.

Esse modelo de regressão consiste de um ensemble de árvores de decisão. Cada árvore em uma floresta de decisão de regressão gera uma distribuição gaussiana como previsão. É realizada uma agregação no conjunto de árvores para encontrar uma distribuição gaussiana mais próxima da combinada para todas as árvores no modelo.

Para saber mais sobre a estrutura teórica para este algoritmo e sua implementação, confira este artigo: Decision Forests: A Unified Framework for Classification, Regression, Density Estimation, Manifold Learning and Semi-Supervised Learning

Como configurar um modelo de Regressão de Floresta de Decisão

  1. Adicione o componente Regressão de Floresta de Decisão ao pipeline. Localize o componente no designer em Machine Learning, Inicializar Modelo e Regressão.

  2. Abra as propriedades do componente e, em Método de reamostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre Bagging ou Replicar.

    • Bagging: bagging também é chamado de agregação de inicialização. Cada árvore em uma floresta de decisão de regressão gera uma distribuição gaussiana como forma de previsão. A agregação tem a finalidade de localizar um gaussiano cujos dois primeiros momentos correspondem aos momentos da mistura de distribuições gaussianas dadas pela combinação de todas as distribuições retornadas por árvores individuais.

      Para saber mais, confira a entrada na Wikipédia sobre Agregação de inicialização.

    • Replicar: na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatória e as árvores serão diversificadas.

      Para saber mais sobre o processo de treinamento com a opção Replicar, confira Decision Forests for Computer Vision and Medical Image Analysis. Criminisi e J. Shotton. Springer 2013..

  3. Especifique como você deseja que o modelo seja treinado definindo a opção Criar modo de aprendizagem.

    • Parâmetro único

      Se você souber como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos. Você pode ter aprendido esses valores por experimentação ou os recebido como orientação.

    • Intervalo de parâmetros: selecione essa opção se não tiver certeza dos melhores parâmetros e quiser executar uma varredura de parâmetros. Selecione um intervalo de valores para iteração, e Ajustar os Hiperparâmetros do Modelo itera sobre todas as combinações possíveis das configurações fornecidas para determinar os hiperparâmetros que produzem os resultados ideais.

  4. Para o Número de árvores de decisão, indique o número total de árvores de decisão a serem criadas no conjunto. Criando mais árvores de decisão, você pode potencialmente obter melhor cobertura, mas aumentará o tempo de treinamento.

    Dica

    No entanto, se você definir o valor como 1, isso significa que apenas uma árvore será produzida (a árvore com o conjunto de parâmetros inicial) e nenhuma iteração adicional será executada.

  5. Para obter a Profundidade máxima das árvores de decisão, digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, mas você corre o risco de algum tempo de treinamento com overfitting e maior.

  6. Para o Número de divisões aleatórias por nó, digite o número de divisões a serem usadas ao criar cada nó da árvore. Uma divisão significa que os recursos em cada nível da árvore (nó) são divididos aleatoriamente.

  7. Para o Número mínimo de amostras por nó folha, indique o número mínimo de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos cinco casos que atendem as mesmas condições.

  8. Treinar o modelo:

    • Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.

    • Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Observação

    Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  9. Enviar o pipeline.

Resultados

Após a conclusão do treinamento:

  • Para salvar um instantâneo do modelo treinado, escolha o componente de treinamento e, em seguida, acesse a guia Saídas do painel direito. Clique no ícone Registrar modelo. Você pode encontrar o modelo salvo como componente na árvore de componentes.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.