Regressão de Floresta de Decisão

Cria um modelo de regressão usando o algoritmo de floresta de decisão

Categoria: inicializar modelo-regressão

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo de regressão de floresta de decisão no Azure Machine Learning Studio (clássico) para criar um modelo de regressão com base em uma Ensemble de árvores de decisão.

Depois de configurar o modelo, você deve treinar o modelo usando um DataSet rotulado e o módulo treinar modelo . O modelo treinado pode então ser usado para fazer previsões. Como alternativa, o modelo não treinado pode ser passado para o modelo de validação cruzada para validações cruzadas em relação a um conjunto de dados rotulado.

Como as florestas de decisão funcionam em tarefas de regressão

Árvores de decisão são modelos não paramétricos que executam uma sequência de testes simples para cada instância, percorrendo uma estrutura de dados de árvore binária até que um nó folha (decisão) seja atingido.

As árvores de decisão têm estas vantagens:

  • São eficientes no uso de memória e computação durante o treinamento e a previsão.

  • Podem representar limites de decisão não lineares.

  • Realizam seleção e classificação de recursos integrados e são resilientes na presença de recursos com ruídos.

Esse modelo de regressão consiste de um ensemble de árvores de decisão. Cada árvore em uma floresta de decisão de regressão gera uma distribuição gaussiana como uma previsão. Uma agregação é executada sobre o Ensemble de árvores para encontrar uma distribuição gaussiana mais próxima da distribuição combinada para todas as árvores no modelo.

Para obter mais informações sobre a estrutura teórica para este algoritmo e sua implementação, consulte este artigo: florestas de decisão: uma estrutura unificada para classificação, regressão, estimativa de densidade, aprendizado de diversa e aprendizado de Semi-Supervised

Como configurar o modelo de regressão de floresta de decisão

  1. Adicione o módulo regressão de floresta de decisão ao experimento. Você pode encontrar o módulo no Studio (clássico) em Machine Learning, inicializar modelo e regressão.

  2. Abra as propriedades do módulo e, para o método de reamostragem, escolha o método usado para criar as árvores individuais. Você pode escolher entre bagging ou replicar.

    • Bagging: bagging também é chamado de agregação de Bootstrap. Cada árvore em uma floresta de decisão de regressão gera uma distribuição gaussiana por meio de previsão. A agregação é para localizar um gaussiano cujo primeiro dois momentos corresponda ao tempo da mistura de gaussianos, dado pela combinação de todos os gaussianos retornados por árvores individuais.

      Para obter mais informações, consulte a entrada da Wikipédia para agregação de Bootstrap.

    • Replicate: na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado de divisão é usado para cada nó de árvore permanece aleatório e as árvores serão diversificadas.

      Para obter mais informações sobre o processo de treinamento com a opção replicar , consulte florestas de decisão para pesquisa Visual computacional e análise de imagem médica. Criminisi e J. Shotton. Springer 2013..

  3. Especifique como você deseja que o modelo seja treinado, definindo a opção criar modo de instrutor .

    • Parâmetro único

      Se você souber como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos. Você pode ter aprendido esses valores por experimentação ou os recebido como orientação.

    • Intervalo de parâmetros

      Se você não tiver certeza dos melhores parâmetros, poderá encontrar os parâmetros ideais especificando vários valores e usando uma varredura de parâmetro para localizar a configuração ideal.

      Os hiperparâmetros de modelo de ajuste serão iterados em todas as combinações possíveis das configurações que você forneceu e determinam a combinação de configurações que produzem os resultados ideais.

  4. Para o número de árvores de decisão, indique o número total de árvores de decisão a serem criadas no Ensemble. Criando mais árvores de decisão, você pode potencialmente obter melhor cobertura, mas aumentará o tempo de treinamento.

    Dica

    Esse valor também controla o número de árvores exibidas ao visualizar o modelo treinado. Se você quiser ver ou imprimir uma única árvore, poderá definir o valor como 1; no entanto, isso significa que apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e nenhuma iteração adicional será executada.

  5. Para obter a profundidade máxima das árvores de decisão, digite um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, mas você corre o risco de algum tempo de treinamento com overfitting e maior.

  6. Para o número de divisões aleatórias por nó, digite o número de divisões a serem usadas ao compilar cada nó da árvore. Uma divisão significa que os recursos em cada nível da árvore (nó) são divididos aleatoriamente.

  7. Para o número mínimo de amostras por nó folha, indique o número mínimo de casos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.

  8. Selecione a opção permitir valores desconhecidos para recursos categóricos para criar um grupo de valores desconhecidos nos conjuntos de treinamento ou validação.

    Se você desmarcá-la, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento. No primeiro caso, o modelo pode ser menos preciso para valores conhecidos, mas ele pode fornecer melhores previsões para novos valores (desconhecidos).

  9. Conecte um conjunto de informações rotulado, selecione uma única coluna de rótulo que contenha no máximo dois resultados e conecte o modelo de treinamento ou ajuste hiperparâmetros de modelo.

    • Se você definir a opção criar modo de instrutor como parâmetro único, treine o modelo usando o módulo treinar modelo .

    • Se você definir a opção criar modo de instrutor como intervalo de parâmetros, treine o modelo usando ajustar hiperparâmetros de modelo.

  10. Execute o experimento.

Resultados

Após a conclusão do treinamento:

  • Para ver a árvore que foi criada em cada iteração, clique com o botão direito do mouse na saída do módulo de treinamento e selecione Visualizar.

  • Para ver as regras para cada nó, clique em cada árvore e faça uma busca detalhada nas divisões.

  • Para salvar um instantâneo do modelo treinado, clique com o botão direito do mouse na saída do módulo de treinamento e selecione salvar como modelo treinado. Essa cópia do modelo não é atualizada em execuções sucessivas do experimento.

Exemplos

Para obter exemplos de modelos de regressão, consulte estes experimentos de exemplo no Cortana Intelligence Gallery:

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

  • Se você passar um intervalo de parâmetros para treinar o modelo, ele usará apenas o primeiro valor na lista intervalo de parâmetros.

  • Se você passar um único conjunto de valores de parâmetro para o módulo ajustar hiperparâmetros de modelo , quando ele esperar um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

  • Se você selecionar a opção intervalo de parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

Dicas de uso

Se você tiver dados limitados ou desejar minimizar o tempo gasto no treinamento do modelo, tente estas configurações:

Conjunto de treinamento limitado. Se o conjunto de treinamento contiver um número limitado de instâncias:

  • Crie a floresta de decisão usando um grande número de árvores de decisão (por exemplo, mais de 20).

  • Use a opção Bagging para reamostragem

  • Especifique um grande número de divisões aleatórias por nó (por exemplo, mais de 1000)

Tempo de treinamento limitado. Se o conjunto de treinamento contiver um grande número de instâncias e o tempo de treinamento for limitado:

  • Crie a floresta de decisão usando menos árvores de decisão (por exemplo, de 5 a 10)

  • Usar a opção Replicar para reamostragem

  • Especifique um pequeno número de divisões aleatórias por nó (por exemplo, menos de 100).

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Método de reamostragem any ResamplingMethod Bagging Escolha um método de reamostragem
Número de árvores de decisão >= 1 Integer 8 Especifique o número de árvores de decisão para criar o ensemble
Profundidade máxima das árvores de decisão >= 1 Integer 32 Especifique a profundidade máxima de qualquer árvore de decisão que possa ser criada no ensemble
Número de divisões aleatórias por nó >= 1 Integer 128 Especifique o número de divisões geradas por nó, a partir das quais a divisão ideal é selecionada
Número mínimo de amostras por nó folha >= 1 Integer 1 Especifique o número mínimo de exemplos de treinamento necessários para gerar um nó folha
Permitir valores desconhecidos para recursos categóricos any Boolean true Indique se valores desconhecidos de recursos categóricos existentes podem ser mapeados para um novo recurso adicional

Saídas

Nome Tipo Descrição
Modelo não treinado Interface ILearner Um modelo de regressão não treinado

Confira também

Regressão

Lista de Módulo A-Z