Regressão da Floresta de Decisão

Cria um modelo de regressão usando o algoritmo da floresta de decisão

Categoria: Modelo inicialização - Regressão

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo de regressão da floresta de decisão no Azure Machine Learning Studio (clássico), para criar um modelo de regressão baseado num conjunto de árvores de decisão.

Depois de configurar o modelo, deve treinar o modelo utilizando um conjunto de dados rotulado e o módulo Train Model. O modelo treinado pode então ser usado para fazer previsões. Em alternativa, o modelo não treinado pode ser passado para o Modelo De Validação Cruzada para validação cruzada contra um conjunto de dados rotulado.

Como as florestas de decisão funcionam em tarefas de regressão

As árvores de decisão são modelos não paramétricos que realizam uma sequência de testes simples para cada instância, atravessando uma estrutura binária de dados de árvores até que um nó folha (decisão) seja alcançado.

As árvores de decisão têm estas vantagens:

  • São eficientes tanto no cálculo como no uso da memória durante o treino e a previsão.

  • Podem representar limites de decisão não lineares.

  • Realizam seleção e classificação integradas de recursos e são resistentes na presença de características ruidosas.

Este modelo de regressão consiste num conjunto de árvores de decisão. Cada árvore numa decisão de regressão a floresta produz uma distribuição gaussiana como uma previsão. Uma agregação é realizada sobre o conjunto de árvores para encontrar uma distribuição gaussiana mais próxima da distribuição combinada para todas as árvores do modelo.

Para obter mais informações sobre o enquadramento teórico deste algoritmo e a sua implementação, consulte este artigo: Decisão Florestas: Um Quadro Unificado para a Classificação, Regressão, Estimativa de Densidade, Aprendizagem de Variedades e Aprendizagem Semi-Supervised

Como configurar o modelo de regressão florestal da decisão

  1. Adicione o módulo de Regressão Florestal de Decisão à experiência. Pode encontrar o módulo em Studio (clássico) em Machine Learning, Initialize Modele Regression.

  2. Abra as propriedades do módulo e, para o método de resampling, escolha o método utilizado para criar as árvores individuais. Pode escolher entre Embalar ou Replicar.

    • Embalamento: O embalamento também é chamado de agregador de botas. Cada árvore numa decisão de regressão a floresta produz uma distribuição gaussiana por previsão. A agregação é encontrar um gaussiano cujos dois primeiros momentos combinam com os momentos da mistura de gaussianos dados combinando todos os gaussianos devolvidos por árvores individuais.

      Para mais informações, consulte a entrada na Wikipédia para a agregação de Bootstrap.

    • Replicação: Na replicação, cada árvore é treinada exatamente com os mesmos dados de entrada. A determinação de qual predicado dividido é usado para cada nó de árvore permanece aleatório e as árvores serão diversas.

      Para obter mais informações sobre o processo de formação com a opção Replicate, consulte As Florestas de Decisão para Visão Computacional e Análise de Imagem Médica. Criminisi e J. Shotton. Springer 2013.. .

  3. Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Create.

    • Parâmetro único

      Se sabe como pretende configurar o modelo, pode fornecer um conjunto específico de valores como argumentos. Pode ter aprendido estes valores experimentando ou recebido como orientação.

    • Intervalo de parâmetros

      Se não tiver a certeza dos melhores parâmetros, pode encontrar os parâmetros ideais especificando vários valores e usando uma varredura de parâmetros para encontrar a configuração ideal.

      Tune Model Hyperparameters irá iterar sobre todas as combinações possíveis das definições fornecidas e determinar a combinação de configurações que produzem os melhores resultados.

  4. Para o número de árvores de decisão, indicar o número total de árvores de decisão a criar no conjunto. Ao criar mais árvores de decisão, você pode potencialmente obter uma melhor cobertura, mas o tempo de treino vai aumentar.

    Dica

    Este valor também controla o número de árvores exibidas ao visualizar o modelo treinado. se quiser ver ou imprimir uma única árvore, pode definir o valor para 1; no entanto, isto significa que apenas uma árvore será produzida (a árvore com o conjunto inicial de parâmetros) e não serão realizadas mais iterações.

  5. Para a máxima profundidade das árvores de decisão, escreva um número para limitar a profundidade máxima de qualquer árvore de decisão. Aumentar a profundidade da árvore pode aumentar a precisão, correndo o risco de alguma adaptação excessiva e maior tempo de treino.

  6. Para o número de divisões aleatórias por nó, digite o número de divisões a utilizar ao construir cada nó da árvore. Uma divisão significa que as características em cada nível da árvore (nó) são divididas aleatoriamente.

  7. Para o número mínimo de amostras por nó folha, indique o número mínimo de caixas necessárias para criar qualquer nó terminal (folha) numa árvore.

    Ao aumentar este valor, aumenta-se o limiar para a criação de novas regras. Por exemplo, com o valor padrão de 1, mesmo um único caso pode fazer com que uma nova regra seja criada. Se aumentar o valor para 5, os dados da formação terão de conter pelo menos 5 casos que satisfaçam as mesmas condições.

  8. Selecione a opção Permitir valores desconhecidos para a opção de funcionalidades categóricas para criar um grupo para valores desconhecidos nos conjuntos de treino ou validação.

    Se o desmarcar, o modelo só pode aceitar os valores contidos nos dados de treino. No primeiro caso, o modelo pode ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).

  9. Ligue um conjunto de dados rotulado, selecione uma única coluna de etiquetas que não contenha mais de dois resultados e ligue o Modelo de Comboio ou os Hiperparímetros do Modelo de Sintonização.

    • Se definir Criar opção de modo de treinador para Single Parâmetro, treine o modelo utilizando o módulo Modelo de Comboio.

    • Se definir Criar opção de modo de treinador para a gama de parâmetros, treine o modelo utilizando hiperparmetros do modelo de melodia.

  10. Execute a experimentação.

Resultados

Após o treino estar completo:

  • Para ver a árvore que foi criada em cada iteração, clique com a direita na saída do módulo de treino e selecione Visualize.

  • Para ver as regras de cada nó, clique em cada árvore e berbede nas divisões.

  • Para guardar uma imagem do modelo treinado, clique com o botão direito na saída do módulo de treino e selecione Save As Training Model. Esta cópia do modelo não é atualizada em sucessivas execuções da experiência.

Exemplos

Por exemplo, modelos de regressão, consulte estas experiências de amostra na Galeria de Inteligência cortana:

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

  • Se passar uma gama de parâmetros para o Modelo de Comboio,utilizará apenas o primeiro valor na lista de parâmetros.

  • Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters, quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.

  • Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único especificado será utilizado ao longo da varredura, mesmo que outros parâmetros se alterem numa gama de valores.

Dicas de utilização

Se tiver dados limitados ou quiser minimizar o tempo gasto a treinar o modelo, experimente estas definições:

Conjunto de treino limitado. Se o conjunto de formação contiver um número limitado de casos:

  • Criar a floresta de decisão utilizando um grande número de árvores de decisão (por exemplo, mais de 20)

  • Utilize a opção de embalamento para resampling

  • Especificar um grande número de divisões aleatórias por nó (por exemplo, mais de 1000)

Tempo limitado de treino. Se o conjunto de formação contiver um grande número de casos e o tempo de treino for limitado:

  • Criar a floresta de decisão utilizando menos árvores de decisão (por exemplo, 5-10)

  • Utilize a opção Replicar para resampling

  • Especificar um pequeno número de divisões aleatórias por nó (por exemplo, menos de 100)

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Método de resampling qualquer ResamplingMethod Embalamento Escolha um método de resampling
Número de árvores de decisão >=1 Número inteiro 8 Especificar o número de decisão que as árvores devem criar no conjunto
Profundidade máxima das árvores de decisão >=1 Número inteiro 32 Especificar a profundidade máxima de qualquer árvore de decisão que possa ser criada no conjunto
Número de divisões aleatórias por nó >=1 Número inteiro 128 Especificar o número de divisões geradas por nó, a partir do qual é selecionada a divisão ideal
Número mínimo de amostras por nó folha >=1 Número inteiro 1 Especificar o número mínimo de amostras de treino necessárias para gerar um nó folha
Permitir valores desconhecidos para características categóricas qualquer Booleano true Indicar se valores desconhecidos das características categóricas existentes podem ser mapeados para uma nova funcionalidade adicional

Saídas

Nome Tipo Descrição
Modelo destreinado Interface ILearner Um modelo de regressão destreinado

Ver também

Regressão

Lista de Módulos A-Z