Regressão rápida de quantil de floresta

Cria um modelo de regressão de quantil

Categoria: Machine Learning/inicializar modelo/regressão

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo regressão rápida de Quantil de floresta no Azure Machine Learning Studio (clássico) para criar um modelo de regressão que pode prever valores para um número especificado de quantis.

A regressão de quantil é útil se desejar saber mais sobre a distribuição do valor previsto, em vez de obter um valor único de previsão média. Esse método tem muitos aplicativos, incluindo:

  • Previsão os preços

  • Estimativa do desempenho do aluno ou aplicação de gráficos de crescimento para avaliar o desenvolvimento do filho

  • Descobrir relações de previsão em casos onde há apenas uma relação fraca entre variáveis

Esse algoritmo de regressão é um método de aprendizado supervisionado , o que significa que ele requer um conjunto de informações marcado que inclui uma coluna de rótulo. Como é um algoritmo de regressão, a coluna de rótulo deve conter apenas valores numéricos.

Mais informações sobre regressão de Quantil

Há muitos tipos diferentes de regressão. No sentido mais básico, a regressão significa o ajuste de um modelo para um destino expressado como vetor numérico. No entanto, os estatísticos têm desenvolvido métodos cada vez mais avançados de regressão.

A definição mais simples de Quantil é um valor que divide um conjunto de dados em grupos de tamanho igual; assim, os valores de Quantil marcam os limites entre os grupos. Estatisticamente, quantis são valores obtidos em intervalos regulares do inverso da função de distribuição cumulativa (CDF) de uma variável aleatória.

Enquanto os modelos de regressão linear tentam prever o valor de uma variável numérica usando uma única estimativa, a média, às vezes, você precisa prever o intervalo ou toda a distribuição da variável de destino. Técnicas como regressão de Bayesiana e regressão de Quantil foram desenvolvidas para essa finalidade.

A regressão de Quantil ajuda a entender a distribuição do valor previsto. Os modelos de regressão de quantil em forma de árvore, como o usado neste módulo, têm a vantagem adicional de poderem ser usados para prever distribuições não paramétricas.

Para obter detalhes de implementação adicional e recursos, consulte a seção Observações técnicas.

Como configurar a regressão de Fast_Forest Quantil

Você configura as propriedades do modelo de regressão usando este módulo e, em seguida, treina-o usando um dos módulos de treinamento.

As etapas de configuração diferem consideravelmente dependng se você está fornecendo um conjunto fixo de parâmetros ou configurando uma varredura de parâmetro.

Criar um modelo de regressão Quantil usando parâmetros fixos

Supondo que você saiba como deseja configurar o modelo, você pode fornecer um conjunto específico de valores como argumentos. Ao treinar o modelo, use treinar modelo.

  1. Adicione o módulo regressão rápida de Quantil de floresta a seu experimento no estúdio (clássico).

  2. Defina a opção criar modo de instrutor como um único parâmetro.

  3. Para número de árvores, digite o número máximo de árvores que podem ser criadas no Ensemble. Quando cria mais árvores, isso geralmente leva a maior precisão, mas a mais tempo de treinamento.

  4. Para o número de folhas, digite o número máximo de folhas ou nós de terminal que podem ser criados em qualquer árvore.

  5. Para o número mínimo de instâncias de treinamento necessárias para formar uma folha , especifique o número mínimo de exemplos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisarão conter pelo menos 5 casos que atendam às mesmas condições

  6. Para fração bagging, especifique um número entre 0 e 1 que represente a fração de amostras a ser usada ao criar cada grupo de quantis. Os exemplos são escolhidos aleatoriamente, com substituição.

  7. Para fração de recurso, digite um número entre 0 e 1 que indique a fração do total de recursos a serem usados ao criar qualquer árvore específica. Os recursos sempre são escolhidos aleatoriamente.

  8. Em fração de divisão, digite um número entre 0 e 1 que represente a fração de recursos a serem usados em cada divisão da árvore. Os recursos usados sempre são escolhidos aleatoriamente.

  9. Para contagem de amostras de Quantil, digite o número de casos a serem avaliados ao estimar o quantis.

  10. Para que quantis seja estimado, digite uma lista separada por vírgulas do quantis para o qual você deseja que o modelo treine e crie previsões.

    Por exemplo, se você quiser criar um modelo que estima os quartils, digite 0.25, 0.5, 0.75 .

  11. Opcionalmente, digite um valor para a semente de número aleatório para propagar o gerador de número aleatório usado pelo modelo. O padrão é 0, que significa que uma semente aleatória é escolhida.

    Você deve fornecer um valor se precisar reproduzir os resultados entre execuções sucessivas nos mesmos dados.

  12. Selecione a opção permitir níveis categóricos desconhecidos para criar um grupo de valores desconhecidos.

    Se você desmarcá-la, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento.

    Se você selecionar essa opção, o modelo poderá ser menos preciso para valores conhecidos, mas poderá fornecer previsões melhores para valores novos (desconhecidos).

  13. Conecte um conjunto de um DataSet de treinamento, selecione uma única coluna de rótulo e conecte o modelode treinamento.

  14. Execute o experimento.

Usar uma limpeza de parâmetro para criar um modelo de regressão Quantil

Se você não tiver certeza dos parâmetros ideais para o modelo, poderá configurar uma varredura de parâmetro e fornecer um intervalo de valores como argumentos. Ao treinar o modelo, use o módulo ajustar hiperparâmetros de modelo .

  1. Adicione o módulo regressão rápida de Quantil de floresta a seu experimento no estúdio (clássico).

  2. Defina a opção criar modo de instrutor como intervalo de parâmetros.

    Uma varredura de parâmetro é recomendada se você não tiver certeza dos melhores parâmetros. Ao especificar vários valores e usar o módulo ajustar hiperparâmetros de modelo para treinar o modelo, você pode encontrar o conjunto ideal de parâmetros para seus dados.

    Depois de escolher uma limpeza de parâmetro, para cada propriedade que é ajustável, você pode definir um único valor ou vários valores. Por exemplo, você pode decidir corrigir o número de árvores, mas alterar aleatoriamente outros valores que controlam a maneira como cada árvore é criada.

    • Se você digitar um único valor, esse valor será usado em todas as iterações da varredura, mesmo se outros valores forem alterados.

    • Digite uma lista separada por vírgulas de valores discretos a serem usados. Esses valores são usados em combinação com outras propriedades.

    • Use o Construtor de intervalo para definir um intervalo de valores contínuos.

    Durante o processo de treinamento, o módulo ajustar hiperparâmetros de modelo itera várias combinações dos valores para criar o melhor modelo.

  3. Para o número máximo de folhas por árvore, digite o número total de folhas ou nós de terminal para permitir em cada árvore.

  4. Para o número de árvores construídas, digite o número de iterações a serem executadas ao construir o Ensemble. Ao criar mais árvores, você pode potencialmente obter uma cobertura melhor, às custas do maior tempo de treinamento.

  5. Para o número mínimo de amostras por nó folha, indique quantos casos são necessários para criar um nó folha.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.

  6. Em intervalo para fração de bagging, digite a fração de amostras a ser usada ao criar cada grupo de quantis. Os exemplos são escolhidos aleatoriamente, com substituição.

    Cada fração deve ser um número entre 0 e 1. Separe várias frações, usando vírgulas.

  7. Em intervalo para a fração de recurso, digite a fração do total de recursos a serem usados ao criar cada grupo de quantis. Os recursos são escolhidos aleatoriamente.

    Cada fração deve ser um número entre 0 e 1; Separe várias frações usando vírgulas.

  8. Em intervalo para dividir fração, especifique uma fração de recursos para usar em cada grupo de quantis. Os recursos reais usados são escolhidos aleatoriamente.

    Cada fração deve ser um número entre 0 e 1; Separe várias frações usando vírgulas.

  9. Em exemplo de contagem usada para estimar o quantis, indique quantas amostras devem ser avaliadas ao estimar o quantis. Se você digitar um número maior que o número de amostras disponíveis, todos os exemplos serão usados.

  10. Em valores de Quantil obrigatórios, digite uma lista separada por vírgulas do quantis no qual você deseja treinar o modelo. Por exemplo, se você quiser criar um modelo que estima o quartils, digite ' 0,25, 0,5, 0,75

  11. Em semente de número aleatório, digite um valor para propagar o gerador de número aleatório usado pelo modelo. Uso de um seed é útil para reproduzir execuções duplicadas.

    O padrão é 0, que significa que uma semente aleatória é escolhida.

  12. Selecione a opção permitir valores desconhecidos para recursos categóricos para criar um grupo de valores desconhecidos nos conjuntos de treinamento ou validação.

    Se você desmarcar essa opção, o modelo poderá aceitar somente os valores contidos nos dados de treinamento.

    Se você selecionar essa opção, o modelo poderá ser menos preciso para valores conhecidos, mas poderá fornecer previsões melhores para valores novos (desconhecidos).

  13. Conecte um conjunto de uma de treinamento, selecione a coluna rótulo e conecte o módulo ajustar hiperparâmetros de modelo .

    Observação

    Não use o modelo de treinamento. Se você configurar um intervalo de parâmetros, mas treinar usando o modelo de treinamento, ele usará apenas o primeiro valor na lista intervalo de parâmetros.

  14. Execute o experimento.

Resultados

Após a conclusão do treinamento:

Exemplos

Para obter exemplos de como usar esse módulo, consulte a Galeria de ia do Azure:

  • Regressão de Quantil: demonstra como criar e interpretar um modelo de regressão de Quantil, usando o conjunto de texto de preço automático.

Notas técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Detalhes de implementação

O módulo Regressão de quantil rápida de floresta no Aprendizado de Máquina do Azure é uma implementação de regressão de quantil aleatória de floresta usando árvores de decisão. As florestas aleatórias podem ser úteis para evitar o superajuste que pode ocorrer com árvores de decisão. Uma árvore de decisão é um gráfico de fluxo de árvore binário, onde, em cada nó interior, decide-se qual dos dois nós filhos continua, com base no valor de um dos recursos da entrada.

Em cada nó de folha, um valor é retornado. Nos nós interiores, a decisão é baseada no teste ' ' x ≤ v ', em que x é o valor do recurso no exemplo de entrada e v é um dos possíveis valores desse recurso. As funções que podem ser produzidas por uma árvore de regressão são constante funções de partes.

Em uma floresta aleatória, um Ensemble de árvores é criado usando bagging para selecionar um subconjunto de amostras aleatórias e recursos dos dados de treinamento e, em seguida, ajustar uma árvore de decisão a cada subconjunto de dados. Diferente do algoritmo de floresta aleatório, que calcula a média da saída de todas as árvores, a Regressão rápida de quantil de floresta mantém todos os rótulos previstos em árvores especificadas pelo parâmetro Contagem de exemplo de quantil e gera a distribuição, para que o usuário possa exibir os valores de quantil para a instância determinada.

Para obter mais informações sobre a regressão de Quantil, consulte estes livros e artigos:

Parâmetros do módulo

Nome Tipo Intervalo Opcional Descrição Padrão
Criar modo de aprendizagem CreateLearnerMode List: intervalo de parâmetros de|de parâmetro único Necessária Parâmetro único Criar opções de aprendizagem avançadas
Número de árvores Integer modo:Parâmetro Único 100 Especificar o número de árvores a ser construído
Número de folhas Integer modo:Parâmetro Único 20 Especificar o número máximo de folhas por árvore. O número padrão é 20
Número mínimo de instâncias de treinamento necessário para formar uma folha Integer modo:Parâmetro Único 10 Indica o número mínimo de instâncias de treinamento necessário para formar uma folha
Fração de bagging Float modo:Parâmetro Único 0,7 Especifica a fração de dados de treinamento para uso em cada árvore
Fração de recurso Float modo:Parâmetro Único 0,7 Especifica a fração de recursos (escolhida aleatoriamente) a ser usada para cada árvore
Fração de divisão Float modo:Parâmetro Único 0,7 Especifica a fração de recursos (escolhida aleatoriamente) a ser usada para cada divisão
Contagem de exemplo de quantil Integer Máx.: 2147483647 modo:Parâmetro Único 100 Especifica o número de instâncias usadas em cada nó para estimar quantis
Quantis a serem estimados String modo:Parâmetro Único "0,25; 0.5; 0,75" Especifica o quantil a ser estimado
Propagação de número aleatório Integer Opcional Fornece uma propagação para o gerador de número aleatório usado pelo modelo. Deixe em branco por padrão.
Permitir níveis categóricos desconhecidos Boolean Necessária true Se true, crie um nível adicional para cada coluna categórica. Os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treinamento são mapeados para esse nível adicional.
Número máximo de folhas por árvore ParameterRangeSettings [16; 128] modo:Intervalo de Parâmetro 16 32; 64 Especifica o intervalo do número máximo de folhas permitidas por árvore
Número de árvores construídas ParameterRangeSettings [1; 256] modo:Intervalo de Parâmetro 16 32; 64 Especifica o intervalo do número máximo de árvores que podem ser criadas durante o treinamento
Número mínimo de amostras por nó folha ParameterRangeSettings [1; 10] modo:Intervalo de Parâmetro uma 05 254 Especifica o intervalo do número mínimo de casos necessários para formar uma folha
Intervalo de fração de bagging ParameterRangeSettings [0,25; 1,0] modo:Intervalo de Parâmetro 0,25; 0,5; 0,75 Especifica o intervalo das frações de dados de treinamento para uso em cada árvore
Intervalo de fração de recurso ParameterRangeSettings [0,25; 1,0] modo:Intervalo de Parâmetro 0,25; 0,5; 0,75 Especifica o intervalo da fração de recursos (escolhida aleatoriamente) a ser usada para cada árvore
Intervalo da fração de divisão ParameterRangeSettings [0,25; 1,0] modo:Intervalo de Parâmetro 0,25; 0,5; 0,75 Especifica o intervalo da fração de recursos (escolhida aleatoriamente) a ser usada para cada divisão
Contagem de exemplo usada para estimar os quantis Integer modo:Intervalo de Parâmetro 100 Contagem de exemplo usada para estimar os quantis
Valores de quantil necessários String modo:Intervalo de Parâmetro "0,25; 0.5; 0,75" Valor de quantil obrigatório usado durante a varredura de parâmetros

Saídas

Nome Tipo Descrição
Modelo não treinado Interface ILearner Um modelo de regressão de quantis não treinado que pode ser conectado aos módulos Modelo genérico de treinamento ou Modelo de validação cruzada.

Consulte também

Regressão