Regressão rápida de quantil de floresta

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de regressão de quantil

Categoria: Machine Learning/Inicializar modelo/regressão

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Regressão Quântica de Floresta Rápida no Machine Learning Studio (clássico) para criar um modelo de regressão que pode prever valores para um número especificado de quantis.

A regressão de quantil é útil se desejar saber mais sobre a distribuição do valor previsto, em vez de obter um valor único de previsão média. Esse método tem muitos aplicativos, incluindo:

  • Previsão os preços

  • Estimativa do desempenho do aluno ou aplicação de gráficos de crescimento para avaliar o desenvolvimento do filho

  • Descobrir relações de previsão em casos onde há apenas uma relação fraca entre variáveis

Esse algoritmo de regressão é um método de aprendizado supervisionado, o que significa que ele requer um conjunto de dados marcado que inclui uma coluna de etiqueta. Como ele é um algoritmo de regressão, a coluna de etiqueta deve conter apenas valores numéricos.

Mais informações sobre a regressão quantílica

Há muitos tipos diferentes de regressão. No sentido mais básico, a regressão significa o ajuste de um modelo para um destino expressado como vetor numérico. No entanto, os estatísticos têm desenvolvido métodos cada vez mais avançados de regressão.

A definição mais simples de quantil é um valor que divide um conjunto de dados em grupos de tamanhos iguais; portanto, os valores quantílicos marcam os limites entre os grupos. Estatisticamente, quantis são os valores obtidos em intervalos regulares do inverso da CDF (função de distribuição cumulativa) de uma variável aleatória.

Embora os modelos de regressão linear tentem prever o valor de uma variável numérica usando uma só estimativa (o valor médio), às vezes, você precisará prever o intervalo ou toda a distribuição da variável de destino. Técnicas como regressão bayesiana e regressão quantílica foram desenvolvidas para esse propósito.

A regressão quantílica ajuda você a entender a distribuição do valor previsto. Os modelos de regressão de quantil em forma de árvore, como o usado neste módulo, têm a vantagem adicional de poderem ser usados para prever distribuições não paramétricas.

Para obter detalhes de implementação adicional e recursos, consulte a seção Observações técnicas.

Como configurar a regressão Fast_Forest quantil

Configure as propriedades do modelo de regressão usando este módulo e treine-o usando um dos módulos de treinamento.

As etapas de configuração diferem consideravelmente, dependendo se você está fornecendo um conjunto fixo de parâmetros ou configurando uma varredura de parâmetro.

Criar um modelo de regressão quântica usando parâmetros fixos

Supondo que você saiba como deseja configurar o modelo, você pode fornecer um conjunto específico de valores como argumentos. Ao treinar o modelo, use a opção Treinar modelo.

  1. Adicione o módulo Regressão Quântica de Floresta Rápida ao seu experimento no Studio (clássico).

  2. De definir a opção Criar modo de treinador como Parâmetro Único.

  3. Em Número de Árvores, digite o número máximo de árvores que podem ser criadas no ensemble. Quando cria mais árvores, isso geralmente leva a maior precisão, mas a mais tempo de treinamento.

  4. Em Número de Folhas, digite o número máximo de folhas ou nós de terminal que podem ser criados em qualquer árvore.

  5. Para Número mínimo de instâncias de treinamento necessárias para formar uma folha , especifique o número mínimo de exemplos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos cinco casos que atendem às mesmas condições

  6. Para a fração Desajuste, especifique um número entre 0 e 1 que representa a fração de amostras a ser usada ao criar cada grupo de quantis. As amostras são escolhidas aleatoriamente, com substituição.

  7. Para Fração de recurso, digite um número entre 0 e 1 que indica a fração do total de recursos a ser usado ao criar qualquer árvore específica. Os recursos sempre são escolhidos aleatoriamente.

  8. Para Fração dividida, digite um número entre 0 e 1 que representa a fração de recursos a ser usada em cada divisão da árvore. Os recursos usados sempre são escolhidos aleatoriamente.

  9. Para Contagem de exemplos de quantil, digite o número de casos a avaliar ao estimar os quantis.

  10. Para que os quantis sejam estimados, digite uma lista separada por vírgulas dos quantis para os quais você deseja que o modelo treine e crie previsões.

    Por exemplo, se você quiser criar um modelo que faça estimativas para quartis, você digitaria 0.25, 0.5, 0.75.

  11. Opcionalmente, digite um valor para Semente de número aleatório para especificar a semente do gerador de números aleatórios usado pelo modelo. O padrão é 0, que significa que uma semente aleatória é escolhida.

    Você deverá informar um valor se precisar reproduzir os resultados entre execuções sucessivas dos mesmos dados.

  12. Selecione a opção Permitir níveis categóricos desconhecidos para criar um grupo para valores desconhecidos.

    Se você desmarcá-la, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento.

    Se você selecionar essa opção, o modelo poderá ser menos preciso para valores conhecidos, mas poderá fornecer previsões melhores para novos valores (desconhecidos).

  13. Conexão um conjuntos de dados de treinamento, selecione uma única coluna de rótulo e conecte Treinar Modelo.

  14. Execute o experimento.

Usar uma varredura de parâmetro para criar um modelo de regressão quântica

Se você não tiver certeza dos parâmetros ideais para o modelo, poderá configurar uma varredura de parâmetro e fornecer um intervalo de valores como argumentos. Ao treinar o modelo, use o módulo Ajustar Hiperparmetros do Modelo.

  1. Adicione o módulo Regressão Quântica de Floresta Rápida ao seu experimento no Studio (clássico).

  2. De definir a opção Criar modo de treinador como Intervalo de Parâmetros.

    Uma limpeza de parâmetro é recomendada se você não tiver certeza dos melhores parâmetros. Especificando vários valores e usando o módulo Ajustar Hiperparmetros de Modelo para treinar o modelo, você pode encontrar o conjunto ideal de parâmetros para seus dados.

    Depois de escolher uma varredura de parâmetro, para cada propriedade que é unável, você pode definir um único valor ou vários valores. Por exemplo, você pode decidir corrigir o número de árvores, mas alterar aleatoriamente outros valores que controlam a maneira como cada árvore é criada.

    • Se você digitar um único valor, esse valor será usado em todas as ierções da varredura, mesmo se outros valores mudarem.

    • Digite uma lista separada por vírgulas de valores discretos a usar. Esses valores são usados em combinação com outras propriedades.

    • Use o Construtor de Intervalos para definir um intervalo de valores contínuos.

    Durante o processo de treinamento, o módulo Ajustar Hiperparâmetros do Modelo itera em várias combinações dos valores para criar o melhor modelo.

  3. Para Número máximo de folhas por árvore, digite o número total de folhas ou nós de terminal para permitir em cada árvore.

  4. Para Número de árvores construídas, digite o número de ierções a executar ao construir o ensemble. Ao criar mais árvores, você pode obter uma melhor cobertura, às custas do maior tempo de treinamento.

  5. Para Número mínimo de amostra por nó folha, indique quantos casos são necessários para criar um nó folha.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.

  6. Em Intervalo para fração de ressarção, digite a fração de amostras a ser usada ao criar cada grupo de quantis. As amostras são escolhidas aleatoriamente, com substituição.

    Cada fração deve ser um número entre 0 e 1. Separe várias frações usando vírgulas.

  7. Em Intervalo para fração de recurso, digite a fração do total de recursos a ser usado ao criar cada grupo de quantis. Os recursos são escolhidos aleatoriamente.

    Cada fração deve ser um número entre 0 e 1; separam várias frações usando vírgulas.

  8. Em Intervalo para fração de divisão, especifique alguma fração de recursos a ser usada em cada grupo de quantis. Os recursos reais usados são escolhidos aleatoriamente.

    Cada fração deve ser um número entre 0 e 1; Separe várias frações usando vírgulas.

  9. Em exemplo de contagem usada para estimar o quantis, indique quantas amostras devem ser avaliadas ao estimar o quantis. Se você digitar um número maior que o número de amostras disponíveis, todos os exemplos serão usados.

  10. Em valores de Quantil obrigatórios, digite uma lista separada por vírgulas do quantis no qual você deseja treinar o modelo. Por exemplo, se você quiser criar um modelo que estima o quartils, digite ' 0,25, 0,5, 0,75

  11. Em semente de número aleatório, digite um valor para propagar o gerador de número aleatório usado pelo modelo. Uso de um seed é útil para reproduzir execuções duplicadas.

    O padrão é 0, que significa que uma semente aleatória é escolhida.

  12. Selecione a opção Permitir valores desconhecidos para recursos categóricos para criar um grupo de valores desconhecidos nos conjuntos de treinamento ou validação.

    Se você desmarcar essa opção, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento.

    Se você selecionar essa opção, o modelo poderá ser menos preciso para valores conhecidos, mas poderá fornecer previsões melhores para valores novos (desconhecidos).

  13. Conexão um conjunto de módulos de treinamento, selecione a coluna rótulo e conecte o módulo ajustar hiperparâmetros de modelo .

    Observação

    Não use o modelo de treinamento. Se você configurar um intervalo de parâmetros, mas treinar usando o modelo de treinamento, ele usará apenas o primeiro valor na lista intervalo de parâmetros.

  14. Execute o experimento.

Resultados

Após a conclusão do treinamento:

Exemplos

Para obter exemplos de como usar esse módulo, consulte a Galeria de ia do Azure:

  • Regressão de Quantil: demonstra como criar e interpretar um modelo de regressão de Quantil, usando o conjunto de texto de preço automático.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Detalhes de implementação

o módulo regressão rápida de quantil de floresta no Machine Learning é uma implementação de regressão de quantil de floresta aleatória usando árvores de decisão. As florestas aleatórias podem ser úteis para evitar o superajuste que pode ocorrer com árvores de decisão. Uma árvore de decisão é um gráfico de fluxo de árvore binário, onde, em cada nó interior, decide-se qual dos dois nós filhos continua, com base no valor de um dos recursos da entrada.

Em cada nó de folha, um valor é retornado. Nos nós interiores, a decisão é baseada no teste ' ' x ≤ v ', em que x é o valor do recurso no exemplo de entrada e v é um dos possíveis valores desse recurso. As funções que podem ser produzidas por uma árvore de regressão são constante funções de partes.

Em uma floresta aleatória, um Ensemble de árvores é criado usando bagging para selecionar um subconjunto de amostras aleatórias e recursos dos dados de treinamento e, em seguida, ajustar uma árvore de decisão a cada subconjunto de dados. Diferente do algoritmo de floresta aleatório, que calcula a média da saída de todas as árvores, a Regressão rápida de quantil de floresta mantém todos os rótulos previstos em árvores especificadas pelo parâmetro Contagem de exemplo de quantil e gera a distribuição, para que o usuário possa exibir os valores de quantil para a instância determinada.

Para obter mais informações sobre a regressão de Quantil, consulte estes livros e artigos:

Parâmetros do módulo

Nome Tipo Intervalo Opcional Descrição Padrão
Criar modo de aprendizagem CreateLearnerMode Lista:Parameter Único|Intervalo de Parâmetro Obrigatório Parâmetro único Criar opções de aprendizagem avançadas
Número de árvores Inteiro modo:Parâmetro Único 100 Especificar o número de árvores a ser construído
Número de folhas Inteiro modo:Parâmetro Único 20 Especificar o número máximo de folhas por árvore. O número padrão é 20
Número mínimo de instâncias de treinamento necessário para formar uma folha Inteiro modo:Parâmetro Único 10 Indica o número mínimo de instâncias de treinamento necessário para formar uma folha
Fração de bagging Float modo:Parâmetro Único 0,7 Especifica a fração de dados de treinamento para uso em cada árvore
Fração de recurso Float modo:Parâmetro Único 0,7 Especifica a fração de recursos (escolhida aleatoriamente) a ser usada para cada árvore
Fração de divisão Float modo:Parâmetro Único 0,7 Especifica a fração de recursos (escolhida aleatoriamente) a ser usada para cada divisão
Contagem de exemplo de quantil Inteiro Máx.: 2147483647 modo:Parâmetro Único 100 Especifica o número de instâncias usadas em cada nó para estimar quantis
Quantis a serem estimados Cadeia de caracteres modo:Parâmetro Único "0,25; 0.5; 0,75" Especifica o quantil a ser estimado
Propagação de número aleatório Inteiro Opcional Fornece uma propagação para o gerador de número aleatório usado pelo modelo. Deixe em branco por padrão.
Permitir níveis categóricos desconhecidos Boolean Obrigatório true Se true, crie um nível adicional para cada coluna categórica. Os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treinamento são mapeados para esse nível adicional.
Número máximo de folhas por árvore ParameterRangeSettings [16; 128] modo:Intervalo de Parâmetro 16 32; 64 Especifica o intervalo do número máximo de folhas permitidas por árvore
Número de árvores construídas ParameterRangeSettings [1; 256] modo:Intervalo de Parâmetro 16 32; 64 Especifica o intervalo do número máximo de árvores que podem ser criadas durante o treinamento
Número mínimo de amostras por nó folha ParameterRangeSettings [1;10] modo:Intervalo de Parâmetro uma 05 254 Especifica o intervalo do número mínimo de casos necessários para formar uma folha
Intervalo de fração de bagging ParameterRangeSettings [0,25; 1,0] modo:Intervalo de Parâmetro 0,25; 0,5; 0,75 Especifica o intervalo das frações de dados de treinamento para uso em cada árvore
Intervalo de fração de recurso ParameterRangeSettings [0,25; 1,0] modo:Intervalo de Parâmetro 0,25; 0,5; 0,75 Especifica o intervalo da fração de recursos (escolhida aleatoriamente) a ser usada para cada árvore
Intervalo da fração de divisão ParameterRangeSettings [0,25; 1,0] modo:Intervalo de Parâmetro 0,25; 0,5; 0,75 Especifica o intervalo da fração de recursos (escolhida aleatoriamente) a ser usada para cada divisão
Contagem de exemplo usada para estimar os quantis Inteiro modo:Intervalo de Parâmetro 100 Contagem de exemplo usada para estimar os quantis
Valores de quantil necessários Cadeia de caracteres modo:Intervalo de Parâmetro "0,25; 0.5; 0,75" Valor de quantil obrigatório usado durante a varredura de parâmetros

Saídas

Nome Tipo Descrição
Modelo não treinado Interface ILearner Um modelo de regressão de quantis não treinado que pode ser conectado aos módulos Modelo genérico de treinamento ou Modelo de validação cruzada.

Confira também

Regressão