Regressão de Quantil da Floresta Rápida

Artigo
05/06/2019

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Cria um modelo de regressão quântica

Categoria: Machine Learning / Modelo inicializo / Regressão

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo de regressão quântil de floresta rápida em Machine Learning Studio (clássico), para criar um modelo de regressão que pode prever valores para um número especificado de quantiles.

A regressão quântica é útil se quiser entender mais sobre a distribuição do valor previsto, em vez de obter um único valor médio de previsão. Este método tem muitas aplicações, incluindo:

Previsão de preços
Estimar o desempenho dos alunos ou aplicar gráficos de crescimento para avaliar o desenvolvimento infantil
Descobrir relações preditivas em casos em que há apenas uma relação fraca entre variáveis

Este algoritmo de regressão é um método de aprendizagem supervisionado , o que significa que requer um conjunto de dados marcado que inclui uma coluna de etiqueta. Por ser um algoritmo de regressão, a coluna do rótulo deve conter apenas valores numéricos.

Mais sobre regressão quântica

Há muitos tipos diferentes de regressão. No sentido mais básico, regressão significa encaixar um modelo num alvo expresso como vetor numérico. No entanto, os estatísticos têm vindo a desenvolver métodos cada vez mais avançados para a regressão.

A definição mais simples de quântil é um valor que divide um conjunto de dados em grupos de tamanho igual; assim, os valores quânticos marcam as fronteiras entre grupos. Estatisticamente falando, os quânticos são valores tomados a intervalos regulares a partir do inverso da função de distribuição cumulativa (CDF) de uma variável aleatória.

Enquanto os modelos lineares de regressão tentam prever o valor de uma variável numérica usando uma única estimativa, a média, às vezes é necessário prever a gama ou distribuição total da variável-alvo. Para este fim foram desenvolvidas técnicas como a regressão bayesiana e a regressão quântica.

A regressão quântica ajuda-o a compreender a distribuição do valor previsto. Os modelos de regressão quântico à base de árvores, como o utilizado neste módulo, têm a vantagem adicional de que podem ser usados para prever distribuições não paramétricas.

Para mais detalhes e recursos de implementação, consulte a secção Notas Técnicas .

Como configurar Fast_Forest Regressão Quântica

Configura as propriedades do modelo de regressão utilizando este módulo e, em seguida, treine-o usando um dos módulos de treino.

Os passos de configuração diferem consideravelmente dependendo se está a fornecer um conjunto fixo de parâmetros ou a configurar uma varredura de parâmetros.

Para criar um modelo de regressão quântica usando parâmetros fixos
Para criar um modelo de regressão quântica usando uma varredura de parâmetros

Criar um modelo de regressão quântica utilizando parâmetros fixos

Assumindo que sabe como quer configurar o modelo, pode fornecer um conjunto específico de valores como argumentos. Quando treinar o modelo, use o Modelo de Comboio.

Adicione o módulo de regressão Quantile De Floresta Rápida à sua experiência em Studio (clássico).
Desa ajuste a opção modo de treinador Create para O Parâmetro Único.
Para o Número de Árvores, escreva o número máximo de árvores que podem ser criadas no conjunto. Se criar mais árvores, geralmente leva a uma maior precisão, mas à custa de tempo de treino mais longo.
Para o Número de Folhas, digite o número máximo de folhas, ou nóns terminais, que podem ser criados em qualquer árvore.
Para o número mínimo de casos de formação necessário para formar uma folha , especifique o número mínimo de exemplos necessários para criar qualquer nó terminal (folha) numa árvore.

Ao aumentar este valor, aumenta-se o limiar para a criação de novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que uma nova regra seja criada. Se aumentar o valor para 5, os dados da formação terão de conter pelo menos 5 casos que satisfaçam as mesmas condições
Para a fração de ensacamento, especifique um número entre 0 e 1 que represente a fração de amostras a utilizar na construção de cada grupo de quantiles. As amostras são escolhidas aleatoriamente, com substituição.
Para a fração característica, digite um número entre 0 e 1 que indique a fração do total das características a utilizar ao construir uma árvore em particular. As características são sempre escolhidas aleatoriamente.
Para fração Split, digite um número entre 0 e 1 que represente a fração de características a utilizar em cada divisão da árvore. As características utilizadas são sempre escolhidas aleatoriamente.
Para a contagem de amostras quânteis, digite o número de casos para avaliar ao estimar os quantiles.
Para que quantiles seja estimado, digite uma lista separada de vírgula dos quantiles para os quais pretende que o modelo treine e crie previsões.

Por exemplo, se quiser construir um modelo que se calcule para os quarteis, escreveria 0.25, 0.5, 0.75.
Opcionalmente, digite um valor para a semente de número aleatório para semear o gerador de número aleatório utilizado pelo modelo. O padrão é 0, o que significa que uma semente aleatória é escolhida.

Deve fornecer um valor se precisar de reproduzir resultados em sucessivas execuções nos mesmos dados.
Selecione a opção permitir níveis categóricos desconhecidos para criar um grupo para valores desconhecidos.

Se o desmarcar, o modelo só pode aceitar os valores contidos nos dados de treino.

Se selecionar esta opção, o modelo poderá ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).
Ligação um conjunto de dados de treino, selecione uma única coluna de etiqueta e ligue o Modelo de Comboio.
Execute a experimentação.

Use uma varredura de parâmetros para criar um modelo de regressão quântica

Se não tiver a certeza dos parâmetros ideais para o modelo, pode configurar uma varredura de parâmetros e fornecer uma gama de valores como argumentos. Quando treinar o modelo, utilize o módulo Tune Model Hyperparameters .

Adicione o módulo de regressão Quantile De Floresta Rápida à sua experiência em Studio (clássico).
Desa ajuste a opção modo de mesudação Criarpara Intervalo de Parâmetros.

Recomenda-se uma varredura de parâmetros se não tiver a certeza dos melhores parâmetros. Ao especificar vários valores e utilizar o módulo Tune Model Hyperparameters para treinar o modelo, pode encontrar o conjunto ideal de parâmetros para os seus dados.

Depois de escolher uma varredura de parâmetros, para cada propriedade que é incapaz, você pode definir um único valor, ou vários valores. Por exemplo, você pode decidir fixar o número de árvores, mas mudar aleatoriamente outros valores que controlam a forma como cada árvore é construída.
- Se escrever um único valor, esse valor é usado em todas as iterações da varredura, mesmo que outros valores mudem.
- Digite uma lista separada por vírgula de valores discretos a utilizar. Estes valores são utilizados em combinação com outras propriedades.
- Utilize o Range Builder para definir uma gama de valores contínuos.
Durante o processo de treino, o módulo Tune Model Hyperparameters iteração sobre várias combinações dos valores para construir o melhor modelo.
Para o número máximo de folhas por árvore, escreva o número total de folhas, ou nóns terminais, para permitir em cada árvore.
Para o número de árvores construídas, digite o número de iterações a realizar ao construir o conjunto. Ao criar mais árvores, você pode potencialmente obter uma melhor cobertura, em detrimento do aumento do tempo de treino.
Para o número mínimo de amostras por nó folha, indique quantos casos são necessários para criar um nó folha.

Ao aumentar este valor, aumenta-se o limiar para a criação de novas regras. Por exemplo, com o valor predefinido de 1, mesmo um único caso pode fazer com que uma nova regra seja criada. Se aumentar o valor para 5, os dados da formação terão de conter pelo menos 5 casos que satisfaçam as mesmas condições.
No intervalo para a fração de ensacamento, digite a fração de amostras a utilizar ao construir cada grupo de quantiles. As amostras são escolhidas aleatoriamente, com substituição.

Cada fração deve ser um número entre 0 e 1. Separe várias frações, usando vírgulas.
Em Gama para fração de características, digite a fração de características totais a utilizar ao construir cada grupo de quâneos. As características são escolhidas aleatoriamente.

Cada fração deve ser um número entre 0 e 1; separar várias frações usando vírgulas.
No Alcance para fração dividida, especifique algumas frações de características a utilizar em cada grupo de quantiles. As características reais utilizadas são escolhidas aleatoriamente.

Cada fração deve ser um número entre 0 e 1; separar várias frações usando vírgulas.
Na contagem de amostras utilizada para estimar os quânticos, indicar quantas amostras devem ser avaliadas ao estimar os quânticos. Se escrever um número maior do que o número de amostras disponíveis, todas as amostras são utilizadas.
Em valores quânticos necessários, digite uma lista separada em vírgula dos quantiles em que pretende que o modelo treine. Por exemplo, se quiser construir um modelo que calcule os quarteis, escreveria 0,25, 0,5, 0,75
Em sementes de número aleatório, digite um valor para semear o gerador de números aleatórios utilizado pelo modelo. A utilização de uma semente é útil para reproduzir corridas duplicadas.

O padrão é 0, o que significa que uma semente aleatória é escolhida.
Selecione a opção Permitir valores desconhecidos para a opção de funcionalidades categóricas para criar um grupo para valores desconhecidos nos conjuntos de treino ou validação.

Se desmarcar esta opção, o modelo só pode aceitar os valores contidos nos dados de treino.

Se selecionar esta opção, o modelo poderá ser menos preciso para valores conhecidos, mas pode fornecer melhores previsões para novos valores (desconhecidos).
Ligação um conjunto de dados de treino, selecione a coluna de etiquetas e ligue o módulo De Hiperparametros Tune Model.

Nota

Não utilize o Modelo de Comboio. Se configurar uma gama de parâmetros, mas treinar utilizando o Modelo de Comboio, utiliza apenas o primeiro valor na lista de parâmetros.
Execute a experimentação.

Resultados

Após o treino estar completo:

Para ver os hiperparmetros finais do modelo otimizado, clique com o botão direito na saída de Tune Model Hyperparameters e selecione Visualize.

Exemplos

Por exemplo, como utilizar este módulo, consulte a Galeria Azure AI:

Quantile Regression: Demonstra como construir e interpretar um modelo de regressão quântica, utilizando o conjunto de dados de preço automático.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Detalhes de implementação

O módulo de regressão quântil da floresta rápida em Machine Learning é uma implementação de regressão quântil florestal aleatório usando árvores de decisão. Florestas aleatórias podem ser úteis para evitar a sobremontagem que pode ocorrer com árvores de decisão. Uma árvore de decisão é um fluxo de fluxo binário em forma de árvore, onde em cada nó interior, decide-se qual dos dois nós infantis continuará a, com base no valor de uma das características da entrada.

Em cada nó de folha, um valor é devolvido. Nos nós interiores, a decisão baseia-se no teste ''x≤v', onde x é o valor da característica na amostra de entrada e v é um dos valores possíveis desta característica. As funções que podem ser produzidas por uma árvore de regressão são todas as funções constantes em termos de peça.

Numa floresta aleatória, um conjunto de árvores é criado usando o embalamento para selecionar um subconjunto de amostras aleatórias e características dos dados de treino, e, em seguida, encaixar uma árvore de decisão em cada subconjunto de dados. Ao contrário do algoritmo florestal aleatório, que media a saída de todas as árvores, a Fast Forest Quantile Regression mantém todos os rótulos previstos em árvores especificadas pelo parâmetro Quantile amostragem e produz a distribuição, para que o utilizador possa ver os valores quânticos para o dado exemplo.

Para obter mais informações sobre a regressão quântica, consulte estes livros e artigos:

Florestas de Regressão Quânesia. Nicolai Meinshausen

http://jmlr.org/papers/volume7/meinshausen06a/meinshausen06a.pdf
Florestas aleatórias. Leo Breiman.

https://rd.springer.com/article/10.1023%2FA%3A1010933404324

Parâmetros do módulo

Nome	Tipo	Intervalo	Opcional	Descrição	Predefinição
Criar modo de treinador	CreateLearnerMode	Lista:Parâmetro único\| Intervalo de parâmetros	Necessário	Parâmetro único	Criar opções avançadas de aprendizagem
Número de Árvores	Número inteiro		modo:Parâmetro único	100	Especificar o número de árvores a construir
Número de folhas	Número inteiro		modo:Parâmetro único	20	Especifique o número máximo de folhas por árvore. O número predefinido é 20
Número mínimo de casos de formação necessários para formar uma folha	Número inteiro		modo:Parâmetro único	10	Indica o número mínimo de casos de treino necessários para formar uma folha
Fração de embalamento	Float		modo:Parâmetro único	0.7	Especifica a fração de dados de treino a utilizar para cada árvore
Fração de recurso	Float		modo:Parâmetro único	0.7	Especifica a fração de características (escolhidas aleatoriamente) para cada árvore
Fração dividida	Float		modo:Parâmetro único	0.7	Especifica a fração de características (escolhidas aleatoriamente) para cada divisão
Contagem de amostras quânticas	Número inteiro	Máx: 2147483647	modo:Parâmetro único	100	Especifica o número de ocorrências usadas em cada nó para estimar quânticos
Quantiles a estimar	String		modo:Parâmetro único	"0.25;0.5;0.75"	Especifica o quântico a estimar
Semente de número aleatório	Número inteiro		Opcional		Forneça uma semente para o gerador de números aleatórios utilizado pelo modelo. Deixe em branco por defeito.
Permitir níveis categóricos desconhecidos	Booleano		Necessário	true	Se for verdade, crie um nível adicional para cada coluna categórica. Os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treino são mapeados para este nível adicional.
Número máximo de folhas por árvore	ParâmetroRangeSettings	[16;128]	modo:Intervalo de parâmetros	16; 32; 64	Especificar o intervalo para o número máximo de folhas permitidas por árvore
Número de árvores construídas	ParâmetroRangeSettings	[1;256]	modo:Intervalo de parâmetros	16; 32; 64	Especificar o intervalo para o número máximo de árvores que podem ser criadas durante o treino
Número mínimo de amostras por nó de folha	ParâmetroRangeSettings	[1;10]	modo:Intervalo de parâmetros	1; 5; 10	Especificar o intervalo para o número mínimo de casos necessários para formar uma folha
Gama para frações de ensacamento	ParâmetroRangeSettings	[0.25;1.0]	modo:Intervalo de parâmetros	0.25; 0.5; 0.75	Especifica a gama para fração de dados de treino a utilizar para cada árvore
Intervalo para fração de característica	ParâmetroRangeSettings	[0.25;1.0]	modo:Intervalo de parâmetros	0.25; 0.5; 0.75	Especifica a gama para fração de características (escolhidas aleatoriamente) para usar para cada árvore
Intervalo para fração dividida	ParâmetroRangeSettings	[0.25;1.0]	modo:Intervalo de parâmetros	0.25; 0.5; 0.75	Especifica a gama para fração de funcionalidades (escolhidas aleatoriamente) para usar para cada divisão
Contagem de amostras usada para estimar os quantiles	Número inteiro		modo:Intervalo de parâmetros	100	Contagem de amostras usada para estimar os quantiles
Valores quânticos necessários	String		modo:Intervalo de parâmetros	"0.25;0.5;0.75"	Valor quântico necessário utilizado durante a varredura de parâmetros

Saídas

Nome	Tipo	Description
Modelo destreinado	Interface ILearner	Um modelo de regressão quântil destreinado que pode ser ligado ao Modelo Genérico de Comboio ou aos módulos do Modelo De Validação Cruzada.

Ver também

Regressão