Regressão rápida de quantil de floresta

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Cria um modelo de regressão de quantil

Categoria: Machine Learning/Inicializar modelo/regressão

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Regressão Quântica de Floresta Rápida no Machine Learning Studio (clássico) para criar um modelo de regressão que pode prever valores para um número especificado de quantis.

A regressão de quantil é útil se desejar saber mais sobre a distribuição do valor previsto, em vez de obter um valor único de previsão média. Esse método tem muitos aplicativos, incluindo:

Previsão os preços
Estimativa do desempenho do aluno ou aplicação de gráficos de crescimento para avaliar o desenvolvimento do filho
Descobrir relações de previsão em casos onde há apenas uma relação fraca entre variáveis

Esse algoritmo de regressão é um método de aprendizado supervisionado, o que significa que ele requer um conjunto de dados marcado que inclui uma coluna de etiqueta. Como ele é um algoritmo de regressão, a coluna de etiqueta deve conter apenas valores numéricos.

Mais informações sobre a regressão quantílica

Há muitos tipos diferentes de regressão. No sentido mais básico, a regressão significa o ajuste de um modelo para um destino expressado como vetor numérico. No entanto, os estatísticos têm desenvolvido métodos cada vez mais avançados de regressão.

A definição mais simples de quantil é um valor que divide um conjunto de dados em grupos de tamanhos iguais; portanto, os valores quantílicos marcam os limites entre os grupos. Estatisticamente, quantis são os valores obtidos em intervalos regulares do inverso da CDF (função de distribuição cumulativa) de uma variável aleatória.

Embora os modelos de regressão linear tentem prever o valor de uma variável numérica usando uma só estimativa (o valor médio), às vezes, você precisará prever o intervalo ou toda a distribuição da variável de destino. Técnicas como regressão bayesiana e regressão quantílica foram desenvolvidas para esse propósito.

A regressão quantílica ajuda você a entender a distribuição do valor previsto. Os modelos de regressão de quantil em forma de árvore, como o usado neste módulo, têm a vantagem adicional de poderem ser usados para prever distribuições não paramétricas.

Para obter detalhes de implementação adicional e recursos, consulte a seção Observações técnicas.

Como configurar a regressão Fast_Forest quantil

Configure as propriedades do modelo de regressão usando este módulo e treine-o usando um dos módulos de treinamento.

As etapas de configuração diferem consideravelmente, dependendo se você está fornecendo um conjunto fixo de parâmetros ou configurando uma varredura de parâmetro.

Para criar um modelo de regressão quântica usando parâmetros fixos
Para criar um modelo de regressão quântica usando uma varredura de parâmetro

Criar um modelo de regressão quântica usando parâmetros fixos

Supondo que você saiba como deseja configurar o modelo, você pode fornecer um conjunto específico de valores como argumentos. Ao treinar o modelo, use a opção Treinar modelo.

Adicione o módulo Regressão Quântica de Floresta Rápida ao seu experimento no Studio (clássico).
De definir a opção Criar modo de treinador como Parâmetro Único.
Em Número de Árvores, digite o número máximo de árvores que podem ser criadas no ensemble. Quando cria mais árvores, isso geralmente leva a maior precisão, mas a mais tempo de treinamento.
Em Número de Folhas, digite o número máximo de folhas ou nós de terminal que podem ser criados em qualquer árvore.
Para Número mínimo de instâncias de treinamento necessárias para formar uma folha , especifique o número mínimo de exemplos necessários para criar qualquer nó de terminal (folha) em uma árvore.

Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento terão que conter pelo menos cinco casos que atendem às mesmas condições
Para a fração Desajuste, especifique um número entre 0 e 1 que representa a fração de amostras a ser usada ao criar cada grupo de quantis. As amostras são escolhidas aleatoriamente, com substituição.
Para Fração de recurso, digite um número entre 0 e 1 que indica a fração do total de recursos a ser usado ao criar qualquer árvore específica. Os recursos sempre são escolhidos aleatoriamente.
Para Fração dividida, digite um número entre 0 e 1 que representa a fração de recursos a ser usada em cada divisão da árvore. Os recursos usados sempre são escolhidos aleatoriamente.
Para Contagem de exemplos de quantil, digite o número de casos a avaliar ao estimar os quantis.
Para que os quantis sejam estimados, digite uma lista separada por vírgulas dos quantis para os quais você deseja que o modelo treine e crie previsões.

Por exemplo, se você quiser criar um modelo que faça estimativas para quartis, você digitaria 0.25, 0.5, 0.75.
Opcionalmente, digite um valor para Semente de número aleatório para especificar a semente do gerador de números aleatórios usado pelo modelo. O padrão é 0, que significa que uma semente aleatória é escolhida.

Você deverá informar um valor se precisar reproduzir os resultados entre execuções sucessivas dos mesmos dados.
Selecione a opção Permitir níveis categóricos desconhecidos para criar um grupo para valores desconhecidos.

Se você desmarcá-la, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento.

Se você selecionar essa opção, o modelo poderá ser menos preciso para valores conhecidos, mas poderá fornecer previsões melhores para novos valores (desconhecidos).
Conexão um conjuntos de dados de treinamento, selecione uma única coluna de rótulo e conecte Treinar Modelo.
Execute o experimento.

Usar uma varredura de parâmetro para criar um modelo de regressão quântica

Se você não tiver certeza dos parâmetros ideais para o modelo, poderá configurar uma varredura de parâmetro e fornecer um intervalo de valores como argumentos. Ao treinar o modelo, use o módulo Ajustar Hiperparmetros do Modelo.

Adicione o módulo Regressão Quântica de Floresta Rápida ao seu experimento no Studio (clássico).
De definir a opção Criar modo de treinador como Intervalo de Parâmetros.

Uma limpeza de parâmetro é recomendada se você não tiver certeza dos melhores parâmetros. Especificando vários valores e usando o módulo Ajustar Hiperparmetros de Modelo para treinar o modelo, você pode encontrar o conjunto ideal de parâmetros para seus dados.

Depois de escolher uma varredura de parâmetro, para cada propriedade que é unável, você pode definir um único valor ou vários valores. Por exemplo, você pode decidir corrigir o número de árvores, mas alterar aleatoriamente outros valores que controlam a maneira como cada árvore é criada.
- Se você digitar um único valor, esse valor será usado em todas as ierções da varredura, mesmo se outros valores mudarem.
- Digite uma lista separada por vírgulas de valores discretos a usar. Esses valores são usados em combinação com outras propriedades.
- Use o Construtor de Intervalos para definir um intervalo de valores contínuos.
Durante o processo de treinamento, o módulo Ajustar Hiperparâmetros do Modelo itera em várias combinações dos valores para criar o melhor modelo.
Para Número máximo de folhas por árvore, digite o número total de folhas ou nós de terminal para permitir em cada árvore.
Para Número de árvores construídas, digite o número de ierções a executar ao construir o ensemble. Ao criar mais árvores, você pode obter uma melhor cobertura, às custas do maior tempo de treinamento.
Para Número mínimo de amostra por nó folha, indique quantos casos são necessários para criar um nó folha.

Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.
Em Intervalo para fração de ressarção, digite a fração de amostras a ser usada ao criar cada grupo de quantis. As amostras são escolhidas aleatoriamente, com substituição.

Cada fração deve ser um número entre 0 e 1. Separe várias frações usando vírgulas.
Em Intervalo para fração de recurso, digite a fração do total de recursos a ser usado ao criar cada grupo de quantis. Os recursos são escolhidos aleatoriamente.

Cada fração deve ser um número entre 0 e 1; separam várias frações usando vírgulas.
Em Intervalo para fração de divisão, especifique alguma fração de recursos a ser usada em cada grupo de quantis. Os recursos reais usados são escolhidos aleatoriamente.

Cada fração deve ser um número entre 0 e 1; Separe várias frações usando vírgulas.
Em exemplo de contagem usada para estimar o quantis, indique quantas amostras devem ser avaliadas ao estimar o quantis. Se você digitar um número maior que o número de amostras disponíveis, todos os exemplos serão usados.
Em valores de Quantil obrigatórios, digite uma lista separada por vírgulas do quantis no qual você deseja treinar o modelo. Por exemplo, se você quiser criar um modelo que estima o quartils, digite ' 0,25, 0,5, 0,75
Em semente de número aleatório, digite um valor para propagar o gerador de número aleatório usado pelo modelo. Uso de um seed é útil para reproduzir execuções duplicadas.

O padrão é 0, que significa que uma semente aleatória é escolhida.
Selecione a opção Permitir valores desconhecidos para recursos categóricos para criar um grupo de valores desconhecidos nos conjuntos de treinamento ou validação.

Se você desmarcar essa opção, o modelo pode aceitar apenas os valores que estão contidos nos dados de treinamento.

Se você selecionar essa opção, o modelo poderá ser menos preciso para valores conhecidos, mas poderá fornecer previsões melhores para valores novos (desconhecidos).
Conexão um conjunto de módulos de treinamento, selecione a coluna rótulo e conecte o módulo ajustar hiperparâmetros de modelo .

Observação

Não use o modelo de treinamento. Se você configurar um intervalo de parâmetros, mas treinar usando o modelo de treinamento, ele usará apenas o primeiro valor na lista intervalo de parâmetros.
Execute o experimento.

Resultados

Após a conclusão do treinamento:

Para ver os hiperparâmetros finais do modelo otimizado, clique com o botão direito do mouse na saída dos hiperparâmetros de modelo de ajuste e selecione Visualizar.

Exemplos

Para obter exemplos de como usar esse módulo, consulte a Galeria de ia do Azure:

Regressão de Quantil: demonstra como criar e interpretar um modelo de regressão de Quantil, usando o conjunto de texto de preço automático.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Detalhes de implementação

o módulo regressão rápida de quantil de floresta no Machine Learning é uma implementação de regressão de quantil de floresta aleatória usando árvores de decisão. As florestas aleatórias podem ser úteis para evitar o superajuste que pode ocorrer com árvores de decisão. Uma árvore de decisão é um gráfico de fluxo de árvore binário, onde, em cada nó interior, decide-se qual dos dois nós filhos continua, com base no valor de um dos recursos da entrada.

Em cada nó de folha, um valor é retornado. Nos nós interiores, a decisão é baseada no teste ' ' x ≤ v ', em que x é o valor do recurso no exemplo de entrada e v é um dos possíveis valores desse recurso. As funções que podem ser produzidas por uma árvore de regressão são constante funções de partes.

Em uma floresta aleatória, um Ensemble de árvores é criado usando bagging para selecionar um subconjunto de amostras aleatórias e recursos dos dados de treinamento e, em seguida, ajustar uma árvore de decisão a cada subconjunto de dados. Diferente do algoritmo de floresta aleatório, que calcula a média da saída de todas as árvores, a Regressão rápida de quantil de floresta mantém todos os rótulos previstos em árvores especificadas pelo parâmetro Contagem de exemplo de quantil e gera a distribuição, para que o usuário possa exibir os valores de quantil para a instância determinada.

Para obter mais informações sobre a regressão de Quantil, consulte estes livros e artigos:

Quantile Regression Forests. Nicolai Meinshausen

http://jmlr.org/papers/volume7/meinshausen06a/meinshausen06a.pdf
Random forests. Leo Breiman.

https://rd.springer.com/article/10.1023%2FA%3A1010933404324

Parâmetros do módulo

Nome	Tipo	Intervalo	Opcional	Descrição	Padrão
Criar modo de aprendizagem	CreateLearnerMode	Lista:Parameter Único\|Intervalo de Parâmetro	Obrigatório	Parâmetro único	Criar opções de aprendizagem avançadas
Número de árvores	Inteiro		modo:Parâmetro Único	100	Especificar o número de árvores a ser construído
Número de folhas	Inteiro		modo:Parâmetro Único	20	Especificar o número máximo de folhas por árvore. O número padrão é 20
Número mínimo de instâncias de treinamento necessário para formar uma folha	Inteiro		modo:Parâmetro Único	10	Indica o número mínimo de instâncias de treinamento necessário para formar uma folha
Fração de bagging	Float		modo:Parâmetro Único	0,7	Especifica a fração de dados de treinamento para uso em cada árvore
Fração de recurso	Float		modo:Parâmetro Único	0,7	Especifica a fração de recursos (escolhida aleatoriamente) a ser usada para cada árvore
Fração de divisão	Float		modo:Parâmetro Único	0,7	Especifica a fração de recursos (escolhida aleatoriamente) a ser usada para cada divisão
Contagem de exemplo de quantil	Inteiro	Máx.: 2147483647	modo:Parâmetro Único	100	Especifica o número de instâncias usadas em cada nó para estimar quantis
Quantis a serem estimados	Cadeia de caracteres		modo:Parâmetro Único	"0,25; 0.5; 0,75"	Especifica o quantil a ser estimado
Propagação de número aleatório	Inteiro		Opcional		Fornece uma propagação para o gerador de número aleatório usado pelo modelo. Deixe em branco por padrão.
Permitir níveis categóricos desconhecidos	Boolean		Obrigatório	true	Se true, crie um nível adicional para cada coluna categórica. Os níveis no conjunto de dados de teste não disponíveis no conjunto de dados de treinamento são mapeados para esse nível adicional.
Número máximo de folhas por árvore	ParameterRangeSettings	[16; 128]	modo:Intervalo de Parâmetro	16 32; 64	Especifica o intervalo do número máximo de folhas permitidas por árvore
Número de árvores construídas	ParameterRangeSettings	[1; 256]	modo:Intervalo de Parâmetro	16 32; 64	Especifica o intervalo do número máximo de árvores que podem ser criadas durante o treinamento
Número mínimo de amostras por nó folha	ParameterRangeSettings	[1;10]	modo:Intervalo de Parâmetro	uma 05 254	Especifica o intervalo do número mínimo de casos necessários para formar uma folha
Intervalo de fração de bagging	ParameterRangeSettings	[0,25; 1,0]	modo:Intervalo de Parâmetro	0,25; 0,5; 0,75	Especifica o intervalo das frações de dados de treinamento para uso em cada árvore
Intervalo de fração de recurso	ParameterRangeSettings	[0,25; 1,0]	modo:Intervalo de Parâmetro	0,25; 0,5; 0,75	Especifica o intervalo da fração de recursos (escolhida aleatoriamente) a ser usada para cada árvore
Intervalo da fração de divisão	ParameterRangeSettings	[0,25; 1,0]	modo:Intervalo de Parâmetro	0,25; 0,5; 0,75	Especifica o intervalo da fração de recursos (escolhida aleatoriamente) a ser usada para cada divisão
Contagem de exemplo usada para estimar os quantis	Inteiro		modo:Intervalo de Parâmetro	100	Contagem de exemplo usada para estimar os quantis
Valores de quantil necessários	Cadeia de caracteres		modo:Intervalo de Parâmetro	"0,25; 0.5; 0,75"	Valor de quantil obrigatório usado durante a varredura de parâmetros

Saídas

Nome	Tipo	Descrição
Modelo não treinado	Interface ILearner	Um modelo de regressão de quantis não treinado que pode ser conectado aos módulos Modelo genérico de treinamento ou Modelo de validação cruzada.

Confira também

Regressão