Regressão rápida de quantil de floresta

Este artigo descreve um módulo no designer do Azure Machine Learning.

Use esse componente para criar um modelo de regressão quantílica rápida de florestas em um pipeline. A regressão quantílica rápida de florestas será útil se você quiser saber mais sobre a distribuição do valor previsto, em vez de obter um valor único médio de previsão. Esse método tem muitos aplicativos, incluindo:

  • Previsão os preços

  • Estimativa do desempenho do aluno ou aplicação de gráficos de crescimento para avaliar o desenvolvimento do filho

  • Descobrir relações de previsão em casos onde há apenas uma relação fraca entre variáveis

Esse algoritmo de regressão é um método de aprendizado supervisionado, o que significa que ele requer um conjunto de dados marcado que inclui uma coluna de etiqueta. Como ele é um algoritmo de regressão, a coluna de etiqueta deve conter apenas valores numéricos.

Mais informações sobre a regressão quantílica

Há muitos tipos diferentes de regressão. De maneira geral, regressão significa ajustar um modelo a um destino expresso como um vetor numérico. No entanto, os estatísticos têm desenvolvido métodos cada vez mais avançados de regressão.

A definição mais simples de quantil é um valor que divide um conjunto de dados em grupos de tamanhos iguais; portanto, os valores quantílicos marcam os limites entre os grupos. Estatisticamente, quantis são os valores obtidos em intervalos regulares do inverso da CDF (função de distribuição cumulativa) de uma variável aleatória.

Embora os modelos de regressão linear tentem prever o valor de uma variável numérica usando uma só estimativa (o valor médio), às vezes, você precisará prever o intervalo ou toda a distribuição da variável de destino. Técnicas como regressão bayesiana e regressão quantílica foram desenvolvidas para esse propósito.

A regressão quantílica ajuda você a entender a distribuição do valor previsto. Os modelos de regressão de quantil em forma de árvore, como o usado neste componente, têm a vantagem adicional de poderem ser usados para prever distribuições não paramétricas.

Como configurar a regressão quantílica rápida de florestas

  1. Adicione o componente Regressão Quantílica Rápida de Florestas ao seu pipeline do designer. Você pode encontrar esse componente em Algoritmos de Machine Learning, na categoria Regressão.

  2. No painel direito do componente Regressão quantílica rápida de florestas, especifique como você deseja que o modelo seja treinado, configurando a opção Criar modo treinador.

    • Parâmetro único: se você sabe como configurar o modelo, informe um conjunto específico de valores como argumentos. Ao treinar o modelo, use a opção Treinar modelo.

    • Intervalo de parâmetros: caso você não tenha certeza de quais são os melhores parâmetros, faça uma verificação de parâmetros usando o componente Ajustar hiperparâmetros do modelo. O treinador faz a iteração com os vários valores que você especifica para encontrar a configuração ideal.

  3. Número de árvores: digite o número máximo de árvores que podem ser criadas no conjunto. Quando cria mais árvores, isso geralmente leva a maior precisão, mas a mais tempo de treinamento.

  4. Número de folhas: digite o número máximo de folhas, ou nós de terminal, que podem ser criadas em uma árvore.

  5. Número mínimo de instâncias de treinamento necessárias para formar uma folha: especifique o número mínimo de exemplos necessários para criar qualquer nó de terminal (folha) em uma árvore.

    Aumentando esse valor, você aumenta o limite para a criação de novas regras. Por exemplo, com o valor padrão de 1, um único caso pode causar uma nova regra a ser criada. Se você aumentar o valor para 5, os dados de treinamento precisam conter pelo menos 5 casos que atendem as mesmas condições.

  6. Fração de agrupamento: especifique um número entre 0 e 1 que represente a fração de amostras que serão usadas ao criar cada grupo de quantis. As amostras são escolhidas aleatoriamente, com substituição.

  7. Fração de divisão: digite um número entre 0 e 1 que represente a fração de recursos que serão usados em cada divisão da árvore. Os recursos usados sempre são escolhidos aleatoriamente.

  8. Quantis a serem estimados: digite uma lista separada por ponto e vírgula dos quantis para os quais você deseja que o modelo treine e crie previsões.

    Por exemplo, se você quiser criar um modelo que faça estimativas para quartis, você digitaria 0.25; 0.5; 0.75.

  9. Opcionalmente, digite um valor para Semente de número aleatório para especificar a semente do gerador de números aleatórios usado pelo modelo. O padrão é 0, que significa que uma semente aleatória é escolhida.

    Você deverá informar um valor se precisar reproduzir os resultados entre execuções sucessivas dos mesmos dados.

  10. Conecte o conjunto de dados de treinamento e o modelo não treinado a um dos componentes de treinamento:

    Aviso

    • Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.

    • Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    • Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  11. Enviar o pipeline.

Resultados

Após a conclusão do treinamento:

  • Para salvar um instantâneo do modelo treinado, escolha o componente de treinamento e, em seguida, acesse a guia Saídas+logs do painel direito. Clique no ícone Registrar conjunto de dados. Você pode encontrar o modelo salvo como componente na árvore de componentes.

Métricas da avaliação

Você pode usar o componente Avaliar Modelo para avaliar o modelo treinado. Para Regressão Quantílica de Floresta Rápida, as métricas são as seguintes.

  • Quantil Loss: Esta é uma medida do erro para um quantil específico em seu modelo.
  • Perda Quantílica Média: Esta é simplesmente a média dos valores de Perda Quantílica em todos os quantis considerados no modelo. Ele fornece uma medida geral de quão bem o modelo está se comportando em todos os quantis.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.