Regressão de Poisson

Artigo
06/01/2023

Este artigo descreve o componente no designer do Azure Machine Learning.

Use este componente para criar um modelo de Regressão de Poisson em um pipeline. A Regressão de Poisson destina-se à previsão de valores numéricos, normalmente contagens. Portanto, você deve usar este componente para criar seu modelo de regressão somente se os valores que você está tentando prever se ajustarem às seguintes condições:

A variável de resposta teve uma distribuição de Poisson.
As contagens não podem ser negativas. O método falhará totalmente, se você tentar usá-lo com rótulos negativos.
Uma distribuição de Poisson é uma distribuição discreta, portanto, não faz sentido usar esse método com números não inteiros.

Dica

Se o destino não for uma contagem, a regressão Poisson provavelmente não é um método apropriado. Experimente outros componentes de regressão no designer.

Depois de configurar o método de regressão, você deve treinar o modelo usando um conjunto de dados que contém exemplos do valor que você deseja prever. O modelo treinado pode então ser usado para fazer previsões.

Mais sobre a Regressão de Poisson

A regressão Poisson é um tipo especial de análise de regressão que é normalmente usado para contagens de modelos. Por exemplo, a regressão de Poisson seria útil nestes cenários:

Modelar o número de resfriados associados a voos de avião
Estimando o número de chamadas de serviço de emergência durante um evento
Projetando o número de consultas de clientes após uma promoção
Criar tabelas de contingência

Como a variável de resposta tem uma distribuição Poisson, o modelo faz suposições diferentes sobre os dados e sua distribuição de probabilidade do que, digamos, regressão de mínimos quadrados. Portanto, os modelos Poisson devem ser interpretados de forma diferente de outros modelos de regressão.

Como configurar a Regressão de Poisson

Adicione o componente Regressão de Poisson ao seu pipeline no designer. Você pode encontrar esse componente em Algoritmos de Machine Learning, na categoria Regressão.
Adicione um conjuntos de dados que contenham dados de treinamento do tipo correto.

É recomendável que você use Normalizar Dados para normalizar o conjunto de dados de entrada antes de usá-lo para treinar o regressor.
No painel direito do componente Regressão de Poisson, especifique como você deseja que o modelo seja treinado, configurando a opção Criar modo treinador.
- Parâmetro único: se você sabe como configurar o modelo, informe um conjunto específico de valores como argumentos.
- Intervalo de parâmetros: caso você não tenha certeza de quais são os melhores parâmetros, faça uma verificação de parâmetros usando o componente Ajustar hiperparâmetros do modelo. O treinador faz a iteração com os vários valores que você especifica para encontrar a configuração ideal.
Tolerância de otimização: digite um valor que define o intervalo de tolerância a falhas durante a otimização. Quanto menor o valor, mais lento e mais preciso o ajuste.
Peso de regularização de L1 e peso de regularização L2: digite valores a serem usados para regularização de L1 e L2. A Regularização adiciona restrições ao algoritmo sobre aspectos do modelo que são independentes dos dados de treinamento. A regularização também é usada para evitar o sobreajuste.
- A regularização L1 será útil se o objetivo for ter um modelo que seja o mais esparso possível.
  
  A regularização L1 é feita subtraindo-se o peso de L1 do vetor de peso da expressão de perda que o aprendiz está tentando minimizar. A norma L1 é uma boa aproximação para a norma L0, que é o número de coordenadas diferente de zero.
- A regularização L2 impede o crescimento excessivo de qualquer coordenada única em magnitude. A regularização L2 é útil se o objetivo é ter um modelo com pequenos pesos gerais.
Neste componente, você pode aplicar uma combinação de regularizações L1 e L2. Através da combinação das regularizações L1 e L2, você pode impor uma penalidade na magnitude dos valores de parâmetro. O aprendiz tenta minimizar a penalização, em um compromisso com minimização de perda.

Para uma boa discussão sobre a regularização L1 e L2, veja Regularização L1e L2 para Machine Learning.
Tamanho da memória para L-BFGS: especifique a quantidade de memória a ser reservada para ajuste e otimização do modelo.

O L-BFGS é um método específico para otimização, com base no algoritmo BFGS (Broyden–Goldfarb–Snowno). O método usa uma quantidade limitada de memória (L) para calcular a direção da próxima etapa.

Ao alterar esse parâmetro, você pode especificar o número de posições e gradientes anteriores para armazenar o cálculo da próxima etapa.
Conecte o conjunto de dados de treinamento e o modelo não treinado a um dos componentes de treinamento:
- Se você configurar Criar modo treinador como Parâmetro Único, use o componente Treinar Modelo.
- Se você configurar Criar modo treinador como Intervalo de Parâmetros, use o componente Ajustar Hiperparâmetros do Modelo.
Aviso
- Se você transmitir um intervalo de parâmetros para o módulo Treinar modelo, ele usará apenas o primeiro valor da lista de intervalo de parâmetros.
- Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.
- Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.
Enviar o pipeline.

Resultados

Após a conclusão do treinamento:

Para salvar um instantâneo do modelo treinado, escolha o componente de treinamento e, em seguida, acesse a guia Saídas+logs do painel direito. Clique no ícone Registrar conjunto de dados. Você pode encontrar o modelo salvo como componente na árvore de componentes.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.

Regressão de Poisson

Mais sobre a Regressão de Poisson

Como configurar a Regressão de Poisson

Resultados

Próximas etapas

Recursos adicionais