Regressão Logística de Duas Classes

Artigo
05/06/2019

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Cria um modelo de regressão logística de duas classes

Categoria: Machine Learning / Modelo de Inicialização / Classificação

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo de regressão logística de duas classes no Machine Learning Studio (clássico), para criar um modelo de regressão logística que pode ser usado para prever dois (e apenas dois) resultados.

A regressão logística é uma técnica estatística bem conhecida que é usada para modelar muitos tipos de problemas. Este algoritmo é um método de aprendizagem supervisionado ; portanto, deve fornecer um conjunto de dados que já contenha os resultados para treinar o modelo.

Mais sobre regressão logística

A regressão logística é um método bem conhecido nas estatísticas que é usado para prever a probabilidade de um resultado, e é especialmente popular para tarefas de classificação. O algoritmo prevê a probabilidade de ocorrência de um evento, adaptando dados a uma função logística. Para mais informações sobre esta implementação, consulte a secção Notas Técnicas .

Neste módulo, o algoritmo de classificação é otimizado para variáveis dicotomias ou binárias. se precisar de classificar vários resultados, utilize o módulo de regressão logística multiclasse .

Como configurar Two-Class Regressão Logística

Para treinar este modelo, tem de fornecer um conjunto de dados que contenha uma etiqueta ou coluna de classe. Uma vez que este módulo se destina a problemas de duas classes, o rótulo ou coluna de classe deve conter exatamente dois valores.

Por exemplo, a coluna de etiquetas pode ser [Votada] com possíveis valores de "Sim" ou "Não". Ou, pode ser [Risco de Crédito], com possíveis valores de "Alto" ou "Baixo".

Adicione o módulo de regressão logística de duas classes à sua experiência em Studio (clássico).
Especifique como pretende que o modelo seja treinado, definindo a opção modo de formação Criar .
- Parâmetro único: Se souber como pretende configurar o modelo, pode fornecer um conjunto específico de valores como argumentos.
- Intervalo de parâmetros: Se não tiver a certeza dos melhores parâmetros, pode encontrar os parâmetros ideais especificando vários valores e utilizando o módulo Tune Model Hyperparameters para encontrar a configuração ideal. O treinador itera sobre várias combinações das configurações e determina a combinação de valores que produz o melhor modelo.
Para a tolerância à otimização, especifique um valor limiar a utilizar ao otimizar o modelo. Se a melhoria entre iterações ficar abaixo do limiar especificado, considera-se que o algoritmo convergiu numa solução e o treino para.
Para o peso de regularização L1 e o peso de regularização L2, escreva um valor a utilizar para os parâmetros de regularização L1 e L2. Recomenda-se um valor não zero para ambos.

A regularização é um método para prevenir a sobremontagem, penalizando modelos com valores de coeficiente extremos. A regularização funciona adicionando a penalidade que está associada aos valores do coeficiente ao erro da hipótese. Assim, um modelo preciso com valores de coeficiente extremo seria penalizado mais, mas um modelo menos preciso com valores mais conservadores seria menos penalizado.

A regularização L1 e L2 tem efeitos e utilizações diferentes.
- L1 pode ser aplicado em modelos escassos, o que é útil quando se trabalha com dados de alta dimensão.
- Em contrapartida, a regularização L2 é preferível para dados que não são escassos.
Este algoritmo suporta uma combinação linear de valores de regularização L1 e L2: isto é, se x = L1 e y = L2, em seguida ax + by = c , define o período linear dos termos de regularização.

Nota

Quer saber mais sobre a regularização L1 e L2? O seguinte artigo fornece uma discussão sobre como a regularização L1 e L2 são diferentes e como afetam a montagem do modelo, com amostras de código para regressão logística e modelos de rede neural: Regularização L1 e L2 para Machine Learning

Diferentes combinações lineares de termos L1 e L2 foram concebidas para modelos de regressão logística: por exemplo, regularização líquida elástica. Sugerimos que faça referência a estas combinações para definir uma combinação linear que seja eficaz no seu modelo.
Para o tamanho da memória para L-BFGS, especifique a quantidade de memória a utilizar para a otimização L-BFGS .

L-BFGS significa "memória limitada Broyden-Fletcher-Goldfarb-Shanno". É um algoritmo de otimização que é popular para a estimativa de parâmetros. Este parâmetro indica o número de posições e gradientes passados para armazenar para a computação do passo seguinte.

Este parâmetro de otimização limita a quantidade de memória que é usada para calcular o próximo passo e direção. Quando se especifica menos memória, o treino é mais rápido, mas menos preciso.
Para sementes de número aleatório, digite um valor inteiro. Definir um valor de semente é importante se quiser que os resultados sejam reprodutíveis ao longo de várias séries da mesma experiência.
Selecione a opção permitir níveis categóricos desconhecidos para criar um nível adicional de "desconhecido" em cada coluna categórica. Se o fizer, quaisquer valores (níveis) no conjunto de dados de teste que não estejam disponíveis no conjunto de dados de formação são mapeados para este nível "desconhecido".
Adicione um conjunto de dados marcado à experiência e ligue um dos módulos de treino.
- Se definir Criar modo de treinador para único parâmetro, utilize o módulo Modelo de Comboio .
- Se definir Criar modo de treinador para intervalo de parâmetros, utilize o módulo de hiperparametros do modelo de melodia .
Nota

Se passar uma gama de parâmetros para o Modelo de Comboio, utilizará apenas o primeiro valor na lista de parâmetros.

Se passar um único conjunto de valores de parâmetros para o módulo Tune Model Hyperparameters , quando espera uma gama de definições para cada parâmetro, ignora os valores e utiliza os valores predefinidos para o aluno.

Se selecionar a opção De Alcance de Parâmetros e introduzir um único valor para qualquer parâmetro, esse valor único especificado será utilizado ao longo da varredura, mesmo que outros parâmetros se alterem numa gama de valores.
Execute a experimentação.

Resultados

Após o treino estar completo:

Para ver um resumo dos parâmetros do modelo, juntamente com os pesos de recurso aprendidos com o treino, clique com o botão direito na saída do Model de Comboio ou dos Hiperparímetros do Modelo de Sintonização e selecione Visualize.
Para fazer previsões sobre novos dados, utilize o modelo treinado e novos dados como entrada para o módulo 'Modelo de Pontuação '.
Para efetuar a validação cruzada contra um conjunto de dados rotulado, ligue os dados e o modelo não treinado ao Modelo De Validação Cruzada.

Exemplos

Por exemplo, como este algoritmo de aprendizagem é usado, consulte a Galeria Azure AI:

Deteção de intrusão em rede: Utiliza regressão logística binária para determinar se um caso representa uma intrusão.
Validação cruzada para classificador binário: Demonstra o uso da regressão logística num fluxo de trabalho experimental típico, incluindo a avaliação do modelo.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Dicas de utilização

A regressão logística requer variáveis numéricas. Portanto, quando se utilizam colunas categóricas como variáveis, Machine Learning converte os valores num conjunto indicador internamente.

Para datas e horários, é utilizada uma representação numérica. (Para obter mais informações sobre os valores da hora da data, consulte a Estrutura hora de data (.NET Framework) - Observações.) Se quiser lidar com datas e horários de forma diferente, sugerimos que crie uma coluna derivada.

Detalhes de implementação

A regressão logística pressupõe uma distribuição logística dos dados, onde a probabilidade de um exemplo pertencer à classe 1 é a fórmula:

p(x;β0,…, βD-1)

Em que:

x é um vetor d-dimensional que contém os valores de todas as características do caso.
p é a função de distribuição logística.
β{0},..., β {D-1} são os parâmetros desconhecidos da distribuição logística.

O algoritmo tenta encontrar os valores ideais para β{0},..., β {D-1} maximizar a probabilidade de registo dos parâmetros dadas as entradas. A maximização é realizada utilizando um método popular para a estimativa de parâmetros, chamado BFGS de Memória Limitada.

Investigação

Para obter mais informações sobre a implementação deste algoritmo, consulte a Formação Escalável de Modelos de Log-Linear Regularizados L-1, por Andrew e Gao.

Parâmetros do módulo

Nome	Intervalo	Tipo	Predefinição	Description
Tolerância à otimização	>=duplo. Epsilon	Float	0.0000001	Especificar um valor de tolerância para o otimizador L-BFGS
Peso de regularização L1	>=0.0	Float	1.0	Especificar o peso da regularização L1
Peso de regularização L2	>=0.0	Float	1.0	Especificar o peso da regularização L2
Tamanho da memória para L-BFGS	>=1	Número inteiro	20	Especificar a quantidade de memória (em MB) para utilizar para o otimizador L-BFGS
Semente de número aleatório	Qualquer	Número inteiro		Digite um valor para semear o gerador de números aleatórios utilizado pelo modelo. Deixe-o em branco para o padrão.
Permitir níveis categóricos desconhecidos	Qualquer	Booleano	Verdadeiro	Indique se deve ser criado um nível adicional para cada coluna categórica. Quaisquer níveis no conjunto de dados de teste que não estejam disponíveis no conjunto de dados de formação são mapeados para este nível adicional.

Saída

Nome	Tipo	Description
Modelo destreinado	Interface ILearner	Um modelo de classificação destreinado

Ver também

Classificação

Regressão Logística de Várias Classes

Lista de Módulos A-Z