Módulo de Regressão Logística de Duas Classes

Este artigo descreve um módulo no designer do Azure Machine Learning.

Use este módulo para criar um modelo de regressão logística que pode ser usado para prever dois (e apenas dois) resultados.

A regressão logística é uma técnica estatística conhecida que é usada para modelar os vários tipos de resultados. Esse algoritmo é um método de aprendizado supervisionado; Portanto, você deve fornecer um conjunto de um conjunto de dados que já contém os resultados para treinar o modelo.

Sobre a regressão logística

A regressão logística é um método conhecido em estatística que é usado para prever a probabilidade de um resultado e é popular especialmente por tarefas de classificação. O algoritmo prevê a probabilidade de ocorrência de um evento ajustando dados para uma função logística.

Neste módulo, o algoritmo de classificação é otimizado para dicotômicas ou variáveis binárias. Se você precisar classificar vários resultados, use o módulo Regressão Logística Multiclasse.

Como configurar

Para treinar esse modelo, você deve fornecer um conjunto de um dados que contenha uma coluna de rótulo ou de classe. Como esse módulo destina-se a problemas de duas classes, a coluna de rótulo ou de classe deve conter exatamente dois valores.

Por exemplo, a coluna de rótulo pode ser [voto] com os valores possíveis de "Sim" ou "Não". Ou, pode ser [Risco de Crédito], com os valores possíveis de "Alto" ou "Baixo".

  1. Adicione o módulo Regressão Logística de Duas Classes ao seu pipeline.

  2. Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.

    • Parâmetro Único: se você sabe como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos.

    • Intervalo de Parâmetros: caso não tenha certeza de quais são os melhores parâmetros, você pode encontrar os parâmetros ideais usando o módulo Ajustar Hiperparâmetros do Modelo. Você fornece algum intervalo de valores, e o treinador itera com várias combinações de configurações para determinar a combinação de valores que produz o melhor resultado.

  3. Para a tolerância de otimização, especifique um valor de limite a ser usado ao otimizar o modelo. Se a melhoria entre as iterações cair abaixo do limite especificado, o algoritmo será considerado convergido em uma solução e o treinamento será interrompido.

  4. Para o peso de regularização L1 e peso de regularização L2, digite um valor a ser usado para os parâmetros de regularização L1 e L2. Um valor diferente de zero é recomendado para ambos.
    A Regularização é um método para evitar o sobreajuste prejudicando modelos com valores extremos. A regularização funciona adicionando a penalidade associada com valores de coeficiente para o erro da hipótese. Assim, um modelo preciso com valores coeficientes extremos poderia ser mais penalizado, mas um modelo menos preciso com valores mais conservadores poderia ser menos penalizado.

    As regularizações L1 e L2 têm efeitos e usos diferentes.

    • L1 pode ser aplicado aos modelos esparsos, que é útil ao trabalhar com dados de grande dimensão.

    • Por outro lado, a regularização L2 é preferível para dados que não são esparsos.

    Este algoritmo dá suporte a uma combinação linear de valores de regularização L1 e L2: ou seja, se x = L1 e y = L2, então ax + by = c define o intervalo linear dos termos de regularização.

    Observação

    Você gostaria de saber mais sobre a regularização de L1 e L2? O artigo a seguir fornece uma discussão de como a regularização L1 e L2 é diferente e como elas afetam o ajuste de modelo, com exemplos de código para a regressão logística e modelos de rede neural: a regularização L1 e L2 para Machine Learning

    Combinações lineares diferentes dos termos de L1 e L2 foram elaborados para modelos de regressão logística: por exemplo, regularização de rede elástica. Sugerimos que você referencie essas combinações para definir uma combinação linear efetiva no seu modelo.

  5. Para o tamanho da memória para L-BFGS, especifique a quantidade de memória a ser usada para a otimização de L-BFGS.

    L-BFGS significa “Broyden-Fletcher-Goldfarb-Shanno de memória limitada”. É um algoritmo de otimização que é conhecido por estimativa de parâmetro. Esse parâmetro indica o número de posições anteriores e gradientes a armazenar o cálculo da próxima etapa.

    Esse parâmetro de otimização limita a quantidade de memória usada para calcular a próxima etapa e direção. Quando você especifica menos memória, o treinamento é mais rápido, mas menos preciso.

  6. Para semente de número aleatório, digite um valor inteiro. Definir um valor de semente é importante se você quiser que os resultados sejam reproduzidos em várias execuções do mesmo pipeline.

  7. Adicione um conjunto de dados rotulado ao pipeline e treine o modelo:

    • Se definir Criar Modo de Treinador como um Parâmetro Único, conecte um conjunto de dados marcado e o módulo Treinar Modelo.

    • Se definir Criar Modo de Treinador como Intervalo de Parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar Hiperparâmetros do Modelo.

    Observação

    Se passar um intervalo de parâmetros para o Treinar Modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se passar um único conjunto de valores de parâmetro para o módulo Ajustar Hiperparâmetros do Modelo, quando ele espera um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se selecionar a opção Intervalo de Parâmetros e inserir um único valor para qualquer parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  8. Enviar o pipeline.

Resultados

Após a conclusão do treinamento:

  • Para fazer previsões sobre novos dados, use o modelo treinado e novos dados como entrada para o módulo Modelo de Pontuação.

Próximas etapas

Confira o conjunto de módulos disponíveis no Azure Machine Learning.