Componente Regressão Logística de Duas Classes

Este artigo descreve o componente no Azure Machine Learning Designer.

Use este componente para criar um modelo de regressão logística que pode ser usado para prever dois (e apenas dois) resultados.

A regressão logística é uma técnica estatística conhecida que é usada para modelar os vários tipos de resultados. Esse algoritmo é um método de aprendizado supervisionado. Portanto, você deve fornecer um conjunto de um conjunto de dados que já contém os resultados para treinar o modelo.

Sobre a regressão logística

A regressão logística é um método conhecido em estatística que é usado para prever a probabilidade de um resultado e é popular especialmente por tarefas de classificação. O algoritmo prevê a probabilidade de ocorrência de um evento ajustando dados para uma função logística.

Neste componente, o algoritmo de classificação é otimizado para dicotômicas ou variáveis binárias. Se você precisar classificar vários resultados, use o componente Regressão Logística Multiclasse.

Como configurar

Para treinar esse modelo, você deve fornecer um conjunto de um dados que contenha uma coluna de rótulo ou de classe. Como esse componente destina-se a problemas de duas classes, a coluna de rótulo ou de classe deve conter exatamente dois valores.

Por exemplo, a coluna de rótulo pode ser [voto] com os valores possíveis de "Sim" ou "Não". Ou, pode ser [Risco de Crédito], com os valores possíveis de "Alto" ou "Baixo".

  1. Adicione o componente Regressão Logística de Duas Classes ao seu pipeline.

  2. Especifique de que modo você quer que o modelo seja treinado ao definir a opção Criar modo de treinador.

    • Parâmetro Único: se você sabe como deseja configurar o modelo, é possível fornecer um conjunto específico de valores como argumentos.

    • Intervalo de Parâmetros: caso não tenha certeza de quais são os melhores parâmetros, você pode encontrar os parâmetros ideais usando o componente Ajustar Hiperparâmetros do Modelo. Você fornece algum intervalo de valores, e o treinador itera com várias combinações de configurações para determinar a combinação de valores que produz o melhor resultado.

  3. Para a tolerância de otimização, especifique um valor de limite a ser usado ao otimizar o modelo. Se a melhoria entre as iterações cair abaixo do limite especificado, o algoritmo será considerado convergido em uma solução e o treinamento será interrompido.

  4. Para opeso de regularização L1 e peso de regularização L2, digite um valor a ser usado para os parâmetros de regularização L1 e L2. Um valor diferente de zero é recomendado para ambos.
    A Regularização é um método para evitar o sobreajuste prejudicando modelos com valores extremos. A regularização funciona adicionando a penalidade associada com valores de coeficiente para o erro da hipótese. Assim, um modelo preciso com valores coeficientes extremos poderia ser mais penalizado, mas um modelo menos preciso com valores mais conservadores poderia ser menos penalizado.

    As regularizações L1 e L2 têm efeitos e usos diferentes.

    • L1 pode ser aplicado aos modelos esparsos, que é útil ao trabalhar com dados de grande dimensão.

    • Por outro lado, a regularização L2 é preferível para dados que não são esparsos.

    Este algoritmo dá suporte a uma combinação linear de valores de regularização L1 e L2: ou seja, se x = L1 e y = L2, então ax + by = c define o intervalo linear dos termos de regularização.

    Observação

    Você gostaria de saber mais sobre a regularização de L1 e L2? O artigo a seguir fornece uma discussão de como a regularização L1 e L2 é diferente e como elas afetam o ajuste de modelo, com exemplos de código para a regressão logística e modelos de rede neural: a regularização L1 e L2 para Machine Learning

    Combinações lineares diferentes dos termos de L1 e L2 foram elaborados para modelos de regressão logística: por exemplo, regularização de rede elástica. Sugerimos que você referencie essas combinações para definir uma combinação linear efetiva no seu modelo.

  5. Para o tamanho da memória para L-BFGS, especifique a quantidade de memória a ser usada para a otimização de L-BFGS.

    L-BFGS significa “Broyden-Fletcher-Goldfarb-Shanno de memória limitada”. É um algoritmo de otimização que é conhecido por estimativa de parâmetro. Esse parâmetro indica o número de posições anteriores e gradientes a armazenar o cálculo da próxima etapa.

    Esse parâmetro de otimização limita a quantidade de memória usada para calcular a próxima etapa e direção. Quando você especifica menos memória, o treinamento é mais rápido, mas menos preciso.

  6. Para semente de número aleatório, digite um valor inteiro. Definir um valor de semente é importante se você quiser que os resultados sejam reproduzidos em várias execuções do mesmo pipeline.

  7. Adicione um conjunto de dados rotulado ao pipeline e treine o modelo:

    • Se você definir Criar modo treinador como Parâmetro Único, conecte um conjunto de dados marcado e o componente Treinar Modelo.

    • Se definir Criar modo de aprendizagem como Intervalo de parâmetros, conecte um conjunto de dados marcado e treine o modelo usando Ajustar hiperparâmetros do modelo.

    Observação

    Se você passar um intervalo de parâmetros para Treinar modelo, ele usará apenas o valor padrão na lista de parâmetros únicos.

    Se você passar apenas um conjunto de valores de parâmetro para o componente Ajustar Hiperparâmetros do Modelo, quando ele espera receber um intervalo de configurações para cada parâmetro, ele ignorará os valores e usará os valores padrão para o aprendiz.

    Se escolher a opção Intervalo de Parâmetros e inserir um único valor para um parâmetro, esse valor único especificado será usado em toda a varredura, mesmo que outros parâmetros sejam alterados em um intervalo de valores.

  8. Enviar o pipeline.

Resultados

Após a conclusão do treinamento:

  • Para fazer previsões sobre novos dados, use o modelo treinado e novos dados como entrada para o componente Pontuação do Modelo.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.