Regressão Ordinal

Cria um modelo de regressão ordinal

Categoria: Machine Learning / Initialize Model / Regression

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo de Regressão Ordinal no Azure Machine Learning Studio (clássico), para criar um modelo de regressão que pode ser usado para prever valores classificados.

Alguns exemplos de valores classificados:

  • Respostas de inquérito que captam as marcas preferidas do utilizador numa escala de 1 a 5
  • A ordem dos finalistas numa corrida
  • URLs em resultados de pesquisa classificados

Mais sobre a regressão ordinal

A regressão ordinal é usada quando a etiqueta ou coluna-alvo contém números, mas os números representam um ranking ou ordem em vez de uma medição numérica.

Prever números ordinais requer um algoritmo diferente do que prever os valores dos números numa escala contínua, porque os números atribuídos para representar a ordem de classificação não têm escala intrínseca.

Por exemplo, para prever as notas dos alunos, usaria um modelo padrão de regressão, porque as notas dos alunos variam numa escala contínua e podem ser medidas. No entanto, para prever o seu ranking de classe, deve utilizar um modelo de regressão ordinal.

Para obter mais informações sobre a pesquisa por trás deste algoritmo, consulte este artigo (PDF transferível): https://papers.nips.cc/paper/3125-ordinal-regression-by-extended-binary-classification.pdf

Como configurar a Regressão Ordinal

Este módulo resolve um problema de classificação como uma série de problemas de classificação relacionados. Portanto, o algoritmo cria uma série de exemplos de treino alargado usando um modelo binário para cada posto, e treina contra esse conjunto estendido. Esta operação pode ser computacionalmente cara.

  1. Adicione o módulo Modelo de Regressão Ordinal à sua experiência no Studio (clássico). Pode encontrar este módulo na categoria Machine Learning - Initialize, na categoria Regression.

  2. Adicione um módulo que suporta a classificação binária e configuure o modelo. Existem vários módulos de duas classes na categoria de classificação.

  3. Ligue o modelo de classificação binária como uma entrada ao módulo Modelo de Regressão Ordinal.

  4. Não são necessários parâmetros adicionais no Modelo de Regressão Ordinal; o algoritmo foi pré-configurado com os parâmetros mais eficazes para resolver um problema de classificação.

  5. Ligue um conjunto de dados de treino e o módulo Modelo de Comboio.

  6. No módulo Modelo de Comboio, selecione a coluna que contém os valores de classificação.

    Os valores de classificação devem ser valores numéricos, mas não precisam de ser inteiros ou números positivos, desde que representem uma sequência.

    Para efeitos de processamento, presume-se que as fileiras têm a ordem 1 a K, onde 1 é a classificação mais baixa, e K é a classificação mais alta. No entanto, o módulo Train Model pode funcionar mesmo que a semântica da sua escala seja invertida.

    Por exemplo, se na sua pesquisa original, 1 foi a pontuação mais alta e 5 é a mais baixa, não afeta o processamento do modelo.

  7. Execute a experimentação.

Resultados

Após o treino estar completo:

  • Para fazer previsões, ligue o modelo treinado, juntamente com novos dados, ao módulo 'Modelo de Pontuação'.

  • Para efetuar a validação cruzada contra um conjunto de dados rotulado, ligue o modelo não treinado ao Modelo De Validação Cruzada.

Exemplos

Por exemplo, como a regressão ordinal é utilizada na aprendizagem automática, consulte a Galeria Azure AI.

  • Manutenção Preditiva - Passo C: Nesta amostra, a Regressão Ordinal é utilizada para classificar valores de saída por um modelo de classificação, assumindo que o valor reflete a gravidade da classificação por falha.

Notas técnicas

O algoritmo de regressão ordinal utilizado neste aluno é implementado por uma classificação binária alargada, conforme descrito pelo artigo intitulado Regression Ordinal por Extended Binary Classification, por Ling Li e Hsuan-Tien Lin, em NIPS 2006.

Restrições aos dados de entrada

Pode utilizar qualquer coluna numérica como alvo de um modelo de regressão ordinal, mas na prática deve utilizar apenas dados que representem algum tipo de ordem ou classificação.

Presume-se que os intervalos entre as fileiras são desconhecidos e o tamanho do intervalo não interessa ao modelo; no entanto, o modelo assume que a sequência de fileiras segue a ordem natural dos números.

O modelo em si não atribui qualquer significado a uma escala particular. Por outras palavras, pode criar um modelo em que 1 é um bom rank e 10 é o pior, e em outro modelo assume que 10 é a classificação desejada e 1 é o pior.

Algoritmo de classificação

O conjunto de treino (X,Y) consiste em vetores de entrada x e rótulos y. As etiquetas representam classificações que variam de 1 a k em sequência: 1,2, ... , K. Presume-se que as fileiras são ordenadas de tal forma que 1 é a mais baixa ou a pior classificação, e K é o melhor ou o mais alto escalão.

O cerne do algoritmo consiste em modificar as características de entrada dadas X e etiquetas Y para usar exemplos estendidos e, em seguida, usar um classificador binário para resolver o problema de regressão ordinal. O classificador binário é treinado para dar uma resposta sim/não à pergunta: "A classificação é maior que r?"

Por exemplo, para cada caso no conjunto de treino existem exemplos alargados K-1, e a classificação máxima observada é K. As características estendidas são formadas através da ith row de uma matriz de identidade K-1 x K-1 às características de entrada para todos os i. As etiquetas são dadas +1 para as primeiras linhas r-1 se a sua classificação for r e -1 para as restantes.

Cálculos de amostras

Para ilustrar como funciona, que x1 seja a característica de treino cujo posto é 3, onde a classificação máxima observada é 5. Os exemplos alargados correspondentes a esta característica são os seguintes:

Caso Teste Etiqueta resultante
X11000 A classificação é maior que 1? Sim, o que é isto? portanto, +1
X10100 A classificação é maior que 2? Sim, o que é isto? portanto, +1
X10010 A classificação é superior a 3? Não, não, não, não. portanto, nenhuma característica adicional
X10001 A classificação é superior a 4? Não, não, não, não. portanto, nenhuma característica adicional

Entradas esperadas

Nome Tipo Descrição
Modelo de classificação binária não treinado Interface ILearner Um modelo de classificação binária destreinada

Saídas

Nome Tipo Descrição
Modelo destreinado Interface ILearner Um modelo de regressão ordinal destreinado

Ver também

Regressão