Desempenho e equidade dos modelos

Este artigo descreve os métodos que pode utilizar para compreender o desempenho e a equidade do modelo no Azure Machine Learning.

O que é a justiça de machine learning?

A inteligência artificial e os sistemas de machine learning podem apresentar comportamentos injustos. Uma forma de definir comportamentos injustos é através do seu mal ou do seu impacto nas pessoas. Os sistemas de IA podem causar muitos tipos de danos. Para saber mais, veja o keynote neurIPS 2017 de Kate Crawford.

Dois tipos comuns de danos causados por IA são:

  • Danos de alocação: um sistema de IA expande ou retém oportunidades, recursos ou informações para determinados grupos. Exemplos incluem contratação, admissões escolares e empréstimos, onde um modelo pode ser melhor na escolha de bons candidatos entre um grupo específico de pessoas do que entre outros grupos.

  • Danos na qualidade do serviço: um sistema de IA não funciona tão bem para um grupo de pessoas como para outro. Por exemplo, um sistema de reconhecimento de voz pode não funcionar tão bem para as mulheres como para os homens.

Para reduzir o comportamento injusto nos sistemas de IA, tem de avaliar e mitigar estes danos. O componente de descrição geral do modelo do dashboard de IA Responsável contribui para a fase de identificação do ciclo de vida do modelo ao gerar métricas de desempenho do modelo para todo o conjunto de dados e para as coortes de dados identificadas. Gera estas métricas entre subgrupos identificados em termos de funcionalidades confidenciais ou atributos confidenciais.

Nota

A justiça é um desafio socio-técnico. As métricas de equidade quantitativa não captam muitos aspectos da justiça, como a justiça e o devido processo. Além disso, muitas métricas de equidade quantitativa não podem ser satisfeitas simultaneamente.

O objetivo do pacote open source fairlearn é permitir que os seres humanos avaliem as estratégias de impacto e mitigação. Em última análise, cabe aos humanos que criam modelos de IA e machine learning fazer compromissos adequados aos seus cenários.

Neste componente do dashboard de IA Responsável, a equidade é conceptualizada através de uma abordagem conhecida como equidade de grupo. Esta abordagem pergunta: "Que grupos de indivíduos estão em risco de sofrer danos?" O termo funcionalidades sensíveis sugere que o estruturador de sistema deve ser sensível a estas funcionalidades ao avaliar a equidade do grupo.

Durante a fase de avaliação, a equidade é quantificada através de métricas de disparidade. Estas métricas podem avaliar e comparar o comportamento do modelo entre grupos como proporções ou como diferenças. O dashboard de IA Responsável suporta duas classes de métricas de disparidade:

  • Disparidade no desempenho do modelo: estes conjuntos de métricas calculam a disparidade (diferença) nos valores da métrica de desempenho selecionada em subgrupos de dados. Eis alguns exemplos:

    • Disparidade na taxa de precisão
    • Disparidade na taxa de erro
    • Disparidade na precisão
    • Disparidade na recuperação
    • Disparidade no erro absoluto médio (MAE)
  • Disparidade na taxa de seleção: esta métrica contém a diferença na taxa de seleção (predição favorável) entre subgrupos. Um exemplo disso é a disparidade na taxa de aprovação de empréstimos. Taxa de seleção significa a fração de pontos de dados em cada classe classificada como 1 (na classificação binária) ou distribuição de valores de predição (em regressão).

As capacidades de avaliação da equidade deste componente são provenientes do pacote Fairlearn . O Fairlearn fornece uma coleção de métricas de avaliação de equidade de modelos e algoritmos de mitigação de injustiça.

Nota

Uma avaliação da equidade não é um exercício puramente técnico. O pacote open source do Fairlearn pode identificar métricas quantitativas para o ajudar a avaliar a equidade de um modelo, mas não realizará a avaliação por si. Tem de realizar uma análise qualitativa para avaliar a equidade dos seus próprios modelos. As funcionalidades confidenciais mencionadas anteriormente são um exemplo deste tipo de análise qualitativa.

Restrições de paridade para mitigar a injustiça

Depois de compreender os problemas de equidade do modelo, pode utilizar os algoritmos de mitigação no pacote open source fairlearn para mitigar esses problemas. Estes algoritmos suportam um conjunto de restrições no comportamento do preditor denominados restrições de paridade ou critérios .

As restrições de paridade requerem que alguns aspetos do comportamento do preditor sejam comparáveis entre os grupos que as funcionalidades sensíveis definem (por exemplo, raças diferentes). Os algoritmos de mitigação no pacote open source fairlearn utilizam essas restrições de paridade para mitigar os problemas de equidade observados.

Nota

Os algoritmos de mitigação da injustiça no pacote open source fairlearn podem fornecer estratégias de mitigação sugeridas para reduzir a injustiça num modelo de machine learning, mas essas estratégias não eliminam a injustiça. Os programadores poderão ter de considerar outras restrições de paridade ou critérios para os respetivos modelos de machine learning. Os programadores que utilizam o Azure Machine Learning têm de determinar por si próprios se a mitigação reduz suficientemente a injustiça na utilização e implementação pretendidas de modelos de machine learning.

O pacote Fairlearn suporta os seguintes tipos de restrições de paridade:

Restrição de paridade Objetivo Tarefa de machine learning
Paridade demográfica Mitigar danos de alocação Classificação binária, regressão
Probabilidades iguais Diagnosticar danos na alocação e qualidade do serviço Classificação binária
Igualdade de oportunidades Diagnosticar danos na alocação e qualidade do serviço Classificação binária
Perda de grupo vinculada Mitigar danos de qualidade de serviço Regressão

Algoritmos de mitigação

O pacote open source fairlearn fornece dois tipos de algoritmos de mitigação de injustiça:

  • Redução: estes algoritmos utilizam um avaliador padrão de machine learning de caixa preta (por exemplo, um modelo LightGBM) e geram um conjunto de modelos preparados novamente com uma sequência de conjuntos de dados de preparação com peso redimensionado.

    Por exemplo, os candidatos de um determinado género podem ser ponderados ou reduzidos para voltar a preparar modelos e reduzir as disparidades entre grupos de género. Em seguida, os utilizadores podem escolher um modelo que proporcione a melhor troca entre a precisão (ou outra métrica de desempenho) e a disparidade, com base nas regras de negócio e nos cálculos de custos.

  • Pós-processamento: estes algoritmos assumem um classificador existente e uma funcionalidade confidencial como entrada. Em seguida, derivam de uma transformação da predição do classificador para impor as restrições de equidade especificadas. A maior vantagem de um algoritmo pós-processamento, a otimização de limiares, é a sua simplicidade e flexibilidade, uma vez que não precisa de voltar a preparar o modelo.

Algoritmo Descrição Tarefa de machine learning Funcionalidades confidenciais Restrições de paridade suportadas Tipo de algoritmo
ExponentiatedGradient Abordagem de caixa preta à classificação justa descrita em Abordagem de Reduções a Classificação Justa. Classificação binária Categórico Paridade demográfica, probabilidades igualadas Redução
GridSearch Abordagem de caixa preta descrita em Abordagem de Reduções a Classificação Justa. Classificação binária Binário Paridade demográfica, probabilidades igualadas Redução
GridSearch Abordagem de caixa preta que implementa uma variante de pesquisa de grelha de regressão justa com o algoritmo para perda de grupo limitada descrita em Regressão Justa: Definições Quantitativas e Algoritmos Baseados na Redução. Regressão Binário Perda de grupo vinculada Redução
ThresholdOptimizer Algoritmo de pós-processamento baseado no papel Igualdade de Oportunidade na Aprendizagem Supervisionada. Esta técnica utiliza como entrada um classificador existente e uma funcionalidade sensível. Em seguida, deriva uma transformação monotona da predição do classificador para impor as restrições de paridade especificadas. Classificação binária Categórico Paridade demográfica, probabilidades igualadas Pós-processamento

Passos seguintes