Modellleistung und Fairness

In diesem Artikel finden Sie Methoden, die Sie verwenden können, um die Leistung und Fairness Ihres Modells in Azure Machine Learning zu verstehen.

Was ist Machine Learning-Fairness?

Systeme mit künstlicher Intelligenz und Machine Learning können unfaires Verhalten an den Tag legen. Unfaires Verhalten kann beispielsweise auf der Grundlage entstandener Nachteile oder Auswirkungen auf Menschen definiert werden. KI-Systeme können viele Arten von Nachteilen verursachen. Weitere Informationen finden Sie in der NeurIPS 2017-Keynote von Kate Crawford.

Zwei weit verbreitete Arten KI-bedingter Nachteile sind:

  • Nachteile bei der Zuteilung: Ein KI-System stellt Gelegenheiten, Ressourcen oder Informationen für bestimmte Gruppen bereit oder enthält sie diesen vor. Beispiele wären etwa Personalentscheidungen, eine Aufnahme bei einer Bildungseinrichtung und eine Kreditvergabe, bei denen ein Modell geeignete Kandidaten aus einer bestimmten Personengruppe möglicherweise besser auswählen kann als aus anderen Gruppen.

  • Nachteile bei der Servicequalität: Ein KI-System funktioniert für eine Personengruppe besser als für eine andere. Ein Beispiel wäre etwa ein Spracherkennungssystem, das bei Männern besser funktioniert als bei Frauen.

Diese Nachteile müssen bewertet und beseitigt werden, um unfaires Verhalten von KI-Systemen zu minimieren. Die Komponente Modellübersicht aus dem Dashboard für verantwortungsvolle KI trägt zur Identifizierungsphase des Modelllebenszyklus bei, indem sie Metriken zur Modellleistung für Ihr gesamtes Dataset und für Ihre identifizierten Datenkohorten generiert. Diese Metriken werden für verschiedene Untergruppen generiert, die in Bezug auf sensible Merkmale oder Attribute identifiziert wurden.

Hinweis

Fairness ist eine soziotechnische Herausforderung. Viele Fairnessaspekte wie Gerechtigkeit und ein faires Verfahren werden nicht in quantitativen Fairnessmetriken erfasst. Außerdem können viele quantitative Fairnessmetriken nicht gleichzeitig befriedigt werden.

Das Ziel des Open-Source-Pakets Fairlearn besteht darin, Menschen in die Lage zu versetzen, die Auswirkungen sowie Entschärfungsstrategien zu beurteilen. Letztendlich müssen die Entwickler von KI und Machine Learning-Modellen angemessene Kompromisse für das jeweilige Szenario eingehen.

In dieser Komponente des Dashboards für verantwortungsvolle KI wird Fairness durch einen Ansatz konzeptualisiert, der als Gruppenfairness bekannt ist. Dabei wird folgende Frage gestellt: „Bei welchen Personengruppen besteht die Gefahr einer Benachteiligung?“ Der Begriff sensible Attribute legt nahe, dass Systemdesigner diese bei der Bewertung der Gruppenfairness besonders berücksichtigen sollten.

Im Rahmen der Bewertungsphase wird Fairness durch Ungleichheitsmetriken quantifiziert. Diese Metriken ermöglichen das Auswerten und Vergleichen des Modellverhaltens für verschiedene Gruppen – entweder in Form von Verhältnissen oder in Form von Unterschieden. Das Dashboard für verantwortungsvolle KI unterstützt zwei Klassen von Metriken für Ungleichheit:

  • Ungleichheit bei der Modellleistung: Mit diesen Metriken wird die Ungleichheit (Differenz) der Werte der ausgewählten Leistungsmetrik für verschiedene Untergruppen von Daten berechnet. Hier sind einige Beispiele:

    • Ungleichheit bei der Genauigkeitsrate
    • Ungleichheit bei der Fehlerrate
    • Ungleichheit bei der Genauigkeit
    • Ungleichheit beim Abruf
    • Ungleichheit beim mittleren absoluten Fehler (Mean Absolute Error, MAE)
  • Ungleichheit bei der Auswahlrate: Diese Metrik enthält die Differenz bei der Auswahlrate (positive Vorhersage) für verschiedene Untergruppen. Ein Beispiel hierfür ist die Ungleichheit bei der Darlehensbewilligungsrate. Mit Auswahlrate ist der Anteil von Datenpunkten in jeder Klasse, die als „1“ klassifiziert wurden (binäre Klassifizierung), oder die Verteilung von Vorhersagewerten (Regression) gemeint.

Die Fairnessbewertungsfunktionen dieser Komponente stammen aus dem Paket Fairlearn. Fairlearn stellt eine Sammlung von Metriken zur Bewertung der Modellfairness sowie Algorithmen zur Vermeidung von Unfairness bereit.

Hinweis

Eine Fairnessbewertung ist keine rein technische Angelegenheit. Das Open-Source-Paket Fairlearn kann quantitative Metriken identifizieren, um Sie bei der Fairnessbewertung eines Modells zu unterstützen. Es nimmt Ihnen aber nicht die Bewertung ab. Sie müssen eine qualitative Analyse durchführen, um die Fairness Ihrer eigenen Modelle zu beurteilen. Die weiter oben erwähnten sensiblen Attribute sind ein Beispiel für diese Art von qualitativer Analyse.

Gleichheitseinschränkungen für die Vermeidung von Unfairness

Wenn Sie die Fairnessprobleme Ihres Modells verstanden haben, können Sie die Entschärfungsalgorithmen aus dem Open-Source-Paket Fairlearn verwenden, um diese Probleme zu behandeln. Diese Algorithmen unterstützen eine Reihe von Einschränkungen für das Vorhersageverhalten, die als Gleichheitseinschränkungen oder -kriterien bezeichnet werden.

Aufgrund von Gleichheitseinschränkungen müssen einige Aspekte des Vorhersageverhaltens über die Gruppen hinweg vergleichbar sein, die durch sensible Attribute definiert werden (beispielsweise unterschiedliche Ethnien). Die Entschärfungsalgorithmen im Open-Source-Paket Fairlearn verwenden derartige Gleichheitseinschränkungen, um die beobachteten Fairnessprobleme abzumildern.

Hinweis

Die Algorithmen zur Vermeidung von Unfairness im Open-Source-Paket Fairlearn können Entschärfungsstrategien empfehlen, die dazu beitragen, die Unfairness in einem Machine Learning-Modell zu verringern. Unfairness wird durch diese Strategien jedoch nicht vollständig beseitigt. Entwickler müssen möglicherweise weitere Gleichheitseinschränkungen oder Kriterien für ihre Machine Learning-Modelle berücksichtigen. Entwickler, die Azure Machine Learning verwenden, müssen selbst entscheiden, ob Unfairness in der vorgesehenen Verwendung und Bereitstellung von Machine Learning-Modellen durch die Entschärfung angemessen reduziert wird.

Das Fairlearn-Paket unterstützt folgende Arten von Gleichheitseinschränkungen:

Gleichheitseinschränkung Zweck ML-Aufgabe
Demografische Gleichheit Vermeiden von Nachteilen bei der Zuteilung Binäre Klassifizierung, Regression
Ausgeglichene Chancen Diagnostizieren von Nachteilen bei der Zuteilung und bei der Servicequalität Binäre Klassifizierung
Chancengleichheit Diagnostizieren von Nachteilen bei der Zuteilung und bei der Servicequalität Binäre Klassifizierung
Begrenzter Gruppenverlust Vermeidung von Nachteilen bei der Servicequalität Regression

Entschärfungsalgorithmen

Das Open-Source-Paket Fairlearn bietet zwei Arten von Algorithmen zur Vermeidung von Unfairness:

  • Reduzierung: Bei diesen Algorithmen wird ein standardmäßiger Blackbox-Machine-Learning-Schätzer (z. B. ein LightGBM-Modell) verwendet und unter Verwendung einer Sequenz neu gewichteter Trainingsdatasets eine Reihe neu trainierter Modelle generiert.

    So kann beispielsweise die Gewichtung von Bewerbern eines bestimmten Geschlechts erhöht oder verringert werden, um Modelle neu zu trainieren und Ungleichheiten zwischen Geschlechtergruppen zu verringern. Benutzer können dann ein Modell auswählen, das den besten Kompromiss zwischen Genauigkeit (oder einer anderen Leistungsmetrik) und Ungleichheit darstellt – basierend auf ihren Geschäftsregeln und Kostenkalkulationen.

  • Nachbearbeitung: Bei diesen Algorithmen werden ein vorhandener Klassifizierer und ein sensibles Attribut als Eingabe verwendet. Anschließend wird von der Vorhersage des Klassifizierers eine Transformation abgeleitet, um die angegebenen Fairnesseinschränkungen zu erzwingen. Der größte Vorteil eines der Nachbearbeitungsalgorithmen (Schwellenwertoptimierung) ist seine Einfachheit und Flexibilität, da das Modell nicht neu trainiert werden muss.

Algorithmus BESCHREIBUNG ML-Aufgabe Sensible Features Unterstützte Gleichheitseinschränkungen Algorithmustyp
ExponentiatedGradient Unter Ein Reduzierungsansatz zu fairer Klassifizierung beschriebener Blackbox-Ansatz für eine faire Klassifizierung Binäre Klassifizierung Kategorisch Demografische Gleichheit, Ausgeglichene Chancen Reduzierung
GridSearch Unter Ein Reduzierungsansatz zu fairer Klassifizierung beschriebener Blackbox-Ansatz Binäre Klassifizierung Binary Demografische Gleichheit, Ausgeglichene Chancen Reduzierung
GridSearch Blackbox-Ansatz, bei dem eine Rastersuchvariante der fairen Regression mit dem Algorithmus für den begrenzten Gruppenverlust implementiert wird, wie unter Faire Regression: Quantitative Definitionen und reduzierungsbasierte Algorithmen beschrieben Regression Binary Begrenzter Gruppenverlust Reduzierung
ThresholdOptimizer Nachbearbeitungsalgorithmus auf der Grundlage von Chancengleichheit bei beaufsichtigtem Lernen. Bei dieser Technik werden ein vorhandener Klassifizierer und ein sensibles Attribut als Eingabe verwendet. Anschließend wird eine monotone Transformation von der Vorhersage des Klassifizierers abgeleitet, um die angegebenen Gleichheitseinschränkungen zu erzwingen. Binäre Klassifizierung Kategorisch Demografische Gleichheit, Ausgeglichene Chancen Nachbearbeitung

Nächste Schritte