Bewerten von KI-Systemen und Treffen von datengesteuerten Entscheidungen mit dem Azure Machine Learning-Dashboard für verantwortungsbewusste KI (Vorschau)

Verantwortungsbewusste KI erfordert eine rigorose Entwicklung. Eine rigorose Entwicklung kann jedoch mühsam, manuell und zeitaufwändig sein, wenn nicht die richtigen Tools und die richtige Infrastruktur zur Verfügung stehen. Wissenschaftliche Fachkräfte für Daten benötigen Tools, um verantwortungsbewusste KI in der Praxis effektiv und effizient zu implementieren.

Das Dashboard für verantwortungsbewusste KI bietet eine einzelne Schnittstelle, die die Entwicklung von verantwortungsbewusstem maschinellem Lernen über den gesamten Lebenszyklus der Modellentwicklung und -bewertung hinweg effizient und interoperabel gestaltet. Das Tool vereint mehrere ausgereifte, verantwortungsbewusste KI-Tools in den Bereichen Bewertung von Modellstatistiken, Datenuntersuchung, Interpretierbarkeit von maschinellem Lernen, Unfairnessbewertung, Fehleranalyse, kausaler Rückschluss und kontrafaktische Analyse für eine ganzheitliche Bewertung und das Debuggen von Modellen sowie das Treffen fundierter Geschäftsentscheidungen. Mit einem einzelnen Befehl oder einem einfachen UI-Assistenten behandelt das Dashboard die Fragmentierungsprobleme von mehreren Tools und ermöglicht Ihnen Folgendes:

  1. Auswerten und Debuggen Ihrer Machine Learning-Modelle durch Identifizieren der Modellfehler und Diagnostizieren der Ursachen für diese Fehler sowie durch Beeinflussen Ihrer Schritte zur Problembehebung.
  2. Steigern Ihrer Fähigkeiten zur datengestützten Entscheidungsfindung, indem Sie Fragen beantworten wie: „Welche ist die geringste Änderung, die der Endnutzer an seinen Features vornehmen könnte, um ein anderes Ergebnis aus dem Modell zu erhalten?“ und/oder „Was ist die kausale Auswirkung einer Verringerung des Verzehrs von rotem Fleisch auf das Fortschreiten von Diabetes?“.
  3. Exportieren verantwortungsbewusster KI-Metadaten Ihrer Daten und Modelle, um sie offline mit Produkt- und Compliancebeteiligten zu teilen.

Komponenten des Dashboards für verantwortungsbewusste KI

Das Dashboard für verantwortungsbewusste KI vereint in einer umfassenden Ansicht verschiedene neue und bereits vorhandene Tools und integriert sie mit der Azure Machine Learning-CLIv2, dem Python SDKv2 und dem Studio. Zu diesen Tools zählen:

  1. Daten-Explorer, um die Verteilungen und Statistiken Ihrer Datasets zu verstehen und zu untersuchen.
  2. Modellübersicht und Fairnessbewertung zur Bewertung der Leistung Ihres Modells und zur Auswertung von Fragen zur Gruppenfairness Ihres Modells (wie verschiedene Personengruppen von den Vorhersagen Ihres Modells betroffen sind).
  3. Fehleranalyse, um die Fehlerverteilungen Ihres Modells in einem Dataset über eine Entscheidungsstrukturzuordnung oder eine Wärmebildvisualisierung anzuzeigen und zu verstehen.
  4. Modellinterpretierbarkeit (aggregierte/individuelle Featurerelevanzwerte), um die Vorhersagen Ihres Modells und die Art und Weise, wie diese allgemeinen und individuellen Vorhersagen getroffen werden, zu verstehen.
  5. Kontrafaktische Was-wäre-wenn-Annahmen, um zu beobachten, wie sich Featurestörungen auf Ihre Modellvorhersagen auswirken würden, und um Ihnen die nächstgelegenen Datenpunkte mit entgegengesetzten oder unterschiedlichen Modellvorhersagen zu liefern.
  6. Ursachenanalyse zur Verwendung historischer Daten, um die kausalen Auswirkungen von Behandlungsfeatures auf das reale Ergebnis zu betrachten.

Zusammen ermöglichen Ihnen diese Komponenten das Debuggen von Machine Learning-Modellen, während sie Ihre daten- und modellgesteuerten Entscheidungen beeinflussen.

 Diagram of Responsible A I dashboard components for model debugging and responsible decision making.

Debuggen des Models

Bewertung und Debuggen von Machine Learning-Modellen sind entscheidend für die Zuverlässigkeit, Interpretierbarkeit, Fairness und Konformität der Modelle. Es hilft herauszufinden, wie und warum sich KI-Systeme auf eine bestimmte Weise verhalten. Dieses Wissen können Sie dann zur Verbesserung der Modellleistung nutzen. Das Debuggen von Modellen besteht aus drei Phasen:

  • Identifizieren, um Modellfehler zu verstehen und zu erkennen, indem sich die folgenden Fragen gestellt werden:
    • Welche Arten von Fehlern weist mein Modell auf?
    • In welchen Bereichen treten Fehler am häufigsten auf?
  • Diagnostizieren, um die Ursachen für die identifizierten Fehler zu erkunden, indem Folgendes behandelt wird:
    • Was sind die Ursachen für diese Fehler?
    • Worauf sollten sich meine Ressourcen konzentrieren, um mein Modell zu verbessern?
  • Entschärfen, um die Erkenntnisse aus den vorangegangenen Phasen zur Identifizierung und Diagnose zu nutzen, um gezielte Schritte zur Problembehebung zu ergreifen und Fragen wie die folgenden zu beantworten:
    • Wie kann ich mein Modell verbessern?
    • Welche sozialen oder technischen Lösungen gibt es für diese Probleme?

Diagram of model debugging via responsible A I dashboard with the information in the table below.

Nachfolgend sind die Komponenten des Dashboards für verantwortungsbewusste KI aufgeführt, die das Debuggen von Modellen unterstützen:

Phase Komponente BESCHREIBUNG
Identify Fehleranalyse Die Komponente „Fehleranalyse“ bietet Praktikern des maschinellen Lernens ein tieferes Verständnis der Modellfehlerverteilung und hilft Ihnen, fehlerhafte Datenkohorten schnell zu identifizieren.

Die Fähigkeiten dieser Komponente im Dashboard beruhen auf Fehleranalyse-Funktionen zur Erstellung von Modellfehlerprofilen.
Identify Fairnessanalyse Die Komponente „Fairness“ bewertet, wie verschiedene Gruppen, die anhand von sensiblen Attributen wie Geschlecht, Rasse, Alter usw. definiert werden, von Ihren Modellvorhersagen betroffen sind und wie die beobachteten Abweichungen minimiert werden können. Die Komponente bewertet die Leistung Ihres Modells, indem es die Verteilung Ihrer Vorhersagewerte und die Werte Ihrer Modellleistungsmetriken über verschiedene sensible Untergruppen hinweg untersucht. Die Funktionen dieser Komponente im Dashboard basieren auf Fairlearn-Funktionen zum Generieren von Modellfairnessbewertungen.
Identify Übersicht über das Modell Die Komponente „Modellstatistiken“ fasst verschiedene Metriken zur Modellbewertung zusammen und zeigt eine Übersicht über die Verteilung der Modellvorhersagen zur besseren Untersuchung der Leistung. Die Komponente ermöglicht auch eine Bewertung der Gruppenfairness, indem sie die Aufteilung der Modellleistung auf verschiedene sensible Gruppen hervorhebt.
Diagnose Data Explorer Die Komponente „Daten-Explorer“ hilft bei der Visualisierung von Datasets auf der Grundlage von vorhergesagten und tatsächlichen Ergebnissen, Fehlergruppen und spezifischen Features. Diese Komponente hilft dabei, Probleme der Über- und Unterrepräsentation zu erkennen und zu sehen, wie die Daten im Dataset gruppiert sind.
Diagnose Interpretierbarkeit von Modellen Die Komponente „Interpretierbarkeit“ generiert für Menschen verständliche Erklärungen zu den Vorhersagen eines Machine Learning-Modells. Sie bietet verschiedene Ansichten des Modellverhaltens: globale Erklärungen (Beispiel: Welche Features wirken sich auf das Gesamtverhalten eines Modells zur Kreditvergabe aus?) und lokale Erklärungen (Beispiel: Warum wird der Kreditantrag eines Antragstellers genehmigt oder abgelehnt?).

Die Funktionen dieser Komponente im Dashboard basieren auf den InterpretML-Funktionen zum Generieren von Modellerklärungen.
Diagnose Kontrafaktische Analyse und Was-wäre-wenn Die Komponente „Kontrafaktische Analyse und Was-wäre-wenn“ besteht aus zwei Funktionen zur besseren Fehlerdiagnose:
- Generieren einer Reihe von Beispielen mit minimalen Änderungen an einem bestimmten Punkt, sodass sie die Vorhersage des Modells verändern (Anzeige der nächstgelegenen Datenpunkte mit entgegengesetzten Modellgenauigkeiten).
- Ermöglichen interaktiver und benutzerdefinierter Was-wäre-wenn-Störungen für einzelne Datenpunkte, um zu verstehen, wie das Modell auf Featureänderungen reagiert.

Die Funktionen dieser Komponente im Dashboard basieren auf dem DiCE-Paket, das diese Informationen bereitstellt, indem es Versionen mit Featurestörungen desselben Datenpunkts zeigt, die eine andere Modellvorhersage erhalten hätten (z. B. „Taylor hätte den Kredit erhalten, wenn sein jährliches Einkommen um 10.000 USD höher gewesen wäre“).

Schritte zur Problembehebung sind über eigenständige Tools wie Fairlearn (zur Entschärfung von Unfairness) möglich.

Verantwortungsvolle Entscheidungsfindung

Die Entscheidungsfindung ist eines der größten Versprechen des maschinellen Lernens. Das Dashboard für verantwortungsbewusste KI unterstützt Sie bei Ihren modell- und datengesteuerten Geschäftsentscheidungen.

  • Datengestützte Erkenntnisse zum besseren Verständnis heterogener Behandlungsauswirkungen auf ein Ergebnis, wobei nur historische Daten verwendet werden. Beispiel: „Wie würde ein Medikament den Blutdruck eines Patienten beeinflussen?“. Solche Erkenntnisse werden durch die Komponente „Kausale Rückschlüsse“ des Dashboards ermöglicht.
  • Modellgestützte Erkenntnisse, um die Fragen der Endbenutzer zu beantworten, z. B. „Was kann ich tun, um beim nächsten Mal ein anderes Ergebnis von Ihrer KI zu erhalten?“, um ihre Handlungen zu beeinflussen. Solche Erkenntnisse werden den wissenschaftlichen Fachkräften für Daten durch die oben beschriebene Komponente „Kontrafaktische Analyse und Was-wäre-wenn“ vermittelt.

Responsible A I dashboard capabilities for responsible business decision making.

Explorative Datenanalyse, kontrafaktische Analyse und Funktionen für kausale Rückschlüsse können Sie dabei unterstützen, fundierte modell- und datengestützte Entscheidungen verantwortungsvoll zu treffen.

Im Folgenden finden Sie die Komponenten des Dashboards für verantwortungsbewusste KI zur Unterstützung einer verantwortungsbewussten Entscheidungsfindung:

  • Data Explorer
    • Die Komponente könnte hier wiederverwendet werden, um Datenverteilungen zu verstehen und Über- und Unterrepräsentationen zu ermitteln. Die Untersuchung von Daten ist ein wichtiger Bestandteil der Entscheidungsfindung, da daraus geschlossen werden kann, dass es nicht möglich ist, fundierte Entscheidungen über eine Kohorte zu treffen, die in den Daten unterrepräsentiert ist.
  • Kausaler Rückschluss
    • Die Komponente „Kausaler Rückschluss“ schätzt, wie sich ein reales Ergebnis durch einen Eingriff verändern kann. Außerdem hilft sie, vielversprechende Interventionen zu erstellen, indem verschiedene Featureantworten auf unterschiedliche Interventionen simuliert und Regeln erstellt werden, um zu bestimmen, welche Kohorten der Grundgesamtheit von einer bestimmten Intervention profitieren würden. Mit diesen Funktionen können Sie neue Richtlinien anwenden und Veränderungen in der Praxis bewirken.
    • Die Funktionen dieser Komponente basieren auf dem EconML-Paket, das heterogene Behandlungseffekte aus Beobachtungsdaten mithilfe des maschinellen Lernens abschätzt.
  • Kontrafaktische Analyse
    • Die oben beschriebene Komponente „Kontrafaktische Analyse“ könnte hier wiederverwendet werden, um wissenschaftlichen Fachkräften für Daten dabei zu helfen, eine Reihe ähnlicher Datenpunkte mit entgegengesetzten Vorhersageergebnissen zu generieren (indem minimale Änderungen auf Features eines Datenpunkts angewendet werden, die zu entgegengesetzten Modellvorhersagen führen). Die Bereitstellung kontrafaktischer Beispiele informiert die Endnutzer über ihre Perspektive und zeigt ihnen, wie sie Maßnahmen ergreifen können, um in Zukunft das gewünschte Ergebnis des Modells zu erzielen.
    • Die Funktionen dieser Komponente basieren auf dem DiCE-Paket.

Warum sollten Sie das Dashboard für verantwortungsbewusste KI verwenden?

Während es bei der verantwortungsbewussten KI um die rigorose Entwicklung geht, ist ihre Operationalisierung ohne die richtigen Tools und die richtige Infrastruktur mühsam, manuell und zeitaufwändig. Es gibt nur wenige Anweisungen und unzusammenhängende Frameworks und Tools, die wissenschaftliche Fachkräfte für Daten in die Lage versetzen, ihre Modelle ganzheitlich zu untersuchen und auszuwerten.

Zwar wurden Fortschritte bei einzelnen Tools für bestimmte Bereiche der verantwortungsbewussten KI erzielt, doch müssen wissenschaftliche Fachkräfte für Daten häufig mehrere solcher Tools zusammen verwenden, um ihre Modelle und Daten ganzheitlich auszuwerten. Wenn eine wissenschaftliche Fachkraft für Daten beispielsweise ein Fairnessproblem mit einem Tool entdeckt, muss er zu einem anderen Tool wechseln, um zu verstehen, welche Daten oder Modellfaktoren dem Problem zugrunde liegen, bevor er Schritte zur Problembehebung unternehmen kann. Dieser äußerst anspruchsvolle Prozess wird durch die folgenden Faktoren weiter erschwert. Zunächst gibt es keinen zentralen Ort, an dem die Tools entdeckt und getestet werden können, was die für die Recherche und das Erlernen neuer Techniken erforderliche Zeit verlängert. Außerdem kommunizieren die verschiedenen Tools nicht unbedingt miteinander. Wissenschaftliche Fachkräfte für Daten müssen sich mit den Datasets, Modellen und anderen Metadaten auseinandersetzen, wenn sie diese zwischen den verschiedenen Tools übergeben. Zudem sind die Metriken und Visualisierungen nicht leicht vergleichbar, und die Ergebnisse sind schwer zu teilen.

Das Dashboard für verantwortungsbewusste KI ist das erste umfassende Tool, das fragmentierte Erfahrungen unter einem Dach vereint und es Ihnen ermöglicht, reibungslos in ein einzelnes anpassbares Framework für das Debuggen von Modellen und die datengesteuerte Entscheidungsfindung einzusteigen.

Anpassen des Dashboards für verantwortungsbewusste KI

Die Stärke des Dashboards für verantwortungsbewusste KI liegt in seiner Anpassungsfähigkeit. Es ermöglicht es den Benutzern, angepasste, End-to-End-Workflows für das Debuggen von Modellen und die Entscheidungsfindung zu entwerfen, die ihren speziellen Anforderungen entsprechen. Wünschen Sie sich Inspiration? Im Folgenden finden Sie einige Beispiele dafür, wie die Toolboxkomponenten zusammengesetzt werden können, um Szenarien auf unterschiedliche Weise zu analysieren:

Dashboard für verantwortungsbewusste KI: Flow Anwendungsfall
Modellübersicht -> Fehleranalyse -> Daten-Explorer So identifizieren und diagnostizieren Sie Modellfehler, indem Sie die zugrunde liegende Datenverteilung verstehen
Modellübersicht -> Fairnessbewertung -> Daten-Explorer So identifizieren und diagnostizieren Sie Probleme mit der Modellfairness, indem Sie die zugrunde liegende Datenverteilung verstehen
Modellübersicht -> Fehleranalyse -> Kontrafaktische Analyse und Was-wäre-wenn So diagnostizieren Sie Fehler in einzelnen Instanzen mit kontrafaktischen Analysen (minimale Änderung, um zu einer anderen Modellvorhersage zu führen)
Modellübersicht -> Daten-Explorer So verstehen Sie die Grundursache von Fehlern und Fairnessproblemen, die über unausgeglichene Daten oder fehlende Repräsentation einer bestimmten Datenkohorte eingeführt wurden
Modellübersicht -> Interpretierbarkeit So diagnostizieren Sie Modellfehler, indem Sie verstehen, wie das Modell seine Vorhersagen getroffen hat
Daten-Explorer -> Kausaler Rückschluss So unterscheiden Sie zwischen Korrelationen und Ursachen in den Daten oder entscheiden sich für die besten Behandlungen zum Erreichen eines positiven Ergebnisses
Interpretierbarkeit -> Kausaler Rückschluss So erfahren Sie, ob die Faktoren, die das Modell für die Entscheidungsfindung verwendet hat, Auswirkungen auf das reale Ergebnis haben
Daten-Explorer -> Kontrafaktische Analyse und Was-wäre-wenn So beantworten Sie Kundenfragen dazu, wie sie beim nächsten Mal vorgehen können, um ein anderes Ergebnis von einer KI zu erhalten

Wer sollte das Dashboard für verantwortungsbewusste KI nutzen?

Das Dashboard für verantwortungsbewusste KI und die dazugehörige Scorecard für verantwortungsbewusste KI könnten von den folgenden Personas genutzt werden, um Vertrauen in KI-Systeme zu schaffen.

  • Techniker für Machine Learning-Modelle und wissenschaftliche Fachkräfte für Daten, die daran interessiert sind, ihre Machine Learning-Modelle vor der Bereitstellung zu debuggen und zu verbessern. Techniker für Machine Learning-Modelle und wissenschaftliche Fachkräfte für Daten, die daran interessiert sind, ihre Modelldaten mit Produktmanagern und Geschäftsbeteiligten zu teilen, um Vertrauen zu schaffen und Bereitstellungsberechtigungen zu erhalten.
  • Produktmanager und Geschäftsbeteiligte, die Machine Learning-Modelle vor der Bereitstellung überprüfen.
  • Risikobeauftragte, die Machine Learning-Modelle überprüfen, um Fragen der Fairness und Zuverlässigkeit zu verstehen.
  • Anbieter von Lösungen für Endbenutzer, die den Endnutzern Modellentscheidungen erläutern möchten.
  • Geschäftsbeteiligte, die Machine Learning-Modelle mit Regulierungsstellen und Prüfern überprüfen müssen.

Unterstützte Machine Learning-Modelle und -Szenarien

Wir unterstützen scikit-learn-Modelle für die kontrafaktische Generierung und für Erklärungen. Die scikit-learn Modelle sollten predict()/predict_proba()-Methoden implementieren oder das Modell sollte von einer Klasse umschlossen sein, die predict()/predict_proba()-Methoden implementiert.

Derzeit unterstützen wir die kontrafaktische Generierung und Erklärung für tabellarischen Datasets mit numerischen und kategorischen Datentypen. Kontrafaktische Generierung und Erklärungen werden für frei gestaltete Textdaten, Bilder und Verlaufsdaten unterstützt.

Nächste Schritte