Erstellen datengesteuerter Richtlinien und Beeinflussen der Entscheidungsfindung

Machine Learning-Modelle sind leistungsfähig, wenn es darum geht, Muster in Daten zu erkennen und Vorhersagen zu treffen. Sie bieten jedoch wenig Unterstützung bei der Einschätzung, wie sich das reale Ergebnis bei einer Intervention verändert.

Praktiker konzentrieren sich zunehmend auf die Verwendung historischer Daten, um ihre zukünftigen Entscheidungen und Geschäftsinterventionen darauf zu stützen. Wie wäre beispielsweise der Umsatz betroffen, wenn ein Unternehmen eine neue Preisstrategie verfolgt? Würde ein neues Medikament den Zustand eines Patienten verbessern, wenn alle anderen Parameter unverändert bleiben?

Die Ursachenrückschlusskomponente des Dashboards für verantwortungsvolle KI befasst sich mit diesen Fragen, indem sie die Auswirkung eines Merkmals auf ein relevantes Ergebnis im Durchschnitt über eine Grundgesamtheit (Population) oder Kohorte sowie auf einer individuellen Ebene abschätzt. Außerdem hilft sie, vielversprechende Interventionen zu erstellen, indem Merkmalsantworten auf unterschiedliche Interventionen simuliert und Regeln erstellt werden, um zu bestimmen, welche Kohorten der Grundgesamtheit von einer Intervention profitieren würden. Zusammen ermöglichen diese Funktionen Entscheidungsträgern, neue Richtlinien anzuwenden und echte Veränderungen in der realen Welt zu bewirken.

Die Funktionen dieser Komponente stammen aus dem EconML-Paket. Dieses schätzt heterogene Behandlungseffekte aus Beobachtungsdaten mithilfe der Double Machine Learning-Methode ab.

Verwenden Sie Ursachenrückschluss, wenn Sie folgende Aufgaben durchführen müssen:

  • Identifizieren der Merkmale, die die größten unmittelbaren Auswirkungen auf Ihr relevantes Interesse haben.
  • Entscheiden, welche Gesamtbehandlungsrichtlinie sie verfolgen sollten, um die realen Auswirkungen auf ein relevantes Ergebnis zu maximieren.
  • Verstehen, wie Einzelelemente mit bestimmten Merkmalswerten auf eine bestimmte Behandlungsrichtlinie reagieren würden.

Wie werden Erkenntnisse aus Ursachenrückschlüssen generiert?

Hinweis

Nur historische Daten sind erforderlich, um Erkenntnisse über Ursachen zu generieren. Die kausalen Effekte, die basierend auf den Behandlungsmerkmalen berechnet werden, sind eine reine Dateneigenschaft. Daher ist ein trainiertes Modell optional, wenn die kausalen Effekte berechnet werden.

Double Machine Learning ist eine Methode zum Abschätzen (heterogener) Behandlungseffekte, wenn alle potenziellen Störfaktoren/Kontrollen (Faktoren, die gleichzeitig eine direkte Auswirkung auf die Behandlungsentscheidung in den gesammelten Daten und das beobachtete Ergebnis hatten) beobachtet werden, aber eines der folgenden Probleme vorliegt:

  • Es sind zu viele, um für klassische statistische Ansätze anwendbar zu sein. Das heißt, sie sind hochdimensional.
  • Ihre Wirkung auf die Behandlung und das Ergebnis können durch parametrische Funktionen nicht zufriedenstellend modelliert werden. Das heißt, sie sind nicht parametrisch.

Sie können Verfahren des maschinellen Lernens verwenden, um beide Probleme zu beheben. Ein Beispiel finden Sie unter Chernozhukov2016.

Double Machine Learning reduziert das Problem, indem zunächst zwei Vorhersageaufgaben geschätzt werden:

  • Vorhersagen des Ergebnisses aus den Kontrollen
  • Vorhersagen der Behandlung aus den Kontrollen

Anschließend kombiniert die Methode diese beiden Vorhersagemodelle zu einer endgültigen Abschätzung, um ein Modell des heterogenen Behandlungseffekts zu erstellen. Dieser Ansatz ermöglicht es, beliebige Machine Learning-Algorithmen für die beiden Vorhersageaufgaben zu verwenden, während viele günstige statistische Eigenschaften im Zusammenhang mit dem endgültigen Modell erhalten bleiben. Diese Eigenschaften beinhalten kleine mittlere quadratische Abweichungen, asymptotische Normalität und Konstruktion von Konfidenzintervallen.

Welche anderen Tools bietet Microsoft für Ursachenrückschlüsse?

  • Project Azua stellt ein neuartiges Framework bereit, das sich auf End-to-End-Ursachenrückschlüsse konzentriert.

    Die DECI-Technologie DECI (deep end-to-end causal inference, tiefes End-to-End-Ursachenrückschließen) von Azua ist ein einzelnes Modell, das gleichzeitig Ursachenermittlung und Ursachenrückschlüsse durchführen kann. Der Benutzer stellt Daten bereit, damit das Modell dann die kausalen Beziehungen zwischen allen Variablen ausgeben kann.

    Schon allein dieser Ansatz kann Erkenntnisse über die Daten liefern. Er ermöglicht die Berechnung von Metriken wie dem individuellen Behandlungseffekt (ITE), dem durchschnittlichen Behandlungseffekt (ATE) und dem bedingten durchschnittlichen Behandlungseffekt (CATE). Diese Berechnungen können Sie dann nutzen, um optimale Entscheidungen zu treffen.

    Das Framework ist für große Daten skalierbar, sowohl in Bezug auf die Anzahl der Variablen als auch die Anzahl der Datenpunkte. Es kann auch fehlende Dateneinträge mit gemischten statistischen Typen verarbeiten.

  • EconML ist die Grundlage des Back-Ends der Komponente „Kausaler Rückschluss“ des Dashboard für verantwortungsvolle KI. Es handelt sich um ein Python-Paket, das Methoden des maschinellen Lernens anwendet, um individualisierte kausale Reaktionen aus Beobachtungs- oder experimentellen Daten abzuschätzen.

    Die Suite von Schätzmethoden in EconML stellt die neuesten Fortschritte im kausalen maschinellen Lernen dar. Durch die Einbeziehung einzelner Machine Learning-Schritte in interpretierte Ursachenmodelle verbessern diese Methoden die Zuverlässigkeit von Was-wäre-wenn-Vorhersagen und beschleunigen und vereinfachen die Ursachenanalyse für eine breite Palette von Benutzern.

  • DoWhy ist eine Python-Bibliothek, die kausales Denken und Analyse auslösen soll. DoWhy bietet eine prinzipgesteuerte Vier-Schritt-Schnittstelle für Ursachenrückschlüsse, die sich auf die explizite Modellierung von Ursachenannahmen konzentriert und diese so weit wie möglich validiert.

    Das Hauptfeature von DoWhy ist seine hochmoderne Widerlegungs-API, die Ursachenannahmen automatisch für jede Schätzmethode testen kann. Es macht die Rückschlüsse stabiler und für Nicht-Experten zugänglicher.

    DoWhy unterstützt die Abschätzung des durchschnittlichen Kausaleffekts für Back Door, Front Door, Instrumentvariablen und andere Identifikationsmethoden. Außerdem unterstützt es die Abschätzung des bedingten Effekts (CATE) durch eine Integration in die EconML-Bibliothek.

Nächste Schritte