Modellierung des Kreditrisikos und der Ausfallwahrscheinlichkeit

Azure Machine Learning
Azure Synapse Analytics
Azure App Service
Azure Data Lake Storage
Power BI

In diesem Artikel wird eine Architektur beschrieben, die Azure Machine Learning zur Vorhersage der Verzugs- und Ausfallwahrscheinlichkeit von Kreditantragstellern verwendet. Die Vorhersagen des Modells beruhen auf dem Steuerverhalten des Antragstellers. Das Modell verwendet eine große Anzahl von Datenpunkten, um die Bewerber zu klassifizieren und für jeden Bewerber eine Eignungsbewertung zu erstellen.

Apache®, Spark und das Flammenlogo sind entweder eingetragene Marken oder Marken der Apache Software Foundation in den USA und/oder anderen Ländern. Die Verwendung dieser Marken impliziert keine Zustimmung durch die Apache Software Foundation.

Aufbau

Diagram that shows an architecture for predicting credit risk.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Der folgende Dataflow entspricht dem vorherigen Diagramm:

  1. Speicherung: Die Daten werden in einer Datenbank wie einem Azure Synapse Analytics-Pool gespeichert, wenn sie strukturiert sind. Ältere SQL-Datenbanken können in das System integriert werden. Semistrukturierte und unstrukturierte Daten können in einen Data Lake geladen werden.

  2. Erfassung und Vorverarbeitung: Azure Synapse Analytics-Verarbeitungspipelines und ETL-Verarbeitung können über integrierte Konnektoren mit in Azure gespeicherten Daten oder Quellen von Drittanbietern verbunden werden. Azure Synapse Analytics unterstützt mehrere Analysemethoden, die SQL, Spark, Azure Data Explorer und Power BI verwenden. Sie können auch vorhandene Azure Data Factory-Orchestrierung für die Datenpipelines verwenden.

  3. Verarbeitung: Azure Machine Learning wird zum Entwickeln und Verwalten der Machine Learning-Modelle verwendet.

    1. Erstverarbeitung: In dieser Phase werden Rohdaten verarbeitet, um ein zusammengestelltes Dataset zu erstellen, das ein Machine Learning-Modell trainiert. Typische Vorgänge sind Datentypformatierung, Imputation fehlender Werte, Feature-Entwicklung, Feature-Auswahl und Verringerung der Dimensionalität.

    2. Schulung: Während der Trainingsphase verwendet Azure Machine Learning das verarbeitete Dataset, um das Kreditrisikomodell zu trainieren und das beste Modell auszuwählen.

    • Modelltraining: Sie können eine Reihe von Machine Learning-Modellen verwenden, einschließlich klassischer Machine Learning- und Deep Learning-Modelle. Sie können die Hyperparameteroptimierung verwenden, um die Modellleistung zu optimieren.

    • Modellauswertung: Azure Machine Learning bewertet die Leistung jedes trainierten Modells, sodass Sie das beste Modell für die Bereitstellung auswählen können.

    • Modellregistrierung: Sie registrieren das Modell, das in Azure Machine Learning am besten funktioniert. Durch diesen Schritt wird das Modell für die Bereitstellung verfügbar.

    c. Verantwortungsvolle KI: Die verantwortungsvolle KI ist ein Ansatz für die Entwicklung, Bewertung und Bereitstellung von KI-Systemen auf eine sichere, vertrauenswürdige und ethische Weise. Da dieses Modell eine Genehmigungs- oder Ablehnungsentscheidung für eine Kreditanfrage ableitet, müssen Sie die Prinzipien der verantwortungsvollen KI implementieren.

    • Fairness-Metriken bewerten die Auswirkungen unfairer Verhaltensweisen und ermöglichen Strategien zur Entschärfung. Vertrauliche Features und Attribute werden im Dataset und in Kohorten (Teilmengen) der Daten identifiziert. Weitere Informationen finden Sie unter Modellleistung und Fairness.

    • Die Interpretierbarkeit ist ein Maß dafür, wie gut Sie das Verhalten eines Machine Learning-Modells verstehen können. Diese Komponente der verantwortungsvollen KI generiert für den Menschen verständliche Beschreibungen der Vorhersagen des Modells. Weitere Informationen finden Sie unter Interpretierbarkeit des Modells.

  4. Bereitstellung von Machine Learning in Echtzeit: Sie müssen echtzeitbasierte Modellrückschlüsse verwenden, wenn die Anforderung sofort zur Genehmigung überprüft werden muss.

    1. Verwalteter Machine Learning-Onlineendpunkt. Für die Echtzeitbewertung müssen Sie ein geeignetes Computeziel auswählen.
    2. Bei Online-Kreditanfragen wird die Echtzeitbewertung basierend auf Eingaben des Antragsformulars oder Kreditantrags verwendet.
    3. Die Entscheidung und die für die Modellbewertung verwendete Eingabe werden im persistenten Speicher gespeichert und können zur späteren Referenz abgerufen werden.
  5. Batch-Bereitstellung von maschinellem Lernen: Für die Offline-Kreditverarbeitung wird geplant, dass das Modell in regelmäßigen Abständen ausgelöst wird.

    1. Verwalteter Batchendpunkt. Der Batchrückschluss wird geplant, und das Ergebnisdataset wird erstellt. Entscheidungen basieren auf der Kreditwürdigkeit des Antragstellers.
    2. Die Ergebnisse der Bewertung der Batchverarbeitung wird in der Datenbank oder Azure Synapse Analytics Data Warehouse beibehalten.
  6. Schnittstelle zu Daten über die Aktivität des Antragstellers: Die vom Antragsteller eingegebenen Daten, das interne Kreditprofil und die Entscheidung des Modells werden alle in entsprechenden Diensten bereitgestellt und gespeichert. Diese Details werden in der Entscheidungs-Engine für die zukünftige Bewertung verwendet, sodass sie dokumentiert sind.

    • Speicher: Alle Details zur Kreditverarbeitung werden im permanenten Speicher aufbewahrt.
    • Benutzeroberfläche: Die Genehmigungs- oder Ablehnungsentscheidung wird dem Antragsteller vorgelegt.
  7. Berichterstellung: Echtzeit-Erkenntnisse über die Anzahl der verarbeiteten Anwendungen und Genehmigungs- oder Ablehnungsergebnisse werden den Managern und Führungskräften kontinuierlich präsentiert. Beispiele für die Berichterstellung sind Berichte in Quasi-Echtzeit über genehmigte Beträge, das erstellte Kreditportfolio und die Modellleistung.

Komponenten

  • Azure Blob Storage bietet einen skalierbaren Objektspeicher für unstrukturierte Daten. Es ist für das Speichern von Dateien wie Binärdateien, Aktivitätsprotokollen und Dateien optimiert, die nicht einem bestimmten Format entsprechen.
  • Azure Data Lake Storage ist die Speichergrundlage für die Erstellung kostengünstiger Data Lakes in Azure. Es bietet Blobspeicher mit einer hierarchischen Ordnerstruktur und verbesserter Leistung, Verwaltung und Sicherheit. Es verwaltet mehrere Petabyte an Informationen und gleichzeitig wird ein Durchsatz im Bereich von mehreren Hundert Gigabit aufrechterhalten.
  • Azure Synapse Analytics ist ein Analysedienst, der die besten SQL- und Spark-Technologien und eine einheitliche Benutzererfahrung für Azure Synapse Data Explorer und Pipelines vereint. Es kann in Power BI, Azure Cosmos DB und Azure Machine Learning integriert werden. Der Dienst unterstützt sowohl dedizierte als auch serverlose Ressourcenmodelle und die Möglichkeit, zwischen diesen Modellen zu wechseln.
  • Azure SQL-Datenbank ist eine stets aktuelle und vollständig verwaltete relationale Datenbank für die Cloud.
  • Azure Machine Learning ist ein Clouddienst zum Verwalten des Lebenszyklus von Machine Learning-Projekten. Es bietet eine integrierte Umgebung für die Datenuntersuchung, die Modellerstellung, -verwaltung und -bereitstellung und unterstützt Code-First- und Low-Code/No-Code-Ansätze für maschinelles Lernen.
  • Power BI ist ein Visualisierungstool, das eine einfache Integration in Azure-Ressourcen ermöglicht.
  • Azure App Service ermöglicht Ihnen das Erstellen und Hosten von Web-Apps, mobile Back-Ends und RESTful-APIs, ohne die Infrastruktur zu verwalten. Unterstützte Sprachen sind .NET, .NET Core, Java, Ruby, Node.js, PHP und Python.

Alternativen

Sie können Azure Databricks verwenden, um Machine Learning-Modelle und Analyseworkloads zu entwickeln, bereitzustellen und zu verwalten. Der Dienst bietet eine einheitliche Umgebung für die Modellentwicklung.

Szenariodetails

Organisationen in der Finanzbranche müssen das Kreditrisiko von Personen oder Unternehmen vorhersagen, die Kredite anfordern. Dieses Modell wertet die Delinquenz und Ausfallwahrscheinlichkeiten von Kreditantragstellern aus.

Die Kreditrisikovorhersage umfasst eine umfassende Analyse des Bevölkerungsverhaltens und die Klassifizierung des Kundenstamms in Segmente basierend auf der steuerlichen Verantwortung. Weitere Variablen sind Marktfaktoren und wirtschaftliche Bedingungen, die einen erheblichen Einfluss auf die Ergebnisse haben.

Herausforderungen. Zu den Eingabedaten gehören Millionen von Kundenprofilen und Daten über das Kredit- und Ausgabeverhalten der Kunden, die auf Milliarden von Datensätzen aus unterschiedlichen Systemen, wie z. B. internen Kundenaktivitätssystemen, beruhen. Die Daten Dritter über die wirtschaftlichen Bedingungen und die Marktanalyse des Landes/der Region können aus monatlichen oder vierteljährlichen Momentaufnahmen stammen, die das Laden und die Pflege von Hunderten von GB an Dateien erfordern. Erforderlich sind Auskunfteiinformationen über den Antragsteller oder halbstrukturierte Kundendatenzeilen sowie Kreuzprodukte zwischen diesen Datensätzen und Qualitätsüberprüfungen, um die Integrität der Daten zu validieren.

Die Daten bestehen in der Regel aus breitspaltigen Tabellen mit Kundeninformationen von Auskunfteien zusammen mit Marktanalysen. Die Kundenaktivität besteht aus Datensätzen mit dynamischem Layout, die möglicherweise nicht strukturiert sind. Die Daten sind auch in Form von Freitext aus den Notizen des Dienstes und den Formularen für die Bewerberinteraktion verfügbar.

Die Verarbeitung dieser großen Datenmengen und die Sicherstellung der Aktualität der Ergebnisse erfordert eine rationelle Verarbeitung. Sie benötigen einen Speicher- und Abrufprozess mit geringer Latenzzeit. Die Dateninfrastruktur sollte skalierbar sein, um unterschiedliche Datenquellen zu unterstützen, und die Möglichkeit bieten, den Datenumfang zu verwalten und zu sichern. Die Plattform für maschinelles Lernen muss die komplexe Analyse der vielen Modelle unterstützen, die in vielen Bevölkerungssegmenten trainiert, getestet und validiert werden.

Datensensibilität und Datenschutz. Die Datenverarbeitung für dieses Modell umfasst personenbezogene Daten und demografische Angaben. Sie müssen die Erstellung von Bevölkerungsprofilen vermeiden. Die direkte Einsicht in alle personenbezogenen Daten muss eingeschränkt werden. Beispiele für personenbezogene Daten sind Kontonummern, Kreditkartendaten, Sozialversicherungsnummern, Namen, Adressen und Postleitzahlen.

Kreditkarten- und Bankkontonummern müssen immer verschleiert werden. Bestimmte Datenelemente müssen maskiert und stets verschlüsselt werden, so dass kein Zugriff auf die zugrunde liegenden Informationen möglich ist, diese aber für Analysen zur Verfügung stehen.

Die Daten müssen im Ruhezustand, bei der Übertragung und während der Verarbeitung über sichere Enklaven verschlüsselt werden. Der Zugriff auf Datenelemente wird in einer Überwachungslösung protokolliert. Das Produktionssystem muss mit geeigneten CI/CD-Pipelines mit Genehmigungen eingerichtet werden, die Modellbereitstellungen und -prozesse auslösen. Die Prüfung der Protokolle und Arbeitsabläufe sollte die Interaktionen mit den Daten für die Einhaltung der Vorschriften liefern.

Verarbeiten. Dieses Modell erfordert eine hohe Rechenleistung für die Analyse, die Kontextualisierung, das Modelltraining und den Einsatz. Die Bewertung des Modells wird anhand von Zufallsstichproben validiert, um sicherzustellen, dass die Kreditentscheidungen keine rassischen, geschlechtsspezifischen, ethnischen oder geografischen Verzerrungen enthalten. Das Entscheidungsmodell muss dokumentiert und für spätere Zwecke archiviert werden. Jeder Faktor, der an den Entscheidungsergebnissen beteiligt ist, wird gespeichert.

Die Datenverarbeitung erfordert eine hohe CPU-Auslastung. Dazu gehören die SQL-Verarbeitung strukturierter Daten im DB- und JSON-Format, die Spark-Verarbeitung von Datenrahmen oder Big-Data-Analysen von Terabytes an Informationen in verschiedenen Dokumentenformaten. ELT/ETL-Aufträge für Daten werden in regelmäßigen Abständen oder in Echtzeit geplant oder ausgelöst, je nach dem Wert der letzten Daten.

Framework für Compliance und gesetzliche Anforderungen Jedes Detail der Kreditbearbeitung muss dokumentiert werden, einschließlich des eingereichten Antrags, der für die bei der Modellbewertung verwendeten Merkmale und der Ergebnismenge des Modells. Jedes Detail der Kreditbearbeitung muss dokumentiert werden, einschließlich des eingereichten Antrags, der bei der Modellbewertung verwendeten Merkmale und der Ergebnismenge des Modells.

Batchbewertung im Vergleich zur Echtzeitbewertung. Bestimmte Aufgaben sind proaktiv und können als Batchaufträge verarbeitet werden, wie z. B. vorgenehmigte Überweisungen. Einige Anträge, wie z. B. die Online-Kreditlinienerhöhung, müssen in Echtzeit genehmigt werden.

Der Antragsteller muss die Möglichkeit haben, den Status seiner Online-Darlehensanträge in Echtzeit einzusehen. Das kreditgebende Finanzinstitut überwacht kontinuierlich die Leistung des Kreditmodells und benötigt Einblicke in Kennzahlen wie den Status der Kreditgenehmigung, die Anzahl der genehmigten Kredite, die ausgegebenen Dollarbeträge und die Qualität der neu vergebenen Kredite.

Verantwortungsbewusste künstliche Intelligenz

Das Dashboard für verantwortungsvolle KI bietet eine einzige Schnittstelle für mehrere Tools, die Sie bei der Umsetzung von verantwortungsvoller KI unterstützen können. Der Standard für verantwortungsvolle KI basiert auf sechs Grundsätzen:

Diagram that shows the six principles of Responsible AI.

Fairness und Inklusivität in Azure Machine Learning. Diese Komponente des Dashboards für verantwortungsvolle KI hilft Ihnen bei der Bewertung unlauterer Verhaltensweisen, indem sie Nachteile bei der Zuteilung und bei der Qualität der Dienste vermeidet. Sie können damit die Fairness zwischen sensiblen Gruppen bewerten, die nach Geschlecht, Alter, ethnischer Zugehörigkeit und anderen Merkmalen definiert sind. Im Rahmen der Bewertung wird Fairness durch Ungleichheitsmetriken quantifiziert. Sie sollten die Abschwächungsalgorithmen im Open-Source-Paket Fairlearn implementieren, die Paritätsbeschränkungen verwenden.

Zuverlässigkeit und Sicherheit in Azure Machine Learning. Die Fehleranalysekomponente der verantwortungsvollen KI kann Ihnen dabei helfen:

  • Erlangen eines eingehenden Verständnisses für die Verteilung von Fehlern für ein Modell.
  • Identifizieren von Kohorten von Daten mit einer höheren Fehlerrate als der Benchmark insgesamt.

Transparenz in Azure Machine Learning. Ein entscheidender Teil der Transparenz besteht darin zu verstehen, wie sich die Merkmale auf das maschinelle Lernmodell auswirken.

  • Die Interpretierbarkeit des Modells hilft Ihnen zu verstehen, was das Verhalten des Modells beeinflusst. Es erstellt für den Menschen verständliche Beschreibungen der Vorhersagen des Modells. Dieses Verständnis trägt dazu bei, dass Sie dem Modell vertrauen können, und hilft Ihnen bei der Fehlersuche und Verbesserung des Modells. InterpretML kann Ihnen helfen, die Struktur von transparenten Verschachtelungsmodellen oder die Beziehung zwischen Merkmalen in nicht-transparenten Verschachtelungsmodellen für tiefe neuronale Netze zu verstehen.
  • Die kontrafaktische „Was-wäre-wenn“-Analyse kann Ihnen helfen, ein Modell für maschinelles Lernen zu verstehen und zu debuggen, wie es auf Änderungen und Störungen von Merkmalen reagiert.

Datenschutz und Sicherheit in Azure Machine Learning. Machine Learning-Administratoren müssen eine sichere Konfiguration erstellen, um die Bereitstellung von Modellen zu entwickeln und zu verwalten. Sicherheits- und Governancefeatures können Ihnen helfen, die Sicherheitsrichtlinien Ihrer Organisation einzuhalten. Andere Tools können Ihnen helfen, Ihre Modelle zu bewerten und zu schützen.

Verantwortlichkeit in Azure Machine Learning. MLOps (Machine Learning Operations) basiert auf DevOps-Prinzipien und -Methoden, die die Effizienz von KI-Workflows erhöhen. Azure Machine Learning kann Ihnen bei der Implementierung von MLOps-Funktionen helfen:

  • Modelle registrieren, packen und bereitstellen
  • Abrufen von Benachrichtigungen und Warnungen zu Änderungen in Modellen
  • Erfassung der Governancedaten für den End-to-End-Lebenszyklus
  • Überwachen von Anwendungen auf Betriebsprobleme

Dieses Diagramm veranschaulicht die MLOps-Funktionen von Azure Machine Learning:

Diagram that describes the MLOps capabilities of Azure Machine Learning.

Mögliche Anwendungsfälle

Sie können diese Lösung auf die folgenden Szenarien anwenden:

  • Finanzen: Erhalten Sie Finanzanalysen von Kunden oder Cross-Sales-Analysen von Kunden für gezielte Marketingkampagnen.
  • Gesundheitswesen: Nutzen Sie Patienteninformationen als Grundlage für Behandlungsvorschläge.
  • Gastgewerbe: Erstellen Sie ein Kundenprofil, um Angebote für Hotels, Flüge, Kreuzfahrtpakete und Mitgliedschaften vorzuschlagen.

Überlegungen

Diese Überlegungen bilden die Säulen des Azure Well-Architected Framework, einer Reihe von Leitprinzipien, die Sie zur Verbesserung der Qualität eines Workloads verwenden können. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

Azure-Lösungen bieten eine umfassende Verteidigung und einen Zero Trust-Ansatz.

Implementieren Sie ggf. die folgenden Sicherheitsfeatures in dieser Architektur:

Kostenoptimierung

Bei der Kostenoptimierung geht es darum, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Verwenden Sie den Azure-Preisrechner, um die Kosten für die Implementierung dieser Lösung abschätzen zu können.

Beachten Sie auch die folgenden Ressourcen:

Optimaler Betrieb

Die Säule „Optimaler Betrieb“ deckt die Betriebsprozesse ab, die für die Bereitstellung einer Anwendung und deren Ausführung in der Produktion sorgen. Weitere Informationen finden Sie unter Übersicht über die Säule „Optimaler Betrieb“.

Lösungen für das maschinelle Lernen müssen skalierbar und standardisiert sein, um die Verwaltung und Wartung zu erleichtern. Stellen Sie sicher, dass Ihre Lösung fortlaufendes Rückschließen mit Neutrainingszyklen und automatisierten Neubereitstellungen von Modellen unterstützt.

Weitere Informationen finden Sie unter Solution Accelerator für Azure MLOps (v2).

Effiziente Leistung

Leistungseffizienz ist die Fähigkeit Ihrer Workload, auf effiziente Weise eine den Anforderungen der Benutzer entsprechende Skalierung auszuführen. Weitere Informationen finden Sie unter Übersicht über die Säule „Leistungseffizienz“.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Andere Mitwirkende:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte