Übersicht über die Ursachenanalyse

Artikel
07/25/2023

Die Root Cause Analysis (RCA) lässt zu, dass Sie versteckte Zusammenhänge in Ihren Daten finden. Es hilft Ihnen zum Beispiel zu verstehen, warum manche Cases länger brauchen als andere oder warum manche Cases in Nacharbeiten stecken bleiben, während andere reibungslos ausgeführt werden. RCA zeigt Ihnen die wichtigsten Unterschiede zwischen solchen Cases auf.

Erforderliche Daten

RCA kann alle Attribute auf Case-Ebene, Metriken und angepasste Metriken verwenden, um Verbindungen zwischen ihnen zu finden, sowie eine Metrik Ihrer Wahl.

Am besten nehmen Sie alle möglichen Daten als Attribut auf Case-Ebene auf und überlassen RCA die Auswahl, welches Attribut die Metrik tatsächlich beeinflusst und welches nicht.

So funktioniert RCA

Der RCA-Algorithmus berechnet eine Baumstruktur, bei der jeder Knoten das Dataset in zwei kleinere Teile aufteilt. Sie basiert auf einer Variablen, bei der die beste Korrelation zwischen der Variablenaufteilung und der Zielmetrik gefunden wird. Daran können Sie die versteckten Zusammenhänge in den Daten erkennen. Hier erfahren Sie, welche Kombination von Attributen den Case in welcher Weise beeinflusst.

Wie RCA die beste Aufteilung findet

Zunächst generieren wir Hunderte bis Tausende von Kombinationen möglicher Splits. Dann probieren wir jede Aufteilung aus, um herauszufinden, wie gut sie das Dataset tatsächlich in zwei Teile aufteilt. Wir berechnen die Varianz der Hauptmetrik in jedem Teil des Splits und berechnen die Bewertung für jeden Split mit der folgenden Berechnung:

score_{split_x} = variance_left * number of cases_left + variance_right * number of cases_right

Anschließend werden alle Splits nach dieser Bewertung sortiert und die besten Splits mit der niedrigsten Bewertung an den Anfang gestellt. Für die kategoriale Hauptmetrik (string) berechnen wir die Gini-Verunreinigung anstelle der Varianz.

RCA-Beispiel

In diesem Beispiel möchten wir die Ursache für die Dauer eines Cases herausfinden. In den Daten haben wir die Attribute auf Case-Ebene Lieferantenland, Lieferantenort, Material, Gesamtbetrag und Kostenstelle. Die durchschnittliche Dauer eines Cases beträgt 46 Stunden.

Wenn wir die Werte der einzelnen Attribute separat betrachten, können wir feststellen, dass die Dauer eines Cases am stärksten beeinflusst wird, wenn LieferantenstadtGraz ist, was die Dauer des Falls im Durchschnitt um weitere 15 Stunden erhöht. Anhand dieser ersten Analyse können wir erkennen, dass die anderen Werte der Attribute die Zielmetrik weit weniger beeinflussen. Wenn wir jedoch das Baummodell berechnen, sehen wir, dass die obige Berechnung irreführend ist (wie im folgenden Screenshot).

Screenshot des Einflusses der Case-Dauer.

Die Baumstruktur sieht wie folgt aus:

Die erste Aufteilung sind die Daten entlang der Variable Material. Die Daten mit Aluminium stehen auf der einen Seite und alle anderen Materialien auf der anderen Seite.
Der Aluminium Branch ist nach Lieferland weiter unterteilt in Deutschland und Österreich.
Der Austria Branch setzt sich mit einer Aufteilung nach Lieferantenstadt fort, mit Graz auf der einen und Wien auf der anderen Seite.
In dem Knoten Graz war der durchschnittliche Case 36 Stunden langsamer als die durchschnittliche Gesamtdauer von 46 Stunden.

Im gleichen Baum können wir sehen, dass, wenn wir ein anderes Material als Aluminium haben, es auch durch die Variable Lieferantenstadt aufgeteilt wird, wobei auf der einen Seite Graz und auf der anderen Wien, München oder Frankfurt steht. Aber hier sind die Werte das Gegenteil. Graz hat eine viel bessere Statistik als Wien oder jede andere deutsche Stadt, wobei der durchschnittliche Case in Graz 15 Stunden schneller ist als der Gesamtdurchschnitt aller Cases.

Daraus können wir ersehen, dass die anfänglichen Statistiken irreführend sind, denn Graz schneidet schlecht ab, wenn es sich bei dem Material um Aluminium handelt, schneidet jedoch überdurchschnittlich gut ab, wenn es sich bei dem Material nicht um Aluminium handelt, und verhält sich bei anderen Städten genau umgekehrt.

Vorgangsdauer-Einfluss-Statistiken berücksichtigen nur einen Wert und können manchmal irreführend sein. RCA berücksichtigt Kombinationen davon, um Ihnen mehr Einblicke in Ihren Prozess zu geben.

Übersicht über die Ursachenanalyse

Erforderliche Daten

So funktioniert RCA

Wie RCA die beste Aufteilung findet

RCA-Beispiel

Zusätzliche Ressourcen