Поделиться через


Обзор анализа первопричин

Анализ первопричин (RCA) позволяет найти скрытые связи в ваших данных. Например, это поможет вам понять, почему для завершения некоторых случаев требуется больше времени, чем для других, или почему одни случаи застревают в переделках, а другие выполняются без проблем. RCA покажет вам ключевые различия между такими случаями.

Необходимые данные

RCA может использовать все ваши атрибуты, метрики и пользовательские метрики на уровне случая, чтобы найти связи между ними, и метрику по вашему выбору.

Лучший пример — включить все возможные данные в качестве атрибута уровня случая и позволить RCA выбрать, какой атрибут действительно влияет на метрику, а какой — нет.

Как работает RCA

Алгоритм RCA вычислит древовидную структуру, в которой каждый узел разделит набор данных на две меньшие части. Это основано на одной переменной, где она находит наилучшую корреляцию между разделением переменных и целевой метрикой. Отсюда вы можете увидеть скрытые связи в данных. Именно здесь он покажет вам, какая комбинация атрибутов и каким образом повлияет на случай.

Как RCA находит лучший разделить

Во-первых, мы генерируем от сотен до тысяч комбинаций возможных разделений. Затем мы пробуем каждое разделение, чтобы узнать, насколько хорошо оно на самом деле разделит набор данных на две части. Мы рассчитываем дисперсию основной метрики в каждой части разделения и вычисляем балл для каждого разделения с помощью следующего расчета:

оценкаsplit_x = дисперсиялевая * количество случаевлевая + дисперсияправая * количество случаевправая

Затем мы сортируем все разделения по этой оценке, и берутся лучшие разделения с начала с наименьшей оценкой. Для категориальной основной метрики (строки) мы вычисляем индекс примеси Джини вместо дисперсии.

Пример RCA

В этом примере мы хотим увидеть основную причину продолжительности случаев. В данных у нас есть атрибуты уровня случая страна поставщика, город поставщика, материал, общая сумма и место возникновения затрат. Средняя продолжительность случая составляет 46 часов.

Рассматривая каждое значение каждого атрибута отдельно, мы видим, что наибольшее влияние на продолжительность случая оказывает тот факт, что город поставщика равен Грац, что в среднем увеличивает продолжительность случая еще на 15 часов. Из этого начального анализа видно, что другие значения атрибутов гораздо меньше влияют на целевую метрику. Однако когда мы вычисляем древовидную модель, мы видим, что приведенное выше вычисление вводит в заблуждение (как на следующем снимке экрана).

Снимок экрана источника влияния на продолжительности случая.

Древовидная структура выглядит следующим образом:

  • Первое разделение — это данные по переменной материал. Данные с алюминием отображаются с одной стороны, а все другие материалы — с другой.

  • Ветка алюминия разделена по стране поставщика на Германию и Австрию.

  • Ветка Австрия дальше разделяется по городу поставщика с Грацем с одной стороны и Веной — с другой.

  • В узле Грац средний случай был на 36 часов медленнее, чем общая средняя продолжительность в 46 часов.

В том же дереве мы видим, что если у нас есть материал, отличный от алюминия, он также разделяется по переменной город поставщика, где с одной стороны Грац, а с другой — Вена, Мюнхен или Франкфурт. Но здесь значения противоположны. Грац имеет гораздо лучшую статистику, чем Вена или любой другой немецкий город, при этом средний случай в Граце на 15 часов быстрее, чем общий средний показатель для всех случаев.

Из этого мы можем видеть, что первоначальная статистика вводит в заблуждение, потому что Грац плохо работает, когда материалом является алюминий. Однако он работает лучше среднего, когда материал отличается от алюминия, и полностью противоположен для других городов.

Статистка Влияние длительности случая учитывает только одно значение и иногда может вводить в заблуждение. RCA учитывает их комбинации, чтобы дать вам больше информации о вашем процессе.