Изучение модели Call Center (учебник по интеллектуальному анализу данных — средний уровень)

Статья
05/08/2013

Когда исследовательская модель построена, ее можно использовать для получения дополнительных сведений о данных с помощью следующих инструментов среды SQL Server Data Tools (SSDT).

Средство просмотра нейронных сетей (Майкрософт): Это средство просмотра доступно на вкладке Средство просмотра моделей интеллектуального анализа данных конструктора интеллектуального анализа данных и предназначено для упрощения работы со взаимосвязями в данных.
Средство просмотра деревьев содержимого общего вида (Майкрософт): Это стандартное средство просмотра предоставляет подробные данные о закономерностях и статистические данные, обнаруженные алгоритмом во время создания модели.

Средство просмотра нейронных сетей (Microsoft)

Это средство просмотра содержит три панели: Входные данные, Выходные данные и Переменные.

На панели Выходные данные можно выбрать различные значения для прогнозируемого атрибута (или зависимой переменной). Если модель содержит несколько прогнозируемых атрибутов, атрибут можно выбрать из списка Выходной атрибут.

На панели Переменные два выбранных результата сравниваются относительно составляющих их атрибутов или переменных. Цветные линии визуально представляют степень влияния переменной на конечные результаты. Также можно просмотреть оценку точности прогноза для переменных. Оценка точности вычисляется различным образом в зависимости от типа используемой модели интеллектуального анализа данных, но обычно сообщает, как улучшается работа модели в случае использования данного атрибута для прогнозирования.

Панель Входные данные позволяет добавлять в модель факторы влияния, чтобы проверить работу в различных гипотетических вариантах сценариев.

Использование панели «Выходные данные»

В этой первоначальной модели задачей является изучение влияния различных факторов на уровень обслуживания. Для этого из списка выходных атрибутов можно выбрать атрибут Service Grade, а затем сравнивать различные уровни обслуживания, выбирая диапазоны из раскрывающихся списков Значение 1 и Значение 2.

Сравнение самого низкого и самого высокого уровней обслуживания

В поле Value 1 выберите диапазон с самыми низкими значениями. Например, диапазон 0-0-0,7 представляет самые низкие показатели вызовов, прекращенных абонентом, что соответствует самому высокому уровню обслуживания.

Примечание
Значения, фактически присутствующие в этом диапазоне, могут различаться в зависимости от конфигурации модели.

В поле Value 2 выберите диапазон с самыми высокими значениями. Например, диапазон со значением >=0,12 представляет самый высокий показатель вызовов, прекращенных абонентом, что соответствует самому низкому уровню обслуживания. Другими словами, 12 % клиентов, позвонивших за эту смену, повесили трубку до разговора с представителем компании.

Содержимое панели Переменные обновляется, чтобы сравнивать атрибуты, составляющие результирующие значения. Поэтому в левом столбце показаны атрибуты, связанные с самым высоким уровнем обслуживания, а в правом столбце — атрибуты, связанные с самым низким уровнем обслуживания.

Использование панели «Переменные»

В данной модели важным фактором является переменная Average Time Per Issue. Эта переменная указывает среднее время, затрачиваемое на ответ на звонок, независимо от его типа.

Просмотр и копирование вероятности и оценки точности прогноза для атрибута

Наведите указатель мыши на цветную полосу в первой строке панели Переменные.

Эта цветная полоса показывает, как сильно переменная Average Time Per Issue влияет на уровень обслуживания. В подсказке выводится общая оценка, значения вероятности и оценка точности прогноза для каждого сочетания переменной и конечного результата.
Щелкните правой кнопкой мыши любую цветную полосу на панели Переменные и выберите команду Копировать.
Щелкните правой кнопкой мыши любую ячейку на листе Excel и выберите команду Вставить.

Отчет будет вставлен в виде HTML-таблицы, где показаны только оценки для каждой полосы.
Щелкните правой кнопкой мыши любую ячейку на другом листе Excel и выберите команду Специальная вставка.

Отчет будет вставлен в текстовом формате, и будут показаны связанные статистические данные, описанные в следующем разделе.

Использование панели «Входные данные»

Предположим, что нужно изучить влияние отдельного фактора, например смены или количества операторов. Можно выбрать отдельную переменную на панели Входные данные, и панель Переменные автоматически обновится, чтобы сравнить две ранее выбранные группы по заданной переменной.

Просмотр влияния, оказываемого изменением входных атрибутов на уровень обслуживания

На панели Входные данные выберите в поле атрибут значение Shift.
Для поля Значение выберите AM.

Панель Переменные обновится, чтобы показать, как изменится модель, если выбрать смену AM («до полудня»). При этом сохраняются все остальные выбранные значения, и продолжается сравнение самого низкого и самого высокого уровней обслуживания.
Для поля Значение выберите PM1.

Панель Переменные обновится, чтобы показать, как изменится модель, если меняется смена.
На панели Входные данные щелкните следующую пустую строку под строкой Атрибут и выберите значение Calls. В поле Значение выберите диапазон, в котором указано самое большое количество звонков.

В список будет добавлено новое входное условие. Панель Переменные обновится, чтобы показать, как изменится модель для заданной смены при максимальном количестве звонков.

Продолжайте изменять значения Shift и Calls, чтобы обнаружить содержательные взаимосвязи между сменой, количеством звонков и уровнем обслуживания.

Примечание
Чтобы очистить панель Входные данные и использовать другие атрибуты, щелкните ссылку Обновить содержимое средства просмотра.

Интерпретация статистических данных, представленных в средстве просмотра

При увеличенном времени ожидания можно уверенно прогнозировать высокий показатель вызовов, прекращенных абонентом во время ожидания, что свидетельствует о низком уровне обслуживания. Такое заключение может показаться самоочевидным, однако модель интеллектуального анализа данных предоставляет также дополнительные статистические данные, позволяющие интерпретировать подобные тренды.

Оценка: значение, которое указывает общую важность данной переменной для определения различий между результатами. Чем выше оценка, тем сильнее влияние переменной на результат.
Вероятность значения 1: процентное отношение, представляющие вероятность данного значения в этом результате.
Вероятность значения 2: процентное отношение, представляющие вероятность данного значения в этом результате.
Точность прогноза для Value 1 и Точность прогноза для Value 2: оценки, которые представляют влияние заданной переменной на прогноз результатов Value 1 и Value 2. Чем выше оценка, тем лучше данная переменная подходит для прогнозирования результатов.

В следующей таблице приведены несколько примеров значений для самых важных факторов. Например, Вероятность значения 1 составляет 60,6 %, а Вероятность значения 2 составляет 8,30 %. Это значит, что, когда значение Average Time Per Issue находилось в диапазоне от 44 до 70 минут, 60,6 % вариантов попало в смену с самым высоким уровнем обслуживания (Значение 1), а 8,30 % вариантов — в смену с самым низким уровнем обслуживания (Значение 2).

По этим данным можно сделать ряд заключений. Меньшее время ответа на звонок (в диапазоне 44–70) сильно влияет на повышение уровня обслуживания (диапазон 0,00–0,07). Оценка (92.35) сообщает, что данная переменная является очень важной.

Однако в списке влияющих факторов присутствуют и другие факторы, воздействие которых менее заметно и более сложно для интерпретации. Например, смена влияет на качество обслуживания, однако оценка точности прогноза и относительные значения вероятности показывают, что смена не является важным фактором.

Средние затраты времени на решение проблемы

89.087 - 120.000

Оценка: 100

Вероятность Value1: 4.45 %

Вероятность Value2: 51.94 %

Точность прогноза для Value1: 0.19

Точность прогноза для Value2: 1.94

Средние затраты времени на решение проблемы

44.000 - 70.597

Оценка: 92.35

Вероятность Value1: 60.06 %

Вероятность Value2: 8.30 %

Точность прогноза для Value1: 2.61

Точность прогноза для Value2: 0.31

В начало

Средство просмотра деревьев содержимого общего вида (Майкрософт)

Это средство просмотра предназначено для вывода еще более подробных сведений, полученных алгоритмом во время обработки модели. Средство просмотра деревьев содержимого общего вида (Майкрософт) представляет модель интеллектуального анализа данных в виде последовательности узлов, где каждый узел представляет набор известных знаний об обучающих данных. Это средство просмотра может использоваться с любыми моделями, однако содержимое узлов различается в зависимости от типа модели.

Для моделей нейронной сети или логистической регрессии может оказаться особенно полезным marginal statistics node. Этот узел содержит выведенные статистические сведения о распределении значений в данных. Эти сведения могут быть полезны, если нужно получить сводное представление о данных, не создавая большое количество запросов T-SQL. Диаграмма распределения значений по сегментам в предыдущем разделе была получена из граничного узла статистики.

Получение сводки по значениям данных из модели интеллектуального анализа данных

В конструкторе интеллектуального анализа данных на вкладке Средство просмотра моделей интеллектуального анализа данных выберите <имя модели интеллектуального анализа данных>.
Из списка Средство просмотра выберите Средство просмотра деревьев содержимого общего вида (Майкрософт).

Представление модели интеллектуального анализа данных обновится и будет отображать иерархию узлов в левой панели и HTML-таблицу в правой панели.
На панели Заголовок узла щелкните узел с именем 10000000000000000.

Самый верхний узел в любой модели всегда является ее корневым узлом. В модели нейронной сети или логистической регрессии граничный узел статистики расположен непосредственно под корневым узлом.
Прокрутите панель Сведения об узле вниз, пока не появится строка NODE_DISTRIBUTION.
Прокрутите таблицу NODE_DISTRIBUTION, чтобы просмотреть распределение значений, вычисленное алгоритмом нейронной сети.

Чтобы использовать эти данные в отчете, можно выделить и скопировать сведения из отдельных строк или использовать следующий запрос расширений интеллектуального анализа данных для извлечения полного содержимого узла.

SELECT * 
FROM [Call Center EQ4].CONTENT
WHERE NODE_NAME = '10000000000000000'

Также можно использовать иерархию узлов и данные из таблицы NODE_DISTRIBUTION, чтобы пройти по определенным путям в нейронной сети и просмотреть статистику скрытого слоя. Дополнительные сведения см. в разделе Примеры запросов к модели нейронной сети.

В начало

Следующая задача занятия

Добавление модели логистической регрессии к структуре Call Center (учебник по интеллектуальному анализу данных — средний уровень)

См. также