Статья
04/01/2012

Матрица классификации (службы Analysis Services — интеллектуальный анализ данных)

Вкладка Матрица классификации на вкладке Диаграмма точности интеллектуального анализа в конструкторе интеллектуального анализа данных отображает матрицу для каждой модели, заданной на вкладке Выбор входа. Просмотр этой диаграммы, иногда также называемой матрицей противоречий, позволяет быстро увидеть, как часто предсказания данной модели оказываются точными.

Строки каждой матрицы представляют прогнозируемые значения модели, а в столбцах представлены фактические значения. Матрица классификации создается сортировкой всех вариантов по категориям: соответствует ли предсказанное значение реальному и было ли предсказанное значение верным или неверным. Эти категории иногда именуются также как ложный положительный результат, истинный положительный результат, ложный отрицательный результат и истинный отрицательный результат. Затем все варианты в каждой категории пересчитываются, и полученные количества выводятся в виде матрицы.

В этом разделе поясняется, как создать матрицу классификации и интерпретировать получаемые результаты.

Примечание
Матрицу классификации можно использовать только с дискретными прогнозируемыми атрибутами.

Сценарий

Рассмотрим, например, модель, созданную при изучении раздела Учебник по основам интеллектуального анализа данных. Для прогнозирования клиентов, которые с наибольшей вероятностью купят велосипед, можно использовать модель TM_DecisionTree, с помощью которой проводится кампания целевой рассылки. Если клиент, скорее всего, купит велосипед, значение столбца [Bike Buyer] равно 1, а если покупка маловероятна, этот столбец будет иметь значение 0.

Чтобы оценить эффективность модели в составлении прогнозов, ее проверяют с набором данных, для которого заранее известны значения [Bike Buyer]. Обычно используется набор проверочных данных, который резервировался при создании структуры интеллектуального анализа данных, с помощью которой проводилось обучение модели. Поскольку в этих данных уже содержатся фактические результаты, можно быстро определить, сколько раз модель прогнозировала ожидаемое решение.

Основные сведение о матрице классификации

В следующей таблице показаны результаты в случае, когда матрица классификации создается для модели TM_DecisionTree. Поскольку для этого прогнозируемого атрибута возможны только два значения, 0 и 1, относительно просто оценить частоту, с которой модель делает правильный прогноз.

Прогнозируемое значение	0 (Действительное)	1 (Действительное)
0	362	144
1	121	373

Первая результирующая ячейка, содержащая значение 362, указывает количество истинных положительных результатов для значения 0. Поскольку 0 означает, что клиент не приобрел велосипед, этот статистический показатель сообщает, что модель спрогнозировала правильное значение для клиентов, не купивших велосипед, в 362 случаях.

Ячейка, которая расположена непосредственно ниже и содержит значение 121, указывает число ложных положительных результатов, то есть количество раз, когда ожидалось, что клиент приобретет велосипед, но в действительности покупка не состоялась.

Ячейка, содержащая значение 144, указывает количество ложных положительных результатов для значений 1. Поскольку 1 означает, что клиент приобрел велосипед, этот статистический показатель сообщает, что модель в 144 случаях спрогнозировала, что клиент не приобретет велосипед, а в действительности покупка состоялась.

Наконец, ячейка со значением 373 указывает количество истинных положительных результатов для значения 1. Другими словами, модель в 373 случаях правильно спрогнозировала, что клиент приобретет велосипед.

Сложив значения в ячейках, расположенных на одной диагонали, можно определить общую точность модели. Одна диагональ позволяет определить общее число точных прогнозов, а вторая — общее число ошибочных прогнозов.

Использование нескольких прогнозируемых значений

Вариант [Bike Buyer] особенно просто интерпретировать, поскольку для него возможны только два значения. Если прогнозируемый атрибут имеет несколько возможных значений, матрица классификации добавляет новый столбец для каждого возможного фактического значения и затем подсчитывает число совпадений для каждого прогнозируемого значения. В следующей таблице показаны результаты для другой модели, когда возможны три значения (0, 1, 2).

Прогнозируемое значение	0 (Действительное)	1 (Действительное)	2 (Действительное)
0	111	3	5
1	2	123	17
2	19	0	20

Добавление столбцов делает отчет более сложным для восприятия, но, с другой стороны, более подробные данные могут оказаться очень полезными, когда необходимо оценить издержки, возникающие в случае неправильных прогнозов. Чтобы вычислить суммы по диагоналям или сравнить результаты для различных сочетаний строк, можно нажать кнопку Копировать на вкладке Матрица классификации и вставить отчет в Excel. Кроме того, можно использовать клиент (например, клиент интеллектуального анализа данных для Excel), который поддерживает версии SQL Server 2005 и SQL Server 2008, чтобы непосредственно в Excel создать классификационный отчет, содержащий и количества, и процентные доли. Дополнительные сведения см. в разделе Интеллектуальный анализ в SQL Server.

Создание матрицы классификации

Для создания матрицы классификации необходимо выполнить следующие шаги.

На вкладке Диаграмма точности интеллектуального анализа данных конструктора интеллектуального анализа данных перейдите на вкладку Выбор входа.
На вкладке Выбор входа выберите модель для оценки.
Укажите прогнозируемый атрибут. Дополнительно можно указать прогнозируемое значение.
Выберите данные, которые будут использоваться при оценке.
Перейдите на вкладку Матрица классификации, чтобы автоматически создать отчет в формате матрицы классификации.