Статья
09/28/2010

Отчет перекрестной проверки (службы Analysis Services — интеллектуальный анализ данных)

В процессе перекрестной проверки структуры интеллектуального анализа данных разбиваются на перекрестные разделы, после чего выполняется циклическое обучение и проверка моделей по каждому разрезу данных. Для разбиения данных указывается несколько секций, и каждая секция, в свою очередь, играет роль проверочных данных, тогда как остальные данные используются для обучения новой модели. Затем в службах Analysis Services для каждой модели формируется набор стандартных показателей точности. Сравнивая показатели моделей, созданных для каждого разреза, можно получить хорошее представление о том, насколько верна модель интеллектуального анализа для всего набора данных.

Примечание
Перекрестную проверку нельзя использовать с моделями, содержащими столбцы KEY TIME или KEY SEQUENCE.

В данном разделе поясняются сведения, представленные в отчете Перекрестная проверка на вкладке Диаграмма точности интеллектуального анализа данных в конструкторе интеллектуального анализа данных. Дополнительные сведения о создании отчета см. в разделе Вкладка «Перекрестная проверка» (просмотр диаграммы точности интеллектуального анализа данных).

Создание отчета о перекрестной проверке

Для перекрестной проверки моделей интеллектуального анализа данных, связанных со структурой интеллектуального анализа данных, соответствующие приведенные ниже параметры настраиваются на вкладке Перекрестная проверка в представлении диаграммы точности интеллектуального анализа в конструкторе интеллектуального анализа или с помощью следующих хранимых процедур перекрестной проверки.

Укажите число сверток.
Укажите максимальное число вариантов, используемых в перекрестной проверке. Это число делится на количество сверток.
Укажите прогнозируемый столбец. (Необязательно) Укажите прогнозируемое состояние.

Примечание
Если структура интеллектуального анализа данных содержит модели кластеризации, то вместо выбора прогнозируемого столбца укажите #Cluster. В отчете возвращаются результаты только для моделей кластеризации.

(Необязательно) Задайте параметры, управляющие оценкой точности прогноза.

Создание набора данных для перекрестной проверки

Если используется вкладка Перекрестная проверка в представлении Диаграмма точности интеллектуального анализа данных, то управлять объемом и типом данных, используемых для перекрестной проверки, можно двумя способами: указанием числа сверток и ограничением количества вариантов. По умолчанию при перекрестной проверке в среде Business Intelligence Development Studio для каждой модели используются обучающие варианты. Если с моделью связан какой-либо фильтр, он применяется.

Значение параметра Количество сверток задает номер создаваемых разрезов данных. Каждая свертка используется в качестве набора проверочных данных, а данные остальных сверток применяются для обучения новой модели. Таким образом, при минимальном значении, равном 2, половина набора данных будет использоваться для проверки, вторая половина — для обучения.

Если структура интеллектуального анализа данных не хранится в экземпляре служб Analysis Services, а является временной структурой или структурой сеанса, то максимальное число сверток, которое можно использовать, равно 10. Если структура интеллектуального анализа данных хранится в экземпляре служб Analysis Services, то количество сверток не может превышать количество вариантов. Если количество вариантов меньше, чем заданное в параметре «Количество сверток», то используется меньшее значение.

Примечание
При увеличении количества сверток также увеличивается и время, необходимое для выполнения перекрестной проверки, поскольку для каждой свертки необходимо создать и проверить модель. Если число сверток слишком высоко, то могут возникнуть проблемы с производительностью.

При увеличении количества сверток также увеличивается и время, необходимое для выполнения перекрестной проверки, поскольку для каждой свертки необходимо создать и проверить модель. Если число сверток слишком высоко, то могут возникнуть проблемы с производительностью.

Значение Максимальное число вариантов задает общее количество вариантов во всех свертках, которые можно использовать в перекрестной проверке. Поэтому количество вариантов в любой отдельной свертке можно вычислить как отношение значения Максимальное число вариантов к значению Количество сверток. По умолчанию используется значение 0, то есть используются все варианты структуры интеллектуального анализа данных.

При выполнении перекрестной проверки с помощью одной из хранимых процедур значения свойств FoldCount и MaxCases передаются в эту хранимую процедуру в виде параметров.

Примечание
При использовании хранимых процедур перекрестной проверки можно установить параметр DataSet, определяющий набор данных для проверки. Возможными наборами данных могут быть только обучающий набор, обучающий и проверочный наборы, а также сочетания обучающего и проверочного набора с фильтрами модели интеллектуального анализа данных. Дополнительные сведения см. в разделе SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).

При использовании хранимых процедур перекрестной проверки можно установить параметр DataSet, определяющий набор данных для проверки. Возможными наборами данных могут быть только обучающий набор, обучающий и проверочный наборы, а также сочетания обучающего и проверочного набора с фильтрами модели интеллектуального анализа данных. Дополнительные сведения см. в разделе SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).

Выбор моделей и столбцов для проверки

При использовании вкладки Перекрестная проверка конструктора интеллектуального анализа данных сначала нужно выбрать прогнозируемый столбец из списка. Как правило, в структурах интеллектуального анализа данных поддерживается нескольких моделей интеллектуального анализа, при этом не во всех используется один и тот же прогнозируемый столбец. При выполнении перекрестной проверки в отчет могут быть включены только те модели, в которых используется один и тот же прогнозируемый столбец.

Чтобы выбрать прогнозируемый атрибут, щелкните поле Целевой атрибут и выберите в списке нужный столбец. Если целевой атрибут представляет собой вложенный столбец или столбец вложенной таблицы, то имя вложенного столбца следует указать в формате <Имя вложенной таблицы>(ключ).<Вложенный столбец>. Если единственным столбцом, используемым во вложенной таблице, является ключевой столбец, то его можно указать как <Имя вложенной таблицы>(ключ).

Примечание. Использование хранимых процедур дает больше возможностей управления проверяемыми моделями. Дополнительные сведения см. в разделе SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).

После выбора прогнозируемого атрибута службы Analysis Services автоматически выполняют проверку всех моделей, в которых используется этот прогнозируемый атрибут.

При наличии в целевом атрибуте дискретных значений после выбора прогнозируемого столбца при необходимости можно указать целевое состояние, если имеется определенное значение, которое нужно спрогнозировать.

Выбор целевого состояния влияет на возвращаемые меры. Если указать целевой атрибут — то есть имя столбца — и при этом не указать определенное значение, которое необходимо спрогнозировать, то оценка модели будет выполнена на основе прогноза наиболее вероятного состояния.

При перекрестной проверке в модели кластеризации прогнозируемые столбцы не указываются; вместо этого в списке Целевой атрибут прогнозируемых атрибутов нужно выбрать #Кластер. После того как был выбран Кластер, другие параметры, не связанные с моделями кластеризации, например Целевое состояние, отключаются. Службы Analysis Services автоматически выполнят проверку всех моделей кластеризации, связанных со структурой интеллектуального анализа данных.

Задание порога точности

Управлять стандартом измерения точности прогнозов можно с помощью значения Целевой порог. Порог представляет собой разновидность диаграммы точности. Каждому прогнозу присваивается вероятность достоверности прогнозируемого значения. Таким образом, если значение Целевой порог близко к 1, то вероятность в любых определенных прогнозах должна быть довольно высокой, чтобы прогноз считался хорошим. И наоборот, если параметру Целевой порог присвоено значение, близкое к 0, то даже прогнозы с невысокими значениями вероятности будут считаться «хорошими».

Рекомендованных пороговых значений нет, поскольку вероятность в любом прогнозе зависит от имеющихся данных и типа составляемого прогноза. Чтобы построить диаграмму точности для своих данных, изучите несколько прогнозов с разными уровнями вероятности. Данный шаг важен, поскольку значение, заданное для параметра Целевой порог, существенно влияет на измеряемую точность модели.

Например, есть структура с тремя моделями, для которых целевое состояние прогнозируется с вероятностью соответственно 0,05, 0,15 и 0,8. Если порогу задано значение 0,5, правильным будет считаться только один прогноз. Если параметру Целевой порог присвоено значение 0,10, то правильными будут считаться два прогноза.

Если параметру Целевой порог присвоено значение null, являющееся значением по умолчанию, то в качестве целевого используется наиболее вероятное состояние. В приведенном выше примере прогноз всех трех моделей будет верен. Таким образом, при сравнении моделей необходимо учитывать порог, используемый для каждого экземпляра перекрестной проверки. Кроме того, для всех вариантов конкретной модели можно предположить средние вероятности посредством мер среднего правдоподобия и корня среднеквадратичной погрешности, имеющихся в отчете по перекрестной проверке.

Ограничения при использовании вкладки перекрестной проверки

Если перекрестная проверка выполняется посредством составления отчета о перекрестной проверке в среде Business Intelligence Development Studio, то для проверяемых моделей и устанавливаемых параметров имеются некоторые ограничения.

По умолчанию перекрестной проверке подвергаются все модели, связанные с выбранной структурой интеллектуального анализа данных. Отдельную модель или список моделей указать нельзя.
Перекрестная проверка не поддерживается для моделей, основанных на алгоритмах временных рядов (Майкрософт) или последовательной кластеризации (Майкрософт).
Создание отчета невозможно, если структура интеллектуального анализа данных не содержит ни одной модели, для которой допускается перекрестная проверка.
Если в структуре интеллектуального анализа данных содержатся как модели кластеризации, так и другие модели, и не был выбран параметр #Кластер, то результаты обоих типов моделей отображаются в одном и том же отчете, несмотря на то что настройки атрибута, состояния и порога могут не соответствовать моделям кластеризации.
Значения некоторых параметров ограничены. Так, например, если количество сверток превышает 10, то отображается предупреждение, поскольку создание такого большого количества моделей приведет к замедленному отображению отчета.

При необходимости установить дополнительные настройки следует использовать хранимые процедуры перекрестной проверки. Дополнительные сведения см. в разделе Хранимые процедуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Результаты перекрестной проверки

После того как заданы параметры и нажата кнопка Обновить, в сетке результатов отображаются результаты перекрестной проверки. В данном разделе поясняется содержимое каждого столбца сетки результатов.

Кроме некоторых основных сведений о количестве сверток данных и объеме данных в каждой свертке, службы Analysis Services отображают для каждой модели набор метрик, разбитых на группы по типу. Следующая таблица содержит проверки и метрики с объяснением значений каждой метрики.

Тип проверки	Меры и описания
Кластеризация	Правдоподобие вариантаОбозначает вероятность принадлежности варианта определенному кластеру.
Классификация	Истинный положительный результатПодсчет вариантов, удовлетворяющих этим условиям. Вариант содержит целевое значение. Модель предсказала, что вариант содержит целевое значение. Ложный положительный результатПодсчет вариантов, удовлетворяющих этим условиям. Фактическое значение равно целевому. Модель предсказала, что вариант содержит целевое значение. Истинный отрицательный результатПодсчет вариантов, удовлетворяющих этим условиям. Вариант не содержит целевого значения. Модель предсказала, что вариант не содержит целевого значения. Ложный отрицательный результатПодсчет вариантов, удовлетворяющих этим условиям. Фактическое значение не равно целевому. Модель предсказала, что вариант не содержит целевого значения.
Классификация	Совпадение или неудачаПодсчет вариантов, удовлетворяющих этим условиям. Проверка будет считаться пройденной успешно, если спрогнозированное состояние с наибольшей вероятностью совпадает с входным состоянием и вероятность больше значения Порог состояния. В противном случае проверка завершается ошибкой.
Правдоподобие	Точность прогнозаОтношение фактической вероятности прогноза к граничной вероятности в проверочных вариантах, исключая строки с отсутствующими значениями. Эта метрика показывает степень улучшения вероятности при использовании модели. Корень среднеквадратичной погрешностиОтношение квадратного корня из средней погрешности для всех вариантов секций к количеству вариантов в секции, исключая варианты с отсутствующими значениями. Логарифмическая оценкаЛогарифмы фактической вероятности для каждого варианта, просуммированные и деленные на число строк во входном наборе данных, за исключением вариантов с отсутствующими значениями. Поскольку вероятность представляется в виде десятичной дроби, логарифмическая оценка всегда является отрицательным числом. Чем ближе это число к 0, тем лучше прогноз.
Оценка	Среднеквадратичная погрешностьСредняя погрешность спрогнозированного значения относительно фактического значения, выраженная в виде квадратного корня из средней суммы квадратичных отклонений. Средняя абсолютная погрешностьСумма абсолютных погрешностей для всех вариантов в секции, деленная на число вариантов, с исключением строк с отсутствующими значениями целевого атрибута. Логарифмический рейтингЛогарифмы фактической вероятности для каждого варианта, просуммированные и деленные на число строк во входном наборе данных, за исключением вариантов с отсутствующими значениями. Поскольку вероятность представляется в виде десятичной дроби, логарифмическая оценка всегда является отрицательным числом. Чем ближе это число к 0, тем лучше прогноз.
Статистические вычисления Совокупная мера отображает дисперсию в результатах по каждой секции.	СреднееСредние значения секций по конкретным мерам. Стандартное отклонениеСреднее отклонение из среднего арифметического по конкретной мере с учетом всех секций модели.

Примечание
Эти меры точности вычисляются для каждого целевого атрибута. Для каждого из атрибутов можно указать или не указывать целевое значение. Некоторые записи могут не содержать значения целевого атрибута. Это особый случай, который называется отсутствующим значением. Строки, содержащие отсутствующие значения, не учитываются при вычислении точности определенного целевого атрибута. Кроме того, поскольку рейтинги рассчитываются для каждого атрибута индивидуально, если значение присутствует для целевого атрибута, но отсутствует для остальных атрибутов, это не влияет на рейтинг целевого атрибута.

Эти меры точности вычисляются для каждого целевого атрибута. Для каждого из атрибутов можно указать или не указывать целевое значение. Некоторые записи могут не содержать значения целевого атрибута. Это особый случай, который называется отсутствующим значением. Строки, содержащие отсутствующие значения, не учитываются при вычислении точности определенного целевого атрибута. Кроме того, поскольку рейтинги рассчитываются для каждого атрибута индивидуально, если значение присутствует для целевого атрибута, но отсутствует для остальных атрибутов, это не влияет на рейтинг целевого атрибута.

См. также

Основные понятия

Проверка моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных)

Другие ресурсы

Хранимые процедуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Поделиться через