Статья
04/01/2012

Хранимая процедура SystemGetClusterCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных)

Выполняет секционирование структуры интеллектуального анализа данных на заданное количество перекрестных разделов, обучает модель по каждой секции, а затем возвращает метрики точности для каждой секции.

Примечание. Эта хранимая процедура может использоваться только со структурой интеллектуального анализа, содержащей по крайней мере одну модель кластеризации. Для перекрестной проверки некластеризованных моделей используется SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).

Синтаксис

SystemGetClusterCrossValidationResults(
<structure name>, 
[,<mining model list>]
,<fold count>}
,<max cases>
<test list>])

Аргументы

mining structure
Имя структуры интеллектуального анализа данных в текущей базе данных.

(обязательно)

mining model list
Список моделей интеллектуального анализа данных для проверки с разделителями-запятыми.

Если не указан список моделей интеллектуального анализа, перекрестная проверка выполняется в отношении всех моделей кластеризации, связанных с заданной структурой интеллектуального анализа.

Примечание
Для перекрестной проверки моделей, не являющихся моделями кластеризации, необходимо использовать отдельную хранимую процедуру, SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).

(необязательно)

fold count
Целое число, указывающее количество секций, на которое разделяется набор данных. Минимальное значение — 2. Максимальное число сверток равно минимальному из следующих двух значений — maximum integer и количество вариантов.

Каждая секция будет содержать примерно следующее количество вариантов: max cases/fold count.

Значение по умолчанию отсутствует.

Примечание
Количество сверток оказывает существенное влияние на время, необходимое для перекрестной проверки. Если выбрать слишком большое количество сверток, запрос может выполняться очень долго, а в некоторых случаях сервер может стать недоступным или превысить лимит времени ожидания.

Количество сверток оказывает существенное влияние на время, необходимое для перекрестной проверки. Если выбрать слишком большое количество сверток, запрос может выполняться очень долго, а в некоторых случаях сервер может стать недоступным или превысить лимит времени ожидания.

(обязательно)

max cases
Целое число, определяющее максимальное количество вариантов, которые можно проверять.

Значение 0 показывает, что будут использоваться все варианты в источнике данных.

Если указано число, превышающее фактическое количество вариантов в наборе данных, будут использоваться все варианты в источнике данных.

(обязательно)
test list
Строка, указывающая параметры тестирования.

Примечание. Этот параметр зарезервирован для использования в будущем.

(необязательно)

Тип возвращаемых данных

Таблица возвращаемых типов содержит оценки каждой отдельной секции и статистических функций для всех моделей.

В следующей таблице приводятся описания возвращаемых столбцов.

Имя столбца	Описание
ModelName	Имя протестированной модели.
AttributeName	Имя прогнозируемого столбца. Для кластерных моделей всегда имеет значение null.
AttributeState	Заданное целевое значение в прогнозируемом столбце. Для кластерных моделей всегда имеет значение null.
PartitionIndex	Начинающийся с 1 индекс, определяющий, к какой секции применяются результаты.
PartitionSize	Целое число, показывающее, сколько вариантов было включено в каждую секцию.
Test	Тип выполненного теста.
Measure	Имя меры, возвращенной тестом. Меры для каждой модели зависят от типа прогнозируемого значения. Определение каждой меры см. в разделе Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных). Список мер, возвращаемых для каждого прогнозируемого типа см. в разделе Отчет перекрестной проверки (службы Analysis Services — интеллектуальный анализ данных).
Value	Значение указанной проверочной меры.

Замечания

Для возвращения показателей точности для всего набора данных используется Метод SystemGetClusterAccuracyResults (службы Analysis Services — интеллектуальный анализ данных).

Кроме того, если модель интеллектуального анализа данных уже секционирована на свертки, можно обойти обработку и возвратить только результаты перекрестной проверки с помощью Метод SystemGetClusterAccuracyResults (службы Analysis Services — интеллектуальный анализ данных).

Примеры

В следующем примере показано, как секционировать структуру интеллектуального анализа на три свертки, и далее проводится проверка двух моделей кластеризации, связанных с этой структурой интеллектуального анализа.

В третьей строке кода приведен список моделей интеллектуального анализа, предназначенных для проверки. Если не задать список, будут использоваться все модели кластеризации, связанные с этой структурой.

В четвертой строке кода задано количество сверток, а на пятой – максимальное число вариантов.

Поскольку это модели кластеризации, не обязательно указывать прогнозируемый атрибут или значение.

CALL SystemGetClusterCrossValidationResults(
[v Target Mail],
[Cluster 1], [Cluster 2],
3,
10000
)

Образец результатов:

ModelName	PartitionIndex	PartitionSize	Test	Measure	Value
Cluster 1	1	3025	Clustering	Case Likelihood	0.930524511864121
Cluster 1	2	3025	Clustering	Case Likelihood	0.919184178430778
Cluster 1	3	3024	Clustering	Case Likelihood	0.929651120490248
Cluster 2	1	1289	Clustering	Case Likelihood	0.922789726933607
Cluster 2	2	1288	Clustering	Case Likelihood	0.934865535691068
Cluster 2	3	1288	Clustering	Case Likelihood	0.924724595688798