Хранимая процедура SystemGetClusterCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных)

Выполняет секционирование структуры интеллектуального анализа данных на заданное количество перекрестных разделов, обучает модель по каждой секции, а затем возвращает метрики точности для каждой секции.

Примечание.   Эта хранимая процедура может использоваться только со структурой интеллектуального анализа, содержащей по крайней мере одну модель кластеризации. Для перекрестной проверки некластеризованных моделей используется SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).

Синтаксис

SystemGetClusterCrossValidationResults(
<structure name>, 
[,<mining model list>]
,<fold count>}
,<max cases>
<test list>])

Аргументы

  • mining structure
    Имя структуры интеллектуального анализа данных в текущей базе данных.

    (обязательно)

  • mining model list
    Список моделей интеллектуального анализа данных для проверки с разделителями-запятыми.

    Если не указан список моделей интеллектуального анализа, перекрестная проверка выполняется в отношении всех моделей кластеризации, связанных с заданной структурой интеллектуального анализа.

    ПримечаниеПримечание

    Для перекрестной проверки моделей, не являющихся моделями кластеризации, необходимо использовать отдельную хранимую процедуру, SystemGetCrossValidationResults (службы Analysis Services — интеллектуальный анализ данных).

    (необязательно)

  • fold count
    Целое число, указывающее количество секций, на которое разделяется набор данных. Минимальное значение — 2. Максимальное число сверток равно минимальному из следующих двух значений — maximum integer и количество вариантов.

    Каждая секция будет содержать примерно следующее количество вариантов: max cases/fold count.

    Значение по умолчанию отсутствует.

    ПримечаниеПримечание

    Количество сверток оказывает существенное влияние на время, необходимое для перекрестной проверки. Если выбрать слишком большое количество сверток, запрос может выполняться очень долго, а в некоторых случаях сервер может стать недоступным или превысить лимит времени ожидания.

    (обязательно)

  • max cases
    Целое число, определяющее максимальное количество вариантов, которые можно проверять.

    Значение 0 показывает, что будут использоваться все варианты в источнике данных.

    Если указано число, превышающее фактическое количество вариантов в наборе данных, будут использоваться все варианты в источнике данных.

    (обязательно)

  • test list
    Строка, указывающая параметры тестирования.

    Примечание. Этот параметр зарезервирован для использования в будущем.

    (необязательно)

Тип возвращаемых данных

Таблица возвращаемых типов содержит оценки каждой отдельной секции и статистических функций для всех моделей.

В следующей таблице приводятся описания возвращаемых столбцов.

Имя столбца

Описание

ModelName

Имя протестированной модели.

AttributeName

Имя прогнозируемого столбца. Для кластерных моделей всегда имеет значение null.

AttributeState

Заданное целевое значение в прогнозируемом столбце. Для кластерных моделей всегда имеет значение null.

PartitionIndex

Начинающийся с 1 индекс, определяющий, к какой секции применяются результаты.

PartitionSize

Целое число, показывающее, сколько вариантов было включено в каждую секцию.

Test

Тип выполненного теста.

Measure

Имя меры, возвращенной тестом. Меры для каждой модели зависят от типа прогнозируемого значения. Определение каждой меры см. в разделе Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных).

Список мер, возвращаемых для каждого прогнозируемого типа см. в разделе Отчет перекрестной проверки (службы Analysis Services — интеллектуальный анализ данных).

Value

Значение указанной проверочной меры.

Замечания

Для возвращения показателей точности для всего набора данных используется Метод SystemGetClusterAccuracyResults (службы Analysis Services — интеллектуальный анализ данных).

Кроме того, если модель интеллектуального анализа данных уже секционирована на свертки, можно обойти обработку и возвратить только результаты перекрестной проверки с помощью Метод SystemGetClusterAccuracyResults (службы Analysis Services — интеллектуальный анализ данных).

Примеры

В следующем примере показано, как секционировать структуру интеллектуального анализа на три свертки, и далее проводится проверка двух моделей кластеризации, связанных с этой структурой интеллектуального анализа.

В третьей строке кода приведен список моделей интеллектуального анализа, предназначенных для проверки. Если не задать список, будут использоваться все модели кластеризации, связанные с этой структурой.

В четвертой строке кода задано количество сверток, а на пятой – максимальное число вариантов.

Поскольку это модели кластеризации, не обязательно указывать прогнозируемый атрибут или значение.

CALL SystemGetClusterCrossValidationResults(
[v Target Mail],
[Cluster 1], [Cluster 2],
3,
10000
)

Образец результатов:

ModelName

AttributeName

AttributeState

PartitionIndex

PartitionSize

Test

Measure

Value

Cluster 1

 

 

1

3025

Clustering

Case Likelihood

0.930524511864121

Cluster 1

 

 

2

3025

Clustering

Case Likelihood

0.919184178430778

Cluster 1

 

 

3

3024

Clustering

Case Likelihood

0.929651120490248

Cluster 2

 

 

1

1289

Clustering

Case Likelihood

0.922789726933607

Cluster 2

 

 

2

1288

Clustering

Case Likelihood

0.934865535691068

Cluster 2

 

 

3

1288

Clustering

Case Likelihood

0.924724595688798

Требования

Перекрестная проверка доступна только в версиях SQL Server Enterprise, начиная с SQL Server 2008.