Вкладка «Перекрестная проверка» (просмотр диаграммы точности интеллектуального анализа данных)

Перекрестная проверка позволяет разбить структуру интеллектуального анализа данных на разрезы, после чего — выполнить итеративное обучение и проверку моделей по каждому разрезу. Необходимо указать количество сверток, на которые разделяются данные, и каждая свертка, в свою очередь, играет роль проверочных данных, тогда как остальные данные используются для обучения новой модели. Затем в службах Службы Analysis Services для каждой модели формируется набор стандартных показателей точности. Сравнивая показатели моделей, созданных для каждого разреза, можно получить хорошее представление о том, насколько верна модель интеллектуального анализа для всего набора данных.

Дополнительные сведения см. в разделе Перекрестная проверка (службы Analysis Services — интеллектуальный анализ данных).

ПримечаниеПримечание

Перекрестная проверка не может использоваться с моделями, построенными с помощью алгоритма временных рядов (Майкрософт) или алгоритма кластеризации последовательностей (Майкрософт). При составлении отчета по структуре интеллектуального анализа данных, в которой содержатся модели таких типов, эти модели не будут включены в отчет.

  • Укажите число сверток.

  • Укажите максимальное число вариантов, используемых в перекрестной проверке.

  • Укажите прогнозируемый столбец.

  • (Необязательно) Укажите прогнозируемое состояние.

  • (Необязательно) Задайте параметры, управляющие оценкой точности прогноза.

  • Нажмите кнопку Получить результаты, чтобы отобразить результаты перекрестной проверки.

  • Количество сверток
    Укажите количество создаваемых сверток или секций. Минимальное значение равно 2, то есть одна половина набора данных используется для проверки, другая — для обучения.

    Максимальное значение составляет 10 для структур интеллектуального анализа данных сеансов.

    Если структура интеллектуального анализа данных хранится в экземпляре служб Службы Analysis Services, максимальное значение составляет 256.

    ПримечаниеПримечание

    По мере увеличения количества сверток соответствующим образом увеличивается время, необходимое для выполнения перекрестной проверки. Большое количество вариантов и большое значение параметра Количество сверток может привести к снижению производительности.

  • Максимальное количество вариантов
    Укажите максимальное число вариантов, используемых в перекрестной проверке. Количество вариантов в любой отдельной свертке можно вычислить как отношение значения Максимальное количество вариантов к значению Количество сверток.

    При значении 0 для перекрестной проверки используются все варианты исходных данных.

    Значение по умолчанию отсутствует.

    ПримечаниеПримечание

    По мере увеличения количества вариантов увеличивается и время обработки.

  • Целевой атрибут
    Выберите столбец из списка прогнозируемых столбцов, обнаруженных во всех моделях. Каждый раз при выполнении перекрестной проверки можно выбрать только один прогнозируемый столбец.

    Чтобы проверить только модели кластеризации, выберите Кластер.

  • Целевое состояние
    Введите значение или выберите целевое значение из раскрывающегося списка значений.

    Значением по умолчанию является null, обозначающее проверку всех состояний.

    Отключено для моделей кластеризации.

  • Цель Порог
    Укажите значение в диапазоне от 0 до 1, обозначающее вероятность прогноза, прогнозируемое состояние выше которой считается верным. Задать это значение можно с шагом 0,1.

    Значением по умолчанию является null, обозначающее, что верным считается прогноз с наивысшей вероятностью.

    ПримечаниеПримечание

    Значение 0,0 присвоить этому параметру можно, но это приведет к увеличению времени обработки и не даст значительных результатов.

  • Получить результаты
    Нажмите, чтобы запустить перекрестную проверку модели с указанными параметрами.

    Модель секционируется на указанное количество сверток, и для каждой свертки выполняется проверка отдельной модели. Поэтому, чтобы получить результаты перекрестной проверки, необходимо некоторое время.

Дополнительные сведения об интерпретации результатов отчета перекрестной проверки см. в разделе Отчет перекрестной проверки (службы Analysis Services — интеллектуальный анализ данных).

Задание порога точности

Управлять стандартом измерения точности прогнозов можно с помощью значения Целевой порог. Порог представляет собой разновидность диаграммы точности. Каждому прогнозу присваивается вероятность достоверности прогнозируемого значения. Таким образом, если значение Целевой порог близко к 1, вероятность в любых конкретных прогнозах должна быть довольно высокой, чтобы прогноз считался хорошим. И наоборот, если параметру Целевой порог присвоено значение, близкое к 0, то хорошими будут считаться даже прогнозы с невысокими значениями вероятности.

Рекомендованных значений порога нет, поскольку вероятность в любом прогнозе зависит от объема данных и типа составляемого прогноза. Чтобы построить диаграмму точности для своих данных, изучите несколько прогнозов с разными уровнями вероятности. Данный этап важен, поскольку значение, заданное для параметра Целевой порог, влияет на измеряемую точность модели.

Например, имеется три прогноза, составленных для определенного целевого состояния, с вероятностями 0,05, 0,15 и 0,8. Если порогу задано значение 0,5, правильным будет считаться только один прогноз. Если параметру Целевой порог присвоено значение 0,10, то верными будут считаться два прогноза.

Если параметру Целевой порог присвоено значение null, являющееся значением по умолчанию, в каждом варианте верным считается прогноз с наиболее высокой вероятностью. В только что приведенном примере вероятности 0,05, 0,15 и 0,8 являются прогнозами в трех различных вариантах. Несмотря на большую разницу в вероятностях, каждый из прогнозов будет считаться верным, поскольку в каждом варианте формируется только один прогноз, и указанные прогнозы являются лучшими в данных вариантах.