Оценка эффективности модели в Студии машинного обучения (классическая)

Статья
03/20/2017

ОБЛАСТЬ ПРИМЕНЕНИЯ: Применимо к продукту. Студия машинного обучения (классическая) Неприменимо к продукту. Машинное обучение Azure

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о переносе проектов машинного обучения из Студии машинного обучения (классическая версия) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Прекращается поддержка документации по Студии машинного обучения (классическая версия). В будущем она может не обновляться.

В этой статье описываются метрики, которые можно использовать для мониторинга эффективности моделей в Студии машинного обучения (классическая). Оценка эффективности модели является одним из основных этапов процесса обработки и анализа данных. Она показывает, насколько успешно обученная модель обрабатывает (прогнозирует) набор данных. Оценка модели в Студии машинного обучения (классическая) базируется на двух основных модулях машинного обучения:

Эти модули позволяют видеть эффективность модели в пересчете на различные показатели, обычно используемые в машинном обучении и статистике.

Оценку моделей следует рассматривать наряду со следующими аспектами:

Доступны три стандартных сценария управляемого обучения:

регрессия;
двоичная классификация;
классификация по нескольким классам.

Сравнение оценки и перекрестной проверки

Оценка и перекрестная проверка — это стандартные способы для измерения эффективности модели. Оба модуля генерируют показатели оценки, которые вы можете проверить или сравнить с показателями других моделей.

Модуль Анализ модели предполагает, что на вход будет подан набор данных с выполненными для него расчетами по модели (или два таких набора, если требуется сравнить эффективность двух моделей). Поэтому, чтобы можно было оценить результаты, необходимо сначала обучить модель с помощью модуля Train Model (Обучение модели) и сделать прогнозы по набору данных с помощью модуля Score Model (Расчет по модели). Оценка основывается на подсчитанных метках или вероятностях и на истинных метках. Все эти значения предоставляет модуль Score Model (Оценка модели).

Кроме того, вы можете использовать перекрестную проверку, чтобы автоматически выполнить ряд операций "обучить-подсчитать-оценить" (10 сборок) для различных подмножеств входных данных. Входные данные делятся на 10 частей: одна резервируется для тестирования, а остальные 9 — для обучения. Этот процесс повторяется 10 раз, затем из показателей оценки выводится средняя величина. Эта процедура позволяет определить, насколько хорошо модель будет обобщаться на новых наборах данных. Модуль Cross-Validate Model (Перекрестная проверка модели) берет необученную модель и несколько группированных наборов данных, а затем в дополнение к усредненным результатам выводит результаты оценки каждой из 10 сборок.

В следующих разделах мы создадим простые модели регрессии и классификации и оценим их эффективность, используя модули Evaluate Model (Анализ модели) и Cross-Validate Model (Перекрестная проверка модели).

Оценка модели регрессии

Пусть стоит задача предсказать цену автомобиля, используя такие параметры, как размеры, мощность, характеристики двигателя и т. д. Это типичная задача регрессии, где целевой переменной price (Цена) присвоено непрерывное числовое значение. Можно подобрать простую модель линейной регрессии, которая позволит спрогнозировать цену автомобиля на основании значений его параметров. Эту модель регрессии можно использовать для подсчета того же набора данных, который использовался для обучения. Имея прогноз цен на все автомобили, мы сможем оценить эффективность модели. Для этого мы сравним, насколько прогнозы отличаются в среднем от фактических цен. Чтобы проиллюстрировать этот сценарий, мы воспользуемся набором необработанных данных о ценах на автомобили, доступным в разделе сохраненных наборов данных Студии машинного обучения (классической).

Создание эксперимента

Добавьте следующие модули в рабочую область Студии машинного обучения (классическая):

данные о ценах на автомобили (необработанные);
Линейная регрессия
Train Model (Обучение модели);
Оценка модели
Анализ модели

Соедините порты, как показано на рисунке 1 ниже, и установите для столбца "Метка" модуля Обучение модели значение цена.

Оценка модели регрессии

Рис. 1. Оценка модели регрессии.

Проверка результатов оценки

После проведения эксперимента щелкните порт вывода модуля Evaluate Model (Анализ модели) и выберите Визуализировать, чтобы отобразить результаты оценки. Для моделей регрессии доступны такие метрики оценки: Mean Absolute Error (Средняя абсолютная погрешность), Root Mean Absolute Error (Среднеквадратическая абсолютная погрешность), Relative Absolute Error (Относительная абсолютная погрешность), Relative Squared Error (Относительная среднеквадратическая погрешность) и Coefficient of Determination (Коэффициент детерминации).

Термин "ошибка" здесь означает разницу между прогнозируемым значением и истинным значением. Абсолютное значение или квадрат этой разницы обычно вычисляется, чтобы зафиксировать абсолютную величину ошибки во всех экземплярах, так как разница между прогнозируемым и истинным значением иногда может быть отрицательным числом. Показатели ошибки измеряют прогнозируемую эффективность модели регрессии с точки зрения среднего отклонения ее прогнозов от истинных значений. Чем ниже значения ошибок, тем более точно модель прогнозирует. Общий показатель ошибок 0 означает, что модель идеально подбирает данные.

Для определения способности модели подбирать данные также часто используется коэффициент детерминации, который также известен как R-квадрат. Его можно интерпретировать как пропорцию отклонений, которые объясняются моделью. В этом случае чем выше пропорция, тем лучше. Значение 1 означает идеальное совпадение.

Показатели оценки линейной регрессии

Рис. 2. Показатели оценки линейной регрессии.

Использование перекрестной проверки

Как уже упоминалось ранее, с помощью модуля Cross-Validate Model (Перекрестная проверка модели) можно автоматически выполнять повторное обучение, оценку и анализ. Для этого вам потребуются набор данных, необученная модель и модуль Cross-Validate Model (Перекрестная проверка модели) (см. рисунок ниже). В свойствах модуля Cross-Validate Model (Перекрестная проверка модели) необходимо установить для столбца Label (Метка) значение price.

Перекрестная проверка модели регрессии

Рис. 3. Перекрестная проверка модели регрессии.

После проведения эксперимента вы можете проверить результаты оценки. Для этого щелкните правый порт вывода модуля Cross-Validate Model (Перекрестная проверка модели). Вы увидите подробное представление показателей для каждой итерации (сборки) и усредненные результаты каждого из показателей (рис. 4).

Результаты перекрестной проверки модели регрессии

Рис. 4 Результаты перекрестной проверки модели регрессии.

Оценка модели двоичной классификации

При использовании двоичной классификации целевая переменная имеет только два возможных результата (например, {0, 1} или {ложь, истина}, {отрицательный, положительный}). Предположим, вы получили набор данных о работниках с некоторыми демографическими переменными и переменными их занятости. Вас просят предсказать уровень их доходов. Результат нужно выразить в виде двоичной переменной со значениями {"<=50 000", ">50 000"}. Иными словами, отрицательный класс представляет работников, которые зарабатывают меньше 50 000 в год, а положительный класс представляет всех остальных работников. Как и в сценарии с регрессией, мы должны обучить модель, посчитать некоторые данные и оценивать результаты. Основное отличие этого сценария — выбор метрик, которые вычисляет и выводит Студия машинного обучения (классическая). Чтобы проиллюстрировать сценарий с прогнозированием уровня доходов, мы воспользуемся набором данных Adult, чтобы создать эксперимент в Студии машинного обучения (классической) и оценить эффективность двухклассовой модели логистической регрессии (популярного двоичного классификатора).