Оценка модели ML.NET с помощью метрик

Общие сведения о метриках, которые используются для оценки модели ML.NET.

Требуемые метрики оценки зависят от типа задачи машинного обучения, которую выполняет модель.

Например, для выполнения задачи классификации модель оценивается путем измерения того, насколько хорошо прогнозируемая категория соответствует фактической категории. Для задачи кластеризации оценка производится на основе того, насколько близко кластерные элементы находятся друг к другу и насколько велико расстояние между кластерами.

Метрики оценки для двоичной классификации

Показатели Description Вы ищете
Точность Точность — это доля правильных прогнозов с помощью проверочного набора данных. Это соотношение числа правильно угаданных и общего числа примеров входных данных. Эта метрика работает хорошо, если существует аналогичное количество выборок, принадлежащих каждому классу. Чем ближе к 1,00, тем лучше. Точное значение 1,00 говорит о проблемах (обычно это утечка меток и целей, переобучение или тестирование с помощью учебных данных). Если тестовые данные не сбалансированы (большинство экземпляров относится к одному из классов), набор данных мал или оценка подходит к значению 0,00 или 1,00, то точность не отражает фактическую эффективность классификатора и вам нужно проверить дополнительные метрики.
AUC aucROC или площадь под кривой оценивает площадь под кривой, созданной суммированием частот истинно положительных результатов и ложно положительных результатов. Чем ближе к 1,00, тем лучше. Для того чтобы модель была допустима, ее значение должно быть больше 0,50. Модель со значением AUC не выше 0,50 неприменима.
AUCPR aucPR или Область под кривой кривой точности отзыва: полезная мера успеха прогнозирования, когда классы несбалансированы (с высокой степенью отклонений наборов данных). Чем ближе к 1,00, тем лучше. Высокий уровень оценки, близкий к 1,00, показывает, что классификатор возвращает точные результаты (высокая точность), а также возвращает большую часть всех положительных результатов (высокий уровень полноты).
Показатель F1 Показатель F1 также называется сбалансированной F-оценкой или F-мерой. Это среднее гармоническое значение точности и полноты. Показатель F1 полезен в том случае, если необходимо найти баланс между точностью и полнотой. Чем ближе к 1,00, тем лучше. Показатель F1 достигает лучшего значения в 1,00 и худшего — в 0,00. Он сообщает, насколько точен классификатор.

Дополнительные сведения о метриках бинарной классификации см. в следующих статьях:

Метрики оценки для классификации нескольких классов и классификации текста

Показатели Description Вы ищете
Микроточность Микросредняя точность агрегирует вклады всех классов для вычисления среднего показателя. Это доля экземпляров, которые модель правильно спрогнозировала. Микросреднее не учитывает членство в классе. По сути, каждая пара "пример — класс" одинаково участвует в метрике точности. Чем ближе к 1,00, тем лучше. В задаче классификации с несколькими классами микро-точность предпочтительнее по сравнению с точностью макросов, если вы подозреваете, что имеется дисбаланс классов (т.е. у вас может быть много примеров одного класса, чем у других классов).
Макроточность Макросредняя точность — это средняя точность на уровне класса. Вычисляется точность для каждого класса, а макроточность — это среднее этих значений. По сути, каждый класс одинаково участвует в этой метрике точности. Миноритарным классам назначается тот же вес, что и более крупным. Макросреднее значение метрики назначает один и тот же вес для каждого класса независимо от того, сколько экземпляров содержит класс набора данных. Чем ближе к 1,00, тем лучше. Она вычисляет метрики независимо для каждого класса и затем берет среднее значение (поэтому все классы учитываются одинаково).
Логарифмическая потеря Логарифмическая потеря измеряет производительность модели классификации, где значение вероятности прогноза составляет от 0,00 до 1,00. Потеря увеличивается по мере отклонения прогнозируемой вероятности от фактического значения метки. Чем ближе к 0,00, тем лучше. У идеальной модели значение потери равно 0,00. Цель нашей модели машинного обучения — свести к минимуму это значение.
Редукция логарифмической потери Редукцию логарифмических потери можно интерпретировать как преимущество классификатора над случайным прогнозом. Имеет значения в диапазоне от -inf до 1,00, где 1,00 — идеальный прогноз, а 0,00 — средние прогнозы. Например, если значение равно 0,20, оно может интерпретироваться как "вероятность правильного прогноза на 20 % лучше случайного угадывания".

Обычно микроточность лучше согласуется с бизнес-потребностями прогнозов машинного обучения. Если вы хотите выбрать одну метрику для определения качества задачи многоклассовой классификации, обычно следует выбрать микроточность.

Например, для задачи классификации запросов в службу поддержки (сопоставляет входящие запросы в и команды службы поддержки)

  • Микро-точность— как часто входящий билет классифицируется в правильную команду?
  • Макрос-точность — для средней команды, как часто входящий билет правильный для своей команды?

Макроточность перевешивает небольшие команды в этом примере; небольшие команды, которые получают только 10 обращений в год, учитываются наравне с большой командой с 10 000 обращений в год. В этом случае микроточность лучше коррелирует с бизнес-потребностями: "сколько времени и денег можно сэкономить, автоматизируя процесс маршрутизации запросов в службу".

Дополнительные сведения о метриках многоклассовой классификации см. в следующих статьях:

Метрики оценки для задач регрессии и рекомендации

Задачи регрессии и рекомендации прогнозируют число. В случае регрессии число может быть любым выходным свойством, на которое влияют входные свойства. В случае рекомендации число обычно представляет собой значение оценки (например, от 1 до 5) или рекомендацию "да/нет" (представленную 1 и 0 соответственно).

Метрическая Description Вы ищете
R-квадрат R-квадрат (R2) или коэффициент детерминации обозначает совокупную прогнозирующую способность модели в диапазоне от -inf до 1,00. 1,00 означает, что есть идеальное совпадение, но совпадение может быть произвольно плохим, поэтому оценки могут быть отрицательными. Оценка 0,00 означает, что модель прогнозирует ожидаемое значение для метки. Отрицательное значение R2 указывает, что совпадение не соответствует тенденциям данных, а модель работает хуже, чем случайное предположение. Это возможно только при использовании моделей нелинейной регрессии или ограниченной линейной регрессии. R2 измеряет, насколько реальные значения данных близки к прогнозируемым. Чем ближе к 1,00, тем выше качество. Тем не менее иногда низкие значения (например, 0,50) могут быть полностью нормальны или достаточны для вашего сценария, тогда как высокие значения не всегда подходят и могут быть подозрительными.
Абсолютная потеря Абсолютная потеря, или средняя абсолютная погрешность (MAE), измеряет, насколько прогнозы близки к фактическим результатам. Это среднее значение всех ошибок модели, где ошибка модели — абсолютное расстояние между значением прогнозируемой метки и значением правильной метки. Эта ошибка прогноза вычисляется для каждой записи проверочного набора данных. Наконец, среднее значение вычисляется для всех зарегистрированных абсолютных ошибок. Чем ближе к 0,00, тем выше качество. Средняя абсолютная погрешность использует ту же шкалу данных, что и измеряемые данные (то есть не нормализуется до определенного диапазона). Абсолютная потеря, квадратичная потеря и среднеквадратичная потеря могут использоваться только для сравнения моделей для одного набора данных или наборов данных с аналогичным распределением значений меток.
Квадратичная потеря Квадратная потеря или средняя квадратная ошибка (MSE), также называемая среднее квадратное отклонение (MSD), сообщает о том, как близко линия регрессии состоит в наборе тестовых значений данных, принимая расстояния от точек до линии регрессии (эти расстояния являются ошибками E) и сужая их. Квадрат дает больше веса большим расстояниям. Этот показатель всегда является неотрицательным, значения ближе к 0,00 предпочтительнее. В зависимости от данных может оказаться невозможным получить очень маленькое значение для среднеквадратичной ошибки.
RMS-потеря RMS-потеря (или среднеквадратичная ошибка (RMSE); также называемая среднеквадратическим отклонением, RMSD) измеряет разность между значениями, прогнозируемыми моделью, и значениями, наблюдаемыми в моделируемой среде. RMS-потеря — это квадратный корень из квадратной потери; она использует те же единицы, что и метка, аналогично абсолютной потере, но придает больший вес большей разности. Среднеквадратичная ошибка обычно используется в климатологии, прогнозировании и регрессионном анализе для проверки экспериментальных результатов. Этот показатель всегда является неотрицательным, значения ближе к 0,00 предпочтительнее. RMSD — это мера точности для сравнения ошибок прогнозирования различных моделей на конкретном наборе данных, а не между наборами данных, так как она зависит от масштаба.

Дополнительные сведения о метриках регрессии см. в следующих статьях:

Метрики оценки для кластеризации

Метрическая Description Вы ищете
Среднее расстояние Среднее расстояние между точками данных и центром назначенного им кластера. Среднее расстояние — это мера близости точек данных к центроидам кластеров. Эта метрика указывает, насколько "плотным" является кластер. Значения ближе к 0 предпочтительнее. Чем ближе среднее расстояние к нулю, тем более кластеризованы данные. Обратите внимание, что эта метрика будет уменьшаться, если количество кластеров увеличивается. В крайнем случае (где каждая отдельная точка данных является собственным кластером) она будет равна нулю.
Индекс Дэвиса — Болдина Среднее соотношение расстояний внутри кластера и расстояний между кластерами. Чем плотнее кластер и чем дальше кластеры друг от друга, тем ниже это значение. Значения ближе к 0 предпочтительнее. Кластеры, которые находятся дальше друг от друга и являются менее распределенными, приведут к лучшей оценке.
Нормализованная взаимная информация Эта метрика подходит, когда данные, используемые для обучения модели кластеризации, также поставляются с контрольными метками (то есть защищенной кластеризацией). Метрика "Нормализованная взаимная информация" показывает, назначаются ли одинаковые точки данных одному и тому же кластеру, а разные точки данных — различным кластерам. Нормализованная взаимная информация — это значение от 0 до 1. Значения ближе к 1 лучше.

Метрики оценки для ранжирования

Метрическая Description Вы ищете
Дисконтированная совокупная прибыль Дисконтированная совокупная прибыль является мерой качества ранжирования. Она является производной от двух предположений. Один из них: более релевантные элементы более полезны при отображении выше в порядке ранжирования. Два. Полезность отслеживает релевантность, т. е. чем выше релевантность, тем больше полезного элемента. Дисконтированная совокупная прибыль рассчитывается для конкретной позиции в порядке ранжирования. Она суммирует оценку релевантности, деленную на логарифм индекса ранжирования до нужной позиции. Она рассчитывается с помощью формулы $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$. Оценки релевантности предоставляются алгоритму обучения ранжирования в качестве контрольных меток. Одно значение дисконтированной совокупной прибыли предоставляется для каждой позиции в таблице ранжирования, отсюда и название "Дисконтированная совокупная прибыль". Более высокие значения лучше.
Нормализованная дисконтированная совокупная прибыль Нормализация DCG позволяет сравнивать метрики для ранжирования списков разных длин. Значения ближе к 1 предпочтительнее.

Метрики оценки для обнаружения аномалий

Метрическая Description Вы ищете
Площадь под ROC-кривой Метрика "Площадь под ROC-кривой" показывает, насколько хорошо модель разделяет аномальные и обычные точки данных. Значения ближе к 1 предпочтительнее. Только значения больше 0,5 демонстрируют эффективность модели. Значения 0,5 или ниже указывают, что модель не лучше, чем случайным образом распределить входные данные в аномальные и обычные категории.
Частота обнаружения при количестве ложноположительных значений Частота обнаружения при количестве ложноположительных значений — это соотношение количества правильно определенных аномалий и общего количества аномалий в тестовом наборе, индексируемых по каждому ложноположительному результату. Таким образом, для каждого ложноположительного элемента существует значение частоты обнаружения при количестве ложных срабатываний. Значения ближе к 1 предпочтительнее. Если ложных срабатываний нет, это значение равно 1.

Метрики оценки для сходства предложений

Метрическая Description Вы ищете
Корреляция Пирсона Корреляция Пирсона, также известная как коэффициент корреляции, измеряет зависимость или связь между двумя наборами данных. Абсолютные значения ближе к 1 наиболее похожи. Эта метрика варьируется от –1 до 1. Абсолютное значение 1 означает, что наборы данных идентичны. Значение 0 означает, что между двумя наборами данных нет связи.