Глоссарий важных терминов по машинному обучению

Приведенный ниже список содержит подборку важных терминов по машинному обучению, которые будут полезны при создании пользовательских моделей с помощью ML.NET.

Точность

В контексте классификации достоверность обозначает соотношение количества правильно классифицированных элементов и общего числа элементов в тестовом наборе. Это значение находится в диапазоне от 0 (наименьшая точность) до 1 (наибольшая точность). Достоверность является одной из метрик оценки для производительности модели. Ее следует рассматривать в сочетании с точностью, полнотой и F-мерой.

Площадь под кривой (AUC)

В контексте двоичной классификации это метрика оценки, обозначающая площадь под кривой, которая соотносит количество истинных положительных результатов (по оси Y) и ложных положительных результатов (по оси X). Значения находятся в диапазоне от 0,5 (наихудший) до 1 (наилучший). Также эта метрика называется площадью под ROC-кривой (кривой соотношений правильного и ложного обнаружения). Дополнительные сведения см. в статье о ROC-кривой в Википедии.

Двоичная классификация

Сценарий классификации, в котором значение метки может быть только одним из двух классов. Дополнительные сведения см. в разделе Двоичная классификация в теме Задачи машинного обучения.

Калибровка

Калибровка — это процесс сопоставления необработанной оценки на членство в классе для двоичной и мультиклассовой классификации. У некоторых обучающих алгоритмов ML.NET есть суффикс NonCalibrated. Эти алгоритмы создают необработанную оценку, которая затем должна быть сопоставлена с вероятностью класса.

Каталог

В ML.NET каталог — это совокупность функций расширения, сгруппированных по общей цели.

Например, каждая задача машинного обучения (двоичная классификация, регрессия, ранжирование и т. д.) имеет каталог доступных алгоритмов (обучающих). Каталог для обучающих алгоритмов двоичной классификации: BinaryClassificationCatalog.BinaryClassificationTrainers.

Классификация

Если данные используются для прогнозирования категории, задача контролируемого машинного обучения называется классификацией. Двоичная классификация обозначает прогнозирование только по двум категориям (например, разделение изображений на группы "кошки" и "собаки"). Многоклассовая классификация обозначает прогнозирование по нескольким категориям (например, разделение изображений на группы конкретных пород собак).

Коэффициент детерминации

В контексте регрессии это метрика оценки, которая позволяет понять, насколько хорошо данные соответствуют модели. Значение находится в диапазоне от 0 до 1. Значение 0 означает, что данные полностью случайны или по другим причинам не могут соответствовать модели. Значение 1 означает, что модель идеально соответствует этим данным. Эту метрику часто обозначают как r2, R2 или R-квадрат.

Данные

Данные являются центральным элементом любого приложения машинного обучения. В ML.NET данные представлены строкой объектов IDataView. Объекты представления данных:

  • состоят из строк и столбцов;
  • неактивно вычисляются, то есть загружают данные только при запросе операции;
  • содержат схему, которая определяет тип, формат и длину каждого столбца.

Средство оценки

Класс ML.NET, реализующий интерфейс IEstimator<TTransformer>.

Средство оценки — это спецификация преобразования (преобразование подготовки данных и преобразование обучения модели в машинном обучении). Из них можно создать цепочку — конвейер преобразований. Параметры средства оценки или конвейера обучаются при вызове Fit. Результатом Fit является преобразователь.

Метод расширения

Метод .NET, который является частью класса, но определен за пределами класса. Первый параметр метода расширения является статической ссылкой this на класс, к которому относится метод расширения.

Методы расширения широко используются в ML.NET для создания экземпляров средств оценки.

Компонент

Измеримое свойство измеряемого явления, обычно имеющее числовое значение (двойной точности). Несколько признаков называются вектором компонента и сохраняются в виде double[]. Признаки определяют важные характеристики измеряемого явления. Дополнительные сведения см. в статье о признаках в Википедии.

Проектирование признаков

Проектирование признаков обозначает процесс, в котором определяется набор признаков и разрабатывается программное обеспечение, которое создает векторы признаков на основе доступных данных о явлении, то есть извлекает признаки. Дополнительные сведения см. в статье о проектировании признаков в Википедии.

F-мера

В контексте классификации это метрика оценки, которая сопоставляет точность и полноту.

Гиперпараметр

Параметр алгоритма машинного обучения. В качестве примера можно привести число деревьев, которые изучаются в лесе решений или размер шага в алгоритме градиентного спуска. Значения гиперпараметров устанавливаются еще до обучения модели и они управляют процессом поиска параметров для функции прогнозирования, например точек сравнения в дереве принятия решений или весов в модели линейной регрессии. Дополнительные сведения см. в статье о гиперпараметрах в Википедии.

Метка

Элемент, который прогнозируется с помощью модели машинного обучения. Например, порода собаки или будущая цена акций.

Логарифмические потери

В контексте классификации это метрика оценки, которая характеризующий точность классификатора. Чем меньше логарифмические потери, тем точнее классификатор.

Функция потерь

Функции потери — разница между значениями меток обучения и прогноза, сделанного с помощью модели. Оценка параметров модели ведется путем минимизации функции потерь.

Различные обучающие алгоритмы можно настроить с помощью различных функций потерь.

Средняя абсолютная погрешность

В контексте регрессии это метрика оценки, которая усредняет все ошибки модели, где ошибкой модели считается это расстояние между прогнозируемым и правильным значениями метки.

Моделирование

Обычно это параметры для прогнозирующей функции. Например, значения веса в модели линейной регрессии или точки разбиения в дереве принятия решений. В ML.NET модель содержит все сведения, необходимые для прогнозирования метки объекта домена (например, изображения или текста). Это означает, что модели ML.NET включают необходимые этапы присвоения признаков, а также параметры для прогнозирующей функции.

Многоклассовая классификация

Сценарий классификации, в котором значение метки может быть только одним из трех или больше классов. Дополнительные сведения см. в разделе Многоклассовая классификация в теме Задачи машинного обучения.

N-грамм

Схема извлечения признаков для текстовых данных, которая преобразует любую последовательность из N слов в определенное значение признака.

Нормализация

Нормализация — это процесс масштабирования данных с плавающей точкой до значений от 0 до 1. Многие алгоритмы обучения, используемые в ML.NET, нуждаются в нормализации данных входных функций. ML.NET предоставляет ряд преобразований для нормализации.

Числовой вектор признака

Вектор признака, который состоит только из числовых значений. Это аналогично double[].

Pipeline

Все операции, необходимые для приведения модели в соответствие набору данных. Конвейер включает шаги импорта данных, преобразования, присвоения признаков и обучения. После обучения конвейер становится моделью.

Точность

В контексте классификации точность класса обозначает количество элементов, правильно отнесенных к некоторому классу, деленное на общее число элементов, отнесенных к этому классу.

Отозвать

В контексте классификации полнота класса обозначает количество элементов, правильно отнесенных к некоторому классу, деленное на общее число элементов, реально относящихся к этому классу.

Регуляризация

Регуляризация "наказывает" линейную модель за слишком большую сложность. Существует два типа регуляризации.

  • Регуляризация $L_1$ использует нули как весовые коэффициенты для незначащих признаков. Размер сохраненной модели может уменьшиться после регуляризации такого рода.
  • Регуляризация $L_2$ сводит к минимуму диапазон весовых коэффициентов для незначащих признаков. Это более общий процесс, который менее чувствителен к выбросам.

Регрессия

Задача контролируемого машинного обучения, которая выводит реальное значение, например в формате двойной точности. В качестве примера можно привести прогнозирование цен на акции. Дополнительные сведения см. в разделе Регрессия в теме Задачи машинного обучения.

Относительная абсолютная погрешность

В контексте регрессии это метрика оценки, представляющая собой сумму всех абсолютных значений ошибки, разделенную на сумму расстояний между правильными значениями метки и средним значением всех правильных значений метки.

Относительная квадратичная погрешность

В контексте регрессии это метрика оценки, представляющая собой сумму квадратов всех абсолютных значений ошибки, разделенную на сумму квадратов расстояний между правильными значениями метки и средним значением всех правильных значений метки.

Корень среднеквадратичной погрешности

В контексте регрессии это метрика оценки, вычисляемая как квадратный корень из среднего значения квадратов погрешностей.

оценка.

Оценка — это процесс применения новых данных к обученной модели машинного обучения и создания прогнозов. Оценка также называется скорингом или выведением. В зависимости от типа модели оценка может быть необработанным значением, вероятностью или категорией.

Контролируемое машинное обучение

Подкласс машинного обучения, в котором нужная модель прогнозирует метку для незнакомых данных. Примерами можно считать классификацию, регрессию и структурированный прогноз. Дополнительные сведения см. в статье Контролируемое обучение в Википедии.

Обучение

Процесс поиска модели для заданного набора данных для обучения. Для линейной модели это процесс поиска весовых коэффициентов. Для дерева он включает определение точек разбиения.

Преобразователь

Класс ML.NET, реализующий интерфейс ITransformer.

Преобразователь преобразует один IDataView в другой. Преобразователь создается путем обучения механизма оценки или конвейера механизма оценки.

Неконтролируемое машинное обучение

Подкласс машинного обучения, в котором нужная модель находит в данных скрытую (латентную) структуру или зависимость. Примерами можно считать кластеризацию, тематическое моделирование и сокращение размерности. Дополнительные сведения см. в статье о неконтролируемом обучении в Википедии.