Порядковая регрессия

Создание модели порядковой регрессии

Категория: машинное обучение/инициализация модели или регрессии

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль Ordinal регрессии в машинное обучение Azure Studio (классическая модель) для создания модели регрессии, которая может использоваться для прогнозирования ранжированных значений.

Ниже приведены некоторые примеры ранжированных значений.

  • Ответы на опросы, которые фиксируют предпочтительные для пользователя торговые марки в масштабе от 1 до 5
  • Порядок завершения в состязания
  • URL-адреса в ранжированных результатах поиска

Дополнительные сведения о порядковом регрессии

Порядковая регрессия используется, когда столбец Label или target содержит числа, но числа представляют ранг или порядок, а не числовое измерение.

Для прогнозирования порядковых номеров требуется другой алгоритм, нежели прогнозирование значений чисел на непрерывном масштабировании, так как числа, назначенные для представления порядка ранжирования, не имеют встроенного масштаба.

Например, для прогнозирования результатов тестирования учащихся следует использовать стандартную модель регрессии, так как результаты тестирования учащихся различаются в непрерывном масштабе и могут измеряться. Однако для прогнозирования ранжирования классов необходимо использовать модель порядковой регрессии.

Дополнительные сведения об исследовании этого алгоритма см. в статье (загружаемый PDF-файл): https://papers.nips.cc/paper/3125-ordinal-regression-by-extended-binary-classification.pdf

Настройка порядковых регрессий

Этот модуль решает проблему ранжирования в виде ряда связанных проблем классификации. Таким образом, алгоритм создает ряд расширенных обучающих примеров с использованием двоичной модели для каждого рейтинга и проводит обучение по этому расширенному набору. Эта операция может быть ресурсоемкой для вычислений.

  1. Добавьте модуль порядковой регрессии в эксперимент в студии (классическая модель). Этот модуль можно найти в разделе машинное обучение-Initialize в категории регрессии .

  2. Добавьте модуль, поддерживающий двоичную классификацию, и настройте модель. В категории классификации имеется несколько модулей с двумя классами.

  3. Соедините модель двоичной классификации в качестве входных данных для модуля порядковой регрессии модели .

  4. Дополнительные параметры не требуются для Попорядковой модели регрессии. для алгоритма предварительно настроены наиболее эффективные параметры для решения задачи ранжирования.

  5. Подключение набора данных для обучения и модуля обучение модели .

  6. В модуле обучение модели выберите столбец, содержащий значения ранга.

    Значения ранжирования должны быть числовыми значениями, но они не должны быть целыми числами или положительными числами, если они представляют последовательность.

    В целях обработки ранги принимаются в порядке 1 – K, где 1 — это самый низкий ранг, а K — наивысший ранг. Однако модуль обучение модели может работать, даже если семантика шкалы изменяется.

    Например, если в исходном опросе 1 был самым высоким показателем, а 5 — самым низким, это не повлияет на обработку модели.

  7. Запустите эксперимент.

Результаты

После завершения обучения:

  • Чтобы сделать прогнозы, подключите обученную модель вместе с новыми данными к модулю Оценка модели .

  • Чтобы выполнить перекрестную проверку для набора данных с меткой, подключите обученную модель к перекрестной проверке модели.

Примеры

Примеры использования в машинном обучении порядковых регрессий см. в Коллекция решений ии Azure.

  • Диагностическое обслуживание. шаг C. в этом примере используется порядковая регрессия для ранжирования значений, выводимых моделью классификации, на основе предположения, что значение отражает серьезность классификации сбоев.

Технические примечания

Используемая в этом ученике порядковая регрессия реализуется посредством расширенной бинарной классификации (см. статью Порядковая регрессия по расширенной двоичной классификации, Линг Ли (Ling Li) и Сюань-Тиен Лин (Hsuan-Tien Lin), NIPS 2006).

Ограничения на входные данные

В качестве цели для последовательной модели регрессии можно использовать любой числовой столбец, но на практике следует использовать только данные, представляющие некоторый порядок или ранжирование.

Значения интервалов между рангами считаются неизвестными и размер интервала не имеет значения для модели. Однако модель предполагает, что последовательность рангов соответствует естественному упорядочению чисел.

Сама модель не присваивает никакого значения конкретному масштабу. Иными словами, можно создать одну модель, в которой 1 является хорошим рангом, а 10 — наихудшим, а в другой модели предполагается, что 10 является желаемым рангом, а 1 — наихудшим.

Алгоритм ранжирования

Обучающий набор (X, Y) состоит из входных векторов x и y. Метки представляют ранги в диапазоне от 1 до k в последовательности: 1, 2,... , K. Предполагается, что ранги упорядочены таким образом, что 1 — самый низкий или худший ранг, а K — лучший или самый высокий ранг.

Основополагающей алгоритма заключается в изменении заданных функций ввода X и Labels Y для использования расширенных примеров, а затем с помощью двоичного классификатора для решения проблемы с линейной регрессией. Двоичный классификатор обучен, чтобы дать ответ на вопрос "да/нет" — это ранг больше r? "

Например, для каждого варианта в обучающем наборе имеется k-1 расширенных примеров, а максимальный отслеживаемый ранг — K. Расширенные функции формируются путем добавления i-го ряда матрицы идентификации k – 1 x k-1 к входным функциям для всех i. Метки задаются + 1 для первых строк r-1, если его ранг имеет значение r и-1 для остальных.

Образцы вычислений

Чтобы продемонстрировать, как это работает, рассмотрим x1 как функцию обучения, ранг которой равен 3, где максимальный наблюдаемый ранг равен 5. Ниже приведены Расширенные примеры, соответствующие этой функции.

Случай Тест Результирующая метка
X11000 Ранг больше 1? Да Следовательно + 1
X10100 Ранг больше 2? Да Следовательно + 1
X10010 Ранг больше 3? Не Поэтому дополнительные компоненты отсутствуют.
X10001 Ранг больше 4? Не Поэтому дополнительные компоненты отсутствуют.

Ожидаемые входные данные

Имя Type Описание
Необученная модель бинарной классификации Интерфейс ILearner Необученная модель бинарной классификации

Выходные данные

Имя Type Описание
Необученная модель Интерфейс ILearner Необученная модель порядковой регрессии

См. также раздел

Регрессия