Двухклассовая регрессионная логистическая модель

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает двухклассовую модель логистической регрессии.

категория: Машинное обучение/инициализация модели или классификации

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль логистической регрессии из двух классов в Машинное обучение Studio (классическая модель) для создания модели логистической регрессии, которая может использоваться для прогнозирования двух (и только двух) результатов.

Логистическая регрессия является известным статистическим методом, который используется для моделирования различных проблем. Этот алгоритм является защищенным методом обучения . Поэтому необходимо предоставить набор данных, который уже содержит результаты для обучения модели.

Дополнительные сведения о логистической регрессии

Логистическая регрессия — это известный статистический метод, который используется для прогнозирования вероятности результата и особенно широко применяется в задачах классификации. Алгоритм прогнозирует вероятность возникновения события путем подгонки данных логистической функции. Дополнительные сведения о реализации см. в разделе Технические примечания.

В этом модуле алгоритм классификации оптимизирован для дихотомических или двоичных переменных. Если необходимо классифицировать несколько результатов, используйте модуль Мультиклассовой логистической регрессии.

Настройка логистической регрессии Two-Class

Чтобы обучить эту модель, необходимо предоставить набор данных, содержащий столбец метки или класса. Поскольку этот модуль предназначен для двухклассовых проблем, в столбце метки или класса должно содержаться ровно два значения.

Например, столбец метки может называться [Проголосовал] с возможными значениями "Да" или "Нет". Или он может называться [Кредитный риск] с возможными значениями "Высокий" или "Низкий".

Добавьте модуль логистической регрессии с двумя классами в эксперимент в студии (классическая модель).
Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.
- Одиночный параметр: если вы знаете, как хотите настроить модель, можете предоставить определенный ряд значений в качестве аргументов.
- Диапазон параметров. Если вы не знаете наилучших параметров, оптимальные параметры можно найти, указав несколько значений, и с помощью модуля настройки модели настройте модель , чтобы найти оптимальную конфигурацию. Преподаватель выполняет перебор нескольких сочетаний параметров и определяет сочетание значений, которые создают лучшую модель.
Для параметра Отклонение оптимизации укажите пороговое значение, которое будет использоваться при оптимизации модели. Если улучшение между итерациями меньше, чем пороговое значение, то считается, что алгоритм пришел к решению, и обучение останавливается.
Для Вес регуляризации L1 и вес регуляризации L2 введите значение, которое будет использоваться для параметров регуляризации L1 и L2. Для обоих параметров рекомендуется использовать ненулевое значение.

Регуляризация — это метод предотвращения образования лжевзаимосвязей за счет применения штрафных коэффициентов к моделям с предельными значениями. Регуляризация предполагает добавление штрафа, связанного со значениями коэффициентов, к погрешности гипотезы. Таким образом, к точной модели с предельными коэффициентами будет применен больший штраф. При этом для менее точной модели с более приемлемыми значениями штраф будет меньше.

Регуляризации L1 и L2 отличаются результатами и способом применения.
- L1 можно применять к разреженным моделям, что удобно при работе с многомерными данными.
- L2, напротив, предпочтительнее использовать для неразреженных данных.
Этот алгоритм поддерживает линейное сочетание значений регуляризации L1 и L2. Это означает, что, если x = L1, а y = L2, то ax + by = c определяет линейный диапазон терминов регуляризации.

Примечание

Хотите узнать больше о регуляризации L1 и L2? следующая статья содержит обсуждение различий между уровнями L1 и l2 и их влиянием на подгонку моделей. примеры кода для моделей логистической регрессии и нейронной сети: для Машинное обучение

Для моделей логистической регрессии, например, регуляризации эластичной сети, были применены различные линейные сочетания терминов L1 и L2. Мы рекомендуем обратиться к этим сочетаниям, чтобы определить линейное сочетание, которое будет эффективным в вашей модели.
Для параметра Объем памяти для L-BFGS укажите объем памяти, который будет использоваться для оптимизации L-BFGS.

L-BFGS — это алгоритм Бройдена-Флетчера-Гольдфарба-Шанно с ограниченным использованием памяти. Это алгоритм оптимизации, который широко применяется для оценки параметров. Этот параметр указывает число сохраняемых последних позиций и градиентов для вычисления следующего шага.

Этот параметр оптимизации ограничивает объем памяти, используемый для вычисления следующего шага и направления. Если указано меньшее количество памяти, обучение проходит быстрее, но является менее точным.
В качестве начального значения случайного числа введите целое число. Определение начального значения важно, если необходимо воспроизводить результаты по нескольким запускам одного и того же эксперимента.
Установите флажок Разрешить неизвестные уровни категорий , чтобы создать дополнительный "Неизвестный" уровень в каждом столбце категории. В этом случае любые значения (уровни) в тестовом наборе данных, недоступные в наборе данных для обучения, сопоставляются с этим уровнем "Неизвестный".
Добавьте к эксперименту набор данных с тегами и подключите один из обучающих модулей.
- Если для параметра Создать режим учителя задано значение Одиночный параметр, используйте модуль Обучение модели.
- Если для параметра Создать режим учителя задано значение Диапазон параметров, используйте модуль Настройка гиперпараметров модели.
Примечание

Если вы передали диапазон параметров для обучения модели, будет использоваться только первое значение из списка диапазонов параметров.

Если передать один набор значений параметров в модуль настройки модели Настройка , когда он ожидает диапазон параметров для каждого параметра, он игнорирует значения и использует значения по умолчанию для средства обучения.

Если выбрать параметр диапазон параметров и ввести одно значение для любого параметра, это единственное значение, которое вы указали, будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.
Запустите эксперимент.

Результаты

После завершения обучения:

Чтобы просмотреть сводку по параметрам модели, а также весовым коэффициентам функций, полученным от обучения, щелкните правой кнопкой мыши выходные данные « обучение модели » или « Настройка параметров модели» и выберите « визуализировать».
Чтобы сделать прогнозы по новым данным, используйте обученную модель и новые данные в качестве входных данных для модуля Оценка модели.
Чтобы выполнить перекрестную проверку для набора данных с меткой, подключите данные и обученную модель для перекрестной проверки модели.

Примеры

Примеры использования этого алгоритма обучения см. в Коллекция решений ии Azure:

Обнаружение вторжений в сеть: использует двоичную логистическую регрессию для определения того, представляет ли вариант вторжение.
Перекрестная проверка для двоичного классификатора: демонстрируется использование логистической регрессии в типичном экспериментальном рабочем процессе, включая оценку модели.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Советы по использованию

Логистическая регрессия требует числовые переменные. поэтому при использовании столбцов категории в качестве переменной Машинное обучение преобразует значения в массив индикаторов внутренне.

Для значений даты и времени используется числовое представление. (дополнительные сведения о значениях даты и времени см. в разделе структура DateTime (платформа .NET Framework) — примечания.) Если требуется обработать даты и время по-разному, мы рекомендуем создать производный столбец.

Сведения о реализации

Логистическая регрессия предполагает распределение данных по логистике , где вероятность того, что пример принадлежит к классу 1, является формулой:

p(x;β0,…, βD-1)

Где:

x — Это D-мерный вектор, содержащий значения всех компонентов экземпляра.
p — функция логистического распределения;
β{0},..., β {D-1} являются неизвестными параметрами распределения логистики.

Алгоритм пытается найти оптимальные значения для β{0},..., β {D-1} , увеличивая вероятность в журнале параметров, заданных входными данными. Максимизации выполняется с помощью популярного метода для оценки параметров, именуемого ограниченной памятью бфгс.

Исследования

Дополнительные сведения о реализации этого алгоритма см. в разделе масштабируемое обучение L-1 regular Log-Linear Modelsпо Эндрю и Гао.

Параметры модуля

Имя	Диапазон	Тип	По умолчанию	Описание
Отклонение оптимизации	>= double.Epsilon	Float	0,0000001	Укажите предельное значение для оптимизатора L-BFGS.
Вес регуляризации L1	>= 0,0	Float	1,0	Укажите вес регуляризации L1.
Вес "обычный" L2	>= 0,0	Float	1,0	Укажите весовой коэффициент для уровня "основной кэш"
Объем памяти для L-BFGS	>= 1	Целое число	20	Укажите объем памяти (в МБ) для оптимизатора L-BFGS.
Начальное значение случайного числа	Любой	Целое число		Введите начальное значение для генератора случайных чисел, используемого моделью. Чтобы использовать значение по умолчанию, оставьте это поле пустым.
Разрешить неизвестные категориальные уровни	Любой	Логическое значение	True	Укажите, следует ли создавать дополнительный уровень для каждого категориального столбца. Все уровни в тестовом наборе данных, недоступные в обучающем наборе, сопоставляются с этим дополнительным уровнем.

Выходные данные

Имя	Тип	Описание
Необученная модель	Интерфейс ILearner	Необученная модель классификации

См. также раздел

Классификация

Мультиклассовая регрессионная логистическая модель

Список модулей в алфавитном порядке