Регрессия Пуассона

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает модель регрессии, в которой предполагается, что данные распределяются по закону Пуассона.

категория: Машинное обучение/инициализация модели или регрессии

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль регрессии пуассона в Машинное обучение Studio (классическая модель) для создания модели регрессии пуассона.

Регрессия Пуассона предназначена для использования в моделях регрессии, которые используются для прогнозирования числовых значений, обычно счетчиков. Поэтому этот модуль следует использовать для создания модели регрессии только в том случае, если значения, которые вы пытаетесь спрогнозировать, соответствуют следующим условиям:

  • Переменная ответа имеет распределение Пуассона.

  • Количество не может быть отрицательным. При попытке использовать метод с отрицательными метками произойдет сбой.

  • Учитывая дискретный характер распределения Пуассона, этот метод бессмысленно использовать для дробных чисел.

Совет

Если цель не заключается в подсчете количеств, то возможно распределение Пуассона является не подходящим способом. Попробуйте использовать один из других модулей в этой категории. дополнительные сведения о выборе метода регрессии см. на странице Машинное обучение algorithm памятка по.

После настройки метода регрессии необходимо обучить модель с помощью набора данных, содержащего примеры значения, которое необходимо спрогнозировать. После этого обученная модель используется для прогнозирования.

Дополнительные сведения о регрессии Пуассона

Регрессия Пуассона — это особый тип регрессионного анализа, который обычно используется для счетчиков моделей. Например, регрессия Пуассона может быть полезна в следующих случаях:

  • Моделирование числа заболеваний, связанных с перелетами в самолетах

  • Оценка количества вызовов службы аварийного обслуживания во время события

  • Проецирование количества запросов клиентов вслед за продвижением

  • Создание таблиц вероятностей

Так как переменная ответа имеет распределение Пуассона, модель принимает различные предположения о данных и их вероятном распределении в сравнении, например, с регрессией наименьших квадратов. Таким образом модели Пуассона должны интерпретироваться не так, как другие модели регрессии.

Настройка регрессии Пуассона

  1. Добавьте модуль регрессии Пуассона в эксперимент в студии (классическая модель).

    этот модуль можно найти в разделе Машинное обучение-Initializeв категории регрессии .

  2. Добавьте набор данных, содержащий обучающие данные правильного типа.

    Рекомендуется использовать Нормализация данных, чтобы нормализовать входной набор данных перед его использованием для обучения регрессора.

  3. На панели Свойства модуля регрессия Пуассона укажите способ обучения модели с помощью параметра создать режим инструктора .

    • Single Parameter (Одиночный параметр). Если вы знаете, как хотите настроить модель, предоставьте определенный набор значений в качестве аргументов.

    • Диапазон параметров. Если вы не знаете наилучших параметров, выполните параметр очистки с помощью модуля настройки модели . Учитель выполняет итерацию по нескольким указанным вами значениям, чтобы найти оптимальную конфигурацию.

  4. Отклонение оптимизации. Введите значение, которое определяет интервал отклонения во время оптимизации. Чем ниже значение, тем медленнее и точнее подгонка.

  5. Вес регуляризации L1 и вес регуляризации L2. Введите значения, используемые для регуляризации L1 и L2. Регуляризация добавляет ограничения алгоритма относительно аспектов модели, которые не зависят от данных для обучения. Регуляризация обычно используется, чтобы избежать переобучения.

    • Регуляризация L1 применяется для получения максимально разреженной модели.

      Регуляризация L1 выполняется путем вычитания веса L1 вектора веса из выражения потерь, которые ученик пытается свести к минимуму. Нормой L1 является хорошее приближение к норме L0, являющейся числом ненулевых координат.

    • Регуляризация L2 ограничивает чрезмерный рост какой-либо отдельной координаты весового вектора. Регуляризация L2 полезна в том случае, если целью является создание модели, имеющей в целом малые значения веса.

    В этом модуле можно применить сочетание регуляризации L1 и L2. Объединив регуляризации L1 и L2, вы можете снизить величину значений параметров. Ученик пытается свести к минимуму снижение наряду с минимизацией потерь.

    Хорошее описание работы с регуляризацией L1 и L2 см. в разделе Регуляризация L1 и L2 для Машинного обучения.

  6. Объем памяти для L-BFGS. Укажите объем памяти, резервируемый для подгонки и оптимизации модели.

    L-BFGS — это конкретный метод оптимизации, основанный на алгоритме Бройден-Флетчера-Гольдфарб-Шанно (БФГС). Метод использует ограниченный объем памяти (L) для расчета следующего направления шага.

    Изменив этот параметр, вы можете указать число прошлых позиций и градиентов, сохраняемых для вычисления следующего этапа.

  7. Подключите обучающий набор данных и необученную модель к одному из обучающих модулей:

    • Если для параметра Создать режим учителя задано значение Одиночный параметр, используйте модуль Обучение модели.

    • Если для параметра Создать режим учителя задано значение Диапазон параметров, используйте модуль Настройка гиперпараметров модели.

    Предупреждение

    • При передаче диапазона параметров в модуль Обучение модели используется только первое значение в списке диапазона параметров.

    • Если передать один набор значений параметров в модуль Настройка гиперпараметров модели, когда он ожидает диапазон параметров для каждого параметра, он пропускает значения и использует значения по умолчанию для ученика.

    • Если выбран вариант Parameter Range (Диапазон параметров) и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

  8. Запустите эксперимент, чтобы обучить модель.

Примеры

Примеры использования регрессии Пуассона в машинном обучении см. в Коллекция решений ии Azure.

Технические примечания

Регрессия Пуассона используется для моделирования данных счетчика, предполагая, что метка имеет распределение Пуассона. Например, вы можете использовать его для прогнозирования количества обращений к центру поддержки клиентов в определенный день.

Для этого алгоритма предполагается, что неизвестная функция, обозначенная Y, имеет распределение Пуассона. Распределение Пуассона определяется следующим образом:

При наличии экземпляра x = (x0,..., XD-1) для каждых k = 0, 1,..., модуль определяет вероятность того, что значение экземпляра равно k.

Учитывая набор обучающих примеров, алгоритм пытается найти оптимальные значения для θ0,..., Θд-1, пытаясь максимально увеличить вероятность регистрации параметров. Вероятность параметров θ0,..., Θд-1 является вероятностью выборки обучающих данных из распределения с этими параметрами.

Вероятность журнала может быть просмотрена как logp(y = Yi).

Функция прогнозирования выводит ожидаемое значение для параметризованного распределения Пуассона, в частности: fw, b (x) = e [Y | x] = ewTx + b.

Дополнительные сведения см. в записи о регрессии Пуассона в Википедии.

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Отклонение оптимизации >= double.Epsilon Float 0,0000001 Укажите значение допуска для конвергенции оптимизации. Чем ниже значение, тем медленнее и точнее подгонка.
Вес регуляризации L1 >= 0,0 Float 1,0 Укажите вес регуляризации L1. Используйте ненулевое значение, чтобы избежать переобучения модели.
Вес "обычный" L2 >= 0,0 Float 1,0 Укажите весовой коэффициент для уровня "основной кэш". Используйте ненулевое значение, чтобы избежать переобучения модели.
Объем памяти для L-BFGS >= 1 Целое число 20 Укажите объем памяти (в МБ) для оптимизатора L-BFGS. Чем меньше объем памяти, тем быстрее обучение и меньше его точность.
Начальное значение случайного числа any Целое число Введите начальное значение для генератора случайных чисел, используемого моделью. Оставьте пустым, чтобы использовать значение по умолчанию.
Разрешить неизвестные категориальные уровни any Логическое Да Укажите, следует ли создавать дополнительный уровень для каждого категориального столбца. Все уровни в проверочном наборе данных, недоступные в обучающем наборе данных, сопоставляются с этим дополнительным уровнем.

Выходные данные

Имя Тип Описание
Необученная модель Интерфейс ILearner Необученная модель регрессии

См. также раздел

Регрессия
Список модулей в алфавитном порядке