Регрессия Пуассона

Создает модель регрессии, в которой предполагается, что данные распределяются по закону Пуассона.

Категория: машинное обучение/инициализация модели или регрессии

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль регрессии Пуассона в машинное обучение Azure Studio (классическая модель) для создания модели регрессии Пуассона.

Регрессия Пуассона предназначена для использования в моделях регрессии, которые используются для прогнозирования числовых значений, обычно счетчиков. Поэтому этот модуль следует использовать для создания модели регрессии только в том случае, если значения, которые вы пытаетесь спрогнозировать, соответствуют следующим условиям.

  • Переменная ответа имеет распределение Пуассона.

  • Количество не может быть отрицательным. При попытке использовать метод с отрицательными метками произойдет сбой.

  • Распределение Пуассона является дискретным распределением; Поэтому не имеет смысла использовать этот метод с нецелыми числами.

Совет

Если цель не заключается в подсчете количеств, то возможно распределение Пуассона является не подходящим способом. Попробуйте использовать один из других модулей в этой категории. Дополнительные сведения о выборе метода регрессии см. на листе Памятка по алгоритма машинного обучения Azure.

После настройки метода регрессии необходимо обучить модель с помощью набора данных, содержащего примеры значения, которое необходимо спрогнозировать. После этого обученная модель используется для прогнозирования.

Дополнительные сведения о регрессии Пуассона

Регрессия Пуассона — это особый тип регрессионного анализа, который обычно используется для счетчиков моделей. Например, регрессия Пуассона может быть полезна в следующих случаях:

  • Моделирование числа заболеваний, связанных с перелетами в самолетах

  • Оценка количества вызовов службы аварийного выполнения во время события

  • Проецирование количества запросов клиентов, последующих за продвижение

  • Создание таблиц вероятностей

Так как переменная ответа имеет распределение Пуассона, модель принимает различные предположения о данных и их распространении вероятности, чем, скажем, регрессия с наименьшими квадратами. Таким образом, модели Пуассона должны интерпретироваться не так, как другие модели регрессии.

Настройка регрессии Пуассона

  1. Добавьте модуль регрессии Пуассона в эксперимент в студии (классическая модель).

    Этот модуль можно найти в разделе машинное обучение-Initialize в категории регрессии .

  2. Добавьте набор данных, содержащий обучающие данные правильного типа.

    Рекомендуется использовать нормализацию данных для нормализации входного набора данных перед его использованием для обучения регрессивной регрессии.

  3. На панели Свойства модуля регрессия Пуассона укажите способ обучения модели с помощью параметра создать режим инструктора .

    • Один параметр: Если вы умеете настроить модель, предоставьте конкретный набор значений в качестве аргументов.

    • Диапазон параметров. Если вы не знаете наилучших параметров, выполните параметр очистки с помощью модуля настройки модели . Преподаватель выполняет итерацию по нескольким указанным вами значениям, чтобы найти оптимальную конфигурацию.

  4. Допуск оптимизации. Введите значение, определяющее интервал отклонения во время оптимизации. Чем ниже значение, тем медленнее и точнее подгонка.

  5. Весовой коэффициент использования L1 и вес "основной" L2: значения типа, используемые для упрощения L1 и L2. Регуляризация добавляет ограничения алгоритма относительно аспектов модели, которые не зависят от данных для обучения. Регуляризация обычно используется, чтобы избежать переобучения.

    • Регуляризация L1 применяется для получения максимально разреженной модели.

      Регуляризация L1 выполняется путем вычитания веса L1 вектора веса из выражения потерь, которые ученик пытается свести к минимуму. Нормой L1 является хорошее приближение к норме L0, являющейся числом ненулевых координат.

    • Регуляризация L2 ограничивает чрезмерный рост какой-либо отдельной координаты весового вектора. Регуляризация L2 полезна в том случае, если целью является создание модели, имеющей в целом малые значения веса.

    В этом модуле можно применить сочетание регуляризации L1 и L2. Объединяя регулярные и разложения L2, можно накладывать штраф на величину значений параметров. Ученик пытается свести к минимуму снижение наряду с минимизацией потерь.

    Хорошее описание работы с уровнями "L1" и "L2" см. в разделе "сравнение L1 и L2" для машинное обучение.

  6. Объем памяти для L-бфгс: укажите объем памяти, резервируемый для подгонки и оптимизации модели.

    L-БФГС — это конкретный метод оптимизации, основанный на алгоритме Бройден – Флетчера – Гольдфарб – Шанно (БФГС). Метод использует ограниченный объем памяти (L) для расчета следующего направления шага.

    Изменяя этот параметр, можно повлиять на количество прошлых позиций и градиенты, которые хранятся для вычисления следующего шага.

  7. Соедините набор обучающих данных и необучение модели с одним из обучающих модулей:

    • Если для параметра создать режим инструктора задано значение Single, используйте модуль обучение модели .

    • Если для параметра создать режим инструктора задать значение диапазон параметров, используйте модуль Настройка модели параметры .

    Предупреждение

    • При передаче диапазона параметров для обучения моделииспользуется только первое значение из списка диапазонов параметров.

    • Если передать один набор значений параметров в модуль настройки модели Настройка , когда он ожидает диапазон параметров для каждого параметра, он пропускает значения и использует значения по умолчанию для этого.

    • Если выбрать параметр диапазон параметров и ввести одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

  8. Запустите эксперимент, чтобы обучить модель.

Примеры

Примеры использования регрессии Пуассона в машинном обучении см. в Коллекция решений ии Azure.

Технические примечания

Регрессия Пуассона используется для моделирования данных счетчика, предполагая, что метка имеет распределение Пуассона. Например, вы можете использовать его для прогнозирования количества обращений к центру поддержки клиентов в определенный день.

Для этого алгоритма предполагается, что неизвестная функция, обозначенная Y, имеет распределение Пуассона. Распределение Пуассона определяется следующим образом:

При наличии экземпляра x = (x0,..., XD-1) для каждых k = 0, 1,..., модуль определяет вероятность того, что значение экземпляра равно k.

Учитывая набор обучающих примеров, алгоритм пытается найти оптимальные значения для θ0,..., Θд-1, пытаясь максимально увеличить вероятность регистрации параметров. Вероятность параметров θ0,..., Θд-1 является вероятностью выборки обучающих данных из распределения с этими параметрами.

Вероятность журнала может быть просмотрена как log p(y = Yi).

Функция прогнозирования выводит ожидаемое значение для параметризованного распределения Пуассона, в частности: f w, b (x) = e [Y|x] = e wTx + b.

Дополнительные сведения см. в записи о регрессии Пуассона в Википедии.

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Отклонение оптимизации >= double.Epsilon Float 0,0000001 Укажите значение допуска для конвергенции оптимизации. Чем ниже значение, тем медленнее и точнее подгонка.
Вес регуляризации L1 >= 0,0 Float 1.0 Укажите вес регуляризации L1. Используйте ненулевое значение, чтобы избежать переобучения модели.
Вес "обычный" L2 >= 0,0 Float 1.0 Укажите весовой коэффициент для уровня "основной кэш". Используйте ненулевое значение, чтобы избежать переобучения модели.
Объем памяти для L-BFGS >= 1 Целое число 20 Укажите объем памяти (в МБ) для оптимизатора L-BFGS. Чем меньше объем памяти, тем быстрее обучение и меньше его точность.
Начальное значение случайного числа any Целое число Введите начальное значение для генератора случайных чисел, используемого моделью. Оставьте пустым, чтобы использовать значение по умолчанию.
Разрешить неизвестные категориальные уровни any Логическое Да Укажите, следует ли создавать дополнительный уровень для каждого категориального столбца. Все уровни в проверочном наборе данных, недоступные в обучающем наборе данных, сопоставляются с этим дополнительным уровнем.

Выходные данные

Имя Type Описание
Необученная модель Интерфейс ILearner Необученная модель регрессии

См. также раздел

Регрессии
Список модулей в алфавитном порядке