Что такое обучение с подкреплением?

Важно!

Начиная с 20 сентября 2023 г. вы не сможете создавать новые ресурсы Персонализатора. Служба Персонализатора отменяется 1 октября 2026 года.

Обучение с подкреплением — это подход к машинному обучению, при котором поведение изучается путем получения обратной связи во время его использования.

Принципы работы обучения с подкреплением:

  • обеспечение возможности или степени свободы для поведения, такого как принятие решения или осуществление выбора;
  • предоставление контекстных сведений о среде и выборе;
  • предоставление отзыва о том, насколько хорошо поведение достигает определенной цели.

Несмотря на то что существует множество подтипов и стилей обучения с подкреплением, в службе "Персонализатор" эта концепция работает так:

  • Приложение предоставляет возможность отображения фрагмента содержимого из списка альтернативных вариантов.
  • Оно также предоставляет информацию о каждом из альтернативных вариантов и контексте пользователя.
  • Ваше приложение определяет оценку вознаграждения.

В отличие от других подходов к обучению с подкреплением, Персонализатор не требует симуляции для работы. Его алгоритмы обучения предназначены для реагирования на внешний мир (а не для управления им) и изучения каждой точки данных с пониманием того, что эта уникальная возможность требует времени и денег для создания, и что существует ненулевое сожаление (потеря возможного вознаграждения) в случае неоптимальной производительности.

Какой тип алгоритмов обучения с подкреплением использует служба "Персонализатор"?

Текущая версия службы "Персонализатор" использует контекстные бандиты — подход к обучению с подкреплением, который основан на принятии решений или выборе дискретных действий в данном контексте.

Память принятия решений (модель, обученная для получения наилучшего возможного решения с учетом контекста) использует набор линейных моделей. Такой подход неоднократно демонстрировал результаты в бизнесе. Этот подход является проверенным отчасти благодаря быстрой обучаемости в реальном мире без необходимости использовать многовводное обучение, а также благодаря тому, что может дополнять контролируемые модели обучения и модели глубоких нейронных сетей.

Выделение трафика для изучения или лучшего действия выполняется случайным образом после процентного набора для исследования, а алгоритм по умолчанию для исследования является эпсилон-жадный.

Журнал контекстных бандитов

Джон Лэнгфорд (John Langford) придумал название "контекстные бандиты" (Langford and Zhang [2007]) для описания гибкого подмножества обучения с подкреплением и работал над многочисленными научными публикациями, которые улучшают понимание того, как происходит обучение в этой парадигме.

  • Beygelzimer et al. [2011]
  • Dudík et al. [2011a,b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer and Langford [2009]
  • Li et al. [2010]

Джон также написал несколько учебных пособий на такие темы, как совместное прогнозирование (ICML 2015), теория контекстных бандитов (NIPS 2013), активное обучение (ICML 2009) и границы эталонной сложности (ICML 2003)

Какие платформы машинного обучения использует служба "Персонализатор"?

В настоящее время как основу для машинного обучения Персонализатор использует Vowpal Wabbit. Эта платформа обеспечивает максимальную пропускную способность и минимальную задержку при ранжировании персонализации и обучении модели на всех событиях.

Ссылки

Следующие шаги

Offline evaluation (Автономная оценка)