Компонент регрессии леса принятия решений

Статья
06/01/2023

В этой статье описывается компонент в конструкторе Машинного обучения Azure.

С его помощью можно создать модель регрессии, используя совокупность деревьев принятия решений.

После настройки модели следует провести ее обучение с помощью набора данных с метками и компонента обучения модели. После этого обученная модель используется для прогнозирования.

Принцип работы

Деревья принятия решений — это непараметрические модели, выполняющие последовательность простых тестов для каждого экземпляра, выполняя обход древовидной структуры двоичных данных до достижения конечного узла (решения).

Деревья принятия решений имеют следующие преимущества:

Они эффективны с точки зрения вычисления и использования памяти во время обучения и прогнозирования.
Они могут представлять границы нелинейного принятия решений.
Они выполняют выбор признаков и классификацию и являются устойчивыми при наличии шумовых признаков.

Эта модель регрессии состоит из совокупности деревьев принятия решений. Каждое дерево в регрессионном лесу решений выводит распределение по Гауссу в виде прогноза. По совокупностям деревьев выполняется агрегирование с целью найти распределение по Гауссу, ближайшее к объединенному распределению для всех деревьев модели.

Дополнительные сведения о теоретической платформе для этого алгоритма и его реализации см. в статье Леса принятия решений: единая платформа для классификации, регрессии, оценки плотности, обучения на основе многообразий и полуконтролируемого обучения.

Настройка регрессионной модели леса принятия решений

Добавьте в конвейер компонент Регрессии леса принятия решений. Этот компонент можно найти в конструкторе в разделе Машинное обучение, Инициализация моделии Регрессия.
Откройте свойства компонента и в качестве метода повторной выборки укажите метод, используемый для создания отдельных деревьев. Доступны методы бэггинга и репликации.
- Бэггинг: также называется агрегированием начальной загрузки. Каждое дерево в регрессионном лесу решений выводит распределение по Гауссу путем прогноза. Агрегирование заключается в поиске распределения по Гауссу, первые два момента которого совпадают с моментами сочетания распределений по Гауссу, получаемыми путем объединения всех распределений, возвращенных отдельными деревьями.
  
  Дополнительные сведения см. в записи Википедии о бутстрэп-агрегировании.
- Репликация: при репликации каждое дерево обучается на идентичных входных данных. Предикат разбиения, используемый для каждого узла дерева, определяется случайным образом, и деревья оказываются разными.
  
  Дополнительные сведения о процессе обучения в режиме репликации см. в издании Decision Forests for Computer Vision and Medical Image Analysis (Леса принятия решений для компьютерного зрения и анализа медицинских изображений), Criminisi и J. Shotton. Springer 2013.
Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.
- Single Parameter (Одиночный параметр)
  
  Если вы знаете, как хотите настроить модель, то можете предоставить определенный ряд значений в качестве аргументов. Они могут быть получены экспериментально или в качестве рекомендации.
- Диапазон параметров: используйте этот вариант, если вы не знаете наилучшие параметры и хотите выполнить их перебор. Выберите диапазон значений для итерации и в процессе Настройка гиперпараметров модели выполните итерацию по всем возможным сочетаниям указанных параметров, чтобы определить гиперпараметры, которые приводят к оптимальным результатам.
Количество деревьев решений: укажите общее число деревьев принятия решений, создаваемых в ансамбле. Создавая больше деревьев принятия решений, вы можете потенциально получить большее покрытие, но время на обучение при этом увеличится.

Совет

Однако если задать значение 1, то создается только одно дерево (дерево с начальным набором параметров) и дальнейшие итерации не выполняются.
Максимальная глубина деревьев принятия решений: введите число, ограничивающее максимальную глубину дерева принятия решений. Увеличение глубины дерева может повысить точность, однако при этом могут возникать лжевзаимосвязи и увеличиваться время обучения.
Число случайных разбиений на узел: введите число разбиений, которое будет использоваться при построении каждого узла дерева. Разбиение означает, что признаки на каждом уровне дерева (узле) распределяются случайным образом.
Минимальное число выборок для конечного узла: укажите минимальное число вариантов, необходимых для создания любого терминального узла (листа) в дереве.

Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если увеличить его до 5, для создания правила обучающие данные должны будут содержать не менее пяти вариантов.
Обучение модели
- Если для параметра Создать режим учителя задано значение Одиночный параметр, подключите помеченный набор данных и компонент Обучение модели.
- Если для параметра Создать режим учителя выбран вариант Диапазон параметров, подключите набор помеченных данных и обучите модель с помощью модуля Настройка гиперпараметров модели.
Примечание

При передаче диапазона параметров в модуль Обучение модели используется только значение по умолчанию в списке с одиночным параметром.

Если передать в компонент Настройка гиперпараметров модели один набор значений параметров, когда он ожидает диапазон для каждого параметра, он пропускает эти значения и использует значения по умолчанию для обучаемого объекта.

Если выбран вариант Диапазон параметров и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время подбора параметров, даже если другие параметры меняются в диапазоне значений.
Отправьте конвейер.

Результаты

После завершения обучения:

Чтобы сохранить моментальный снимок обученной модели, выберите компонент обучения, а затем перейдите на вкладку Выходные данные на правой панели. Щелкните значок Зарегистрировать модель. Вы можете найти сохраненную как компонент модель в дереве компонентов.

Дальнейшие действия

Ознакомьтесь с набором доступных компонентов для Машинного обучения Azure.

Компонент регрессии леса принятия решений

Принцип работы

Настройка регрессионной модели леса принятия решений

Результаты

Дальнейшие действия

Дополнительные ресурсы