Многоклассовые джунгли принятия решений

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает модель мультиклассовой классификации, используя алгоритм джунглей принятия решений.

категория: Машинное обучение/инициализация модели или классификации

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль многоклассового решения джунглях в Машинное обучение Studio (классическая модель) для создания модели машинного обучения, основанной на контролируемом алгоритме обучения, который называется решением джунгли.

Вы определяете модель и ее параметры с помощью этого модуля, а затем подключаете набор обучающих данных с метками для обучения модели с помощью одного из обучающих модулей. Обученная модель может использоваться для прогнозирования целевого объекта, имеющего несколько значений.

Дополнительные сведения о джунгли решений

Джунгли решений — это недавнее расширение для лесов принятия решений. Джунгли решений состоят из ансамбля ациклические направленных графов принятия решений (DAG).

Джунгли принятия решений имеют следующие преимущества:

Позволяя объединение ветвей дерева, DAG обычно требует меньше памяти и повышает производительность обобщения по сравнению с обычным деревом принятия решений, хотя и за счет несколько более длительного обучения.
Джунгли решений — это непараметрические модели, которые могут представлять нелинейные границы принятия решений.
Они выполняют выбор признаков и классификацию и являются устойчивыми при наличии шумовых признаков.

Дополнительные сведения об исследовании этого алгоритма машинного обучения см. в разделе решение джунгли: компактный и многофункциональный модели для классификации (PDF-файл, доступный для загрузки).

Настройка модели джунглях решений с многоклассовой моделью

Добавьте модуль многоклассового решения джунглях в эксперимент в студии (классическая модель). Этот модуль доступен в разделах Машинное обучение, Инициализация модели и Классификация.
Дважды щелкните модуль, чтобы открыть панель Свойства.
Метод повторной выборкивыберите метод для создания нескольких деревьев: баггинг или REPLICATION.
- Баггинг: Выберите этот параметр, чтобы использовать баггинг, также называемый агрегированием начальной загрузки.
  
  Каждое дерево в лесу принятия решений выводит распределение Гаусса путем прогнозирования. Статистическая обработка заключается в поиске по Гауссу, первый из которых в два секунд соответствует моменту сочетания заданных по Гауссу, полученных отдельными деревьями.
- Реплицировать: Выберите этот параметр, чтобы использовать репликацию. В этом методе каждое дерево обучено в точности на одни и те же входные данные. Определение того, какой предикат разбиения используется для каждого узла дерева, остается случайным, поэтому создаются различные деревья.
Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.
- Один параметр: Используйте этот параметр, если вы умеете настроить модель.
- Диапазон параметров. Используйте этот параметр, если вы не знаете наилучших параметров и хотите использовать параметр очистки.
Число DAG решений: указывает максимальное количество диаграмм, которые могут быть созданы в ансамблей.
Максимальная глубина DAG решений: Укажите максимальную глубину каждого графа.
Максимальная ширина DAG принятия решений: Укажите максимальную ширину каждого графа.
Число шагов оптимизации на уровне решения DAG: указывает, сколько итераций по данным необходимо выполнить при создании каждой DAG.
Разрешить неизвестные значения для характеристик категорий: Выберите этот параметр, чтобы создать группу для неизвестных значений в данных тестирования или проверки. В этом случае модель может быть менее точной для известных значений, но она обеспечивает более точные прогнозы для новых (неизвестных) значений.

Если отменить выбор этого параметра, то модель может принимать только значения, которые присутствовали в обучающих данных.
Подключение помеченный набор данных и один из обучающих модулей:
- Если для параметра Создать режим учителя задано значение Одиночный параметр, используйте модуль Обучение модели.
- Если для параметра Создать режим учителя задано значение Диапазон параметров, используйте модуль Настройка гиперпараметров модели. При использовании этого параметра алгоритм выполняет итерацию по нескольким сочетаниям указанных параметров и определяет сочетание значений, обеспечивающих наилучшую модель.
Примечание

При передаче диапазона параметров в модуль Обучение модели используется только первое значение в списке диапазона параметров.

Если передать один набор значений параметров в модуль Настройка гиперпараметров модели, когда он ожидает диапазон параметров для каждого параметра, он пропускает значения и использует значения по умолчанию для ученика.

Если выбран вариант Parameter Range (Диапазон параметров) и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.
Запустите эксперимент.

Результаты

После завершения обучения:

Чтобы использовать модель для оценки, подключите ее к модели оценки, чтобы спрогнозировать значения для новых входных примеров.

Примеры

Примеры использования лесов принятия решений в машинном обучении см. в Коллекция решений ии Azure:

Пример сравнения многоклассовых классификаторов: использует несколько алгоритмов и обсуждает их достоинства и недостатки.

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Дополнительные сведения о процессе обучения с помощью параметра replicate см. в следующих статьях:

Леса, принимающие решения, для анализа компьютерных концепций и медицинских изображений. Криминиси и Шоттон. Springer Link 2013

Советы по использованию

Если вы ограничили данные или хотите максимально сокращать время, затрачиваемое на обучение модели, попробуйте следующие рекомендации:

Ограниченный обучающий набор

Если обучающий набор содержит ограниченное число экземпляров:

Создайте джунгли решений с помощью большого количества DAG (например более 20)
Используйте параметр Фасовка для повторной выборки.
Указание большего количества действий оптимизации для каждого уровня DAG (например более 10 000).

Ограниченное время обучения

Если обучающий набор содержит большое количество экземпляров, а время обучения ограничено:

Создайте джунглях принятия решений, в котором используется меньшее количество DAG решений (например, 5-10).
Используйте параметр Репликация для повторной выборки.
Указание меньшего количества шагов оптимизации каждого слоя DAG (например, менее 2000).

Параметры модуля

Имя	Диапазон	Тип	По умолчанию	Описание
Метод повторной выборки	Любой	ResamplingMethod	Фасовка	Выберите метод повторной выборки
Количество DAG принятия решений	>= 1	Целое число	8	Укажите число графов принятия решений, которые могут быть созданы в ансамбле
Максимальная глубина DAG решений	>= 1	Целое число	32	Укажите максимальную глубину графов принятия решений для создания в ансамбле
Максимальная ширина DAG решений	>= 8	Целое число	128	Укажите максимальную ширину графов принятия решений для создания в ансамбле
Число шагов оптимизации каждого слоя DAG принятия решений	>= 1000	Целое число	2048	Указание числа шагов для оптимизации каждого уровня графов принятия решений
Разрешить неизвестные значения для категориальных признаков	Любой	Логическое значение	True	Укажите, следует ли сопоставлять неизвестные значения существующих категориальных признаков с новым, дополнительным признаком

Выходные данные

Имя	Тип	Описание
Необученная модель	Интерфейс ILearner	Необученная модель мультиклассовой классификации

См. также раздел

Двухклассовый Decision Jungle
Классификация
Список модулей в алфавитном порядке