Лес решений с несколькими классами

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Создает мультиклассовую модель классификации, используя алгоритм леса принятия решений.

категория: Машинное обучение/инициализация модели или классификации

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль многоклассового леса решений в Машинное обучение Studio (классическая модель) для создания модели машинного обучения на основе алгоритма леса принятия решений . Лес решений — это ансамблей модель, которая очень быстро создает ряд деревьев принятия решений при обучении данных с тегами.

Дополнительные сведения о лесах принятия решений

Алгоритм леса принятия решений представляет собой метод коллективного обучения, предназначенный для классификации. Он работает путем создания нескольких деревьев принятия решений и голосования за наиболее популярный класс выходных данных. Голосование является формой агрегирования, в которой каждое дерево в лесу решения классификации выводит гистограмму меток ненормализованной частоты. Процесс статистической обработки суммирует эти гистограммы и нормализует результат, чтобы получить "вероятностные" для каждой метки. Деревья с высокой достоверностью прогноза имеют больший вес при принятии окончательного коллективного решения.

В целом деревья принятия решений являются непараметрическими моделями, что означает, , что они поддерживают данные с различными распределениями. В каждом дереве выполняется последовательность простых тестов для каждого класса, увеличивая уровни структуры дерева до достижения конечного узла (решения).

Деревья принятия решений имеют много преимуществ:

Они могут представлять границы нелинейного принятия решений.
Они эффективны с точки зрения вычисления и использования памяти во время обучения и прогнозирования.
Они выполняют встроенный выбор признаков и классификацию.
Кроме того, они являются устойчивыми при наличии шумовых признаков.

классификатор леса решений в Машинное обучение Studio (классическая модель) состоит из ансамблей деревьев принятия решений. Вообще говоря, модели совокупности обеспечивают большее покрытие и точность, чем одно дерево принятия решений. Дополнительную информацию см. в разделе Деревья принятия решений.

Настройка Многоклассового леса принятия решений

Совет

Если вы не знаете наилучших параметров, рекомендуется использовать модуль Настройка модели параметры для обучения и тестирования нескольких моделей и поиска оптимальных параметров.

Добавьте модуль многоклассового леса решений в эксперимент в студии (классическая модель). Этот модуль доступен в разделах Машинное обучение, Инициализация модели и Классификация.
Дважды щелкните модуль, чтобы открыть панель Свойства.
В качестве метода повторной выборки выберите метод, используемый для создания отдельных деревьев. Можно выбрать фасовку или репликацию.
- Бэггинг: также называется агрегированием начальной загрузки. В рамках этого метода каждое дерево создается на основе новой выборки, получаемой случайным образом из исходного набора данных с постепенной заменой до тех пор, пока размер набора данных не достигнет исходного. Выходные данные моделей объединяются функцией голосования, которая является разновидностью агрегирования. Дополнительные сведения см. в статье Википедии о бутстрэп-агрегировании.
- Репликация: при репликации каждое дерево обучается на идентичных входных данных. Предикат разбиения, используемый для каждого узла дерева, определяется случайным образом, создавая различные деревья.
Инструкции см. в разделе Настройка модели леса решения для многоклассовых решений .
Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.
- Одиночный параметр: выберите этот вариант, если вы знаете, как хотите настроить модель, и предоставьте набор значений в качестве аргументов.
- Диапазон параметров. Используйте этот параметр, если вы не знаете наилучших параметров и хотите использовать параметр очистки.
Число деревьев принятия решений: введите максимальное число деревьев, которые могут быть созданы в совокупности. Создавая больше деревьев принятия решений, можно расширить покрытие, но время на обучение при этом может увеличится.

Это значение также управляет количеством деревьев, отображаемых в результатах, при визуализации обученной модели. Для просмотра или печати одного дерева можно задать значение 1; Однако это означает, что может быть создано только одно дерево (дерево с начальным набором параметров) и дальнейшие итерации не выполняются.
Максимальная глубина деревьев принятия решений: введите число, ограничивающее максимальную глубину дерева принятия решений. Увеличение глубины дерева может повысить точность, однако при этом могут возникать лжевзаимосвязи и увеличиваться время обучения.
Число случайных разбиений на узел: введите число разбиений, которое будет использоваться при построении каждого узла дерева. Разбиение означает, что признаки на каждом уровне дерева (узле) распределяются случайным образом.
Минимальное число выборок для конечного узла: укажите минимальное число вариантов, необходимых для создания любого терминального узла (листа) в дереве. Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил.

Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.
Разрешить неизвестные значения для характеристик категорий: Выберите этот параметр, чтобы создать группу для неизвестных значений в обучающих или проверочных наборах. В этом случае модель может быть менее точной для известных значений, но она обеспечивает более точные прогнозы для новых (неизвестных) значений.

Если отменить выбор этого параметра, то модель может принимать только значения, которые содержатся в обучающих данных.
Подключение с меткой датсет и одним из обучающих модулей:
- Если для параметра Создать режим учителя задано значение Одиночный параметр, используйте модуль Обучение модели.
- Если для параметра создать режим в режиме преподавателя задать значение диапазон параметров, используйте модуль Настройка модели параметры . С помощью этого параметра преподаватель может выполнить итерацию по нескольким сочетаниям параметров и определить значения параметров, которые создают лучшую модель.
Примечание

При передаче диапазона параметров в модуль Обучение модели используется только первое значение в списке диапазона параметров.

Если передать один набор значений параметров в модуль Настройка гиперпараметров модели, когда он ожидает диапазон параметров для каждого параметра, он пропускает значения и использует значения по умолчанию для ученика.

Если выбран вариант Parameter Range (Диапазон параметров) и указано одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.
Запустите эксперимент.

Результаты

После завершения обучения:

Чтобы просмотреть дерево, созданное при каждой итерации, щелкните правой кнопкой мыши модуль обучение модели и выберите обзрительную модель для визуализации. При использовании параметров настройки моделищелкните правой кнопкой мыши модуль и выберите обученная лучшая модель для визуализации лучшей модели. Чтобы просмотреть правила для каждого узла, щелкните каждое дерево, чтобы выполнить детализацию по разбиениям.

Примеры

Примеры использования лесов принятия решений в машинном обучении см. в Коллекция решений ии Azure:

Пример сравнения многоклассовых классификаторов: использует несколько алгоритмов и обсуждает их достоинства и недостатки.

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Сведения о реализации

Каждое дерево в лесу решения по классификации выводит гистограмму с ненормализованной частотой для меток. Статистическая обработка заключается в суммировании этих гистограмм и нормализации для получения "вероятностей" для каждой метки. Таким образом, деревья с высокой достоверностью прогноза имеют больший вес в окончательном принятии решения ансамблей.

Дополнительные сведения о процессе обучения с помощью параметра replicate см. в следующих статьях:

Леса, принимающие решения, для анализа компьютерных концепций и медицинских изображений. Криминиси и Шоттон. Springer Link 2013.

Настройка мультиклассовой модели леса принятия решений

Можно изменить способ настройки модуля, чтобы он соответствовал таким сценариям, как слишком мало данных, или ограниченному времени для обучения.

Ограниченное время обучения

Если обучающий набор данных содержит большое число экземпляров, но доступное время для обучения модели ограничено, попробуйте выполните следующие действия:

Создайте лес принятия решений, использующий меньшее число деревьев (например, 5-10).
Используйте параметр Репликация для повторной выборки.
Укажите меньшее число случайных разбиений для каждого узла (например, меньше 100).

Ограниченный обучающий набор

Если обучающий набор данных содержит ограниченное число экземпляров, попробуйте использовать следующие параметры:

Создайте лес принятия решений, использующий большее число деревьев принятия решений (например, более 20).
Используйте параметр Фасовка для повторной выборки.
Укажите большое число случайных разбиений для каждого узла (например, более 1000).

Параметры модуля

Имя	Диапазон	Тип	По умолчанию	Описание
Метод повторной выборки	Любой	ResamplingMethod	Фасовка	Выбор метода перевыборки: баггинг или replicate
Число деревьев принятия решений	>= 1	Целое число	8	Укажите число деревьев принятия решений, создаваемых в совокупности
Максимальная глубина деревьев принятия решений	>= 1	Целое число	32	Укажите максимальную глубину любого дерева принятия решений, которое можно создать
Число случайных разбиений для каждого узла	>= 1	Целое число	128	Укажите создаваемое для одного узла число разбиений, из которого выбирается оптимальное разбиение
Минимальное число выборок для конечного узла	>= 1	Целое число	1	Укажите минимальное число образцов обучения, необходимых для создания конечного узла
Разрешить неизвестные значения для категориальных признаков	Любой	Логическое значение	True	Укажите, следует ли сопоставлять неизвестные значения существующих категориальных признаков с новым, дополнительным признаком

Выходные данные

Имя	Тип	Описание
Необученная модель	Интерфейс ILearner	Необученная модель мультиклассовой классификации

См. также раздел

Классификация
Двухклассовый лес принятия решений
Регрессия с использованием модели леса принятия решений
Список модулей в алфавитном порядке