Лес решений с несколькими классами

Создает мультиклассовую модель классификации, используя алгоритм леса принятия решений.

Категория: машинное обучение/инициализация модели или классификации

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль многоклассового леса решений в машинное обучение Azure Studio (классическая модель) для создания модели машинного обучения на основе алгоритма леса принятия решений . Лес решений — это ансамблей модель, которая очень быстро создает ряд деревьев принятия решений при обучении данных с тегами.

Дополнительные сведения о лесах, принимающих решения

Алгоритм леса принятия решений — это ансамблейй метод обучения для классификации. Алгоритм работает путем создания нескольких деревьев принятия решений и последующего голосования по наиболее популярным выходным классам. Голосование является формой статистической обработки, в которой каждое дерево в лесу решения классификации выводит гистограмму ненормализованной частоты меток. Процесс статистической обработки суммирует эти гистограммы и нормализует результат, чтобы получить "вероятностные" для каждой метки. Деревья с высокой достоверностью прогноза имеют больший вес в окончательном принятии решения ансамблей.

Деревья принятия решений в целом — это непараметрической модели, то есть они поддерживают данные с различными распределениями. В каждом дереве выполняется последовательность простых тестов для каждого класса, увеличивая уровни структуры дерева до достижения конечного узла (решения).

Деревья принятия решений имеют много преимуществ:

  • Они могут представлять границы нелинейного принятия решений.
  • Они эффективны с точки зрения вычисления и использования памяти во время обучения и прогнозирования.
  • Они выполняют встроенный выбор признаков и классификацию.
  • Кроме того, они являются устойчивыми при наличии шумовых признаков.

Классификатор леса решений в Машинное обучение Azure Studio (классическая модель) состоит из ансамблей деревьев принятия решений. Вообще говоря, модели совокупности обеспечивают большее покрытие и точность, чем одно дерево принятия решений. Дополнительные сведения см. в разделе деревья принятия решений.

Настройка леса решения для многоклассовых решений

Совет

Если вы не знаете наилучших параметров, рекомендуется использовать модуль Настройка модели параметры для обучения и тестирования нескольких моделей и поиска оптимальных параметров.

  1. Добавьте модуль многоклассового леса решений в эксперимент в студии (классическая модель). Этот модуль можно найти в разделе машинное обучение, Инициализация модели и классификация.

  2. Дважды щелкните модуль, чтобы открыть панель свойств .

  3. Для метода повторной выборки выберите метод, используемый для создания отдельных деревьев. Можно выбрать фасовку или репликацию.

    • Баггинг: баггинг также называется статистической обработкой начальной загрузки. В этом методе каждое дерево увеличилось на новом образце, созданном случайным образом выборки исходного набора данных с заменой до тех пор, пока набор данных не станет размером оригинала. Выходные данные моделей объединяются функцией голосования, которая является формой статистической обработки. Дополнительные сведения см. в записи Википедии для агрегатной загрузки.

    • Репликация. в репликации каждое дерево обучено на идентичных входных данных. Определение того, какой предикат разбиения используется для каждого узла дерева, остается случайным, создавая различные деревья.

    Инструкции см. в разделе Настройка модели леса решения для многоклассовых решений .

  4. Укажите, как должна быть обучена модель, установив параметр " создать режим инструктора ".

    • Один параметр: Выберите этот параметр, если вы умеете настраивать модель и предоставляете набор значений в качестве аргументов.

    • Диапазон параметров. Используйте этот параметр, если вы не знаете наилучших параметров и хотите использовать параметр очистки.

  5. Число деревьев принятия решений: введите максимальное число деревьев принятия решений, которые могут быть созданы в ансамблей. Создавая больше деревьев принятия решений, вы можете получить более эффективное покрытие, но время обучения может увеличиться.

    Это значение также управляет количеством деревьев, отображаемых в результатах, при визуализации обученной модели. Для просмотра или печати одного дерева можно задать значение 1; Однако это означает, что может быть создано только одно дерево (дерево с начальным набором параметров) и дальнейшие итерации не выполняются.

  6. Максимальная глубина деревьев принятия решений: введите число, ограничивающее максимальную глубину дерева принятия решений. Увеличение глубины дерева может повысить точность, однако при этом могут возникать лжевзаимосвязи и увеличиваться время обучения.

  7. Число случайных разбиений на узел: введите число разбиений, которое будет использоваться при построении каждого узла дерева. Разбиение означает, что функции на каждом уровне дерева (node) случайным образом делятся.

  8. Минимальное число выборок на конечный узел: Укажите Минимальное число вариантов, необходимых для создания любого узла терминала (конечного) в дереве. Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил.

    Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.

  9. Разрешить неизвестные значения для характеристик категорий: Выберите этот параметр, чтобы создать группу для неизвестных значений в обучающих или проверочных наборах. Модель может быть менее точной для известных значений, но она может предоставлять лучшие прогнозы для новых (неизвестных) значений.

    Если отменить выбор этого параметра, то модель может принимать только значения, которые содержатся в обучающих данных.

  10. Подключите с меткой датсет и одним из обучающих модулей:

    • Если для параметра создать режим инструктора задано значение Single, используйте модуль обучение модели .

    • Если для параметра создать режим в режиме преподавателя задать значение диапазон параметров, используйте модуль Настройка модели параметры . С помощью этого параметра преподаватель может выполнить итерацию по нескольким сочетаниям параметров и определить значения параметров, которые создают лучшую модель.

    Примечание

    При передаче диапазона параметров для обучения моделииспользуется только первое значение из списка диапазонов параметров.

    Если передать один набор значений параметров в модуль настройки модели Настройка , когда он ожидает диапазон параметров для каждого параметра, он пропускает значения и использует значения по умолчанию для этого.

    Если выбрать параметр диапазон параметров и ввести одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

  11. Запустите эксперимент.

Результаты

После завершения обучения:

  • Чтобы просмотреть дерево, созданное при каждой итерации, щелкните правой кнопкой мыши модуль обучение модели и выберите обзрительную модель для визуализации. При использовании параметров настройки моделищелкните правой кнопкой мыши модуль и выберите обученная лучшая модель для визуализации лучшей модели. Чтобы просмотреть правила для каждого узла, щелкните каждое дерево, чтобы выполнить детализацию по разбиениям.

Примеры

Примеры использования лесов принятия решений в машинном обучении см. в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Сведения о реализации

Каждое дерево в лесу решения по классификации выводит гистограмму с ненормализованной частотой для меток. Статистическая обработка заключается в суммировании этих гистограмм и нормализации для получения "вероятностей" для каждой метки. Таким образом, деревья с высокой достоверностью прогноза имеют больший вес в окончательном принятии решения ансамблей.

Дополнительные сведения о процессе обучения с помощью параметра replicate см. в следующих статьях:

Настройка модели леса решения с многоклассовой моделью

Можно изменить способ настройки модуля, чтобы он соответствовал таким сценариям, как слишком мало данных, или ограниченному времени для обучения.

Ограниченное время обучения

Если обучающий набор данных содержит большое число экземпляров, но доступное время для обучения модели ограничено, попробуйте выполните следующие действия:

  • Создайте лес принятия решений, использующий меньшее число деревьев (например, 5-10).
  • Используйте параметр Репликация для повторной выборки.
  • Укажите меньшее число случайных разбиений для каждого узла (например, меньше 100).

Ограниченный обучающий набор

Если обучающий набор данных содержит ограниченное число экземпляров, попробуйте использовать следующие параметры:

  • Создайте лес принятия решений, использующий большее число деревьев принятия решений (например, более 20).
  • Используйте параметр Фасовка для повторной выборки.
  • Укажите большое число случайных разбиений для каждого узла (например, более 1000).

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Метод повторной выборки Любой ResamplingMethod Фасовка Выбор метода перевыборки: баггинг или replicate
Число деревьев принятия решений >= 1 Целочисленный тип 8 Укажите число деревьев принятия решений, создаваемых в совокупности
Максимальная глубина деревьев принятия решений >= 1 Целочисленный тип 32 Укажите максимальную глубину любого дерева принятия решений, которое можно создать
Число случайных разбиений для каждого узла >= 1 Целочисленный тип 128 Укажите создаваемое для одного узла число разбиений, из которого выбирается оптимальное разбиение
Минимальное число выборок для конечного узла >= 1 Целое число 1 Укажите минимальное число образцов обучения, необходимых для создания конечного узла
Разрешить неизвестные значения для категориальных признаков Любой Логическое значение True Укажите, следует ли сопоставлять неизвестные значения существующих категориальных признаков с новым, дополнительным признаком

Выходные данные

Имя Тип Описание
Необученная модель Интерфейс ILearner Необученная модель мультиклассовой классификации

См. также статью

Обновлений
Лес решений с двумя классами
Регрессия леса принятия решений
Список модулей в алфавитном порядке