Регрессия с использованием модели леса принятия решений

Создание регрессионной модели, используя алгоритм леса принятия решений

Категория: Инициализация модели-регрессии

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль регрессии леса решений в машинное обучение Azure Studio (классическая модель) для создания модели регрессии на основе ансамблей деревьев принятия решений.

После настройки модели необходимо обучить модель с помощью помеченного набора данных и модуля обучение модели . После этого обученная модель используется для прогнозирования. Кроме того, обученная модель может быть передана перекрестной проверке модели для перекрестной проверки с помеченным набором данных.

Как работают леса принятия решений в задачах регрессии

Деревья принятия решений — это непараметрические модели, выполняющие последовательность простых тестов для каждого экземпляра, выполняя обход древовидной структуры двоичных данных до достижения конечного узла (решения).

Деревья принятия решений имеют следующие преимущества:

  • Они эффективны с точки зрения вычисления и использования памяти во время обучения и прогнозирования.

  • Они могут представлять границы нелинейного принятия решений.

  • Они выполняют выбор признаков и классификацию и являются устойчивыми при наличии шумовых признаков.

Эта модель регрессии состоит из совокупности деревьев принятия решений. Каждое дерево в лесу решения регрессии выводит распределение по Гауссу в виде прогноза. Статистическая обработка выполняется по ансамблей деревьев, чтобы найти распределение по Гауссу, ближайшее к Объединенному распределению для всех деревьев в модели.

Дополнительные сведения о теоретической платформе для этого алгоритма и его реализации см. в этой статье: леса принятия решений: единая платформа для классификации, регрессии, оценки плотности, эта функция предназначена обучения и обучения Semi-Supervised .

Настройка модели регрессии для леса принятия решений

  1. Добавьте в эксперимент модуль регрессии леса принятия решений . Модуль можно найти в среде Studio (классическая модель) в разделе машинное обучение, инициализировать Model и регрессия.

  2. Откройте свойства модуля и для метода перевыборки выберите метод, используемый для создания отдельных деревьев. Вы можете выбрать одну из баггинг или реплицировать.

    • Баггинг: баггинг также называется статистической обработкой начальной загрузки. Каждое дерево в лесу решения регрессии выводит на себя распределение по Гауссу с помощью прогнозирования. Статистическая обработка заключается в поиске по Гауссу, первый из которых в два секунд соответствует моменту сочетания заданных по Гауссу, полученных отдельными деревьями.

      Дополнительные сведения см. в записи Википедии для агрегатной загрузки.

    • Репликация. в репликации каждое дерево обучено на идентичных входных данных. Определение того, какой предикат разбиения используется для каждого узла дерева, остается случайным, и деревья будут различными.

      Дополнительные сведения о процессе обучения с помощью параметра replicate см. в разделе леса принятия решений для компьютерное зрение и анализа медицинских изображений. Криминиси и J. Шоттон. Springer Link 2013..

  3. Укажите, как должна быть обучена модель, установив параметр " создать режим инструктора ".

    • Единственный параметр

      Если вы знаете, как хотите настроить модель, то можете предоставить определенный ряд значений в качестве аргументов. Они могут быть получены экспериментально или в качестве рекомендации.

    • Диапазон параметра

      Если вы не знаете наилучших параметров, оптимальные параметры можно найти, указав несколько значений и используя параметр очистки для поиска оптимальной конфигурации.

      Настройка параметров модели выполняет итерацию всех возможных сочетаний указанных вами параметров и определяет сочетание параметров, обеспечивающих оптимальные результаты.

  4. Для параметра число деревьев принятия решений укажите общее число деревьев принятия решений, создаваемых в ансамблей. Создавая больше деревьев принятия решений, вы можете потенциально получить большее покрытие, но время на обучение при этом увеличится.

    Совет

    Это значение также управляет количеством деревьев, отображаемых при визуализации обученной модели. Если требуется просмотреть или распечатать одно дерево, можно задать значение 1; Однако это означает, что будет создано только одно дерево (дерево с начальным набором параметров), и дальнейшие итерации выполняться не будут.

  5. Для максимальной глубины деревьев принятия решений введите число, ограничивающее максимальную глубину дерева принятия решений. Увеличение глубины дерева может повысить точность, однако при этом могут возникать лжевзаимосвязи и увеличиваться время обучения.

  6. Для числа случайных разбиений на узел введите число разбиений, которое будет использоваться при построении каждого узла дерева. Разбиение означает, что функции на каждом уровне дерева (node) случайным образом делятся.

  7. Для параметра минимальное число выборок на конечный узел укажите минимальное число вариантов, необходимых для создания любого узла терминала (конечного) в дереве.

    Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.

  8. Установите флажок Разрешить неизвестные значения для функций категории, чтобы создать группу для неизвестных значений в обучающих или проверочных наборах.

    Если отменить его выбор, модель сможет принимать только значения, содержащиеся в данных для обучения. В первом случае модель может быть менее точной для известных значений, но она обеспечивает более точные прогнозы для новых (неизвестных) значений.

  9. Подключите набор данных с меткой, выберите один столбец меток, содержащий не более двух результатов, и подключитесь либо к параметрам обучение модели , либо к настройке модели.

    • Если для параметра создать режим обучения задано значение один параметр, обучить модель с помощью модуля обучение модели .

    • Если для параметра создать режим в режиме преподавателя задано значение диапазон, обучить модель с помощью параметров настройки модели.

  10. Запустите эксперимент.

Результаты

После завершения обучения:

  • Чтобы увидеть дерево, созданное при каждой итерации, щелкните правой кнопкой мыши выходные данные модуля обучение и выберите визуализировать.

  • Чтобы просмотреть правила для каждого узла, щелкните каждое дерево и выполните детализацию для разбиения.

  • Чтобы сохранить моментальный снимок обученной модели, щелкните правой кнопкой мыши выходные данные модуля обучения и выберите команду Сохранить как обученную модель. Эта копия модели не обновляется при последующих запусках эксперимента.

Примеры

Примеры моделей регрессии см. в разделе примеры экспериментов в Cortana Intelligence Gallery:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

  • Если вы передали диапазон параметров для обучения модели, будет использоваться только первое значение из списка диапазонов параметров.

  • Если передать один набор значений параметров в модуль настройки модели Настройка , когда он ожидает диапазон параметров для каждого параметра, он игнорирует значения и использует значения по умолчанию для средства обучения.

  • Если выбрать параметр диапазон параметров и ввести одно значение для любого параметра, это единственное значение, которое вы указали, будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

Советы по использованию

Если данные ограничены или вы хотите свести к минимуму время обучения модели, используйте следующие параметры.

Ограниченный обучающий набор. Если обучающий набор содержит ограниченное число экземпляров:

  • создайте лес принятия решений с использованием большого количества деревьев (например более 20).

  • Используйте параметр Bagging для повторной выборки.

  • Укажите большое число случайных разбиений для каждого узла (например более 1000)

Ограниченное время обучения. Если обучающий набор содержит большое количество экземпляров, а время обучения ограничено:

  • Создайте лес принятия решений с помощью меньшего числа деревьев принятия решений (например 5—10)

  • Используйте параметр Replicate для повторной выборки.

  • используйте меньше случайных разделений для каждого узла (например более 100).

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Метод повторной выборки any ResamplingMethod Фасовка Выберите метод повторной выборки
Число деревьев принятия решений >= 1 Целое число 8 Укажите число деревьев принятия решений, создаваемых в совокупности
Максимальная глубина деревьев принятия решений >= 1 Целое число 32 Укажите максимальную глубину дерева принятия решений, которое может быть создано в ансамбле
Число случайных разбиений для каждого узла >= 1 Целое число 128 Укажите создаваемое для одного узла число разбиений, из которого выбирается оптимальное разбиение
Минимальное число выборок для конечного узла >= 1 Целое число 1 Укажите минимальное число образцов обучения, необходимых для создания конечного узла
Разрешить неизвестные значения для категориальных признаков any Логическое Да Укажите, следует ли сопоставлять неизвестные значения существующих категориальных признаков с новым, дополнительным признаком

Выходные данные

Имя Type Описание
Необученная модель Интерфейс ILearner Необученная модель регрессии

См. также

Регрессия

Список модулей в алфавитном порядке