Двухклассовое увеличивающееся дерево принятия решений;

Создает двоичный классификатор с помощью алгоритма повышенного дерева принятия решений.

Категория: машинное обучение/инициализация модели или классификации

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль высококлассного дерева решений с двумя классами в машинное обучение Azure Studio (классическая модель) для создания модели машинного обучения на основе алгоритма повышенного дерева принятия решений.

Увеличивающееся дерево принятия решений — это метод обучения ансамблей, в котором второе дерево исправляет ошибки первого дерева, а третье дерево исправляет ошибки первого и второго деревьев и т. д. Прогнозы основаны на полном ансамблейе деревьев, которые делают прогноз. Дополнительные технические сведения см. в разделе исследование этой статьи.

Как правило, при правильной настройке высокопроизводительные деревья принятия решений являются простейшими методами, с помощью которых можно получить наивысшую производительность в самых разных задачах машинного обучения. Однако они также являются одним из самых требовательных к памяти сведений, и текущая реализация содержит все объекты в памяти. Таким образом, модель высокодоступного дерева решений может не иметь возможности обрабатывать очень большие наборы данных, которые могут обрабатываться некоторыми линейными учениями.

Дополнительные сведения о выборе алгоритма см. в следующих ресурсах:

Настройка Two-Class увеличивающегося дерева принятия решений

Этот модуль создает обученную модель классификации. Поскольку классификация является контролируемым методом обучения, для обучения модели необходим набор данных с тегами , включающий столбец меток со значением для всех строк.

Этот тип модели можно обучить с помощью модулей « обучение модели » или « Настройка модели ».

  1. В Машинное обучение Azure Studio (классическая модель) добавьте модуль повышенного дерева принятия решений в свой эксперимент.

  2. Укажите, как должна быть обучена модель, установив параметр " создать режим инструктора ".

    • Один параметр. Если вы умеете настраивать модель, вы можете указать конкретный набор значений в качестве аргументов.

    • Диапазон параметров. Если вы не знаете наилучших параметров, оптимальные параметры можно найти с помощью модуля Настройка модели параметры . Вы предоставляете некоторый диапазон значений, и преподаватель выполняет итерацию по нескольким сочетаниям параметров, чтобы определить сочетание значений, которое дает наилучший результат.

  3. Для максимального количества конечных объектов на дерево укажите максимальное количество узлов терминалов (листья), которые могут быть созданы в любом дереве.

    Увеличив это значение, вы потенциально увеличите размер дерева и повысите точность, но это может привести к возникновению лжевзаимосвязей и более длительному времени обучения.

  4. Для минимального числа выборок на конечный узел укажите количество вариантов, необходимое для создания любого узла терминала (конечного) в дереве.

    Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.

  5. Для курса обучения введите число от 0 до 1, определяющее размер шага во время обучения.

    Скорость обучения определяет, насколько быстро или медленнее выполняется схождение на оптимальном решении. Если размер шага слишком велик, вы можете отклонение оптимальное решение. Если размер шага слишком мал, обучение на лучшее решение занимает больше времени.

  6. Для числа построенных деревьев укажите общее число деревьев принятия решений, создаваемых в ансамблей. Создавая больше деревьев принятия решений, вы можете потенциально получить большее покрытие, но время на обучение при этом увеличится.

    Это значение также управляет количеством деревьев, отображаемых при визуализации обученной модели. Если требуется просмотреть или распечатать одно дерево, установите значение 1. Однако при этом создается только одно дерево (дерево с начальным набором параметров) и дальнейшие итерации не выполняются.

  7. Для начального числа случайных чисел при необходимости введите неотрицательное целое число, которое будет использоваться как значение случайного начального значения. Указание начального значения обеспечивает воспроизводимость между запусками с одинаковыми данными и параметрами.

    Случайное начальное значение по умолчанию установлено равным 0. Это означает, что начальное начальное значения получается из системных часов. Последовательные запуски с использованием случайного начального значения могут иметь разные результаты.

  8. Установите флажок Разрешить неизвестные уровни категорий , чтобы создать группу для неизвестных значений в наборах для обучения и проверки.

    Если отменить выбор этого параметра, то модель может принимать только значения, содержащиеся в обучающих данных.

    Если вы разрешите неизвестные значения, модель может оказаться менее точной для известных значений, но, скорее всего, может предоставлять лучшие прогнозы для новых (неизвестных) значений.

  9. Обучение модели.

    • Если присвоить параметру создать режим инструктора значение Single, подключить набор данных с тегами и модуль обучение модели .

    • Если задать режим создания инструктора в диапазоне параметров, подключите набор данных с тегами и обучите модель с помощью параметров настройки модели.

    Примечание

    При передаче диапазона параметров для обучения моделииспользуется только первое значение из списка диапазонов параметров.

    Если передать один набор значений параметров в модуль Настройка модели настройки , когда он ожидает диапазон параметров для каждого параметра, он пропускает значения и использует значения по умолчанию для учений.

    Если выбрать параметр диапазон параметров и ввести одно значение для любого параметра, это единственное заданное значение будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.

Результаты

После завершения обучения:

  • Чтобы просмотреть дерево, созданное при каждой итерации, щелкните правой кнопкой мыши модуль обучение модели и выберите обзрительную модель для визуализации. При использовании параметров настройки моделищелкните правой кнопкой мыши модуль и выберите обученная лучшая модель для визуализации лучшей модели.

    Щелкните каждое дерево, чтобы получить подробные сведения о разбиении и просмотреть правила для каждого узла.

  • Чтобы использовать модель для оценки, подключите ее к модели оценки, чтобы спрогнозировать значения для новых входных примеров.

Примеры

Примеры использования увеличивающихся деревьев принятия решений в машинном обучении см. в Коллекция решений ии Azure:

  • Direct Marketing: использует алгоритм высококлассного дерева принятия решений для прогнозирования клиента стремления.

  • Прогноз задержки рейсов. в этом примере используется алгоритм высококлассного дерева принятия решений , определяющий, вероятнее ли задерживается перелет.

  • Риск кредитной карты. в этом примере для прогнозирования рисков используется алгоритм высококлассного дерева принятия решений с двумя классами .

Технические примечания

В этом разделе содержатся сведения о реализации и часто задаваемые вопросы.

Советы по использованию

  • Для обучения модели увеличивающегося дерева принятия решений необходимо предоставить несколько экземпляров данных. В процессе обучения создается ошибка, если набор данных содержит слишком мало строк.

  • Если в данных отсутствуют значения, необходимо добавить индикаторы для компонентов.

  • Как правило, повышенные деревья принятия решений дают лучшие результаты, если признаки в некоторой степени взаимосвязаны. Если функции имеют большую степень энтропии (т. е. они не связаны), они имеют небольшую или не имеющие никакой взаимной информации, а их порядок в дереве не дает большого количества прогнозных значимости. Если это не так, попробуйте использовать модель случайного леса.

    Увеличение также работает хорошо, когда у вас есть гораздо больше примеров, чем функции, так как модель подвержена перегонкам.

  • Не следует нормализовать набор данных. Так как обработка функций является простой, непараметрической, не меньше или больше, чем сравнение, нормализация или любая форма немонотонной функции преобразования может иметь небольшую силу.

  • Перед обучением признаки дискретизируются и сегментируются. Таким образом, даже для непрерывных признаков учитывается только относительно небольшой набор кандидатов на пороговое значение.

Сведения о реализации

Подробные сведения о алгоритме повышенного дерева принятия решений см. в разделе жадная функция аппроксимация — компьютеры, увеличивающие градиент.

Алгоритм повышенного дерева принятия решений в Машинное обучение Azure использует следующий метод повышения:

  1. Начните с пустой совокупности слабых учеников.

  2. Для каждого примера обучения получите текущие выходные данные совокупности. Это сумма выходных данных всех слабых учений в ансамблей.

  3. Вычислите градиент функции потери для каждого примера.

    Это зависит от того, является ли задача проблемой двоичной классификации или задачей регрессии.

    • Для модели двоичной классификации — это логарифмические потери, так же как и для модели логистической регрессии.

    • В модели регрессии используются квадратичные потери, а градиент представляет собой текущие выходные данные за вычетом целевых значений.

  4. Используйте примеры для размещения слабых сведений об использовании градиента, просто определенного в качестве целевой функции.

  5. Добавьте этот слабый ученик в совокупность с силой, определяемой скоростью обучения, и при необходимости перейдите к шагу 2.

    В этой реализации слабые знания представляют собой деревья регрессии с наименьшей квадратной шкалой на основе градиентов, вычисленных на шаге 3. Для деревьев действуют следующие ограничения:

    • Их обучают до достижения максимального количества листьев.

    • В каждом листе есть минимальное количество примеров, которые предотвращают возникновение лжевзаимосвязей.

    • Каждый узел решения — это один признак, который сравнивается с определенным пороговым значением. Если этот признак меньше порогового значения или равен ему, он направляется по одному пути, а если он превышает пороговое значение, то направляется по другому пути.

    • Каждый конечный узел является постоянным значением.

  6. Алгоритм создания дерева гридили выбирает функцию и пороговое значение, для которых разбиение уменьшает квадрат потери в отношении градиента, вычисленного на шаге 3. Выбор разбиения подчиняется минимальному количеству обучающих примеров на каждый конечный объект.

    Алгоритм многократно разделяется до достижения максимального числа конечных элементов или до тех пор, пока не будет доступен допустимый разделитель.

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Максимальное количество листьев каждого дерева >= 1 Целочисленный тип 20 Укажите максимальное допустимое число листьев для дерева
Минимальное число выборок для конечного узла >= 1 Целое число 10 Укажите минимальное число случаев, требующихся для формирования листа
Скорость обучения [double.Epsilon;1,0] Тип с плавающей запятой 0.2 Укажите начальную скорость обучения
Количество созданных деревьев >= 1 Целочисленный тип 100 Укажите максимальное число деревьев, которое можно создать во время обучения
Начальное значение случайного числа Любой Целочисленный тип Введите начальное значение для генератора случайных чисел, используемого моделью. Чтобы использовать значение по умолчанию, оставьте это поле пустым.
Разрешить неизвестные категориальные уровни Любой Логическое значение True Если значение true, для каждого категориального столбца создается дополнительный уровень. Все уровни в тестовом наборе данных, недоступные в обучающем наборе, сопоставляются с этим дополнительным уровнем.

Выходные данные

Имя Тип Описание
Необученная модель Интерфейс ILearner Необученная модель бинарной классификации

См. также статью

Обновлений
Регрессия повышенного дерева принятия решений
Список модулей в алфавитном порядке