Настройка гиперпараметров модели

Статья
05/06/2019

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
См. дополнительные сведения о Машинном обучении Azure.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Выполняет очистку параметров модели для определения оптимальных настроек

категория: Машинное обучение/обучение

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается, как использовать модуль настройки модели с параметрами в Машинное обучение Studio (классическая модель) для определения оптимальных параметров для конкретной модели машинного обучения. Модуль создает и тестирует несколько моделей, используя различные сочетания параметров, и сравнивает метрики по всем моделям, чтобы получить сочетание параметров.

Термины Параметр и Гиперпараметр могут внести путаницу. Параметры модели задаются на панели «Свойства». По сути, этот модуль выполняет настройку параметров по заданным параметрам и изучает оптимальный набор параметров, которые могут различаться для каждого конкретного дерева принятия решений, набора данных или метода регрессии. Процесс поиска оптимальной конфигурации иногда называется настройкой.

Модуль поддерживает два метода для поиска оптимальных параметров модели.

Интегрированная тренировка иНастройка. вы настраиваете набор параметров для использования, а затем позволяете модулю выполнять итерации по нескольким сочетаниям, измеряя точность до тех пор, пока не будет найдена лучшая модель. При работе с большинством модулей для обучения можно выбирать параметры, которые следует изменять в ходе процесса обучения, а какие должны оставаться неизменными.

В зависимости от того, как долго должен выполняться процесс настройки, можно полностью протестировать все сочетания или сократить процесс, установив сетку комбинаций параметров и проверив случайное подмножество сетки параметров.
Перекрестная проверка с помощью настройки. с помощью этого параметра вы разделяете данные на некоторое количество сверток, а затем создаете и тестируете модели на каждом из сверток. Этот метод обеспечивает наилучшую точность и может помочь в обнаружении проблем с набором данных. Однако обучение занимает больше времени.

Оба метода создают обученную модель, которую можно сохранить для повторного использования.

При построении модели кластеризации используйте кластеризацию очистки для автоматического определения оптимального количества кластеров и других параметров.
Перед настройкой примените выбор компонентов, чтобы определить столбцы или переменные с наибольшим значением сведений. Дополнительные сведения см. в статье Feature Selection.

Настройка гиперпараметров настройки модели

Как правило, изучение оптимальных параметров для конкретной модели машинного обучения требует значительного эксперимента. Этот модуль поддерживает как процесс начальной настройки, так и перекрестную проверку с целью проверки точности модели:

Поиск оптимальных параметров модели с помощью очистки параметров
Выполнение перекрестной проверки во время очистки параметров

Обучение модели с помощью очистки параметров

В этом разделе описывается выполнение базовой очистки параметров, которая обучает модель с помощью модуля настройки модели .

Добавьте модуль " Настройка модели " в эксперимент в студии (классическая модель).
Подключение обученную модель (модель в формате iLearner ) к левому входу.
Задайте для параметра режим создания инструктора значение диапазон параметров и используйте Построитель диапазонов , чтобы указать диапазон значений для использования в параметре очистки.

Почти все модули классификации и регрессии поддерживают встроенную вычистку параметров. Для тех, кто не поддерживает настройку диапазона параметров, можно проверить только доступные значения параметров.

Можно вручную задать значение для одного или нескольких параметров, а затем вычистить остальные параметры. Это может сэкономить некоторое время.
Добавьте набор данных, который необходимо использовать для обучения, и соедините его с средним входом параметров настройки модели.

При необходимости, если имеется набор данных с тегами, его можно подключить к крайнему правому порту ввода (необязательный проверочный набор данных). Это позволяет измерять точность во время обучения и настройки.
На панели Свойства окна Настройка параметров моделивыберите значение для параметра режим очистки параметров. Этот параметр определяет способ выбора параметров.
- Вся сетка. При выборе этого параметра модуль выполняет циклическую выборку по сетке, предопределенной системой, чтобы опробовать различные сочетания и определить наилучший обучающий вариант. Этот параметр полезен в тех случаях, когда неизвестно, какие параметры лучше всего подходят, и хотите попробовать все возможное сочетание значений.
Можно также уменьшить размер сетки и выполнить случайный поворот сетки . Исследование показало, что этот метод дает те же результаты, но более эффективен для вычислений.
- Случайный подбор значений. При выборе этого параметра модуль будет случайным образом подбирать значения параметров в диапазоне, заданном системой. Необходимо указать максимальное количество запусков, которое должен выполнить модуль. Этот параметр полезен в случаях, когда необходимо увеличить производительность модели с помощью выбранных метрик, но по-прежнему позволяет экономить вычислительные ресурсы.
В поле столбец метокзапустите селектор столбцов, чтобы выбрать один столбец меток.
Выберите одну метрику для использования при ранжировании моделей.

При выполнении очистки параметров вычисляются все применимые метрики для типа модели и возвращаются в отчете результаты очистки . Отдельные метрики используются для моделей регрессии и классификации.

Однако выбранная метрика определяет, как будут ранжированы модели. Только самая приоритетная модель по результатам ранжирования на основе выбранной метрики, выводится в качестве обученной модели для использования с целью оценки.
Для параметра случайное начальное значениевведите число, которое будет использоваться при инициализации очистки параметров.

При обучении модели, поддерживающей встроенную функцию очистки параметров, можно также задать диапазон начальных значений для использования и перебирать случайные значения. Это может быть полезно для предотвращения смещения, введенного при выборе начального значения.
Запустите эксперимент.

Результаты настройки гиперпараметров

После завершения обучения.

Чтобы просмотреть набор метрик точности для лучшей модели, щелкните правой кнопкой мыши модуль, выберите результаты очистки, а затем щелкните визуализировать.

Все метрики точности, применимые к типу модели, являются выходными, но метрика, выбранная для ранжирования, определяет, какая модель считается "лучшей". Метрики создаются только для модели с высшим рангом.
Чтобы просмотреть параметры, производные от "лучшей" модели, щелкните модуль правой кнопкой мыши, выберите пункт обученная лучшая модель, а затем нажмите кнопку визуализировать. Отчет содержит настройки параметров и весовые коэффициенты функций для входных столбцов.
Чтобы использовать модель для оценки в других экспериментах без повторения процесса настройки, щелкните правой кнопкой мыши выходные данные модели и выберите команду Сохранить как обученную модель.

Выполнение перекрестной проверки с помощью очистки параметров

В этом разделе описывается, как объединить параметр очистки с перекрестной проверкой. Этот процесс занимает больше времени, но можно указать число сверток и получить максимальный объем сведений о наборе данных и возможных моделях.

Добавьте модуль Partition и Sample в эксперимент и подключите обучающие данные.
Выберите параметр назначить для свертывания и укажите некоторое количество сверток для разделения данных. Если не указать число, то используются 10 сверток по умолчанию. Строки выводятся случайным образом в эти свертывания без замены.
Чтобы сбалансировать выборку по определенному столбцу, установите для параметра стратифицированной Split значение true, а затем выберите столбец Strata. Например, если имеется несбалансированный набор данных, то может потребоваться разделить набор данных таким образом, чтобы каждый из сверток имел одинаковое количество миноритарий.
Добавьте модуль настройки модели в эксперимент.
Подключение один из модулей машинного обучения в этой категории к левому вводу параметров настройки модели.
На панели Свойства для программы обучения задайте для параметра режим создания инструктора значение диапазон параметров и используйте Построитель диапазонов , чтобы указать диапазон значений для использования в параметре очистки параметров.

Не нужно указывать диапазон для всех значений. Можно вручную задать значение для некоторых параметров, а затем вычистить остальные параметры. Это может сэкономить некоторое время.

Список тех, кто не поддерживает этот параметр, см. в разделе Технические примечания .
Подключение выходные данные раздела и образца к помеченному набору данных обучающие данные для настройки модели.
При необходимости можно подключить проверочный набор данных к крайнему правому вводу параметров настройки модели. Для перекрестной проверки необходим только обучающий набор данных.
На панели Свойства раздела Настройка параметров моделиукажите, нужно ли выполнять случайный поворот или поворот сетки. Очистка в виде сетки является исчерпывающей, но занимает больше времени. Поиск с помощью случайных параметров может получить хорошие результаты, не тратя на это много времени.

Максимальное число запусков при случайномвыходе: при выборе случайного значения можно указать, сколько раз необходимо обучить модель, используя случайное сочетание значений параметров.

Максимальное число запусков в случайной сетке: этот параметр также управляет количеством итераций при случайной выборки значений параметров, но значения не генерируются случайным образом из указанного диапазона. Вместо этого создается матрица для всех возможных сочетаний значений параметров, а для матрицы выбирается случайная выборка. Этот метод более эффективен и менее подвержен использованию региональной избыточной выборки или недовыборки.

Совет

Более подробное обсуждение этих вариантов см. в разделе Технические примечания .
Выберите столбец с одной меткой.
Выберите одну метрику для использования в ранжировании модели. Многие метрики вычисляются, поэтому выберите наиболее важный из них для упорядочения результатов.
Для параметра случайное начальное значениевведите число, которое будет использоваться при инициализации очистки параметров.

При обучении модели, поддерживающей встроенную функцию очистки параметров, можно также задать диапазон начальных значений для использования и перебирать случайные значения. Это необязательно, но может быть полезно для предотвращения смещения, введенного при выборе начального значения.
Добавьте модуль перекрестной проверки модели . Подключение выходные данные секции и образца в входные данные набора данных и соединить выходные данные настройки параметров модели с входными данными обученной модели .
Запустите эксперимент.

Результаты перекрестной проверки

После завершения перекрестной проверки:

Чтобы просмотреть результаты оценки, щелкните модуль правой кнопкой мыши, выберите результаты вычисления по сгибу, а затем выберите визуализировать.

Метрики точности рассчитываются на основе этапа перекрестной проверки и могут незначительно различаться в зависимости от выбранного количества сверток.
Чтобы увидеть, как был разделен набор данных, и как «лучшая» модель будет оценивать каждую строку в наборе данных, щелкните модуль правой кнопкой мыши, выберите пункт «оцененные результаты», а затем « визуализировать».
Если сохранить этот набор данных для последующего повторного использования, то назначения «сгиб» будут сохранены. Например, сохраненный датсает может выглядеть следующим образом:

Присваивания сгиба Класс Age (первый столбец функции)

2 0 35

1 1 17

3 0 62
Чтобы получить параметры для лучшей модели, щелкните правой кнопкой мыши Параметры настройки модели

Присваивания сгиба	Класс	Age (первый столбец функции)
2	0	35
1	1	17
3	0	62

Примеры

Примеры использования этого модуля см. в Коллекция решений ии Azure:

Прогнозирование производительности учащихся: использует алгоритм высококлассного дерева принятия решений с различными параметрами для создания модели с лучшим средним квадратом ошибки (Корень среднеквадратичной погрешности).
Обучение с количеством: двоичная классификация: создает компактный набор функций с помощью обучения на основе количества, а затем применяет параметр очистки параметров для поиска лучших параметров модели.
Двоичная классификация: Обнаружение вторжения в сеть: использует настройку параметров модели в режиме перекрестной проверки, при этом пользовательское разбиение на пять сверток позволяет найти лучшие параметры для модели логистической регрессии из двух классов .

Технические примечания

В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.

Как выполняется подбор значений параметров

В этом разделе описывается, как работает функция очистки параметров и как взаимодействуют параметры в этом модуле.

При настройке очистки параметров вы определяете область поиска, чтобы использовать ограниченное количество параметров, выбранных случайным образом, или полный поиск по определенному пространству параметров.

Случайная очистка. Этот параметр позволяет обменять модель с помощью заданного количества итераций.

Задается диапазон значений для итерации, а модуль использует случайно выбранное подмножество этих значений. Значения выбираются с заменой, это означает, что числа, ранее выбранные случайным образом, не удаляются из пула доступных номеров. Таким словами, вероятность выбора любого значения остается неизменной во всех проходах.
Очистка сетки. Этот параметр создает матрицу или сетку, которая включает все сочетания параметров в указанном диапазоне значений. При запуске настройки с помощью этого модуля обучено несколько моделей с использованием сочетаний этих параметров.
Вся сетка: параметр для использования всей сетки означает, что каждая и каждая комбинация проверяются. Этот параметр можно считать наиболее подробным, но он требует наибольшего времени.
Произвольная сетка: Если выбран этот параметр, то вычисляется матрица всех комбинаций и значения выбираются из матрицы на основе указанного количества итераций.

В последних исследованиях видно, что случайные результаты могут выполняться лучше, чем вычистки сетки.

Управление длиной и сложностью обучения

Перебор множества сочетаний параметров может занимать много времени, поэтому для модуля предусмотрено несколько способов ограничения процесса:

Ограничение числа итераций, используемых для тестирования модели
Ограничить пространство параметров
Ограничьте как число ключей итераций, так и пространство параметров

Рекомендуется поэкспериментировать с параметрами, чтобы определить наиболее эффективный способ обучения по определенному набору данных и модели.

Выбор метрики оценки

Отчет, содержащий точность для каждой модели, представлен в конце, чтобы можно было просматривать результаты метрик. Единый набор метрик используется для всех моделей классификации, а для моделей регрессии используется другой набор метрик. Тем не менее, во время обучения необходимо выбрать одну метрику для использования при ранжировании моделей, созданных в процессе настройки. Может оказаться, что оптимальная метрика зависит от бизнес-задачи, а также от стоимости ложных срабатываний и ложных отрицательных результатов.

дополнительные сведения см. в разделе оценка производительности модели в Машинное обучение

Метрики, используемые для классификации

Точность Отношение истинных результатов к общему количеству вариантов.
Точность Отношение истинных результатов к положительным результатам.
Отозвать Доля всех правильных результатов по всем результатам.
F-Оценка Мера, которая распределяет точность и отзыв.
AUC Значение, представляющее область под кривой, когда ложные срабатывания отображаются на оси x, а истинные положительные значения отображаются на оси y.
Средняя вероятность потери журнала Разница между двумя распределениями вероятностей: значение true и значение в модели.
Обучение потерь журнала Улучшение, обеспечиваемое моделью для случайного прогнозирования.

Метрики, используемые для регрессии

Средняя абсолютная ошибка Усредняет все ошибки в модели, где ошибка означает расстояние прогнозируемого значения от истинного значения. Часто сокращается как Mae.
Корень среднего квадратного значения ошибки Измеряет среднее значение квадратов ошибок, а затем принимает корень этого значения. Часто сокращается как Корень среднеквадратичной погрешности
Относительная абсолютная ошибка Представляет ошибку в виде процента от истинного значения.
Относительная квадратная ошибка Нормализует итоговое значение ошибки в квадрате с помощью деления на общую квадратную ошибку прогнозируемых значений.
Коэффициент определения Одно число, указывающее, насколько хорошо данные помещаются в модель. Значение 1 означает, что модель точно соответствует данным; значение 0 означает, что данные являются случайными или иным образом не могут подгоняться на модель. Часто называют r², r²или r-квадратом.

Модули, не поддерживающие очистка параметров

почти все средства обучения в Машинное обучение поддерживают перекрестную проверку с помощью встроенной очистки параметров, что позволяет выбирать параметры для экспериментов. Если средство обучения и не поддерживает задание диапазона значений, его все равно можно использовать для перекрестной проверки. В этом случае для очистки выбирается некоторый диапазон допустимых значений.

Следующие службы обучения не поддерживают задание диапазона значений для использования в сбросе параметров:

Ожидаемые входные данные

Имя	Тип	Описание
Необученная модель	Интерфейс ILearner	Необученная модель для очистки параметров
Обучающий набор данных	Таблица данных	Входной набор данных для обучения
Набор данных для проверки	Таблица данных	Входной набор данных для проверки (режим проверки обучения и тестирования) Это необязательно.

Параметры модуля

Имя	Диапазон	Тип	По умолчанию	Описание
Укажите режим очистки параметров	Список	Методы очистки	Случайная очистка	Очистка всей сетки в пространстве параметров или очистка с помощью ограниченного числа запусков образца
Максимальное число запусков при случайной очистке	[1;10000]	Целочисленный тип	5	Выполнить максимальное число запусков с помощью случайной очистки
Случайное начальное значение	any	Целочисленный тип	0	Укажите начальное значение для генератора случайных чисел
Столбец метки	any	Выбор столбцов		Столбец метки
Метрики измерения производительности для классификации	Список	Тип метрики двоичной классификации	Точность	Выберите метрику, используемую для оценки моделей классификации
Метрика измерения производительности для регрессии	Список	Тип Регрессионметрик	Средняя абсолютная погрешность	Выберите метрику, используемую для оценки моделей регрессии

Выходные данные

Имя	Тип	Описание
Результаты очистки	Таблица данных	Метрики для выполнения очистки параметров
Обученная оптимальная модель	Интерфейс ILearner	Модель с наилучшей производительностью в обучающем наборе данных

См. также раздел

Список модулей в алфавитном порядке
Обучение
Модель перекрестной проверки