Настройка гиперпараметров модели

Выполняет очистку параметров модели для определения оптимальных настроек

Категория: машинное обучение/обучение

Примечание

Применимо к: машинное обучение Studio (классическая модель)

Это содержимое относится только к Studio (классическая модель). Аналогичные модули перетаскивания были добавлены в конструктор Машинное обучение Azure. Дополнительные сведения см. в статье сравнение двух версий.

Обзор модуля

В этой статье описывается, как использовать модуль настройки модели с параметрами в машинное обучение Azure Studio (классическая модель) для определения оптимальных параметров для конкретной модели машинного обучения. Модуль создает и тестирует несколько моделей, используя различные сочетания параметров, и сравнивает метрики по всем моделям, чтобы получить сочетание параметров.

Параметры термов и параметров могут быть запутанными. Параметры модели задаются на панели «Свойства». По сути, этот модуль выполняет настройку параметров по заданным параметрам и изучает оптимальный набор параметров, которые могут различаться для каждого конкретного дерева принятия решений, набора данных или метода регрессии. Процесс поиска оптимальной конфигурации иногда называется настройкой.

Модуль поддерживает два метода для поиска оптимальных параметров модели.

  • Интегрированная тренировка и Настройка. вы настраиваете набор параметров для использования, а затем позволяете модулю выполнять итерации по нескольким сочетаниям, измеряя точность до тех пор, пока не будет найдена лучшая модель. При работе с большинством модулей для обучения можно выбрать параметры, которые следует изменить в ходе обучающего процесса, которые должны оставаться исправленными.

    В зависимости от того, как долго должен выполняться процесс настройки, можно полностью протестировать все сочетания или сократить процесс, установив сетку комбинаций параметров и проверив случайное подмножество сетки параметров.

  • Перекрестная проверка с помощью настройки. с помощью этого параметра вы разделяете данные на некоторое количество сверток, а затем создаете и тестируете модели на каждом из сверток. Этот метод обеспечивает наилучшую точность и может помочь в обнаружении проблем с набором данных. Однако обучение занимает больше времени.

Оба метода создают обученную модель, которую можно сохранить для повторного использования.

  • При построении модели кластеризации используйте кластеризацию очистки для автоматического определения оптимального количества кластеров и других параметров.

  • Перед настройкой примените выбор компонентов, чтобы определить столбцы или переменные с наибольшим значением сведений. Дополнительные сведения см. в статье Feature Selection.

Настройка параметров настройки модели

Как правило, изучение оптимальных параметров для конкретной модели машинного обучения требует значительного эксперимента. Этот модуль поддерживает как процесс начальной настройки, так и перекрестную проверку с целью проверки точности модели:

Обучение модели с помощью очистки параметров

В этом разделе описывается выполнение базовой очистки параметров, которая обучает модель с помощью модуля настройки модели .

  1. Добавьте модуль " Настройка модели " в эксперимент в студии (классическая модель).

  2. Соедините обученную модель (модель в формате iLearner ) с крайним левым входом.

  3. Задайте для параметра режим создания инструктора значение диапазон параметров и используйте Построитель диапазонов , чтобы указать диапазон значений для использования в параметре очистки.

    Почти все модули классификации и регрессии поддерживают встроенную вычистку параметров. Для тех, кто не поддерживает настройку диапазона параметров, можно проверить только доступные значения параметров.

    Можно вручную задать значение для одного или нескольких параметров, а затем вычистить остальные параметры. Это может сэкономить некоторое время.

  4. Добавьте набор данных, который необходимо использовать для обучения, и соедините его с средним входом параметров настройки модели.

    При необходимости, если имеется набор данных с тегами, его можно подключить к крайнему правому порту ввода (необязательный проверочный набор данных). Это позволяет измерять точность во время обучения и настройки.

  5. На панели Свойства окна Настройка параметров моделивыберите значение для параметра режим очистки параметров. Этот параметр определяет способ выбора параметров.

    • Вся сетка: при выборе этого параметра модуль выполняет циклическую выборку по сетке, предопределенную системой, чтобы попробовать различные сочетания и определить лучший. Этот параметр полезен в тех случаях, когда неизвестно, какие параметры лучше всего подходят, и хотите попробовать все возможное сочетание значений.

    Можно также уменьшить размер сетки и выполнить случайный поворот сетки . Исследование показало, что этот метод дает те же результаты, но более эффективен для вычислений.

    • Случайная очистка. при выборе этого параметра модуль будет случайным образом выбирать значения параметров через определенный системой диапазон. Необходимо указать максимальное число запусков, которое должен выполнить модуль. Этот параметр полезен в случаях, когда необходимо увеличить производительность модели с помощью выбранных метрик, но по-прежнему позволяет экономить вычислительные ресурсы.
  6. В поле столбец меток запустите селектор столбцов, чтобы выбрать один столбец меток.

  7. Выберите одну метрику для использования при ранжировании моделей.

    При выполнении очистки параметров вычисляются все применимые метрики для типа модели и возвращаются в отчете результаты очистки . Отдельные метрики используются для моделей регрессии и классификации.

    Однако выбранная метрика определяет, как будут ранжированы модели. Только верхняя модель, упорядоченная по выбранной метрике, выводится в качестве обученной модели для использования в качестве оценки.

  8. Для параметра случайное начальное значение введите число, которое будет использоваться при инициализации очистки параметров.

    При обучении модели, поддерживающей встроенную функцию очистки параметров, можно также задать диапазон начальных значений для использования и перебирать случайные значения. Это может быть полезно для предотвращения смещения, введенного при выборе начального значения.

  9. Запустите эксперимент.

Результаты настройки параметров

По завершении обучения:

  • Чтобы просмотреть набор метрик точности для лучшей модели, щелкните правой кнопкой мыши модуль, выберите результаты очистки, а затем щелкните визуализировать.

    Все метрики точности, применимые к типу модели, являются выходными, но метрика, выбранная для ранжирования, определяет, какая модель считается "лучшей". Метрики создаются только для модели с высшим рангом.

  • Чтобы просмотреть параметры, производные от "лучшей" модели, щелкните модуль правой кнопкой мыши, выберите пункт обученная лучшая модель, а затем нажмите кнопку визуализировать. Отчет содержит настройки параметров и весовые коэффициенты функций для входных столбцов.

  • Чтобы использовать модель для оценки в других экспериментах без повторения процесса настройки, щелкните правой кнопкой мыши выходные данные модели и выберите команду Сохранить как обученную модель.

Выполнение перекрестной проверки с помощью очистки параметров

В этом разделе описывается, как объединить параметр очистки с перекрестной проверкой. Этот процесс занимает больше времени, но можно указать число сверток и получить максимальный объем сведений о наборе данных и возможных моделях.

  1. Добавьте модуль Partition и Sample в эксперимент и подключите обучающие данные.

  2. Выберите параметр назначить для свертывания и укажите некоторое количество сверток для разделения данных. Если не указать число, то используются 10 сверток по умолчанию. Строки выводятся случайным образом в эти свертывания без замены.

  3. Чтобы сбалансировать выборку по определенному столбцу, установите для параметра стратифицированной Split значение true, а затем выберите столбец Strata. Например, если имеется несбалансированный набор данных, то может потребоваться разделить набор данных таким образом, чтобы каждый из сверток имел одинаковое количество миноритарий.

  4. Добавьте модуль настройки модели в эксперимент.

  5. Подключите один из модулей машинного обучения в этой категории к левому вводу параметров настройки модели.

  6. На панели Свойства для программы обучения задайте для параметра режим создания инструктора значение диапазон параметров и используйте Построитель диапазонов , чтобы указать диапазон значений для использования в параметре очистки параметров.

    Не нужно указывать диапазон для всех значений. Можно вручную задать значение для некоторых параметров, а затем вычистить остальные параметры. Это может сэкономить некоторое время.

    Список тех, кто не поддерживает этот параметр, см. в разделе Технические примечания .

  7. Соедините выходные данные секции и Sample с помеченным набором данных для обучения с меткой Настройка параметров модели.

  8. При необходимости можно подключить проверочный набор данных к крайнему правому вводу параметров настройки модели. Для перекрестной проверки необходим только обучающий набор данных.

  9. На панели Свойства раздела Настройка параметров моделиукажите, нужно ли выполнять случайный поворот или поворот сетки. Очистка в виде сетки является исчерпывающей, но занимает больше времени. Поиск с помощью случайных параметров может получить хорошие результаты, не тратя на это много времени.

    Максимальное число запусков при случайном выходе: при выборе случайного значения можно указать, сколько раз необходимо обучить модель, используя случайное сочетание значений параметров.

    Максимальное число запусков в случайной сетке: этот параметр также управляет количеством итераций при случайной выборки значений параметров, но значения не генерируются случайным образом из указанного диапазона. Вместо этого создается матрица для всех возможных сочетаний значений параметров, а для матрицы выбирается случайная выборка. Этот метод более эффективен и менее подвержен использованию региональной избыточной выборки или недовыборки.

    Совет

    Более подробное обсуждение этих вариантов см. в разделе Технические примечания .

  10. Выберите столбец с одной меткой.

  11. Выберите одну метрику для использования в ранжировании модели. Многие метрики вычисляются, поэтому выберите наиболее важный из них для упорядочения результатов.

  12. Для параметра случайное начальное значение введите число, которое будет использоваться при инициализации очистки параметров.

    При обучении модели, поддерживающей встроенную функцию очистки параметров, можно также задать диапазон начальных значений для использования и перебирать случайные значения. Это необязательно, но может быть полезно для предотвращения смещения, введенного при выборе начального значения.

  13. Добавьте модуль перекрестной проверки модели . Соедините выходные данные секции и Sample с входными данными набора данных и Соедините выходные данные настройки параметров модели с входными данными обученной модели .

  14. Запустите эксперимент.

Результаты перекрестной проверки

После завершения перекрестной проверки:

  • Чтобы просмотреть результаты оценки, щелкните модуль правой кнопкой мыши, выберите результаты вычисления по сгибу, а затем выберите визуализировать.

    Метрики точности рассчитываются на основе этапа перекрестной проверки и могут незначительно различаться в зависимости от выбранного количества сверток.

  • Чтобы увидеть, как был разделен набор данных, и как «лучшая» модель будет оценивать каждую строку в наборе данных, щелкните модуль правой кнопкой мыши, выберите пункт «оцененные результаты», а затем « визуализировать».

  • Если сохранить этот набор данных для последующего повторного использования, то назначения «сгиб» будут сохранены. Например, сохраненный датсает может выглядеть следующим образом:

    Присваивания сгиба Класс Age (первый столбец функции)
    2 0 35
    1 1 17
    3 0 62
  • Чтобы получить параметры для лучшей модели, щелкните правой кнопкой мыши Параметры настройки модели

Примеры

Примеры использования этого модуля см. в Коллекция решений ии Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Как работает очистка параметров

В этом разделе описывается, как работает функция очистки параметров и как взаимодействуют параметры в этом модуле.

При настройке очистки параметров вы определяете область поиска, чтобы использовать ограниченное количество параметров, выбранных случайным образом, или полный поиск по определенному пространству параметров.

  • Случайная очистка. Этот параметр позволяет обменять модель с помощью заданного количества итераций.

    Вы указываете диапазон значений для итерации, и модуль использует случайное выбранное подмножество этих значений. Значения выбираются с заменой, что означает, что числа, ранее выбранные случайным образом, не удаляются из пула доступных номеров. Таким словами, вероятность выбора любого значения остается неизменной во всех проходах.

  • Очистка сетки. Этот параметр создает матрицу или сетку, которая включает все сочетания параметров в указанном диапазоне значений. При запуске настройки с помощью этого модуля обучено несколько моделей с использованием сочетаний этих параметров.

  • Вся сетка: параметр для использования всей сетки означает, что каждая и каждая комбинация проверяются. Этот параметр можно считать наиболее подробным, но он требует наибольшего времени.

  • Произвольная сетка: Если выбран этот параметр, то вычисляется матрица всех комбинаций и значения выбираются из матрицы на основе указанного количества итераций.

    В последних исследованиях видно, что случайные результаты могут выполняться лучше, чем вычистки сетки.

Контроль длины и сложности обучения

Перебор множества сочетаний параметров может занимать много времени, поэтому модуль предоставляет несколько способов ограничения процесса:

  • Ограничение числа итераций, используемых для тестирования модели
  • Ограничить пространство параметров
  • Ограничьте как число ключей итераций, так и пространство параметров

Рекомендуется поэкспериментировать с параметрами, чтобы определить наиболее эффективный способ обучения по определенному набору данных и модели.

Выбор показателя оценки

Отчет, содержащий точность для каждой модели, представлен в конце, чтобы можно было просматривать результаты метрик. Единый набор метрик используется для всех моделей классификации, а для моделей регрессии используется другой набор метрик. Однако во время обучения необходимо выбрать одну метрику для использования в ранжировании моделей, созданных в процессе настройки. Может оказаться, что оптимальная метрика зависит от бизнес-задачи, а также от стоимости ложных срабатываний и ложных отрицательных результатов.

Дополнительные сведения см. в разделе Оценка производительности модели в машинное обучение Azure

Метрики, используемые для классификации

  • Точность Отношение истинных результатов к общему количеству вариантов.

  • Точность Отношение истинных результатов к положительным результатам.

  • Отозвать Доля всех правильных результатов по всем результатам.

  • F-Оценка Мера, которая распределяет точность и отзыв.

  • AUC Значение, представляющее область под кривой, когда ложные срабатывания отображаются на оси x, а истинные положительные значения отображаются на оси y.

  • Средняя вероятность потери журнала Разница между двумя распределениями вероятностей: значение true и значение в модели.

  • Обучение потерь журнала Улучшение, обеспечиваемое моделью для случайного прогнозирования.

Метрики, используемые для регрессии

  • Средняя абсолютная ошибка Усредняет все ошибки в модели, где ошибка означает расстояние прогнозируемого значения от истинного значения. Часто сокращается как Mae.

  • Корень среднего квадратного значения ошибки Измеряет среднее значение квадратов ошибок, а затем принимает корень этого значения. Часто сокращается как Корень среднеквадратичной погрешности

  • Относительная абсолютная ошибка Представляет ошибку в виде процента от истинного значения.

  • Относительная квадратная ошибка Нормализует итоговое значение ошибки в квадрате с помощью деления на общую квадратную ошибку прогнозируемых значений.

  • Коэффициент определения Одно число, указывающее, насколько хорошо данные помещаются в модель. Значение 1 означает, что модель точно соответствует данным; значение 0 означает, что данные являются случайными или иным образом не могут подгоняться на модель. Часто называют r 2, r 2 или r-квадратом.

Модули, не поддерживающие очистка параметров

Почти все средства обучения в Машинное обучение Azure поддерживают перекрестную проверку с помощью встроенной очистки параметров, что позволяет выбирать параметры для экспериментов. Если разработчик не поддерживает задание диапазона значений, вы по-прежнему можете использовать его при перекрестной проверке. В этом случае для очистки выбирается некоторый диапазон допустимых значений.

Следующие службы обучения не поддерживают задание диапазона значений для использования в сбросе параметров:

Ожидаемые входные данные

Имя Type Описание
Необученная модель Интерфейс ILearner Необученная модель для очистки параметров
Обучающий набор данных Таблица данных Входной набор данных для обучения
Набор данных для проверки Таблица данных Входной набор данных для проверки (режим проверки обучения и тестирования) Это необязательно.

Параметры модуля

Имя Диапазон Тип По умолчанию Описание
Укажите режим очистки параметров Список Методы очистки Случайная очистка Очистка всей сетки в пространстве параметров или очистка с помощью ограниченного числа запусков образца
Максимальное число запусков при случайной очистке [1;10000] Целое число 5 Выполнить максимальное число запусков с помощью случайной очистки
Случайное начальное значение any Целое число 0 Укажите начальное значение для генератора случайных чисел
Столбец метки any Выбор столбцов Столбец метки
Метрики измерения производительности для классификации Список Тип метрики двоичной классификации Точность Выберите метрику, используемую для оценки моделей классификации
Метрика измерения производительности для регрессии Список Тип Регрессионметрик Средняя абсолютная погрешность Выберите метрику, используемую для оценки моделей регрессии

Выходные данные

Имя Type Описание
Результаты очистки Таблица данных Метрики для выполнения очистки параметров
Обученная оптимальная модель Интерфейс ILearner Модель с наилучшей производительностью в обучающем наборе данных

См. также раздел

Список модулей A – Z
Распознавани
Модель перекрестной проверки