Аутомлы блоков

Важно!

Эта функция предоставляется в режиме общедоступной предварительной версии.

Модуль Аутомлs позволяет автоматически применять машинное обучение к набору данных. Он подготавливает набор данных для обучения модели, а затем выполняет и записывает набор пробных версий, создание, настройку и оценку нескольких моделей. В нем отображаются результаты и предоставляется Записная книжка Python с исходным кодом для каждого пробного запуска, что позволяет просматривать, воспроизводить и изменять код. Аутомл также вычисляет сводную статистику для набора данных и сохраняет эту информацию в записной книжке, которую можно просмотреть позже.

Каждая модель состоит из компонентов с открытым исходным кодом, таких как scikit-Learning и XGBoost, и может быть легко изменена и интегрирована в конвейеры машинного обучения.

Вы можете запустить Аутомл с помощью пользовательского интерфейса или API Python.

Требования

  • Databricks Runtime 8,3 ML или более поздней версии.
  • В кластере не могут быть установлены дополнительные библиотеки, кроме тех, которые предоставляются в среде выполнения машинного обучения Databricks Runtime.

Пользовательский интерфейс Аутомл

В пользовательском интерфейсе Аутомл описывается процесс обучения модели в наборе данных. Для доступа к пользовательскому интерфейсу:

  1. Выберите машинное обучение из переключателя "персонаж " в верхней части левой боковой панели.

  2. На боковой панели щелкните создать > аутомл.

    Вы также можете создать новый эксперимент Аутомл на странице эксперименты.

    Откроется страница Настройка эксперимента Аутомл. На этой странице вы настроите процесс Аутомл, указав набор данных, тип проблемы, целевой объект или столбец меток для прогнозирования, метрику, используемую для оценки и оценки выполнения экспериментов, а также остановки условий.

  3. В поле кластер выберите кластер с DATABRICKS Runtime 8,3 ml или более поздней версии.

  4. В раскрывающемся меню тип проблемы машинного обучения выберите пункт регрессия или классификация. Если вы пытаетесь спрогнозировать непрерывное числовое значение для каждого наблюдения, например годовой доход, выберите регрессия. Если вы пытаетесь назначить каждое наблюдение одному из дискретных классов, таких как хороший кредитный риск или неверный кредитный риск, выберите классификация.

  5. В разделе набор данных нажмите кнопку Обзор таблиц. Появится диалоговое окно с перечнем доступных баз данных и таблиц. Перейдите к таблице, которую необходимо использовать, и нажмите кнопку выбрать. Отобразится схема таблицы.

  6. Щелкните в поле целевой объект прогнозирования . Появится раскрывающийся список столбцов, показанных в схеме. Выберите столбец, который необходимо спрогнозировать в модели.

  7. В поле " имя эксперимента " отображается имя по умолчанию. Чтобы изменить его, введите новое имя в поле.

  8. Дополнительные параметры конфигурации можно указать в разделе Расширенная конфигурация (необязательно).

    • Метрика оценки — это Основная метрика , используемая для оценки выполнения.
    • Можно изменить условия остановки по умолчанию. По умолчанию эксперимент останавливается через 60 минут или после выполнения 200, в зависимости от того, что происходит раньше.
    • В поле Каталог данных можно ввести расположение DBFS , в котором сохраняются записные книжки, созданные во время процесса аутомл. Если оставить поле пустым, записные книжки будут сохранены как артефакты млфлов.
  9. Щелкните Start аутомл (запустить). Начнется запуск эксперимента, и откроется страница обучения Аутомл. Чтобы обновить таблицу запуски, нажмите кнопку  обновить .

    На этой странице можно выполнить следующие действия:

    • Приостанавливает эксперимент в любое время
    • Открытие записной книжки исследования данных
    • Отслеживание выполнений
    • Перейдите на страницу Run (запуск) для любого выполнения

После завершения эксперимента можно выполнить следующие действия:

  • Зарегистрируйте и разверните одну из моделей с помощью млфлов.
  • Щелкните изменить наиболее подходящую модель , чтобы проверить и изменить записную книжку, которая создала наилучшую модель.
  • Откройте записную книжку исследование данных.
  • Поиск, фильтрация и сортировка запусков в таблице запуски.
  • Дополнительные сведения о любом запуске:
    • Чтобы открыть записную книжку с исходным кодом для пробного запуска, щелкните столбец источник .
    • Чтобы просмотреть страницу выполнения со сведениями о запуске пробной версии, щелкните столбец время начала .
    • Чтобы просмотреть сведения о созданной модели, включая фрагменты кода для создания прогнозов, щелкните столбец модели .

Чтобы вернуться к этому Аутомл эксперименту позже, найдите его в таблице на странице эксперименты.

Регистрация и развертывание модели из пользовательского интерфейса Аутомл

  1. Щелкните ссылку в столбце модели, чтобы зарегистрировать модель. По завершении выполнения в верхней строке находится лучшая модель (основанная на основной метрике).

    Отобразится раздел артефакты на странице Запуск для запуска, создавшего модель.

  2. Нажмите кнопку  зарегистрировать модель , чтобы зарегистрировать модель в реестре модели.

  3. Нажмите кнопку  модели значок модели на боковой панели, чтобы вернуться к реестру модели.

  4. Щелкните имя модели в таблице модель. Откроется страница Зарегистрированная модель . На этой странице можно обслуживать модель.

API Python для Аутомл

  1. Создайте записную книжку и подключите ее к кластеру, работающему DATABRICKS Runtime 8,3 ml или более поздней версии.

  2. Загрузить кадр данных Spark или Pandas из существующего источника данных или передать его в DBFS и загрузить данные в записную книжку.

    df = spark.read.parquet("<folder-path>")
    
  3. Чтобы запустить Аутомл запуск, передайте кадр данных в Аутомл. Дополнительные сведения см. в документации по API .

  4. После начала выполнения Аутомл в консоли появится URL-адрес эксперимента Млфлов. Используйте этот URL-адрес для отслеживания хода выполнения. Обновите эксперимент Млфлов, чтобы просмотреть пробные версии по мере их завершения.

  5. После завершения выполнения Аутомл:

    • Используйте ссылки в сводке выходных данных для перехода к эксперименту Млфлов или к записной книжке, которая сформировала лучшие результаты.
    • Используйте ссылку на записную книжку "исследование данных", чтобы получить подробные сведения о данных, передаваемых в Аутомл. Эту записную книжку можно также подключить к тому же кластеру и повторно запустить записную книжку, чтобы воспроизвести результаты или выполнить дополнительный анализ данных.
    • Используйте объект Summary, возвращенный из вызова Аутомл, чтобы просмотреть дополнительные сведения о пробных испытаниях или загрузить модель, обученную данной пробной версией. Дополнительные сведения см. в документации по API .
    • Клонировать любую созданную записную книжку из пробных версий и повторно запустить записную книжку, присоединив ее к тому же кластеру, чтобы воспроизвести результаты. Кроме того, можно внести необходимые изменения и повторно запустить их для обучения дополнительных моделей и заносить их в один и тот же эксперимент.

Спецификация API Python

API Python предоставляет функции для запуска классификации и регрессии Аутомл. Каждый вызов функции обучает набор моделей и создает пробную версию записной книжки для каждой модели.

Классификация

databricks.automl.classify(
  dataset: Union[pyspark.DataFrame, pandas.DataFrame],
  *,
  target_col: str,
  primary_metric: Optional[str],
  data_dir: Optional[str],
  timeout_minutes: Optional[int],
  max_trials: Optional[int]
) -> AutoMLSummary

Регрессия

databricks.automl.regress(
  dataset: Union[pyspark.DataFrame, pandas.DataFrame],
  *,
  target_col: str,
  primary_metric: Optional[str],
  data_dir: Optional[str],
  timeout_minutes: Optional[int],
  max_trials: Optional[int]
) -> AutoMLSummary

Параметры

Имя поля Type Описание
набор данных pyspark. Pandas кадров данных. Кадр данных Входной фрейм данных, содержащий функции обучения и целевой объект.
primary_metric str Метрика, используемая для оценки и ранжирования производительности модели. Поддерживаемые метрики для регрессии: "R2" (по умолчанию), "Mae", "Корень среднеквадратичной погрешности", "MSE" Поддерживаемые метрики для классификации: "F1" (по умолчанию), "log_loss", "точность", "точность", "roc_auc"
target_col str Имя столбца для целевой метки.
data_dir str формата
dbfs:/<folder-name>
Путь DBFS, используемый для хранения промежуточных данных. Этот путь виден как для драйверов, так и для рабочих узлов. Если значение не задано, Аутомл сохраняет промежуточные данные как артефакты Млфлов.
timeout_minutes INT Необязательный параметр для максимального времени ожидания завершения испытаний Аутомл. Если этот параметр опущен, пробы запускаются без ограничений по времени (по умолчанию). Создает исключение, если переданное время ожидания меньше 5 минут или если время ожидания недостаточно для запуска по крайней мере 1 пробной версии. Более длительные тайм-ауты позволяют Аутомл выполнять больше испытаний и предоставлять модель с большей точностью.
max_trials INT Необязательный параметр для максимального количества запусков проб. Значение по умолчанию — 20. Если время ожидания = нет, максимальное число пробных испытаний будет выполнено до завершения.

Возвращаемое значение

AutoMLSummary

Объект Summary для выполнения классификации Аутомл, который описывает метрики, параметры и другие сведения для каждого из пробных версий. Этот объект также используется для загрузки модели, обученной определенной пробной версией.

Свойство Type Описание
немного млфлов. Entities. эксперимент Млфлов эксперимент, используемый для записи пробных версий.
версии List [Триалинфо] Список, содержащий сведения обо всех выполненных испытаниях.
best_trial триалинфо Сведения о пробной версии, которая привела к наилучшему взвешенному показателю для основной метрики.
metric_distribution str Распределение взвешенных оценок для основной метрики по всем пробным версиям.

TrialInfo

Объект сводки для каждого отдельного пробного использования.

Свойство Type Описание
notebook_path str Путь к созданной записной книжке для этой пробной версии в рабочей области.
notebook_url str URL-адрес созданной записной книжки для этой пробной версии.
mlflow_run_id str Идентификатор запуска Млфлов, связанный с этим пробным запуском.
Метрики Словарь [str, float] Метрики, зарегистрированные в Млфлов для этой пробной версии.
params Словарь [str, str] Параметры, зарегистрированные в Млфлов, которые использовались для этой пробной версии.
model_path str URL-адрес артефакта Млфлов модели, обученной в этой пробной версии.
model_description str Краткое описание модели и параметров, используемых для обучения этой модели.
длительность str Длительность обучения в минутах.
препроцессоры str Описание предварительных процессоров, выполняемых перед обучением модели.
evaluation_metric_score FLOAT Оценка основной метрики, вычисленная для проверочного набора данных.
Метод Описание
load_model() Загрузите модель, созданную в этой пробной версии, в качестве артефакта Млфлов.

Примеры с API

Ознакомьтесь с этими записными книжками, чтобы приступить к работе с Аутомл.

Записная книжка с примером классификации Аутомл

Получить записную книжку

Записная книжка с примером регрессии Аутомл

Получить записную книжку

Известные ограничения

  • Поддерживаются только классификация и регрессия
  • Поддерживаются только следующие типы компонентов:
    • Numeric ( ByteType , ShortType , IntegerType , LongType , FloatType и DoubleType )
    • Логическое
    • Строка (только по категориям)
    • Метки времени ( TimestampType , DateType )
  • Следующие типы функций не поддерживаются:
    • Изображения
    • text