Руководство по Использование мастера оценки моделей машинного обучения для выделенных пулов SQL

Узнайте, как легко дополнить данные в выделенных пулах SQL с помощью прогнозных моделей машинного обучения. Модели, создаваемые вашими данными, теперь легко доступны специалистам по анализу данных для прогнозной аналитики. Специалист по данным в Azure Synapse Analytics может просто выбрать модель в реестре моделей Машинного обучения Azure для развертывания в пулах Azure Synapse SQL и запустить прогнозирование, чтобы обогатить данные.

В этом руководстве вы узнаете, как:

  • Обучить прогнозирующую модель машинного обучения и внести модель в реестр моделей Машинного обучения Azure.
  • Использовать мастер оценки SQL для запуска прогнозов в выделенном пуле SQL.

Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.

Предварительные требования

Вход на портал Azure

Войдите на портал Azure.

Обучение модели в Машинном обучении Azure

Прежде чем начать, убедитесь, что используется версия sklearn 0.20.3.

Перед выполнением всех ячеек в записной книжке проверьте, выполняется ли вычислительный экземпляр.

Снимок экрана: проверка вычислений Машинного обучения Azure.

  1. Перейдите в рабочую область Машинного обучения Azure.

  2. Загрузите Predict NYC Taxi Tips.ipynb.

  3. Откройте рабочую область Машинного обучения Azure в Студии Машинного обучения Azure.

  4. Выберите Записные книжки>Отправить файлы. Затем выберите скачанный файл Predict NYC Taxi Tips.ipynb и отправьте его. Снимок экрана: кнопка для отправки файла.

  5. После отправки и открытия записной книжки выберите Выполнить все ячейки.

    Выполнение одной из ячеек может завершиться ошибкой, после чего вы получите запрос на аутентификацию в Azure. Проследите за этим в выходных данных ячейки и выполните аутентификацию в браузере, перейдя по ссылке и введя код. Затем повторно запустите записную книжку.

  6. Записная книжка обучит модель ONNX и зарегистрирует ее в MLflow. Перейдите в раздел Модели, чтобы проверить, правильно ли зарегистрирована новая модель. Снимок экрана: модель в реестре.

  7. При запуске записной книжки тестовые данные также экспортируются в CSV-файл. Загрузите CSV-файл в локальную систему. Позже вы импортируете CSV-файл в выделенный пул SQL и будете использовать эти данные для тестирования модели.

    CSV-файл создается в той же папке, что и файл записной книжки. Нажмите кнопку Обновить в проводнике, если файл не отображается сразу.

    Снимок экрана: CSV-файл.

Запуск прогнозирований с помощью мастера оценки SQL

  1. Откройте рабочую область Azure Synapse в Synapse Studio.

  2. Выберите Данные>Связанные>Учетные записи хранения. Передайте test_data.csv в учетную запись хранения по умолчанию.

    Снимок экрана: варианты для отправки данных.

  3. Перейдите в раздел Разработка>Скрипты SQL. Создайте новый скрипт SQL для загрузки test_data.csv в выделенный пул SQL.

    Примечание

    Обновите URL-адрес файла в этом скрипте перед его запуском.

    IF NOT EXISTS (SELECT * FROM sys.objects WHERE NAME = 'nyc_taxi' AND TYPE = 'U')
    CREATE TABLE dbo.nyc_taxi
    (
        tipped int,
        fareAmount float,
        paymentType int,
        passengerCount int,
        tripDistance float,
        tripTimeSecs bigint,
        pickupTimeBin nvarchar(30)
    )
    WITH
    (
        DISTRIBUTION = ROUND_ROBIN,
        CLUSTERED COLUMNSTORE INDEX
    )
    GO
    
    COPY INTO dbo.nyc_taxi
    (tipped 1, fareAmount 2, paymentType 3, passengerCount 4, tripDistance 5, tripTimeSecs 6, pickupTimeBin 7)
    FROM '<URL to linked storage account>/test_data.csv'
    WITH
    (
        FILE_TYPE = 'CSV',
        ROWTERMINATOR='0x0A',
        FIELDQUOTE = '"',
        FIELDTERMINATOR = ',',
        FIRSTROW = 2
    )
    GO
    
    SELECT TOP 100 * FROM nyc_taxi
    GO
    

    Загрузка данных в выделенный пул SQL

  4. Перейдите в раздел Данные>Рабочая область. Откройте мастер оценки SQL, щелкнув правой кнопкой мыши таблицу выделенного пула SQL. Выберите Машинное обучение>Спрогнозировать с помощью модели.

    Примечание

    Параметр машинного обучения не отображается, если для Машинного обучения Azure не создана связанная служба (см. раздел Предварительные требования в начале этого руководства).

    Снимок экрана: параметр Машинного обучения.

  5. Выберите связанную рабочую область Машинного обучения Azure в раскрывающемся списке. При этом будет загружен список моделей машинного обучения из реестра моделей выбранной рабочей области Машинного обучения Azure. В настоящее время поддерживаются только модели ONNX, поэтому на этом шаге будут отображаться только модели ONNX.

  6. Выберите только что обученную модель и щелкните Продолжить.

    Снимок экрана: выбор модели Машинного обучения Azure.

  7. Сопоставьте столбцы таблицы с входными данными модели и укажите выходные данные модели. Если модель сохранена в формате MLflow и подпись модели заполнена, сопоставление будет выполнено автоматически с использованием логики на основе сходства имен. Интерфейс также поддерживает сопоставление вручную.

    Выберите Continue (Продолжить).

    Снимок экрана: сопоставление таблицы и модели.

  8. Созданный код T-SQL упаковывается внутри хранимой процедуры. Именно поэтому необходимо указать имя хранимой процедуры. Двоичные данные модели, включая метаданные (версия, описание и другая информация), будут физически скопированы из Машинного обучения Azure в таблицу выделенного пула SQL. Следовательно, необходимо указать, в какой таблице будет сохраняться модель.

    Вы можете выбрать существующую таблицу или создать новую. По завершении выберите Развернуть модель и открыть скрипт, чтобы развернуть модель и создать T-SQL-скрипт прогнозирования.

    Снимок экрана: варианты создания хранимой процедуры.

  9. После создания скрипта нажмите кнопку Запустить, чтобы выполнить оценку и получить прогнозы.

    Снимок экрана: выполнение оценки и получение прогнозов.

Дальнейшие действия