Учебник по Python. Прогнозирование проката лыж с помощью линейной регрессии и машинного обучения SQL

Применимо к: SQL Server 2017 (14.x) и более поздние Управляемый экземпляр SQL Azure

В этом цикле учебников, состоящем из четырех частей, вы будете использовать Python и линейную регрессию в Службах машинного обучения SQL Server или Кластерах больших данных SQL Server 2019 для прогнозирования количества прокатов лыж. В этом учебнике используется записная книжка Python в Azure Data Studio.

В этом учебнике, состоящем из четырех частей, вы будете использовать Python и линейную регрессию в Службах машинного обучения SQL Server для прогнозирования количества прокатов лыж. В этом учебнике используется записная книжка Python в Azure Data Studio.

В этом учебнике, состоящем из четырех частей, вы будете использовать Python и линейную регрессию в Службах машинного обучения Управляемого экземпляра SQL Azure для прогнозирования количества прокатов лыж. В этом учебнике используется записная книжка Python в Azure Data Studio.

Представьте, что вы являетесь владельцем компании по прокату лыж и хотите спрогнозировать количество прокатов за некоторый будущий период. Эта информация поможет вам подготовить инвентарь, персонал и пункты проката.

В первой части учебника вы установите необходимые компоненты. Во второй и третьей частях вы создадите сценарии Python в записной книжке для подготовки данных и обучения модели машинного обучения. Затем в третьей части вы запустите эти скрипты Python в базе данных с помощью хранимых процедур T-SQL.

В этой статье вы узнаете, как выполнять следующие задачи.

  • Импорт образца базы данных

Во второй части вы узнаете, как загрузить данные из базы данных в кадр данных Python, а также подготовить данные в Python.

В третьей части вы узнаете, как обучить модель машинного обучения линейной регрессии в Python.

В четвертой части вы узнаете, как сохранить модель в базе данных, а затем создать хранимые процедуры на основе сценариев Python, разработанных во второй и третьей частях. Хранимые процедуры будут запускаться на сервере, чтобы формировать прогнозы на основе новых данных.

Предварительные требования

  • Интегрированная среда разработки Python: в этом учебнике используется записная книжка Python в Azure Data Studio. Дополнительные сведения см. в статье Использование записных книжек в Azure Data Studio.

  • Инструмент SQL-запросов — в этом учебнике предполагается, что вы используете Azure Data Studio.

  • Дополнительные пакеты Python. В примерах этой серии учебников используются пакеты Python, которые не могут быть установлены по умолчанию.

    • pandas
    • pyodbc
    • sklearn

    Чтобы установить эти пакеты, выполните приведенные ниже действия.

    1. В записной книжке Azure Data Studio выберите Управление пакетами.
    2. В области Управление пакетами выберите вкладку Добавить новые.
    3. Для каждого из следующих пакетов введите имя пакета, нажмите Поиск, а затем — Установить.

    В качестве альтернативы можно открыть командную строку, изменить путь установки для версии Python, используемой в Azure Data Studio (например, cd %LocalAppData%\Programs\Python\Python37-32), а затем выполнить pip install для каждого пакета.

Восстановление примера базы данных

Пример базы данных, используемый в этом учебнике, сохранен в файл резервной копии базы данных BAK, чтобы его можно было скачать и использовать.

Примечание

Если вы используете Службы машинного обучения в кластерах больших данных SQL Server 2019, ознакомьтесь со статьей Восстановление базы данных на главном экземпляре кластера больших данных.

  1. Скачайте файл TutorialDB.bak.

  2. Следуйте инструкциям из раздела Восстановление базы данных из файла резервной копии в Azure Data Studio, используя следующие сведения:

    • Выполните импорт из скачанного файла TutorialDB.bak.
    • Присвойте целевой базе данных имя TutorialDB.
  3. Чтобы убедиться, что восстановленная база данных существует, выполните запрос к таблице dbo.rental_data:

    USE TutorialDB;
    SELECT * FROM [dbo].[rental_data];
    
  1. Скачайте файл TutorialDB.bak.

  2. Следуйте инструкциям в разделе Восстановление базы данных в Управляемый экземпляр SQL Azure в SQL Server Management Studio, используя следующие сведения.

    • Выполните импорт из скачанного файла TutorialDB.bak.
    • Присвойте целевой базе данных имя TutorialDB.
  3. Чтобы убедиться, что восстановленная база данных существует, выполните запрос к таблице dbo.rental_data:

    USE TutorialDB;
    SELECT * FROM [dbo].[rental_data];
    

Очистка ресурсов

Если вы не собираетесь продолжать работу с этим учебником, удалите базу данных TutorialDB.

Дальнейшие действия

В первой части этого учебника вы выполнили следующие действия:

  • Установка необходимых компонентов
  • Импорт образца базы данных

Чтобы подготовить данные из базы данных TutorialDB, перейдите ко второй части этого учебника: