Учебник по R. Прогнозирование стоимости поездки в нью-йоркском такси с использованием двоичной классификацииR tutorial: Predict NYC taxi fares with binary classification

Применимо к:Applies to: даSQL Server 2016 (13.x);SQL Server 2016 (13.x)yesSQL Server 2016 (13.x);SQL Server 2016 (13.x) и более поздние версии ДаУправляемый экземпляр SQL AzureAzure SQL Managed InstanceYesУправляемый экземпляр SQL AzureAzure SQL Managed InstanceПрименимо к:Applies to: даSQL Server 2016 (13.x);SQL Server 2016 (13.x)yesSQL Server 2016 (13.x);SQL Server 2016 (13.x) and later ДаУправляемый экземпляр SQL AzureAzure SQL Managed InstanceYesУправляемый экземпляр SQL AzureAzure SQL Managed Instance

В этой серии руководств для программистов SQL вы узнаете об интеграции R в Службах машинного обучения SQL Server или в кластерах больших данных.In this five-part tutorial series for SQL programmers, you'll learn about R integration in SQL Server Machine Learning Services or on Big Data Clusters.

В этой серии (из пяти частей) руководств для программистов SQL вы узнаете об интеграции R в Службах машинного обучения SQL Server.In this five-part tutorial series for SQL programmers, you'll learn about R integration in SQL Server Machine Learning Services.

В этой серии руководств для программистов SQL вы узнаете об интеграции R в Службы R для SQL Server 2016.In this five-part tutorial series for SQL programmers, you'll learn about R integration in SQL Server 2016 R Services.

В этой серии (из пяти частей) руководств для программистов SQL вы узнаете об интеграции R в службы машинного обучения в управляемом экземпляре SQL Azure.In this five-part tutorial series for SQL programmers, you'll learn about R integration in Machine Learning Services in Azure SQL Managed Instance.

Вы создадите и развернете решение для машинного обучения на базе R, используя образец базы данных на SQL Server.You'll build and deploy an R-based machine learning solution using a sample database on SQL Server. Вы будете использовать T-SQL, Azure Data Studio или SQL Server Management Studio, а также экземпляр ядра СУБД с поддержкой машинного обучения SQL и языка R.You'll use T-SQL, Azure Data Studio or SQL Server Management Studio, and a database engine instance with SQL machine learning and R language support

В этой серии руководств описываются функции R, используемые в рабочем процессе моделирования данных.This tutorial series introduces you to R functions used in a data modeling workflow. Серия содержит следующие этапы: исследование данных, сборка и обучение модели двоичной классификации и развертывание модели.Parts include data exploration, building and training a binary classification model, and model deployment. Вы будете использовать образец данных Комиссии по такси и лимузинам Нью‑Йорка.You'll use sample data from the New York City Taxi and Limousine Commission. Модель, которую вы создадите, будет предсказывать вероятность получения чаевых в зависимости от времени суток, пройденного расстояния и места посадки пассажира.The model you'll build predicts whether a trip is likely to result in a tip based on the time of day, distance traveled, and pick-up location.

В первой части этой серии вы установите необходимые компоненты и восстановите образец базы данных.In the first part of this series, you'll install the prerequisites and restore the sample database. Во второй и третьей частях вы создадите сценарии R для подготовки данных и обучения модели машинного обучения.In parts two and three, you'll develop some R scripts to prepare your data and train a machine learning model. Затем в четвертой и пятой частях вы запустите эти скрипты R в базе данных с помощью хранимых процедур T-SQL.Then, in parts four and five, you'll run those R scripts inside the database using T-SQL stored procedures.

Работая с этой статьей, вы узнаете о следующем.In this article, you'll:

  • Установка необходимых компонентовInstall prerequisites
  • Восстановление примера базы данныхRestore the sample database

Во второй части вы ознакомитесь с образцом данных и создадите несколько графиков.In part two, you'll explore the sample data and generate some plots.

В третьей части вы узнаете, как создавать функции из необработанных данных с помощью функции Transact-SQL.In part three, you'll learn how to create features from raw data by using a Transact-SQL function. Затем вы вызовите эту функцию из хранимой процедуры, чтобы создать таблицу, содержащую значения характеристик.You'll then call that function from a stored procedure to create a table that contains the feature values.

В четвертой части вы научитесь загружать модули и вызывать необходимые функции для создания и обучения модели с помощью хранимой процедуры SQL Server.In part four, you'll load the modules and call the necessary functions to create and train the model using a SQL Server stored procedure.

Из пятой части вы узнаете, как ввести в эксплуатацию модели, которые были обучены и сохранены в соответствии с инструкциями в четвертой части.In part five, you'll learn how to operationalize the models that you trained and saved in part four.

Примечание

Это руководство доступно как для языка R, так и для Python.This tutorial is available in both R and Python. Сведения о версии Python см. в разделе Учебник по Python. Прогнозирование стоимости поездки в нью-йоркском такси с использованием двоичной классификации.For the Python version, see Python tutorial: Predict NYC taxi fares with binary classification.

Предварительные условияPrerequisites

Все задачи можно выполнять с помощью хранимых процедур Transact-SQLTransact-SQL в Azure Data Studio или Среда Management StudioManagement Studio.All tasks can be done using Transact-SQLTransact-SQL stored procedures in Azure Data Studio or Среда Management StudioManagement Studio.

В этом руководстве предполагается, что вы уже знакомы с основными операциями с базой данных, такими как создание баз данных и таблиц, импорт данных и написание запросов SQL.This tutorial assumes familiarity with basic database operations such as creating databases and tables, importing data, and writing SQL queries. Знание языка R не требуется. Поэтому весь код на R предоставляется в готовом виде.It does not assume you know R and all R code is provided.

Пояснения для разработчиков на SQLBackground for SQL developers

Процесс создания решения машинного обучения — это сложная задача, для которой может потребоваться использование нескольких средств, а также координация работы экспертов в различных областях, и которая состоит из нескольких этапов:The process of building a machine learning solution is a complex one that can involve multiple tools, and the coordination of subject matter experts across several phases:

  • получение и очистка данных;obtaining and cleaning data
  • изучение данных и выявление характеристик, полезных для моделирования;exploring the data and building features useful for modeling
  • обучение и настройка модели;training and tuning the model
  • развертывание в рабочей среде.deployment to production

Разработку и тестирование написанного кода лучше выполнять в выделенной среде разработки R.Development and testing of the actual code is best performed using a dedicated R development environment. Однако после полного тестирования сценария его можно легко развернуть в SQL ServerSQL Server с помощью хранимых процедур Transact-SQLTransact-SQL в знакомой среде Azure Data Studio или Среда Management StudioManagement Studio.However, after the script is fully tested, you can easily deploy it to SQL ServerSQL Server using Transact-SQLTransact-SQL stored procedures in the familiar environment of Azure Data Studio or Среда Management StudioManagement Studio. Упаковка внешнего кода в хранимые процедуры является основным механизмом для эксплуатации кода в SQL Server.Wrapping external code in stored procedures is the primary mechanism for operationalizing code in SQL Server.

После сохранения модели в базе данных, можно вызвать ее для получения прогноза из Transact-SQLTransact-SQL с помощью хранимых процедур.After the model has been saved to the database, you can call the model for predictions from Transact-SQLTransact-SQL by using stored procedures.

Если вы программист SQL, который малознаком с R, или разработчиком на R, малознакомым с SQL, в этой серии руководств можно увидеть типичный рабочий процесс для реализации аналитики в базе данных с помощью R и SQL Server.Whether you're a SQL programmer new to R, or an R developer new to SQL, this five-part tutorial series introduces a typical workflow for conducting in-database analytics with R and SQL Server.

Дальнейшие шагиNext steps

Работая с этой статьей, вы выполните следующие задачи:In this article, you:

  • Установленные компонентыInstalled prerequisites
  • Восстановлена демонстрационная база данныхRestored the sample database