Tutorial do R: prever as tarifas de táxi de Nova York com a classificação binária

Aplica-se a: simSQL Server 2016 (13.x) e SimInstância Gerenciada do Azure SQL mais recente

Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do R nos Serviços de Machine Learning do SQL Server ou nos Clusters de Big Data.

Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do R nos Serviços de Machine Learning do SQL Server.

Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do R no SQL Server 2016 R Services.

Nesta série de tutoriais em cinco partes para programadores do SQL, você conhecerá a integração do R nos Serviços de Machine Learning na Instância Gerenciada de SQL do Azure.

Você criará e implantará uma solução de aprendizado de máquina baseada em R usando um banco de dados de exemplo no SQL Server. Você usará o T-SQL, o Azure Data Studio ou o SQL Server Management Studio e uma instância do mecanismo de banco de dados com o aprendizado de máquina do SQL e o suporte à linguagem R

Esta série de tutoriais apresenta as funções do R usadas em um fluxo de trabalho de modelagem de dados. As partes incluem exploração de dados, criação e treinamento de um modelo de classificação binária e implantação de modelo. Você usará dados de exemplo da Comissão de Táxi e Limusines de Nova York. O modelo que você criará prevê se uma corrida provavelmente resultará em uma gorjeta com base na hora do dia, na distância percorrida e na localização de embarque.

Na primeira parte desta série, você instalará os pré-requisitos e restaurará o banco de dados de exemplo. Nas partes dois e três, você desenvolverá alguns scripts do R para preparar seus dados e treinar um modelo de machine learning. Em seguida, nas partes quatro e cinco, você executará esses scripts do R dentro no banco de dados usando procedimentos armazenados do T-SQL.

Neste artigo, você vai:

  • Instalar pré-requisitos
  • Restaurar o banco de dados de exemplo

Na parte dois, você explorará os dados de exemplo e gerará alguns gráficos.

Na parte três, você aprenderá a criar recursos a partir de dados brutos usando uma função do Transact-SQL. Você chamará essa função por meio de um procedimento armazenado para criar uma tabela que contém os valores do recurso.

Na parte quatro, você carregará os módulos e chamará as funções necessárias para criar e treinar o modelo usando um procedimento armazenado do SQL Server.

Na parte cinco, você aprenderá a operacionalizar os modelos treinados e salvos na parte quatro.

Observação

Este tutorial está disponível no R e no Python. Para a versão do Python, confira Tutorial do Python: prever as tarifas de táxi de Nova York com a classificação binária.

Pré-requisitos

Todas as tarefas podem ser feitas usando procedimentos armazenados do Transact-SQL no Azure Data Studio ou no Management Studio.

Este tutorial pressupõe que você tem familiaridade com as operações de banco de dados, tais como criar bancos de dados e tabelas, importar dados e escrever consultas SQL. Ela não pressupõe que você conhece o R, e todo o código R é fornecido.

Contexto para desenvolvedores de SQL

O processo de criação de uma solução de aprendizado de máquina é complexo, podendo envolver várias ferramentas e a coordenação de especialistas do assunto em várias fases:

  • obtenção e limpeza de dados
  • exploração de dados e criação de recursos úteis para modelagem
  • treinamento e ajuste do modelo
  • implantação para produção

O desenvolvimento e teste do código do R real serão mais bem executados usando um ambiente de desenvolvimento R dedicado. No entanto, depois que o script estiver totalmente testado, você poderá implantá-lo com facilidade no SQL Server usando os procedimentos armazenados do Transact-SQL no ambiente conhecido do Azure Data Studio ou do Management Studio. O encapsulamento de código externo em procedimentos armazenados é o principal mecanismo para operacionalização de código no SQL Server.

Depois que o modelo for salvo no banco de dados, você pode usar procedimentos armazenados a fim de chamar o modelo para fazer previsões por meio do Transact-SQL.

Seja você um programador do SQL não familiarizado com o R ou um desenvolvedor do R não familiarizado com o SQL, esta série de tutoriais em cinco partes apresenta um fluxo de trabalho típico para realização de análises internas no banco de dados com R e SQL Server.

Próximas etapas

Neste artigo você:

  • Instalou os pré-requisitos
  • Restaurou o banco de dados de exemplo