Tutorial do Python: prever as tarifas de táxi de Nova York com a classificação binária

Aplica-se a: SQL Server 2017 (14.x) e versões posteriores Instância Gerenciada de SQL do Azure

Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do Python nos Serviços do Machine Learning do SQL Server ou nos Clusters de Big Data.

Nesta série de tutoriais em cinco partes para programadores do SQL, você aprenderá sobre a integração do Python nos Serviços do Machine Learning do SQL Server.

Nesta série de tutoriais em cinco partes para programadores do SQL, você conhecerá a integração do Python nos Serviços de Machine Learning na Instância Gerenciada de SQL do Azure.

Você criará e implantará uma solução de aprendizado de máquina baseada em Python usando um banco de dados de exemplo no SQL Server. Você usará o T-SQL,o Azure Data Studio ou o SQL Server Management Studio e uma instância do banco de dados com o aprendizado de máquina do SQL e o suporte à linguagem Python.

Esta série de tutoriais apresenta as funções do Python usadas em um fluxo de trabalho de modelagem de dados. As partes incluem exploração de dados, criação e treinamento de um modelo de classificação binária e implantação de modelo. Você usará dados de exemplo da Comissão de Táxi e Limusines de Nova York. O modelo que você criará prevê se uma corrida provavelmente resultará em uma gorjeta com base na hora do dia, na distância percorrida e na localização de embarque.

Na primeira parte desta série, você instalará os pré-requisitos e restaurará o banco de dados de exemplo. Nas partes dois e três, você desenvolverá alguns scripts do Python para preparar seus dados e treinar um modelo de machine learning. Em seguida, nas partes quatro e cinco, você executará esses scripts do Python dentro do banco de dados usando procedimentos armazenados do T-SQL.

Neste artigo, você vai:

  • Instalar pré-requisitos
  • Restaurar o banco de dados de exemplo

Na parte dois, você explorará os dados de exemplo e gerará alguns gráficos.

Na parte três, você aprenderá a criar recursos a partir de dados brutos usando uma função do Transact-SQL. Você chamará essa função por meio de um procedimento armazenado para criar uma tabela que contém os valores do recurso.

Na parte quatro, você carregará os módulos e chamará as funções necessárias para criar e treinar o modelo usando um procedimento armazenado do SQL Server.

Na parte cinco, você aprenderá a operacionalizar os modelos treinados e salvos na parte quatro.

Observação

Este tutorial está disponível no R e no Python. Para a versão do R, confira o Tutorial do R: prever as tarifas de táxi de Nova York com a classificação binária.

Pré-requisitos

Todas as tarefas podem ser feitas usando procedimentos armazenados do Transact-SQL no Azure Data Studio ou no Management Studio.

Esta série de tutoriais pressupõe que você tem familiaridade com as operações de banco de dados, como criar bancos de dados e tabelas, importar dados e escrever consultas SQL. Ela não pressupõe que você conhece o Python, e todo o código Python é fornecido.

Contexto para desenvolvedores de SQL

O processo de criação de uma solução de aprendizado de máquina é complexo, podendo envolver várias ferramentas e a coordenação de especialistas do assunto em várias fases:

  • obtenção e limpeza de dados
  • exploração de dados e criação de recursos úteis para modelagem
  • treinamento e ajuste do modelo
  • implantação para produção

O desenvolvimento e teste do código R real serão mais bem executados usando um ambiente de desenvolvimento dedicado. No entanto, depois que o script estiver totalmente testado, você poderá implantá-lo com facilidade no SQL Server usando os procedimentos armazenados do Transact-SQL no ambiente conhecido do Azure Data Studio ou do Management Studio. O encapsulamento de código externo em procedimentos armazenados é o principal mecanismo para operacionalização de código no SQL Server.

Depois que o modelo for salvo no banco de dados, você poderá usar procedimentos armazenados a fim de chamar o modelo para fazer previsões por meio do Transact-SQL.

Seja você um programador do SQL não familiarizado com o Python ou um desenvolvedor do Python não familiarizado com o SQL, esta série de tutoriais em cinco partes apresenta um fluxo de trabalho típico para realização de análises internas no banco de dados com Python e SQL Server.

Próximas etapas

Neste artigo você:

  • Instalou os pré-requisitos
  • Restaurou o banco de dados de exemplo