Esercitazione su Python: Stimare le tariffe dei taxi di New York con la classificazione binaria

Si applica a: SQL Server 2017 (14.x) e versioni successive Istanza gestita di SQL di Azure

In questa serie di esercitazioni in cinque parti per i programmatori SQL, verranno fornite informazioni sull'integrazione di Python in SQL Server Machine Learning Services o nei cluster Big Data.

In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di Python in SQL Server Machine Learning Services.

In questa serie di esercitazioni in cinque parti per i programmatori SQL verranno fornite informazioni sull'integrazione di Python in Machine Learning Services in Istanza gestita di SQL di Azure.

Verrà creata e distribuita una soluzione di Machine Learning basata su Python usando un database di esempio in SQL Server. Verrà usato T-SQL, Azure Data Studio o SQL Server Management Studio e un'istanza del database con il Machine Learning di SQL e il supporto del linguaggio Python.

Questa serie di esercitazioni presenta le funzioni Python usate in un flusso di lavoro di modellazione dei dati. Le parti includono l'esplorazione dei dati, la creazione e il training di un modello di classificazione binaria e la distribuzione del modello. Si useranno dati di esempio di New York City Taxi e Limousine Commission. Il modello che verrà compilato consente di prevedere se è probabile che per una corsa venga lasciata una mancia, in base all'ora del giorno, alla distanza percorsa e al luogo di partenza della corsa.

Nella prima parte di questa serie verranno installati i prerequisiti e verrà ripristinato il database di esempio. Nelle seconda e nella terza parte verranno sviluppati alcuni script Python per preparare i dati ed eseguire il training di un modello di Machine Learning. Nella quarta e quinta parte verranno quindi eseguiti gli script Python all'interno del database usando stored procedure T-SQL.

Contenuto dell'articolo:

  • Installare i prerequisiti
  • Ripristinare il database di esempio

Nella seconda parte verranno esaminati i dati di esempio e verranno generati alcuni tracciati.

Nella terza parte si apprenderà come creare funzionalità dai dati non elaborati tramite una funzione Transact-SQL. Tale funzione verrà quindi chiamata da una stored procedure per creare una tabella contenente i valori della funzionalità.

Nella quarta parte verranno caricati i moduli e verranno chiamate le funzioni necessarie per la creazione e il training del modello usando una stored procedure di SQL Server.

Nella quinta parte si apprenderà come rendere operativi i modelli sottoposti a training e salvati nella quarta parte.

Nota

Questa esercitazione è disponibile sia in R che in Python. Per la versione R, vedere Esercitazione su R: Stimare le tariffe dei taxi di New York con la classificazione binaria.

Prerequisiti

Tutte le attività possono essere eseguite usando stored procedure Transact-SQL in Azure Data Studio o Management Studio.

Questa serie di esercitazioni presuppone una certa familiarità con le operazioni di database di base, ad esempio la creazione di database e tabelle, l'importazione di dati e la scrittura di query SQL. Non si presuppone che l'utente abbia familiarità con il linguaggio Python. Viene fornito tutto il codice Python necessario.

Background per sviluppatori SQL

Il processo di creazione di una soluzione di Machine Learning è complesso e può richiedere l'uso di più strumenti e il coordinamento di esperti in materia in diverse fasi:

  • recupero e pulizia dei dati
  • esplorazione dei dati e creazione di caratteristiche utili per la modellazione
  • training e ottimizzazione del modello
  • distribuzione nell'ambiente di produzione

Per lo sviluppo e i test del codice effettivo è opportuno usare un ambiente di sviluppo dedicato. Dopo che lo script è stato testato, è tuttavia possibile distribuirlo facilmente in SQL Server usando stored procedure Transact-SQL nell'ambiente familiare di Azure Data Studio o Management Studio. Il wrapping del codice esterno nelle stored procedure è il meccanismo principale per rendere operativo il codice in SQL Server.

Dopo aver salvato il modello nel database, è possibile chiamarlo per eseguire stime da Transact-SQL usando le stored procedure.

Questa serie di esercitazioni in cinque parti presenta un flusso di lavoro tipico per l'esecuzione di analisi nel database con Python e SQL Server ed è rivolta a programmatori SQL che non hanno familiarità con Python o sviluppatori Python che non hanno familiarità con SQL.

Passaggi successivi

In questo articolo si apprenderà come:

  • Installare i prerequisiti
  • Ripristinare il database di esempio