Tutoriel : Analytique des données Python pour développeurs SQLTutorial: Python data analytics for SQL developers

S’APPLIQUE À : ouiSQL Server nonAzure SQL Database nonAzure Synapse Analytics (SQL DW) nonParallel Data Warehouse APPLIES TO: yesSQL Server noAzure SQL Database noAzure Synapse Analytics (SQL DW) noParallel Data Warehouse

Dans ce tutoriel pour les programmeurs SQL, vous apprendrez à intégrer Python en créant et en déployant une solution de machine learning basée sur Python à l’aide d’une base de données NYCTaxi_sample sur SQL Server.In this tutorial for SQL programmers, learn about Python integration by building and deploying a Python-based machine learning solution using a NYCTaxi_sample database on SQL Server. Vous allez utiliser T-SQL, SQL Server Management Studio et une instance du moteur de base de données avec Machine Learning Services et la prise en charge du langage Python.You'll use T-SQL, SQL Server Management Studio, and a database engine instance with Machine Learning Services and Python language support.

Ce tutoriel vous présente les fonctions Python utilisées dans un workflow de modélisation des données.This tutorial introduces you to Python functions used in a data modeling workflow. Les étapes incluent l’exploration des données, la création et l’apprentissage d’un modèle de classification binaire et le déploiement d’un modèle.Steps include data exploration, building and training a binary classification model, and model deployment. Vous allez utiliser des exemples de données provenant de New York City Taxi and Limosine Commission. Le modèle que vous allez créer prédit si un voyage est susceptible de générer un pourboire en fonction de l’heure de la journée, de la distance parcourue et de l’emplacement de départ.You'll use sample data from the New York City Taxi and Limosine Commission, and the model you will build predicts whether a trip is likely to result in a tip based on the time of day, distance travelled, and pick-up location.

Tous les codes Python utilisés dans ce tutoriel sont encapsulés dans les procédures stockées que vous créez et exécutez dans Management Studio.All of the Python code used in this tutorial is wrapped in stored procedures that you create and run in Management Studio.

Notes

Ce tutoriel est disponible au format R et Python.This tutorial is available in both R and Python. Pour la version R, consultez Analytique dans la base de données pour les développeurs R.For the R version, see In-database analytics for R developers.

Vue d’ensembleOverview

Le processus de création d’une solution de Machine Learning est complexe. Il peut impliquer plusieurs outils et la coordination de plusieurs experts durant les différentes phases :The process of building a machine learning solution is a complex one that can involve multiple tools, and the coordination of subject matter experts across several phases:

  • Extraction et nettoyage des donnéesobtaining and cleaning data
  • Exploration des données et création de caractéristiques utiles pour la modélisationexploring the data and building features useful for modeling
  • Apprentissage et optimisation du modèletraining and tuning the model
  • Déploiement en productiondeployment to production

Le développement et les tests du code réel fournissent de meilleurs résultats dans un environnement de développement dédié.Development and testing of the actual code is best performed using a dedicated development environment. Toutefois, une fois que le script est entièrement testé, vous pouvez facilement le déployer sur SQL ServerSQL Server à l’aide de procédures stockées Transact-SQLTransact-SQL dans l’environnement familier de Management StudioManagement Studio.However, after the script is fully tested, you can easily deploy it to SQL ServerSQL Server using Transact-SQLTransact-SQL stored procedures in the familiar environment of Management StudioManagement Studio. L’encapsulation de code externe dans les procédures stockées est le mécanisme principal permettant de rendre le code opérationnel dans SQL Server.Wrapping external code in stored procedures is the primary mechanism for operationalizing code in SQL Server.

Que vous soyez un programmeur SQL ne connaissant pas Python ou un développeur Python ne connaissant pas SQL, ce tutoriel en plusieurs parties présente un workflow standard pour effectuer des analyses dans des bases de données avec Python et SQL Server.Whether you are a SQL programmer new to Python, or a Python developer new to SQL, this multi-part tutorial introduces a typical workflow for conducting in-database analytics with Python and SQL Server.

Une fois que le modèle a été enregistré dans la base de données, vous pouvez l’appeler pour vos prédictions dans Transact-SQLTransact-SQL à l’aide de procédures stockées.After the model has been saved to the database, you can call the model for predictions from Transact-SQLTransact-SQL by using stored procedures.

Conditions préalables requisesPrerequisites

Toutes les tâches peuvent être effectuées à l’aide de procédures stockées Transact-SQLTransact-SQL dans Management StudioManagement Studio.All tasks can be done using Transact-SQLTransact-SQL stored procedures in Management StudioManagement Studio.

Vous devez être familiarisé avec les opérations de base de données, telles que la création de bases de données et de tables, l’importation de données et la rédaction de requêtes SQL.This tutorial assumes familiarity with basic database operations such as creating databases and tables, importing data, and writing SQL queries. Cela ne suppose pas que vous connaissiez Python.It does not assume you know Python. L’ensemble du code Python est fourni.As such, all Python code is provided.

Étapes suivantesNext steps