Python-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung

Anwendungsbereich: JaSQL Server 2017 (14.x) und höher JaVerwaltete Azure SQL-Instanz

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die Python-Integration in SQL Server Machine Learning Services oder auf Big Data-Clustern.

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die Python-Integration in SQL Server Machine Learning Services.

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die Python-Integration in Machine Learning Services in Azure SQL Managed Instance .

In diesem Tutorial erstellen Sie eine Python-basierte Machine Learning-Lösung mithilfe einer Beispieldatenbank auf SQL Server und stellen sie bereit. Sie verwenden dazu T-SQL, Azure Data Studio oder SQL Server Management Studio und eine Datenbankinstanz mit maschinellem Lernen mit SQL und Python-Sprachunterstützung.

Diese Tutorialreihe bietet eine Einführung in Python-Funktionen, die in einem Workflow für Datenmodellierung verwendet werden. Dies beinhaltet unter anderem das Durchsuchen von Daten, das Entwickeln und Trainieren eines binären Klassifizierungsmodells sowie die Modellimplementierung. Sie verwenden dazu Beispieldaten der New York City Taxi and Limousine Commission. Mit dem Modell, das Sie erstellen, soll vorhergesagt werden, ob eine Fahrt (ausgehend von der Tageszeit, der zurückgelegten Strecke und der Abholadresse) mit der Gabe von Trinkgeld endet.

Im ersten Teil dieser Reihe installieren Sie die erforderlichen Komponenten und stellen die Beispieldatenbank wieder her. Im zweiten und dritten Teil entwickeln Sie einige Python-Skripts zur Vorbereitung Ihrer Daten und zum Trainieren eines Machine Learning-Modells. In Teil vier und fünf führen Sie diese Python-Skripts dann in der Datenbank mithilfe von gespeicherten T-SQL-Prozeduren aus.

In diesem Artikel führen Sie Folgendes durch:

  • Installieren der erforderlichen Komponenten
  • Wiederherstellen der Beispieldatenbank

In Teil zwei untersuchen Sie die Beispieldaten und generieren einige Plots.

In Teil drei erfahren Sie, wie Sie mithilfe einer Transact-SQL-Funktion aus Rohdaten Features erstellen. Sie rufen anschließend die Funktion aus einer gespeicherten Prozedur auf, um eine Tabelle zu erstellen, die die Funktionswerte enthält.

In Teil vier laden Sie die Module und rufen die erforderlichen Funktionen auf, um das Modell mithilfe einer gespeicherten SQL Server-Prozedur zu erstellen und zu trainieren.

In Teil fünf erfahren Sie, wie Sie die Modelle operationalisieren können, die Sie in Teil vier trainiert und gespeichert haben.

Hinweis

Dieses Tutorial ist sowohl in R als auch in Python verfügbar. Informationen zur R-Version finden Sie unter R-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung.

Voraussetzungen

Alle Aufgaben können mithilfe von gespeicherten Transact-SQL-Prozeduren in Azure Data Studio oder Management Studio ausgeführt werden.

Für diese Tutorialreihe sollten Sie sich mit grundlegenden Datenbankvorgängen auskennen, wie z. B. dem Erstellen von Datenbanken und Tabellen, dem Importieren von Daten und dem Schreiben von SQL-Abfragen. Kenntnisse im Umgang mit Python werden nicht vorausgesetzt, und der gesamte Python-Code wird bereitgestellt.

Hintergrund für SQL-Entwickler

Der Erstellungsprozess einer Machine Learning-Lösung ist komplex und kann den Einsatz mehrerer Tools sowie die phasenübergreifende Koordinierung von Experten bei folgenden Schritten erfordern:

  • Abrufen und Bereinigen von Daten
  • Untersuchen der Daten und Entwickeln von Modellierungsfunktionen
  • Trainieren und Optimieren des Modells
  • Bereitstellen in der Produktion

Die Entwicklung und das Testen des eigentlichen Codes werden am besten in einer dedizierten Entwicklungsumgebung durchgeführt. Nachdem das Skript vollständig getestet wurde, können Sie es jedoch problemlos in SQL Server mithilfe von gespeicherten Transact-SQL-Prozeduren in der vertrauten Umgebung von Azure Data Studio oder Management Studio bereitstellen. Das Umbrechen von externem Code in gespeicherten Prozeduren ist der primäre Mechanismus zum Operationalisieren von Code in SQL Server.

Nach dem Speichern des Modells in der Datenbank für Vorhersagen können Sie es aus Transact-SQL mithilfe von gespeicherten Prozeduren aufrufen.

Egal, ob Sie ein SQL-Programmierer sind, der noch nicht mit Python vertraut ist, oder ein Python-Entwickler, für den SQL neu ist: In dieser fünfteiligen Tutorialreihe wird ein typischer Workflow für die Durchführung von datenbankinternen Analysen mit Python und SQL Server vorgestellt.

Nächste Schritte

In diesem Artikel führen Sie folgende Schritte aus:

  • Installieren der Voraussetzungen
  • Wiederherstellen der Beispieldatenbank