Python-Tutorial: Kategorisieren von Kunden mithilfe von K-Means-Clustering mit SQL Machine LearningPython tutorial: Categorizing customers using k-means clustering with SQL machine learning

Anwendungsbereich:Applies to: JaSQL Server 2017 (14.x)SQL Server 2017 (14.x)yesSQL Server 2017 (14.x)SQL Server 2017 (14.x) und höher JaVerwaltete Azure SQL-InstanzAzure SQL Managed InstanceYesVerwaltete Azure SQL-InstanzAzure SQL Managed InstanceAnwendungsbereich:Applies to: JaSQL Server 2017 (14.x)SQL Server 2017 (14.x)yesSQL Server 2017 (14.x)SQL Server 2017 (14.x) and later JaVerwaltete Azure SQL-InstanzAzure SQL Managed InstanceYesVerwaltete Azure SQL-InstanzAzure SQL Managed Instance

In dieser vierteiligen Tutorialreihe verwenden Sie Python zum Entwickeln und Bereitstellen eines K-Means-Clustermodells in SQL Server Machine Learning Services oder in Big Data-Clustern zum Kategorisieren von Kundendaten.In this four-part tutorial series, you'll use Python to develop and deploy a K-Means clustering model in SQL Server Machine Learning Services or on Big Data Clusters to categorize customer data.

In dieser vierteiligen Tutorialreihe verwenden Sie Python zum Entwickeln und Bereitstellen eines K-Means-Clustermodells in SQL Server Machine Learning Services zum Clustern von Kundendaten.In this four-part tutorial series, you'll use Python to develop and deploy a K-Means clustering model in SQL Server Machine Learning Services to cluster customer data.

In dieser vierteiligen Tutorialreihe verwenden Sie Python zum Entwickeln und Bereitstellen eines K-Means-Clustermodells in Machine Learning Services in Azure SQL Managed Instance zum Clustern von Kundendaten.In this four-part tutorial series, you'll use Python to develop and deploy a K-Means clustering model in Azure SQL Managed Instance Machine Learning Services to cluster customer data.

Im ersten Teil dieser Reihe richten Sie die Voraussetzungen für das Tutorial ein und stellen dann ein Beispieldataset für eine Datenbank wieder her.In part one of this series, you'll set up the prerequisites for the tutorial and then restore a sample dataset to a database. Diese Daten verwenden Sie in einem späteren Teil dieser Reihe zum Trainieren und Bereitstellen eines Clustermodells in Python mit SQL Machine Learning.Later in this series, you'll use this data to train and deploy a clustering model in Python with SQL machine learning.

Im zweiten und dritten Teil der Reihe entwickeln Sie Python-Skripte in einem Azure Data Studio-Notebook zum Analysieren und Vorbereiten der Daten und Trainieren eines Machine Learning-Modells.In parts two and three of this series, you'll develop some Python scripts in an Azure Data Studio notebook to analyze and prepare your data and train a machine learning model. Im vierten Teil führen Sie diese Python-Skripte in einer Datenbank mithilfe gespeicherter Prozeduren aus.Then, in part four, you'll run those Python scripts inside a database using stored procedures.

Clustering kann als Organisieren von Daten in Gruppen beschrieben werden, in denen Mitglieder einer Gruppe in irgendeiner Weise ähnlich sind.Clustering can be explained as organizing data into groups where members of a group are similar in some way. Stellen Sie sich für diese Tutorialreihe vor, dass Sie ein Einzelhandelsgeschäft besitzen.For this tutorial series, imagine you own a retail business. Sie verwenden den K-Means-Algorithmus zum Durchführen des Clusterings von Kunden in einem Dataset von Produktkäufen und -rückgaben.You'll use the K-Means algorithm to perform the clustering of customers in a dataset of product purchases and returns. Durch das Clustern von Kunden können Sie Ihre Marketingmaßnahmen effektiver auf bestimmte Gruppen ausrichten.By clustering customers, you can focus your marketing efforts more effectively by targeting specific groups. K-Means-Clustering ist ein nicht überwachter Lernalgorithmus, der auf der Grundlage von Ähnlichkeiten nach Mustern in Daten sucht.K-Means clustering is an unsupervised learning algorithm that looks for patterns in data based on similarities.

In diesem Artikel lernen Sie Folgendes:In this article, you'll learn how to:

  • Wiederherstellen einer BeispieldatenbankRestore a sample database

In Teil 2 lernen Sie, wie Sie die Daten aus einer Datenbank für das Clustering vorbereiten.In part two, you'll learn how to prepare the data from a database to perform clustering.

In Teil 3 erfahren Sie, wie Sie ein K-Means-Clustermodell in Python erstellen und trainieren.In part three, you'll learn how to create and train a K-Means clustering model in Python.

In Teil 4 erfahren Sie, wie Sie eine gespeicherte Prozedur in einer Datenbank erstellen, die Clustering auf der Grundlage neuer Daten in Python durchführen kann.In part four, you'll learn how to create a stored procedure in a database that can perform clustering in Python based on new data.

VoraussetzungenPrerequisites

  • Azure Data StudioAzure Data Studio. Für Python und SQL verwenden Sie ein Notebook in Azure Data Studio.You'll use a notebook in Azure Data Studio for both Python and SQL. Weitere Informationen zu Notebooks finden Sie unter Verwenden von Notebooks in Azure Data Studio.For more information about notebooks, see How to use notebooks in Azure Data Studio.

  • Weitere Python-Pakete: In den Beispielen dieser Tutorialreihe werden möglicherweise Python-Pakete verwendet, die Sie nicht installiert haben.Additional Python packages - The examples in this tutorial series use Python packages that you may or may not have installed.

    Öffnen Sie eine Eingabeaufforderung, und ändern Sie den Installationspfad gemäß der Python-Version, die Sie in Azure Data Studio verwenden.Open a Command Prompt and change to the installation path for the version of Python you use in Azure Data Studio. Beispiel: cd %LocalAppData%\Programs\Python\Python37-32.For example, cd %LocalAppData%\Programs\Python\Python37-32. Führen Sie anschließend die folgenden Befehle aus, um die Pakete zu installieren, die noch nicht installiert sind.Then run the following commands to install any of these packages that are not already installed.

    pip install matplotlib
    pip install pandas
    pip install pyodbc
    pip install scipy
    pip install sklearn
    

Wiederherstellen der BeispieldatenbankRestore the sample database

Das in diesem Tutorial verwendete Beispieldataset wurde in einer BAK-Datenbanksicherungsdatei gespeichert, die Sie herunterladen und verwenden können.The sample dataset used in this tutorial has been saved to a .bak database backup file for you to download and use. Dieses Dataset wird aus dem tpcx-bb-Dataset abgeleitet, das von TPC (Transaction Processing Performance Council) bereitgestellt wird.This dataset is derived from the tpcx-bb dataset provided by the Transaction Processing Performance Council (TPC).

Hinweis

Wenn Sie Machine Learning Services in Big Data-Clustern verwenden, finden Sie Informationen zum Wiederherstellen unter Wiederherstellen einer Datenbank in der Masterinstanz eines Big Data-Clusters für SQL Server.If you are using Machine Learning Services on Big Data Clusters, see how to Restore a database into the SQL Server big data cluster master instance.

  1. Laden Sie die Datei tpcxbb_1gb.bak herunter.Download the file tpcxbb_1gb.bak.

  2. Befolgen Sie die Anweisungen unter Wiederherstellen einer Datenbank aus einer Sicherungsdatei in Azure Data Studio, und verwenden Sie hierzu die folgenden Details:Follow the directions in Restore a database from a backup file in Azure Data Studio, using these details:

    • Importieren Sie aus der heruntergeladenen Datei tpcxbb_1gb.bak.Import from the tpcxbb_1gb.bak file you downloaded
    • Geben Sie der Zieldatenbank den Namen „tpcxbb_1gb“.Name the target database "tpcxbb_1gb"
  3. Nach dem Wiederherstellen der Datenbank können Sie überprüfen, ob das Dataset vorhanden ist, indem Sie die Tabelle dbo.customer abfragen:You can verify that the dataset exists after you have restored the database by querying the dbo.customer table:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Laden Sie die Datei tpcxbb_1gb.bak herunter.Download the file tpcxbb_1gb.bak.

  2. Befolgen Sie die Anweisungen in Wiederherstellen einer Datenbank in einer verwalteten Instanz in SQL Server Management Studio. Verwenden Sie hierzu die folgenden Details:Follow the directions in Restore a database to a Managed Instance in SQL Server Management Studio, using these details:

    • Importieren Sie aus der heruntergeladenen Datei tpcxbb_1gb.bak.Import from the tpcxbb_1gb.bak file you downloaded
    • Geben Sie der Zieldatenbank den Namen „tpcxbb_1gb“.Name the target database "tpcxbb_1gb"
  3. Nach dem Wiederherstellen der Datenbank können Sie überprüfen, ob das Dataset vorhanden ist, indem Sie die Tabelle dbo.customer abfragen:You can verify that the dataset exists after you have restored the database by querying the dbo.customer table:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Bereinigen von RessourcenClean up resources

Wenn Sie nicht mit diesem Tutorial fortfahren möchten, löschen Sie die Datenbank „tpcxbb_1gb“.If you're not going to continue with this tutorial, delete the tpcxbb_1gb database.

Nächste SchritteNext steps

Im ersten Teil dieser Tutorialreihe haben Sie die folgenden Schritte ausgeführt:In part one of this tutorial series, you completed these steps:

  • Wiederherstellen einer BeispieldatenbankRestore a sample database

Fahren Sie mit dem zweiten Teil dieser Tutorialreihe fort, um die Daten für das Machine Learning-Modell vorzubereiten:To prepare the data for the machine learning model, follow part two of this tutorial series: