教學課程:使用 SQL 機器學習在 R 中部署群集模型
適用於:SQL Server 2016 (13.x) 和更新版本Azure SQL 受控執行個體
在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server 機器學習服務中或在巨量資料叢集上開發和部署 K-Means 群集模型,以分類客戶資料。
在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server 機器學習服務中開發和部署 K-Means 群集模型,以群集客戶資料。
在本教學課程系列中 (總共四個部分),您將使用 R,在 SQL Server R Services 中開發和部署 K-Means 群集模型,以群集客戶資料。
在本教學課程系列中 (總共四個部分),您將使用 R 在 Azure SQL 受控執行個體機器學習服務中,開發及部署 K-Means 群集模型,以群集客戶資料。
在本系列的第一部分中,您將設定本教學課程的必要條件,然後將範例資料集還原至資料庫。 在第二部分和第三部分中,您將在 Azure Data Studio 筆記本中開發一些 R 指令碼來分析和準備此範例資料,並定型機器學習模型。 接著在第四部分中,您將使用預存程序在資料庫內執行這些 R 指令碼。
叢集可以解釋成將資料組織成群組,而群組的成員在某些方面是相似的。 在本教學課程系列中,假設您有一家零售公司。 您將使用 K-Means 演算法在產品購買和退貨資料集中,執行客戶叢集。 透過將客戶叢集,您可以鎖定特定群組,以更有效率地專注於行銷工作。 K-Means 叢集是非監督式學習演算法,會根據相似性找出資料中的模式。
在本文中,您將學會如何:
- 還原範例資料庫
在第二部分,您將了解如何準備資料庫中的資料,以執行群集。
在第三部分中,您將了解如何在 R 中建立和定型 K-Means 群集模型。
在第四部分中,您將了解如何在資料庫中建立預存程序,以根據新的資料在 R 中執行群集。
Prerequisites
- SQL Server 機器學習服務與 Python 語言選項 - 請遵循 Windows 安裝指南或 Linux 安裝指南中的安裝指示。 您也可以啟用 SQL Server 巨量資料叢集上的機器學習服務。
- SQL Server 機器學習服務與 R 語言選項 - 請遵循 Windows 安裝指南中的安裝指示。
Azure SQL 受控執行個體機器學習服務。 如需詳細資訊,請參閱 Azure SQL 受控執行個體機器學習服務概觀。
請參閱 SQL Server Management Studio,以了解如何將範例資料庫還原到 Azure SQL 受控執行個體。
Azure Data Studio。 您會在 Azure Data Studio 中使用適用於 SQL 的筆記本。 如需筆記本的詳細資訊,請參閱如何在 Azure Data Studio 中使用筆記本。
R IDE - 本教學課程使用 RStudio Desktop。
RODBC - 此驅動程式用於您將在本教學課程中開發的 R 指令碼。 如果尚未安裝,請使用 R 命令
install.packages("RODBC")
進行安裝。 如需 RODBC 的詳細資訊,請參閱 CRAN - 封裝 RODBC。
還原範例資料庫
本教學課程中使用的範例資料集已儲存到 .bak 資料庫備份檔案中,供您下載和使用。 此資料集衍生自 tpcx-bb 資料集 (由 Transaction Processing Performance Council (TPC) 提供)。
注意
如果您是在巨量資料叢集上使用機器學習服務,請參閱如何將資料庫還原至 SQL Server 巨量資料叢集主要執行個體。
下載 tpcxbb_1gb.bak 檔案。
請遵循在 Azure Data Studio 中從備份檔案還原資料庫中的指示,使用下列詳細資料:
- 從您下載的 tpcxbb_1gb.bak 檔案匯入
- 將目標資料庫命名為 "tpcxbb_1gb"
您可以藉由查詢 dbo.customer 資料表,確認資料集在還原資料庫後是否存在:
USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
下載 tpcxbb_1gb.bak 檔案。
遵循 SQL Server Management Studio 中將資料庫還原至受控執行個體的指引,使用以下詳細資料:
- 從您下載的 tpcxbb_1gb.bak 檔案匯入
- 將目標資料庫命名為 "tpcxbb_1gb"
您可以藉由查詢 dbo.customer 資料表,確認資料集在還原資料庫後是否存在:
USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
清除資源
如果您不打算繼續進行本教學課程,請刪除 tpcxbb_1gb 資料庫。
後續步驟
在本教學課程系列的第一部分中,您已完成下列步驟:
- 安裝了必要條件
- 還原範例資料庫
若要針對機器學習模型準備資料,請遵循本教學課程系列的第二部分進行:
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應