建置您的第一個 SynapseML 模型
本文介紹如何使用 SynapseML 建置您的第一個機器學習模型,並示範 SynapseML 如何簡化複雜的機器學習工作。 我們使用 SynapseML 來建立小型 ML 定型管線,其中包含特徵化階段和 LightGBM 回歸階段。 管線會根據 Amazon 書籍評論數據集的評論文字來預測評等。 最後,我們會展示 SynapseML 如何簡化使用預先建置的模型來解決 ML 問題的方式。
必要條件
取得 Microsoft Fabric 訂用 帳戶。 或者,註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器,切換至 Synapse 資料科學 體驗。
- 移至 Microsoft Fabric 中的 資料科學 體驗。
- 建立 新的筆記本。
- 將筆記本附加至 Lakehouse。 在筆記本左側,選取 [新增 ] 以新增現有的 Lakehouse 或建立新的湖屋。
- 遵循 快速入門:建立適用於 Azure AI 服務的多服務資源快速入門,以取得 Azure AI 服務 密鑰。 您將需要此金鑰,才能使用 Azure AI 服務在本文的一個步驟 一節中轉換數據。
設定環境
匯入 SynapseML 連結庫,並初始化 Spark 工作階段。
from pyspark.sql import SparkSession
from synapse.ml.core.platform import *
spark = SparkSession.builder.getOrCreate()
載入數據集
載入數據集,並將其分割成定型和測試集。
train, test = (
spark.read.parquet(
"wasbs://publicwasb@mmlspark.blob.core.windows.net/BookReviewsFromAmazon10K.parquet"
)
.limit(1000)
.cache()
.randomSplit([0.8, 0.2])
)
display(train)
建立定型管線
建立管線,以使用 TextFeaturizer
連結 synapse.ml.featurize.text
庫的數據為特徵,並使用 函式衍生評等 LightGBMRegressor
。
from pyspark.ml import Pipeline
from synapse.ml.featurize.text import TextFeaturizer
from synapse.ml.lightgbm import LightGBMRegressor
model = Pipeline(
stages=[
TextFeaturizer(inputCol="text", outputCol="features"),
LightGBMRegressor(featuresCol="features", labelCol="rating"),
]
).fit(train)
預測測試數據的輸出
呼叫模型上的 函 transform
式,以預測測試數據的輸出,並將測試數據的輸出顯示為數據框架。
display(model.transform(test))
使用 Azure AI 服務在一個步驟中轉換數據
或者,針對具有預先建置解決方案的這類工作,您可以使用 SynapseML 與 Azure AI 服務的整合,在一個步驟中轉換您的數據。
from synapse.ml.cognitive import TextSentiment
from synapse.ml.core.platform import find_secret
model = TextSentiment(
textCol="text",
outputCol="sentiment",
subscriptionKey=find_secret("cognitive-api-key"), # Replace it with your cognitive service key, check prerequisites for more details
).setLocation("eastus")
display(model.transform(test))
相關內容
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應