Spark 上的 ONNX 推斷

文章
01/23/2024

在此範例中，您會將 LightGBM 模型定型，並將模型轉換成 ONNX 格式。轉換之後，您可以使用模型來推斷 Spark 上的一些測試數據。

此範例使用下列 Python 套件和版本：

onnxmltools==1.7.0
lightgbm==3.2.1

必要條件

將筆記本附加至 Lakehouse。在左側，選取 [新增 ] 以新增現有的 Lakehouse 或建立 Lakehouse。
您可能需要在程式代碼資料格中新增 !pip install onnxmltools==1.7.0 ，然後執行資料格來安裝 onnxmltools 。

載入範例數據

若要載入範例數據，請將下列程式代碼範例新增至筆記本中的儲存格，然後執行資料格：

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

df = (
    spark.read.format("csv")
    .option("header", True)
    .option("inferSchema", True)
    .load(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/company_bankruptcy_prediction_data.csv"
    )
)

display(df)

輸出看起來應該類似下表，不過值和數據列數目可能會有所不同：

利息涵蓋率	淨收益旗標	權益責任
0.5641	1.0	0.0165
0.5702	1.0	0.0208
0.5673	1.0	0.0165

使用 LightGBM 來定型模型

from pyspark.ml.feature import VectorAssembler
from synapse.ml.lightgbm import LightGBMClassifier

feature_cols = df.columns[1:]
featurizer = VectorAssembler(inputCols=feature_cols, outputCol="features")

train_data = featurizer.transform(df)["Bankrupt?", "features"]

model = (
    LightGBMClassifier(featuresCol="features", labelCol="Bankrupt?")
    .setEarlyStoppingRound(300)
    .setLambdaL1(0.5)
    .setNumIterations(1000)
    .setNumThreads(-1)
    .setMaxDeltaStep(0.5)
    .setNumLeaves(31)
    .setMaxDepth(-1)
    .setBaggingFraction(0.7)
    .setFeatureFraction(0.7)
    .setBaggingFreq(2)
    .setObjective("binary")
    .setIsUnbalance(True)
    .setMinSumHessianInLeaf(20)
    .setMinGainToSplit(0.01)
)

model = model.fit(train_data)

將模型轉換為 ONNX 格式

下列程式代碼會將定型的模型導出至 LightGBM 助推器，然後將它轉換成 ONNX 格式：

import lightgbm as lgb
from lightgbm import Booster, LGBMClassifier


def convertModel(lgbm_model: LGBMClassifier or Booster, input_size: int) -> bytes:
    from onnxmltools.convert import convert_lightgbm
    from onnxconverter_common.data_types import FloatTensorType

    initial_types = [("input", FloatTensorType([-1, input_size]))]
    onnx_model = convert_lightgbm(
        lgbm_model, initial_types=initial_types, target_opset=9
    )
    return onnx_model.SerializeToString()


booster_model_str = model.getLightGBMBooster().modelStr().get()
booster = lgb.Booster(model_str=booster_model_str)
model_payload_ml = convertModel(booster, len(feature_cols))

轉換之後，將 ONNX 承載載入至 ONNXModel ，並檢查模型輸入和輸出：

from synapse.ml.onnx import ONNXModel

onnx_ml = ONNXModel().setModelPayload(model_payload_ml)

print("Model inputs:" + str(onnx_ml.getModelInputs()))
print("Model outputs:" + str(onnx_ml.getModelOutputs()))

將模型輸入對應至輸入數據框架的數據行名稱（FeedDict），並將輸出數據框架的數據行名稱對應至模型輸出（FetchDict）。

onnx_ml = (
    onnx_ml.setDeviceType("CPU")
    .setFeedDict({"input": "features"})
    .setFetchDict({"probability": "probabilities", "prediction": "label"})
    .setMiniBatchSize(5000)
)

使用模型進行推斷

若要使用模型執行推斷，下列程式代碼會建立測試數據，並透過 ONNX 模型轉換數據。

from pyspark.ml.feature import VectorAssembler
import pandas as pd
import numpy as np

n = 1000 * 1000
m = 95
test = np.random.rand(n, m)
testPdf = pd.DataFrame(test)
cols = list(map(str, testPdf.columns))
testDf = spark.createDataFrame(testPdf)
testDf = testDf.union(testDf).repartition(200)
testDf = (
    VectorAssembler()
    .setInputCols(cols)
    .setOutputCol("features")
    .transform(testDf)
    .drop(*cols)
    .cache()
)

display(onnx_ml.transform(testDf))

輸出看起來應該類似下表，不過值和數據列數目可能會有所不同：

索引	功能	預測	Probability
1	`"{"type":1,"values":[0.105...`	0	`"{"0":0.835...`
2	`"{"type":1,"values":[0.814...`	0	`"{"0":0.658...`

分享方式：

Spark 上的 ONNX 推斷

必要條件

載入範例數據

使用 LightGBM 來定型模型

將模型轉換為 ONNX 格式

使用模型進行推斷

意見反映

意見反映

更多資源

分享方式：

Spark 上的 ONNX 推斷

必要條件

載入範例數據

使用 LightGBM 來定型模型

將模型轉換為 ONNX 格式

使用模型進行推斷

相關內容

意見反映

意見反映

更多資源