序數迴歸

重要

Machine Learning 工作室 (傳統) 的支援將於 2024 年 8 月 31 日結束。 建議您在該日期之前轉換成 Azure Machine Learning

自 2021 年 12 月 1 日起,您將無法建立新的 Machine Learning 工作室 (傳統) 資源。 在 2024 年 8 月 31 日之前,您可以繼續使用現有的 Machine Learning 工作室 (傳統) 資源。

ML 工作室 (傳統) 文件即將淘汰,未來將不再更新。

建立序數迴歸模型

類別:機器學習/初始化模型/回歸

注意

適用于僅限機器學習 Studio (傳統)

Azure Machine Learning 設計工具中提供類似的拖放模組。

模組概觀

本文描述如何使用機器學習 Studio (傳統) 中的序數回歸模組,建立可用來預測排名值的回歸模型。

排名值的一些範例:

  • 以1到5個規模來捕捉使用者慣用品牌的問卷回應
  • 競爭中的分頁裝訂機順序
  • 排名搜尋結果中的 Url

有關序數回歸的詳細資訊

當標籤或目標資料行包含數位,但數位代表順位或順序,而不是數值測量時,就會使用序數回歸。

預測序數需要不同的演算法,而不是預測連續尺規上的數位值,因為指派給代表順位順序的數位沒有內建小數位數。

例如,若要預測學生的測試分數,您會使用標準回歸模型,因為學生的測試分數會因連續規模而異,而且可以進行測量。 不過,若要預測其類別排名,您必須使用序數回歸模型。

如需此演算法背後研究的詳細資訊,請參閱這份檔 (可下載的 PDF) : https://papers.nips.cc/paper/3125-ordinal-regression-by-extended-binary-classification.pdf

如何設定序數回歸

此課程模組將排名問題解決為一系列的相關分類問題。 因此,此演算法會使用每個排名的二進位模型來建立一系列的擴充訓練範例,並針對該擴充集進行定型。 這種作業的計算成本可能很高。

  1. 序數回歸模型 模組新增至您在 Studio (傳統) 中的實驗。 您可以在 [回歸] 分類中的 [機器學習初始化] 下找到此模組。

  2. 新增支援二元分類的模組,並設定模型。 分類類別中有數個雙類別的模組。

  3. 連線二元分類模型做為序數回歸模型模組的輸入。

  4. 序數回歸模型不需要額外的參數;演算法已預先設定為解決排名問題的最有效參數。

  5. 連線訓練資料集和「定型模型」模組。

  6. 在 [ 訓練模型 ] 模組中,選取包含排名值的資料行。

    排名值必須是數值,但是它們不需要是整數或正數,只要它們代表序列即可。

    基於處理的目的,會假設排名的順序是1到 K,其中1是最低等級,而 K 為最高等級。 但是,即使您的尺規的語義反轉,[ 定型模型 ] 模組仍可以運作。

    例如,如果在原始問卷調查中,1是最高分,5是最低,則不會影響模型的處理。

  7. 執行實驗。

結果

定型完成後:

  • 若要進行預測,請將定型的模型連同新的資料連線到「 評分模型 」模組。

  • 若要對加上標籤的資料集執行交叉驗證,請將未定型的 模型 連接至 交叉驗證模型

範例

如需如何在機器學習中使用序數回歸的範例,請參閱 Azure AI 資源庫

  • 預測性維護-步驟 C:在此範例中,會使用 序數回歸 來排列分類模型輸出的值,並假設該值反映失敗分類的嚴重性。

技術說明

此學習者使用的序數迴歸演算法是由延伸的二元分類加以實作,依名為 Ordinal Regression by Extended Binary Classification 的論文 (Ling Li 和 Hsuan-Tien Lin 於 NIPS 2006 所著) 為依據。

輸入資料的限制

您可以使用任何數值資料行做為序數回歸模型的目標,但在實務上,您應該只使用代表某種順序或排名的資料。

排名之間的間隔假設為未知,而且間隔的大小對模型而言並不重要;不過,此模型會假設排名的順序遵循數位的自然順序。

模型本身不會將任何意義指派給特定的尺規。 換句話說,您可能會建立一個模型,其中1是良好的排名,而10是最差的,而另一個模型則假設10是所需的順位,1是最差。

排名演算法

定型集 (X,Y) 是由輸入向量 X 和標籤 Y 所組成。 標籤代表 順序的範圍 :1,2,.。。 , K。排名會假設為已排序,因此1是最低或最差的順位,而 K 是最佳或最高等級。

演算法的關鍵在於在於修改指定的輸入特徵 X 和標籤 Y,以使用擴充的範例,然後使用二元分類器來解決序數回歸問題。 二元分類器經過定型,可針對問題提供「是/否」的答案,「排名是否大於 r?」

例如,針對定型集中的每個案例,都有 k 1 個擴充的範例,而觀察到的最大排名是 k。擴充功能的形成方式,是將第 i 個 i 個數據列的 k-1 x k 1 個身分識別矩陣附加至所有 i 的輸入特徵。 如果第一個 r-1 個數據列的順位是 r,則會為第一個 r-1 個數據列提供 + 1,如果是其他資料列

範例計算

為了說明其運作方式,請讓 x1 成為其等級為3的定型功能,其中最大觀察等級為5。 對應于這項功能的擴充範例如下所示:

案例 測試 產生的標籤
X11000 順位大於1? 好因此 + 1
X10100 順位大於2嗎? 好因此 + 1
X10010 順位大於3? 存在因此沒有其他功能
X10001 順位大於4? 存在因此沒有其他功能

預期的輸入

名稱 類型 說明
未定型二元分類模型 ILearner 介面 未定型的二元分類模型

輸出

名稱 類型 描述
未定型的模型 ILearner 介面 未定型的序數迴歸模型

另請參閱

迴歸