雙類別羅吉斯回歸元件

本文說明 Azure 機器學習 設計工具中的元件。

使用此元件建立羅吉斯回歸模型,可用來預測兩個(且只有兩個)結果。

羅吉斯回歸是一種已知的統計技術,用於模型化許多種類的問題。 此演算法是 受監督的學習 方法;因此,您必須提供已包含定型模型結果的資料集。

關於羅吉斯回歸

羅吉斯回歸是一種已知的統計資料方法,可用來預測結果的機率,而且特別適用于分類工作。 演算法會藉由將資料調整至羅吉斯函式,來預測事件的發生機率。

在此元件中,分類演算法會針對二分法或二元變數進行優化。 如果您需要分類多個結果,請使用 多類別羅吉斯回歸 元件。

如何設定

若要定型此模型,您必須提供包含標籤或類別資料行的資料集。 因為此元件適用于兩個類別的問題,標籤或類別資料行必須只包含兩個值。

例如,標籤資料行可能是 [Voted],其可能值為 「Yes」 或 「No」。 或者,可能是 [信用風險],其可能值為 「High」 或 「Low」。

  1. Two 類別羅吉斯回歸 元件新增至管線。

  2. 藉由設定 [建立定型定型器模式 ] 選項,指定您要如何定型模型。

    • 單一參數 :如果您知道如何設定模型,您可以提供一組特定的值做為引數。

    • 參數範圍 :如果您不確定最佳參數,您可以使用微調模型超參數 元件來尋找最佳參數 。 您提供一些值範圍,而定型器會逐一查看設定的多個組合,以判斷產生最佳結果的值組合。

  3. 針對 優化容錯 ,指定優化模型時要使用的臨界值。 如果反復專案之間的改進低於指定的臨界值,則演算法會被視為已聚合在解決方案上,而定型會停止。

  4. 針對 L1 正規化權數和 L2 正規化權 ,請輸入要用於正規化參數 L1 和 L2 的值。 建議針對兩者使用非零值。
    正規化 是一種防止過度學習的方法,方法是使用極端係數值來懲罰模型。 正規化的運作方式是將假設錯誤加上係數值相關聯的懲罰。 因此,具有極端係數值的精確模型會受到更多懲罰,但具有較保守值的較不精確模型會受到較少懲罰。

    L1 和 L2 正規化有不同的效果和使用。

    • L1 可以套用至疏鬆模型,這在處理高維度資料時很有用。

    • 相反地,L2 正規化最好用於不疏鬆的資料。

    此演算法支援 L1 和 L2 正規化值的線性組合:也就是說,如果 x = L1y = L2 ,則會 ax + by = c 定義正規化詞彙的線性範圍。

    注意

    想要深入瞭解 L1 和 L2 正規化嗎? 下列文章將討論 L1 和 L2 正規化有何不同,以及它們如何影響模型調整,以及羅吉斯回歸和類神經網路模型的程式碼範例: L1 和 L2 正規化機器學習

    針對羅吉斯回歸模型設計了 L1 和 L2 詞彙的不同線性組合:例如彈性 net 正規化 。 建議您參考這些組合,以定義在您的模型中有效的線性組合。

  5. 針對 L-BFGS 的記憶體大小,指定要用於 L-BFGS 優化的記憶體數量。

    L-BFGS 代表「有限的記憶體布羅伊登-弗萊徹-戈德法布-尚諾」。 這是參數估計的熱門優化演算法。 此參數表示要儲存的過去位置和漸層數目,以便計算下一個步驟。

    此優化參數會限制用來計算下一個步驟和方向的記憶體數量。 當您指定較少的記憶體時,訓練是更快,但較不精確。

  6. 針對 [亂數種子 ],輸入整數值。 如果您想要讓結果在相同管線的多個執行上重現,定義種子值很重要。

  7. 將標示的資料集新增至管線,並定型模型:

    注意

    如果您將參數範圍傳遞至 定型模型 ,它只會使用單一參數清單中的預設值。

    如果您將單一參數值集合傳遞至 微調模型超參數 元件,當它預期每個參數的設定範圍時,它會忽略這些值,並使用學習者的預設值。

    如果您選取 [ 參數範圍 ] 選項,並針對任何參數輸入單一值,即使您的其他參數在值範圍中變更,您指定的單一值也會在整個掃掠中使用。

  8. 提交管線。

結果

完成定型之後:

  • 若要對新資料進行預測,請使用定型的模型和新資料作為評分模型 元件的輸入

下一步

請參閱 Azure 機器學習可用的 元件集。