使用計量評估您的 ML.NET 模型

了解用來評估 ML.NET 模型的計量。

模型所執行機器學習工作的類型有特定的評估計量。

例如,針對分類工作,會藉由測量預測類別與實際類別的相符程度來評估模型。 針對叢集,評估是根據叢集項目彼此的接近程度,以及叢集之間有多少區隔。

二元分類的評估計量

計量 描述 尋找
準確度 準確度是使用測試資料集進行正確預測的比例。 它是正確預測數佔總輸入樣本數的比例。 在每個類別所屬樣本數類似時才適用。 越接近 1.00 越好。 但剛好 1.00 表示有問題 (通常是標籤/目標外洩、過度擬合或使用定型資料進行測試)。 當測試資料失衡 (大部分執行個體屬於其中一個類別)、資料集很小,或是分數接近 0.00 或 1.00 時,則表示準確度未真正獲得分類器的效果,因此您需要檢查其他計量。
AUC aucROC 或「曲線下的區域」測量由掃掠真肯定率與誤判率所建立曲線下的區域。 越接近 1.00 越好。 模型應大於 0.50 才可接受。 AUC 為 0.50 或更小的模型毫無價值。
AUCPR aucPR 或「精確度-回收曲線的曲線下區域」:當類別為不均衡 (高度扭曲的資料集) 時,預測成功的實用量值。 越接近 1.00 越好。 接近 1.00 的高分顯示分類器傳回精確的結果 (高精確度),並傳回大部分為全面肯定的結果 (高重新叫用率)。
F1 分數 F1 分數也稱為「平衡 F 分數或 F 量值」。 它是精確度和重新叫用率的調和平均數。 當您想要在精確度與重新叫用率之間取得平衡時,F1 分數會很有幫助。 越接近 1.00 越好。 F1 分數在 1.00 達到其最佳值,而最差分數為 0.00。 它會告訴您分類器有多精確。

如需二元分類計量的進一步詳細資訊,請閱讀下列文章:

多重類別分類和文字分類的評估計量

計量 描述 尋找
微準確度 微平均準確度彙總所有類別的比重來計算平均計量。 它是正確預測的執行個體分數。 微平均不會將類別成員資格納入考量。 基本上,每個樣本類別配對佔準確度計量的比重會相等。 越接近 1.00 越好。 在多類別分類工作中,如果您懷疑可能有類別不平衡 (亦即,您在某個類別中,可能較其他類別中有更多範例),則微準確度比宏準確度更理想。
宏準確度 宏平均準確度是類別層級的平均準確度。 每個類別的準確度會經過計算,而宏準確度是這些準確度的平均。 基本上,每個類別佔準確度計量的比重會相等。 少數類別會加上與較大類別相同的權重。 宏平均計量為每個類別提供相同的權數,無論資料集包含該類別中多少執行個體。 越接近 1.00 越好。 它會單獨計算每個類別的計量,然後求其平均 (因此對所有類別一視同仁)
對數損失 對數損失測量分類模型的效能,其中預測輸入是介於 0.00 到 1.00 之間的機率值。 對數損失會隨著預測機率與實際標籤的偏離而增加。 越接近 0.00 越好。 完美模型的對數損失值為 0.00。 我們的機器學習模型目標是將此值降到最低。
對數損失降低 對數損失降低可解譯為分類器優於隨機預測。 範圍介於 -inf 到 1.00 之間,其中 1.00 表示完美的預測,而 0.00 表示平均預測。 例如,如果值等於 0.20,則可以解譯為「正確預測的機率比隨機猜測好 20%」

微準確度通常更符合 ML 預測的商務需求。 如果您想要選取單一計量來選擇多元分類工作品質,通常應該是微準確度。

支援票證分類工作範例 (將傳入票證對應至支援小組)

  • 微準確度 — 傳入票證分類到正確小組的頻率為何?
  • 宏準確度 — 對於一個普通小組而言,傳入票證對其小組正確的頻率為何?

在此範例中,宏準確度會加權調整小型團隊,讓每年只會取得 10 個票證的小型團隊等同於每年取得 1 萬個票證的大型團隊。 在此案例中,微準確度與「公司將我的票證路由程序最佳化可省下多少時間/金錢」的商務需求較相關。

如需多元分類計量的進一步詳細資訊,請閱讀下列文章:

迴歸與建議的評估計量

迴歸與建議工作都會預測數字。 在迴歸的情況下,數字可以是受輸入屬性影響的任何輸出屬性。 針對建議,數字通常是評等值 (例如,介於 1 到 5 之間),或是/否建議 (分別以 1 和 0 表示)。

計量 描述 尋找
R 平方 R 平方 (R2) 或「決定係數」以介於 -inf 到 1.00 之間的值來表示模型的預測能力。 1.00 表示有完全擬合;擬合也可能很差,因此分數可以是負數。 分數 0.00 表示模型將猜測到標籤的預測值。 負 R2 值表示調整並不符合資料的趨勢,而模型執行較隨機猜測更差。 這僅適用於非線性迴歸模型或限制線性迴歸。 R2 測量實際測試資料值與預測值有多接近。 越接近 1.00,品質就越好。 不過,有時低 R 平方值 (例如 0.50) 可能完全正常或適合您的情節,而高 R 平方值不一定良好且值得懷疑。
絕對損失 絕對損失或「平均絕對誤差 (MAE)」測量預測與實際結果有多接近。 它是所有模型誤差的平均,其中模型誤差係指所預測標籤值與正確標籤值之間的絕對差。 此預測誤差是針對每個記錄到的測試資料集計算而來。 最後,會針對所有記錄到的絕對誤差,計算其平均值。 越接近 0.00,品質就越好。 平均絕對誤差使用與所測量資料相同的標尺 (不會正規化為特定範圍)。 只有模型屬於相同資料集或標籤值分佈類似的資料集時,才能使用絕對損失、平方損失和 RMS 損失以在這些模型之間進行比較。
平方損失 平方損失平均平方誤差 (MSE) (也稱為「均方誤差 (MSD)」) 會取從點到迴歸線的距離 (這些距離為誤差 E) 並將距離平方,以告訴您迴歸線與一組測試資料值之間的距離。 平方會提供較多權數給較大的偏差。 它一律是非負數,且值越接近 0.00 越好。 視您的資料而定,可能無法取得非常小的均方誤差值。
RMS 損失 RMS 損失或「均方根誤差 (RMSE)」(也稱為「均方根差 (RMSD)」) 可測量模型預測值與建立模型的環境中觀察值之間的偏差。 RMS 損失是平方損失的平方根,且具有與標籤相同的單位,類似於絕對損失,但提供較多權數給較大的偏差。 均方根誤差常用於氣候學、預測和迴歸分析來驗證實驗結果。 它一律是非負數,且值越接近 0.00 越好。 RMSD 是準確度量值,用於比較特定資料集 (而非資料集之間) 不同模型的預測誤差,因為它會視標尺而定。

如需迴歸計量的進一步詳細資訊,請閱讀下列文章:

叢集的評估計量

計量 描述 尋找
平均距離 資料點與其指派叢集中心之間的距離平均值。 平均距離是資料點與叢集中心的鄰近量值。 這是叢集「緊密」程度的量值。 接近 0 的值較佳。 平均距離越接近零,資料叢集程度就越高。 不過請注意,如果增加叢集數目,此計量將會減少,且在極端情況下 (每個相異資料點皆為其本身的叢集),計量將會等於零。
Davies 布林值索引 叢集內距離與叢集之間距離的平均比率。 叢集越緊密,且叢集距離越遠,這個值就會越低。 接近 0 的值較佳。 距離較遠且較不分散的叢集會導致更好的分數。
正規化相互資訊 當用來定型叢集模型的定型資料也隨附基礎事實標籤 (也就是受監督的叢集) 時,就可以使用。 正規化相互資訊計量會測量是否會將類似的資料點指派給相同的叢集,以及將不同的資料點指派給不同的叢集。 正規化相互資訊是介於 0 到 1 之間的值。 接近 1 的值較佳。

排名的評估計量

計量 描述 尋找
折扣累計收益 折扣累積收益 (DCG) 是排名品質的量值。 其衍生自兩個假設。 第一:在排名順序較高時,高度相關的項目會比較有用。 第二:實用性會追蹤相關性,也就是相關性越高,項目就越有用。 依排名順序計算特定位置的折扣累積收益。 其會加總相關性評分,然後除以排名指數的對數,以利息位置計算。 其計算方式是使用 $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$。會向排名定型演算法提供相關性評分以做為基礎事實標籤。 排名資料表中的每個位置都會獲得一個 DCG 值,因此名稱為折扣累計 [收益] 數值愈高愈好。
正規化折扣累計收益 正規化 DCG 可讓計量比較不同長度的排名清單。 接近 1 的值較佳。

異常偵測的評估計量

計量 描述 尋找
ROC 曲線下的區域 接收者運算子曲線下的區域會測量模型分隔異常和一般資料點的方式。 接近 1 的值較佳。 只有大於 0.5 的值會示範模型的有效性。 0.5 或以下的值表示模型並不優於隨機配置輸入到異常和一般類別。
誤判為真計數的偵測速率 誤判為真計數的偵測速率是正確識別到的異常數目與測試集中異常總數的比率,以每個誤判為真為索引。 也就是說,每個誤判為真項目都有一個偵測率的值會使用誤判為真計數。 接近 1 的值較佳。 如果沒有誤判為真,則此值為 1。

句子相似度的評估計量

計量 描述 尋找
皮耳森相關 皮耳森相關也稱為相關係數,可測量兩組資料之間的相依性或關聯性。 接近 1 的絕對值為最類似。 此計量的範圍從 -1 到 1。 絕對值為 1 表示資料集完全相同。 值為 0 表示兩組資料之間沒有關聯性。