測試您的模型

成功定型模型之後,您可以使用翻譯來評估模型的品質。 若要做出使用標準模型還是自訂模型的明智決策,您應該評估自訂模型 BLEU 分數與標準模型「基準 BLEU」之間的差異。 如果您的模型已在較窄的領域中定型,且您的定型資料與測試資料一致,則可望會有較高的 BLEU 分數。

BLEU 分數

BLEU (雙語評估替補) 是一種演算法,可用來評估已從某種語言翻譯為另一種語言的文字精確度或正確性。 自訂翻譯工具使用 BLEU 計量作為傳達翻譯正確性的一種方式。

BLEU 分數是介於零到 100 之間的數字。 分數零指出低品質翻譯,其中翻譯中沒有任何項目符合參考。 分數 100 指出與參考完全相同的完美翻譯。 不需要取得分數 100:BLEU 40 到 60 之間的分數指出高品質翻譯。

閱讀更多資訊

模型詳細資料

  1. 選取 [模型詳細資料] 刀鋒視窗。

  2. 選取模型名稱。 檢閱訓練日期/時間、總訓練時間,以及用於訓練、微調、測試和字典的句子數目。 檢查系統是否已產生測試和微調集。 您將使用 Category ID 進行翻譯要求。

  3. 評估模型 BLEU 分數。 檢閱測試集:[BLEU 分數] 是自訂模型分數,而 [基準 BLEU] 是用於自訂的預先訓練基準模型。 較高的 [BLEU 分數] 表示使用自訂模型可具有較高的翻譯品質。

    Screenshot illustrating the model detail.

測試模型的翻譯品質

  1. 選取 [測試模型] 刀鋒視窗。

  2. 選取模型 [名稱]

  3. 人類針對 [參考] (測試集的目標翻譯),從 [自訂模型] 和 [基準模型] (用於自訂的預先定型基準) 進行翻譯評估。

  4. 如果您滿意定型結果,請為定型的模型提出部署要求。

下一步