自訂文字分類中使用的字詞和定義

使用此文章了解使用自訂文字分類時可能遇到的一些定義和詞彙。

類別

類別是使用者定義的類別,可表示文字的整體分類。 開發人員會先標示資料的類別,然後再傳送給模型進行定型。

F1 分數

F1 分數是精確度和重新叫用率的函式。 當您尋求精確度召回率的平衡時,需要此項目。

模型

模型是經過定型以執行特定工作 (在這個案例中為文字分類工作) 的物件。 模型的定型方式是提供用來學習的標記資料,以便稍後用於分類工作。

  • 模型定型是根據您標記的資料,教導模型如何分類文件的流程。
  • 模型評估是在定型之後立即進行的程序,可了解您模型執行的效果。
  • 部署是將模型指派到部署,以便能透過預測 API 使用該模型的流程。

精確度

測量模型的精確/正確程度。 這是正確識別的肯定 (確判為真) 和所有識別的肯定之間的比率。 精確度計量會顯示已正確標記的預測類別數目。

Project

專案是一個工作區域,可根據您的資料建置自訂 ML 模型。 專案只能由您和其他具有所使用 Azure 資源存取權的人員存取。 當您建立新專案時,您必須將資源連接至含有資料集的儲存體帳戶,作為建立自訂文字分類專案的先決條件。 您的專案會自動包含容器中可用的所有 .txt 檔案。

在您的專案中,您可以執行下列動作:

  • 標記您的資料:標記資料的流程,可在定型模型時學習您要擷取的內容。
  • 建置和定型您的模型:專案的核心步驟,您的模型會從您標記的資料開始學習。
  • 檢視模型評估詳細資料:檢閱您的模型效能,以確定是否有改進空間,或者您對結果是否感到滿意。
  • 部署:檢閱模型效能並決定是否適合用於環境之後,您必須將模型指派給部署,才能進行查詢。 將模型指派給部署後,即可透過預測 API 使用模型。
  • 測試模型:在部署模型之後,您可以在 Language Studio 中使用此作業來試用您的部署,並查看在生產環境中執行的成效。

專案類型

自訂文字分類支援兩種類型的專案

  • 單一標籤分類:您只能為資料集中的每一個文件指派一個類別。 例如,電影腳本只能分類為「愛情片」或「喜劇」。
  • 多重標籤分類:您可以為資料集中的每一個文件指派多個類別。 例如,電影腳本可以分類為 「喜劇」,或「愛情片」和「喜劇」。

召回

測量模型預測實際肯定類別的能力。 這是預測的確判為真與實際標記項目之間的比率。 召回率計量會顯示有多少預測類別是正確的。

下一步