Share via


標記文字資料以訓練您的模型

在訓練模型之前,您需要使用您想要分類的類別來標記文件。 資料標記是開發生命週期的重要步驟;在此步驟中,您可以建立您想要將資料分類的類別,並使用這些類別標記文件。 此資料會在下一個訓練模型的步驟中用到,讓您的模型可以從標記的資料中學習。 如果您已經標示過資料,您可以直接將其匯入專案中,但您必須確定您的資料遵循已接受的資料格式

在建立自訂文字分類模型之前,您必須先有已標記的資料。 如果您的資料尚未標記,您可以在 Language Studio 中標記資料。 已標記的資料會告知模型如何解讀文字,並且會用於定型和評估。

先決條件

在可以標記資料之前,您需要:

如需詳細資訊,請參閱專案開發生命週期

資料標記指導方針

準備資料、設計結構描述建立專案之後,您必須標記資料。 標記您的資料很重要,可讓您的模型知道哪些文件會與您需要的類別相關聯。 當您在 Language Studio 中標記資料 (或匯入已標記的資料) 時,這些標籤會儲存在儲存體容器 (已連線至此專案) 的 JSON 檔案中。

當您在標記資料時,請記住:

  • 一般而言,在資料被正確標記的情況下,被標記的資料越多將能導致越好的結果。

  • 沒有固定數目的標籤可保證您的模型會執行最佳效能。 結構描述中可能模棱兩可的模型效能,以及已標記資料的品質。 不過,我們建議每個類別有 50 份標記的文件。

標記您的資料

依照下列步驟標記您的資料:

  1. 移至您在 Language Studio 中的專案頁面。

  2. 在左側功能表中,選取 [資料標記]。 您可以在儲存體容器中找到所有文件的清單。 請參閱下圖。

    提示

    您可以使用頂端功能表中的篩選來檢視未標記的檔案,以便開始標記這些資料。 您也可以使用篩選來檢視標記特定類別的文件。

  3. 從頂端功能表中的左側,變更為單一檔案檢視,或選取要開始標記的特定檔案。 您可以在左側找到您專案中所有的可用 .txt 檔案清單。 您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。

    注意

    如果您為專案啟用了多種語言,您會在頂端功能表中找到 [語言] 下拉式清單,讓您可選取每個文件的語言。

  4. 在右側窗格中,將類別新增至您的專案,以便開始標記資料。

  5. 開始標記您的檔案。

    多重標籤分類:您的檔案能以多個類別來進行標記,方法是在您想要為此文件標記的類別旁邊,選取所有適用的核取方塊。

    螢幕擷取畫面:顯示多重標籤分類標記頁面。

    您也可以使用 自動套用標籤功能 來確保完整的標籤。

  6. 在 [標籤] 樞紐下的右側窗格中,您可以找到專案中的所有類別,以及每個類別的已標記實例計數。

  7. 在右側窗格的底部區段中,您可以將您正在檢視的目前檔案新增至訓練集或測試集。 根據預設,所有文件都會新增至您的定型集。 深入了解定型和測試集,及其如何用於模型定型和評估。

    提示

    如果您打算使用自動資料分割,請使用將所有文件指派到訓練集的預設選項。

  8. 在 [分佈] 樞紐下,您可以檢視定型和測試集之間的分佈。 您有兩個檢視選項:

    • 執行個體總計,您可以在其中檢視特定類別的所有已標示執行個體計數。
    • 至少有一個標籤的文件 (任何文件只要至少包含一個此類別的已標示執行個體,就會計入)。
  9. 在標記時,您的變更將會定期同步,若是尚未儲存完成,將會有警告出現在頁面頂端。 如果您想要手動儲存,請選取頁面底部的 [ 儲存標籤 ] 按鈕。

移除標籤

如果您想要移除標籤,請取消選取該類別旁邊的按鈕。

刪除或類別

若要刪除類別,請選取您要移除之類別旁的刪除圖示。 刪除類別將會從您的資料集中移除其所有已標記的實例。

後續步驟

在標記資料完成後,您就可以開始定型模型,其將會根據您的資料學習。