標記文字資料以訓練您的模型

發行項
12/19/2023

在訓練模型之前，您需要使用您想要分類的類別來標記文件。資料標記是開發生命週期的重要步驟；在此步驟中，您可以建立您想要將資料分類的類別，並使用這些類別標記文件。此資料會在下一個訓練模型的步驟中用到，讓您的模型可以從標記的資料中學習。如果您已經標示過資料，您可以直接將其匯入專案中，但您必須確定您的資料遵循已接受的資料格式。

在建立自訂文字分類模型之前，您必須先有已標記的資料。如果您的資料尚未標記，您可以在 Language Studio 中標記資料。已標記的資料會告知模型如何解讀文字，並且會用於定型和評估。

先決條件

在可以標記資料之前，您需要：

已成功建立的專案，其中已設定 Azure Blob 儲存體帳戶，
包含已上傳至儲存體帳戶之文字資料的文件。

如需詳細資訊，請參閱專案開發生命週期。

資料標記指導方針

在準備資料、設計結構描述並建立專案之後，您必須標記資料。標記您的資料很重要，可讓您的模型知道哪些文件會與您需要的類別相關聯。當您在 Language Studio 中標記資料 (或匯入已標記的資料) 時，這些標籤會儲存在儲存體容器 (已連線至此專案) 的 JSON 檔案中。

當您在標記資料時，請記住：

一般而言，在資料被正確標記的情況下，被標記的資料越多將能導致越好的結果。
沒有固定數目的標籤可保證您的模型會執行最佳效能。結構描述中可能模棱兩可的模型效能，以及已標記資料的品質。不過，我們建議每個類別有 50 份標記的文件。

標記您的資料

依照下列步驟標記您的資料：

移至您在 Language Studio 中的專案頁面。
在左側功能表中，選取 [資料標記]。您可以在儲存體容器中找到所有文件的清單。請參閱下圖。

提示

您可以使用頂端功能表中的篩選來檢視未標記的檔案，以便開始標記這些資料。您也可以使用篩選來檢視標記特定類別的文件。
從頂端功能表中的左側，變更為單一檔案檢視，或選取要開始標記的特定檔案。您可以在左側找到您專案中所有的可用 .txt 檔案清單。您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。

注意

如果您為專案啟用了多種語言，您會在頂端功能表中找到 [語言] 下拉式清單，讓您可選取每個文件的語言。
在右側窗格中，將類別新增至您的專案，以便開始標記資料。
開始標記您的檔案。
- 多重標籤分類
- 單一標籤分類
多重標籤分類：您的檔案能以多個類別來進行標記，方法是在您想要為此文件標記的類別旁邊，選取所有適用的核取方塊。

單一標籤分類：您的檔案可以只以單一類別來進行標記，方法是在您想要為此文件標記的類別旁選取其中一個按鈕。
您也可以使用自動套用標籤功能來確保完整的標籤。
在 [標籤] 樞紐下的右側窗格中，您可以找到專案中的所有類別，以及每個類別的已標記實例計數。
在右側窗格的底部區段中，您可以將您正在檢視的目前檔案新增至訓練集或測試集。根據預設，所有文件都會新增至您的定型集。深入了解定型和測試集，及其如何用於模型定型和評估。

提示

如果您打算使用自動資料分割，請使用將所有文件指派到訓練集的預設選項。
在 [分佈] 樞紐下，您可以檢視定型和測試集之間的分佈。您有兩個檢視選項：
- 執行個體總計，您可以在其中檢視特定類別的所有已標示執行個體計數。
- 至少有一個標籤的文件 (任何文件只要至少包含一個此類別的已標示執行個體，就會計入)。
在標記時，您的變更將會定期同步，若是尚未儲存完成，將會有警告出現在頁面頂端。如果您想要手動儲存，請選取頁面底部的 [ 儲存標籤 ] 按鈕。

移除標籤

如果您想要移除標籤，請取消選取該類別旁邊的按鈕。

刪除或類別

若要刪除類別，請選取您要移除之類別旁的刪除圖示。刪除類別將會從您的資料集中移除其所有已標記的實例。

後續步驟

在標記資料完成後，您就可以開始定型模型，其將會根據您的資料學習。

Share via