在 Language Studio 中標記您的資料

發行項
12/19/2023

在定型模型之前，您必須使用您要擷取的自訂實體來標記文件。資料標記是開發生命週期中的重要步驟。在此步驟中，您可以建立您要從資料中擷取的實體類型，並在文件內標記這些實體。此資料會在下一個定型模型的步驟中用到，讓您的模型可以從標記的資料中學習。如果您已經標示過資料，您可以直接將其匯入專案中，但您必須確定您的資料遵循已接受的資料格式。若要深入了解如何將已標記的資料匯入專案中，請參閱建立專案。

在建立自訂 NER 模型之前，您必須有已標記的資料。如果您的資料尚未標記，您可以在 Language Studio 中標記資料。已標記的資料會告知模型如何解讀文字，並且會用於定型和評估。

先決條件

您需要下列項目才能標記資料：

使用已設定 Azure Blob 儲存體帳戶成功建立的專案
已上傳至儲存體帳戶的文字資料。

如需詳細資訊，請參閱專案開發生命週期。

資料標記指導方針

在準備資料、設計結構描述並建立專案之後，您必須標記資料。標記資料是很重要的，如此您的模型才知道哪些字詞會與您需要擷取的實體類型相關聯。當您在 Language Studio 中標示資料 (或匯入已標示資料) 時，這些標籤會儲存在儲存體容器 (已連線至此專案) 的 JSON 文件中。

當您在標記資料時，請記住：

一般而言，在資料被正確標記的情況下，被標記的資料越多將能導致越好的結果。
標記資料的精確度、一致性和完整性是判斷模型效能的關鍵因素。
- 精確標記：一律將每個實體標記為其正確的類型。只包含您想要擷取的內容，避免標籤中出現非必要的資料。
- 一致標示：相同的實體在所有文件中都應該有相同的標籤。
- 完整標示：標示所有文件中實體的所有執行個體。您可以使用自動標籤功能來確保完整的標籤。
注意

沒有固定數目的標籤可保證您的模型會執行最佳效能。模型效能取決於結構描述中可能存在的模糊性，以及已標記資料的品質。不過，我們建議每個實體類型約有 50 個已標記的執行個體。

標記您的資料

依照下列步驟標記您的資料：

移至您在 Language Studio 中的專案頁面。
在左側功能表中，選取 [資料標記]。您可以在儲存體容器中找到所有文件的清單。

提示

您可以使用頂端功能表中的篩選來檢視未標示的文件，以開始標示這些資料。您也可以使用篩選來檢視以特定實體類型標記的文件。
從頂端功能表中的左側，變更為單一文件檢視，或選取要開始標示的特定文件。您可以在左側找到您專案中所有可用的 .txt 文件清單。您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。

注意

如果您為專案啟用了多種語言，您會在頂端功能表中找到 [語言] 下拉式清單，讓您可選取每個文件的語言。
在右側窗格中，將實體類型新增至您的專案，以便開始標記資料。

有兩個選項可用來標記文件：

選項	描述
使用筆刷標記	選取右窗格中的實體類型旁的筆刷圖示，然後醒目提示文件中要以此實體類型標註的文字。
使用功能表標記	醒目提示您要標記為實體的字詞，隨即出現一個功能表。選取您要為此實體指派的實體類型。

下列螢幕擷取畫面顯示使用筆刷的標記。

在 [標籤] 樞紐下的右側窗格中，您可以找到專案中的所有實體類型，以及每個類別的已標記執行個體計數。
在右側窗格的底部區段中，您可以將您正在檢視的目前文件新增至定型集或測試集。根據預設，所有文件都會新增至您的定型集。深入了解定型和測試集，及其如何用於模型定型和評估。

提示

如果您打算使用自動資料分割，請使用將所有文件指派到定型集的預設選項。
在 [分佈] 樞紐下，您可以檢視定型和測試集之間的分佈。您有兩個檢視選項：
- 執行個體總計，您可以在其中檢視特定實體類型的所有已標示執行個體計數。
- 至少有一個標籤的文件 (任何文件只要至少包含一個此實體的已標示執行個體，就會計入)。
在標記時，您的變更將會定期同步，若是尚未儲存完成，將會有警告出現在頁面頂端。如果您想要手動儲存，請選取頁面底部的 [ 儲存標籤 ] 按鈕。

移除標籤

選取您要從中移除標籤的實體。
捲動出現的功能表，然後選取 [移除標籤]。

刪除實體

若要刪除實體，請選取要移除之實體旁的刪除圖示。刪除實體時，將會從您的資料集中移除其所有已標記的執行個體。

後續步驟

在標記資料完成後，您就可以開始定型模型，其將會根據您的資料學習。

Share via