Share via


在 Language Studio 中標記您的資料

在定型模型之前,您必須使用您要擷取的自訂實體來標記文件。 資料標記是開發生命週期中的重要步驟。 在此步驟中,您可以建立您要從資料中擷取的實體類型,並在文件內標記這些實體。 此資料會在下一個定型模型的步驟中用到,讓您的模型可以從標記的資料中學習。 如果您已經標示過資料,您可以直接將其匯入專案中,但您必須確定您的資料遵循已接受的資料格式。 若要深入了解如何將已標記的資料匯入專案中,請參閱建立專案

在建立自訂 NER 模型之前,您必須有已標記的資料。 如果您的資料尚未標記,您可以在 Language Studio 中標記資料。 已標記的資料會告知模型如何解讀文字,並且會用於定型和評估。

先決條件

您需要下列項目才能標記資料:

如需詳細資訊,請參閱專案開發生命週期

資料標記指導方針

準備資料、設計結構描述建立專案之後,您必須標記資料。 標記資料是很重要的,如此您的模型才知道哪些字詞會與您需要擷取的實體類型相關聯。 當您在 Language Studio 中標示資料 (或匯入已標示資料) 時,這些標籤會儲存在儲存體容器 (已連線至此專案) 的 JSON 文件中。

當您在標記資料時,請記住:

  • 一般而言,在資料被正確標記的情況下,被標記的資料越多將能導致越好的結果。

  • 標記資料的精確度、一致性和完整性是判斷模型效能的關鍵因素。

    • 精確標記:一律將每個實體標記為其正確的類型。 只包含您想要擷取的內容,避免標籤中出現非必要的資料。
    • 一致標示:相同的實體在所有文件中都應該有相同的標籤。
    • 完整標示:標示所有文件中實體的所有執行個體。 您可以使用 自動標籤功能 來確保完整的標籤。

    注意

    沒有固定數目的標籤可保證您的模型會執行最佳效能。 模型效能取決於結構描述中可能存在的模糊性,以及已標記資料的品質。 不過,我們建議每個實體類型約有 50 個已標記的執行個體。

標記您的資料

依照下列步驟標記您的資料:

  1. 移至您在 Language Studio 中的專案頁面。

  2. 在左側功能表中,選取 [資料標記]。 您可以在儲存體容器中找到所有文件的清單。

    提示

    您可以使用頂端功能表中的篩選來檢視未標示的文件,以開始標示這些資料。 您也可以使用篩選來檢視以特定實體類型標記的文件。

  3. 從頂端功能表中的左側,變更為單一文件檢視,或選取要開始標示的特定文件。 您可以在左側找到您專案中所有可用的 .txt 文件清單。 您可以使用頁面底部的 [上一頁] 和 [下一頁] 按鈕來瀏覽文件。

    注意

    如果您為專案啟用了多種語言,您會在頂端功能表中找到 [語言] 下拉式清單,讓您可選取每個文件的語言。

  4. 在右側窗格中,將實體類型新增至您的專案,以便開始標記資料。

  5. 有兩個選項可用來標記文件:

    選項 描述
    使用筆刷標記 選取右窗格中的實體類型旁的筆刷圖示,然後醒目提示文件中要以此實體類型標註的文字。
    使用功能表標記 醒目提示您要標記為實體的字詞,隨即出現一個功能表。 選取您要為此實體指派的實體類型。

    下列螢幕擷取畫面顯示使用筆刷的標記。

    顯示自訂具名實體辨識 (NER) 中提供標籤選項的螢幕擷取畫面。

  6. 在 [標籤] 樞紐下的右側窗格中,您可以找到專案中的所有實體類型,以及每個類別的已標記執行個體計數。

  7. 在右側窗格的底部區段中,您可以將您正在檢視的目前文件新增至定型集或測試集。 根據預設,所有文件都會新增至您的定型集。 深入了解定型和測試集,及其如何用於模型定型和評估。

    提示

    如果您打算使用自動資料分割,請使用將所有文件指派到定型集的預設選項。

  8. 在 [分佈] 樞紐下,您可以檢視定型和測試集之間的分佈。 您有兩個檢視選項:

    • 執行個體總計,您可以在其中檢視特定實體類型的所有已標示執行個體計數。
    • 至少有一個標籤的文件 (任何文件只要至少包含一個此實體的已標示執行個體,就會計入)。
  9. 在標記時,您的變更將會定期同步,若是尚未儲存完成,將會有警告出現在頁面頂端。 如果您想要手動儲存,請選取頁面底部的 [ 儲存標籤 ] 按鈕。

移除標籤

移除標籤

  1. 選取您要從中移除標籤的實體。
  2. 捲動出現的功能表,然後選取 [移除標籤]。

刪除實體

若要刪除實體,請選取要移除之實體旁的刪除圖示。 刪除實體時,將會從您的資料集中移除其所有已標記的執行個體。

後續步驟

在標記資料完成後,您就可以開始定型模型,其將會根據您的資料學習。