如何準備資料並定義文字分類結構描述

發行項
12/19/2023

若要建立自訂文字分類模型，便需要品質資料以進行訓練。本文說明應如何選取和準備資料，以及定義結構描述。定義架構是專案開發生命週期的第一步，用於定義模型在執行階段分類文字所需的類別。

結構描述設計

結構描述會定義您需要模型在執行階段將文字分類的類別。

複習和識別：檢閱資料集內的文件，熟悉其結構和內容，接著找出資料要分類的方式。

例如，如果您要分類支援票證，則可能需要下列類別：登入問題、硬體問題、連線問題，以及新設備要求。
避免在類別中有混淆：當您指定的類別彼此共用類似意義時，會發生不明確的情況。結構描述愈不清楚，必須用於區分不同類別的已標示資料就愈多。

例如，如果您要分類食物配方，則其內容可能在一定程度上類似。若要區分「甜點配方」和「主菜配方」，您可能需要標示更多範例，以協助您的模型區別這兩個類別。避免混淆可節省時間，並產生更好的結果。
超出範圍資料：在實際執行環境中使用模型時，若您預期文件不屬於任何類別，請考慮將超出範圍的類別新增至結構描述。接著將幾個文件新增至資料集，以標示為「超出範圍」。模型可學習辨識不相關的文件，並依此預測其標籤。

選取資料

您用來定型模型的資料品質會大幅影響模型效能。

使用實際資料來反映您網域的問題空間，以有效地定型模型。您可以使用綜合資料來加速初始模型定型程序，但綜合資料可能與您的實際資料不同，並讓您的模型在使用時效率不佳。
請盡可能地平衡資料散發，而不要偏離實際散發過多。
盡可能使用多種資料，以避免過度學習您的模型。若定型資料中多樣性過少，可能導致您的模型學習到錯誤關聯性，而這些關聯性在實際的資料中可能不存在。
請避免資料中出現重複的文件。重複資料會對定型流程、模型計量和模型效能產生負面影響。
請考慮資料的來源。如果您要從某個人、部門或部分案例中收集資料，您可能會遺漏多樣性，這對您的模型而言可能很重要。

注意

若您的文件採用多種語言，請在建立專案期間選取 [多語言] 選項，並將 [語言] 選項設為大部分文件所使用的語言。

資料準備

您必須將訓練資料上傳至儲存體帳戶中的 Blob 容器，作為建立自訂文字分類專案的先決條件。您可直接從 Azure 或使用 Azure 儲存體總管工具來建立及上傳訓練文件。使用 Azure 儲存體總管工具可讓您快速上傳更多資料。

您只能使用 .txt。自訂文字的文件。如果您的資料是其他格式，可以使用 CLUtils 剖析命令來變更您的檔案格式。

您可以上傳已標註的資料集，或是上傳未標註的資料集，然後在 Language Studio 中標示資料。

測試集

定義測試集時，請務必包括定型集中沒有的範例文件。定義測試集是計算模型效能的重要步驟。此外，請確定測試集包括代表專案中所有已使用類別的文件。

下一步

若尚未進行，請建立自訂文字分類專案。若這是您第一次使用自訂文字分類，請考慮遵循快速入門建立範例專案。您也可以查看專案需求，以取得建立專案所需專案的詳細資料。