如何準備資料並定義文字分類結構描述

若要建立自訂文字分類模型,便需要品質資料以進行訓練。 本文說明應如何選取和準備資料,以及定義結構描述。 定義架構是專案開發生命週期的第一步,用於定義模型在執行階段分類文字所需的類別。

結構描述設計

結構描述會定義您需要模型在執行階段將文字分類的類別。

  • 複習和識別:檢閱資料集內的文件,熟悉其結構和內容,接著找出資料要分類的方式。

    例如,如果您要分類支援票證,則可能需要下列類別:登入問題硬體問題連線問題,以及新設備要求

  • 避免在類別中有混淆:當您指定的類別彼此共用類似意義時,會發生不明確的情況。 結構描述愈不清楚,必須用於區分不同類別的已標示資料就愈多。

    例如,如果您要分類食物配方,則其內容可能在一定程度上類似。 若要區分「甜點配方」和「主菜配方」,您可能需要標示更多範例,以協助您的模型區別這兩個類別。 避免混淆可節省時間,並產生更好的結果。

  • 超出範圍資料:在實際執行環境中使用模型時,若您預期文件不屬於任何類別,請考慮將超出範圍的類別新增至結構描述。 接著將幾個文件新增至資料集,以標示為「超出範圍」。 模型可學習辨識不相關的文件,並依此預測其標籤。

選取資料

您用來定型模型的資料品質會大幅影響模型效能。

  • 使用實際資料來反映您網域的問題空間,以有效地定型模型。 您可以使用綜合資料來加速初始模型定型程序,但綜合資料可能與您的實際資料不同,並讓您的模型在使用時效率不佳。

  • 請盡可能地平衡資料散發,而不要偏離實際散發過多。

  • 盡可能使用多種資料,以避免過度學習您的模型。 若定型資料中多樣性過少,可能導致您的模型學習到錯誤關聯性,而這些關聯性在實際的資料中可能不存在。

  • 請避免資料中出現重複的文件。 重複資料會對定型流程、模型計量和模型效能產生負面影響。

  • 請考慮資料的來源。 如果您要從某個人、部門或部分案例中收集資料,您可能會遺漏多樣性,這對您的模型而言可能很重要。

注意

若您的文件採用多種語言,請在建立專案期間選取 [多語言] 選項,並將 [語言] 選項設為大部分文件所使用的語言。

資料準備

您必須將訓練資料上傳至儲存體帳戶中的 Blob 容器,作為建立自訂文字分類專案的先決條件。 您可直接從 Azure 或使用 Azure 儲存體總管工具來建立及上傳訓練文件。 使用 Azure 儲存體總管工具可讓您快速上傳更多資料。

您只能使用 .txt。 自訂文字的文件。 如果您的資料是其他格式,可以使用 CLUtils 剖析命令來變更您的檔案格式。

您可以上傳已標註的資料集,或是上傳未標註的資料集,然後在 Language Studio 中標示資料

測試集

定義測試集時,請務必包括定型集中沒有的範例文件。 定義測試集是計算模型效能的重要步驟。 此外,請確定測試集包括代表專案中所有已使用類別的文件。

下一步

若尚未進行,請建立自訂文字分類專案。 若這是您第一次使用自訂文字分類,請考慮遵循快速入門建立範例專案。 您也可以查看專案需求,以取得建立專案所需專案的詳細資料。