如何建立自定義文字分類專案

使用本文來瞭解如何設定從自定義文字分類開始並建立專案的需求。

必要條件

開始使用自訂文字分類之前,您需要:

  • Azure 訂用帳戶 - 免費建立一個訂用帳戶。

建立語言資源

開始使用自訂文字分類之前,您需要 Azure AI 語言資源。 建議您建立語言資源,並在 Azure 入口網站 中將記憶體帳戶連線到該資源。 在 Azure 入口網站 中建立資源可讓您同時建立 Azure 記憶體帳戶,並預先設定所有必要的許可權。 您也可以在文章中進一步閱讀,以瞭解如何使用預先存在的資源,並將其設定為使用自定義文字分類。

您也需要 Azure 記憶體帳戶,您將上傳 .txt 將用來定型模型來分類文字的檔。

注意

  • 您必須在 資源群組上指派擁有者 角色,才能建立語言資源。
  • 如果您將連線到預先存在的記憶體帳戶,則應該為其 指派擁有者 角色。

建立語言資源並連線記憶體帳戶

注意

一旦記憶體帳戶與語言資源連結,您就不應該將記憶體帳戶移至不同的資源群組或訂用帳戶。

從 Azure 入口網站 建立新的資源

  1. 移至 Azure 入口網站以建立新的 Azure AI 語言資源。

  2. 在出現的視窗中,從自定義功能選取 [自定義文字分類與自定義具名實體辨識 ]。 選取畫面底部的 [繼續建立您的資源]。

    A screenshot showing the selection option for custom text classification and custom named entity recognition in Azure portal.

  3. 使用下列詳細數據建立語言資源。

    名稱 必要值
    訂用帳戶 您的 Azure 訂閱。
    資源群組 將包含您資源的資源群組。 您可以使用現有的 ,或建立新的。
    區域 其中 一個支持的區域。 例如「美國西部 2」。
    名稱 資源的名稱。
    定價層 其中 一個支持的定價層。 您可以使用免費 (F0) 層來嘗試服務。

    如果您收到一則訊息,指出「您的登入帳戶不是所選記憶體帳戶資源群組的擁有者」,您的帳戶必須先在資源群組上指派擁有者角色,才能建立語言資源。 請連絡您的 Azure 訂用帳戶擁有者以取得協助。

    您可以搜尋您的資源群組,並遵循其相關聯訂用帳戶的連結來判斷您的 Azure 訂用帳戶擁有者。 接下來:

    1. 選取 [存取控制 (IAM)] 索引標籤
    2. 選取 [角色指派]
    3. 依 [角色: 擁有者] 進行篩選。
  4. 在 [ 自定義文字分類與自定義具名實體辨識 ] 區段中,選取現有的記憶體帳戶,或選取 [ 新增記憶體帳戶]。 請注意,這些值可協助您開始使用,而不一定 是您想要在生產環境中使用的記憶體帳戶值 。 若要避免在建置項目時延遲,請連線到與語言資源位於相同區域中的記憶體帳戶。

    儲存體 帳戶值 建議值
    儲存體帳戶名稱 任何名稱
    Storage account type 標準 LRS
  5. 請確定 已核取負責任 AI 通知 。 選取頁面底部的 [檢閱 + 建立] 。

注意

  • 將記憶體帳戶連線到您的語言資源的程式無法復原,之後就無法中斷連線。
  • 您只能將語言資源連線到一個記憶體帳戶。

使用既有的語言資源

需求 描述
地區 請確定您現有的資源已布建在其中 一個支持的區域。 如果您沒有資源,則必須在支持的區域中建立新的資源。
定價層 資源的 定價層
受控識別 請確定已啟用資源的受控識別設定。 否則,請閱讀下一節。

若要使用自定義文字分類,如果您還沒有 Azure 記憶體帳戶,則必須 建立 Azure 記憶體帳戶

為您的資源啟用身分識別管理

您的語言資源必須具有身分識別管理,才能使用 Azure 入口網站 加以啟用:

  1. 移至您的語言資源
  2. 從左側功能表的 [資源管理] 區段底下,選取 [身分識別]
  3. [系統指派] 索引標籤,請務必將 [狀態] 設定為 [開啟]

啟用自訂文字分類功能

請務必從 Azure 入口網站 啟用自定義文字分類/自定義具名實體辨識功能。

  1. 在 Azure 入口網站 中移至您的語言資源
  2. 從左側功能表的 [資源管理] 區段底下,選取 [功能]
  3. 啟用 自定義文字分類 /自定義具名實體辨識 功能
  4. 連線 記憶體帳戶
  5. 選取 [套用]

重要

  • 請確定您的 語言資源 具有 您所連線記憶體帳戶上指派的記憶體 Blob 數據參與者 角色。

設定 Azure AI 語言資源和儲存體帳戶的角色

使用下列步驟來設定語言資源和記憶體帳戶的必要角色。

An animated image showing how to set roles in the Azure portal.

Azure AI 語言資源的角色

  1. 移至 Azure 入口網站 中的記憶體帳戶或語言資源。

  2. 選取左側導覽功能表中的 [存取控制[IAM]。

  3. 選取 [新增] 以新增角色指派,然後選擇您帳戶的適當角色。

    您應該在 語言資源上指派擁有者參與者 角色。

  4. 在 [指派存取權],選取 [使用者、群組或服務主體]

  5. 選取 [選取 成員]

  6. 選取您的用戶名稱。 您可以在 [ 選取 ] 欄位中搜尋使用者名稱。 針對所有角色重複此作業。

  7. 針對需要存取此資源的所有用戶帳戶重複這些步驟。

記憶體帳戶的角色

  1. 移至 Azure 入口網站 中的記憶體帳戶頁面。
  2. 選取左側導覽功能表中的 [存取控制[IAM]。
  3. 選取 [新增] 以新增角色指派,然後選擇記憶體帳戶上的 儲存體 Blob 數據參與者角色。
  4. 在 [指派存取權] 中,選取 [受控識別]。
  5. 選取 [選取 成員]
  6. 選取您的訂用帳戶,並將 [語言 ] 選取為受控識別。 您可以在 [ 選取 ] 欄位中搜尋使用者名稱。

重要

如果您有虛擬網路或私人端點,請務必選取 [允許受信任服務] 清單中的 [允許 Azure 服務] 來存取 Azure 入口網站 中的此記憶體帳戶

為您的記憶體帳戶啟用 CORS

啟用跨原始來源資源分享時,請務必允許 (GET、PUT、DELETE) 方法。 將允許的來源欄位設定為 https://language.cognitive.azure.com。 新增至允許的標頭值以允許所有標頭 * ,並將最大存留期設定為 500

A screenshot showing how to use CORS for storage accounts.

建立自訂文字分類專案

設定您的資源和記憶體容器之後,請建立新的自定義文字分類專案。 專案是一個工作區域,可根據您的數據建置自定義 AI 模型。 您的專案只能由您和其他人存取正在使用的 Azure 資源存取。 如果您已標記數據,您可以 匯入資料 以開始使用。

  1. 登入 Language Studio。 隨即會出現一個視窗,讓您選取您的訂用帳戶和語言資源。 選取您的語言資源。

  2. 在 Language Studio 的 [ 分類文字 ] 區段下,選取 [ 自定義文字分類]。

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. 從項目頁面的頂端功能表中選取 [建立新專案 ]。 建立專案可讓您標記數據、定型、評估、改善和部署模型。

    A screenshot of the custom text classification project creation page.

  4. 按兩下 [ 建立新專案] 之後,會出現一個視窗讓您連線記憶體帳戶。 如果您已連線記憶體帳戶,您會看到已連線的記憶體帳戶。 如果沒有,請從出現的下拉式清單中選擇儲存體帳戶,然後選取 [連線儲存體帳戶];這會為您的儲存體帳戶設定必要角色。 如果您未在記憶體帳戶上指派為 擁有者 ,此步驟可能會傳回錯誤。

    注意

    • 您只需要針對您使用的每個新語言資源執行此步驟一次。
    • 如果您將記憶體帳戶連線到您的語言資源,稍後就無法中斷連線,此程式將無法復原。
    • 您只能將語言資源連線到一個記憶體帳戶。

    A screenshot of the storage connection screen for custom classification projects.

  5. 選取項目類型。 您可以建立多 標籤分類 專案,其中每個檔可以屬於一或多個類別,或是 每個檔只能屬於一個類別的單一標籤分類 專案。 稍後無法變更選取的類型。 深入瞭解 項目類型

    A screenshot of the available custom classification project types.

  6. 輸入項目資訊,包括專案中檔的名稱、描述和語言。 如果您使用 範例數據集,請選取 [英文]。 您稍後將無法變更項目的名稱。 選取 [下一步]。

    提示

    您的數據集不需要完全使用相同的語言。 您可以有多個檔,每個檔都有不同的支持語言。 如果您的資料集包含不同語言的檔,或當您在運行時間預期來自不同語言的文字時,請在輸入專案的基本資訊時選取 [啟用多語系數據集 ] 選項。 此選項稍後可從 [項目設定] 頁面啟用

  7. 選取您已上傳數據集的容器。

    注意

    如果您已標示資料,則請確定其遵循支援的格式,然後選取 [是,我的文件已加上標籤,而且我有已格式化的 JSON 標籤檔案],然後從下方的下拉式功能表選取標籤檔案。

    如果您使用其中一個範例資料集,請使用包含 webOfScience_labelsFilemovieLabels 的 JSON 檔案。 然後選取下一步

  8. 檢閱您輸入的數據,然後選取 [ 建立專案]。

匯入自定義文字分類專案

如果您已經標記數據,您可以使用它來開始使用服務。 請確定已標記的數據遵循 接受的數據格式

  1. 登入 Language Studio。 隨即會出現一個視窗,讓您選取您的訂用帳戶和語言資源。 選取您的語言資源。

  2. 在 Language Studio 的 [ 分類文字 ] 區段下,選取 [ 自定義文字分類]。

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. 從項目頁面的頂端功能表中選取 [建立新專案 ]。 建立專案可讓您標記數據、定型、評估、改善和部署模型。

    A screenshot of the project creation page.

  4. 選取 [ 建立新專案] 之後,會出現一個畫面讓您連線記憶體帳戶。 如果您找不到記憶體帳戶,請確定您已使用建議的步驟建立資源。 如果您已經將記憶體帳戶連線到您的語言資源,您會看到記憶體帳戶已連線。

    注意

    • 您只需要針對您使用的每個新語言資源執行此步驟一次。
    • 如果您將記憶體帳戶連線到您的語言資源,稍後就無法中斷連線,此程式將無法復原。
    • 您只能將語言資源連線到一個記憶體帳戶。

    A screenshot of the storage connection screen for custom classification projects.

  5. 選取項目類型。 您可以建立多 標籤分類 專案,其中每個檔可以屬於一或多個類別,或是 每個檔只能屬於一個類別的單一標籤分類 專案。 稍後無法變更選取的類型。

    A screenshot of the available custom classification project types.

  6. 輸入項目資訊,包括專案中檔的名稱、描述和語言。 您稍後將無法變更項目的名稱。 選取 [下一步]。

    提示

    您的數據集不需要完全使用相同的語言。 您可以有多個檔,每個檔都有不同的支持語言。 如果您的資料集包含不同語言的檔,或當您在運行時間預期來自不同語言的文字時,請在輸入專案的基本資訊時選取 [啟用多語系數據集 ] 選項。 此選項稍後可從 [項目設定] 頁面啟用

  7. 選取您已上傳數據集的容器。

  8. 選取 [是,我的文件已加上標籤,而且我有已格式化的 JSON 標籤檔案],然後從下方的下拉式功能表中選取標籤檔案,以匯入您的 JSON 標籤檔案。 請確定它遵循 支援的格式

  9. 選取 [下一步]。

  10. 檢閱您輸入的數據,然後選取 [ 建立專案]。

取得專案詳細數據

  1. 在 Language Studio移至您的項目設定頁面。

  2. 您可以看到項目詳細數據。

  3. 在此頁面中,您可以更新專案描述,並在項目設定中啟用/停用多語數據集。

  4. 您也可以檢視連線的記憶體帳戶和容器至您的語言資源。

  5. 您也可以從此頁面擷取您的資源主鍵。

    A screenshot of the project settings page.

刪除專案

當您不再需要專案時,可以使用 Language Studio 刪除專案。 選取頂端的 [自訂文字分類],然後選取您想要刪除的專案。 選取頂端功能表中的 [刪除] 以刪除專案。

下一步