Share via


如何建立自定義 NER 專案

使用本文來瞭解如何設定從自定義 NER 開始並建立專案的需求。

必要條件

開始使用自訂 NER 之前,您需要:

  • Azure 訂用帳戶 - 免費建立一個訂用帳戶。

建立語言資源

開始使用自訂 NER 之前,您需要 Azure AI 語言資源。 建議您建立您的語言資源,並在 Azure 入口網站 中將記憶體帳戶連線至該資源。 在 Azure 入口網站 中建立資源可讓您同時建立 Azure 記憶體帳戶,並預先設定所有必要的許可權。 您也可以在文章中進一步閱讀,以瞭解如何使用預先存在的資源,並將其設定為使用自定義具名實體辨識。

您也需要 Azure 記憶體帳戶,您將上傳 .txt 將用來定型模型以擷取實體的檔。

注意

  • 您必須在 資源群組上指派擁有者 角色,才能建立語言資源。
  • 如果您將連線到預先存在的記憶體帳戶,則應該為其指派擁有者角色。

建立語言資源並連線記憶體帳戶

您可以透過下列方式建立資源:

  • Azure 入口網站
  • Language Studio
  • PowerShell

注意

一旦記憶體帳戶與語言資源連結,您就不應該將記憶體帳戶移至不同的資源群組或訂用帳戶。

從 Azure 入口網站 建立新的資源

  1. 登入 Azure 入口網站以建立新的 Azure AI 語言資源。

  2. 在出現的視窗中,從自定義功能選取 [自定義文字分類與自定義具名實體辨識 ]。 選取畫面底部的 [繼續建立您的資源]。

    顯示 Azure 入口網站 中自定義文字分類和自定義具名實體辨識的螢幕快照。

  3. 使用下列詳細數據建立語言資源。

    名稱 描述
    訂用帳戶 您的 Azure 訂閱。
    資源群組 將包含您資源的資源群組。 您可以使用現有的 ,或建立新的。
    區域 語言資源的區域。 例如,「美國西部 2」。
    名稱 資源的名稱。
    定價層 語言資源的定價層。 您可以使用免費 (F0) 層來嘗試服務。

    注意

    如果您收到一則訊息,指出「您的登入帳戶不是所選記憶體帳戶資源群組的擁有者」,您的帳戶必須先在資源群組上指派擁有者角色,才能建立語言資源。 請連絡您的 Azure 訂用帳戶擁有者以取得協助。

  4. 在 [ 自定義文字分類與自定義具名實體辨識 ] 區段中,選取現有的記憶體帳戶,或選取 [ 新增記憶體帳戶]。 這些值可協助您開始使用,而不一定 是您想要在生產環境中使用的記憶體帳戶值 。 若要避免在建置項目時延遲,請連線到與語言資源位於相同區域中的記憶體帳戶。

    儲存體 帳戶值 建議值
    儲存體帳戶名稱 任何名稱
    Storage account type 標準 LRS
  5. 請確定 已核取負責任 AI 通知 。 選取頁面底部的 [ 檢閱 + 建立 ],然後選取 [ 建立]。

從 Language Studio 建立新的語言資源

如果您是第一次登入,您會在 Language Studio 中看到一個視窗,可讓您選擇現有的語言資源或建立新的資源。 您也可以按下右上角的設定圖示,選取 [資源],然後按兩下 [ 建立新資源] 來建立資源

使用下列詳細數據建立語言資源。

實例詳細數據 必要值
Azure 訂用帳戶 Azure 訂用帳戶
Azure 資源群組 您的 Azure 資源群組
Azure 資源名稱 您的 Azure 資源名稱
Location 您的語言資源區域
定價層 語言資源的定價層

重要

  • 建立語言資源時,請務必啟用 受控識別
  • 閱讀並確認負責任 AI 通知

若要使用自定義具名實體辨識,如果您還沒有 Azure 記憶體帳戶,則必須 建立 Azure 記憶體帳戶

使用 PowerShell 建立新的語言資源

您可以使用下列 CLI 範本GitHub 上裝載的參數 檔案,建立新的資源和記憶體帳戶。

編輯參數檔案中的下列值:

參數名稱 值描述
name 語言資源的名稱
location 您的資源裝載所在的區域。 如需詳細資訊,請參閱 服務限制
sku 資源的定價層
storageResourceName 記憶體帳戶的名稱
storageLocation 裝載記憶體帳戶的區域。
storageSkuType 記憶體帳戶的 SKU。
storageResourceGroupName 記憶體帳戶的資源群組

使用下列 PowerShell 命令,搭配您編輯的檔案來部署 Azure Resource Manager (ARM) 範本。

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

如需部署範本參數檔案的相關信息,請參閱ARM範本檔。

注意

  • 將記憶體帳戶連線到您的語言資源的程式無法復原,之後就無法中斷連線。
  • 您只能將語言資源連線到一個記憶體帳戶。

使用既有的語言資源

只要此資源符合下列需求,您就可以使用現有的 Language 資源開始使用自定義 NER:

需求 描述
地區 請確定您現有的資源已布建在其中 一個支持的區域。 如果沒有,您必須在下列其中一個區域中建立新的資源。
定價層 深入瞭解 支持的定價層
受控識別 請確定已啟用資源的受控識別設定。 否則,請閱讀下一節。

若要使用自定義具名實體辨識,如果您還沒有 Azure 記憶體帳戶,則必須 建立 Azure 記憶體帳戶

為您的資源啟用身分識別管理

您的語言資源必須具有身分識別管理,才能使用 Azure 入口網站將其啟用:

  1. 移至您的語言資源
  2. 從左側功能表的 [資源管理] 區段底下,選取 [身分識別]
  3. [系統指派] 索引標籤,請務必將 [狀態] 設定為 [開啟]

啟用自定義具名實體辨識功能

請務必從 Azure 入口網站 啟用自定義文字分類/自定義具名實體辨識功能。

  1. 移至您在 Azure 入口網站中的語言資源。
  2. 從左側功能表的 [資源管理] 區段底下,選取 [功能]。
  3. 啟用 [自訂文字分類/自訂具名實體辨識] 功能。
  4. 連線您的儲存體帳戶。
  5. 選取套用

重要

  • 請確定您的 語言資源 具有 您所連線記憶體帳戶上指派的記憶體 Blob 數據參與者 角色。

新增必要的角色

使用下列步驟來設定語言資源和記憶體帳戶的必要角色。

顯示如何在 Azure 入口網站 中設定角色的動畫影像。

Azure AI 語言資源的角色

  1. 移至 Azure 入口網站 中的記憶體帳戶或語言資源。

  2. 在左側導覽功能表中選取 [存取控制 [IAM]。

  3. 選取 [新增] 以新增角色指派,然後選擇您帳戶的適當角色。

    您應該在 語言資源上指派擁有者參與者 角色。

  4. 在 [指派存取權],選取 [使用者、群組或服務主體]

  5. 選取 [選取 成員]

  6. 選取您的用戶名稱。 您可以在 [ 選取 ] 欄位中搜尋使用者名稱。 針對所有角色重複此作業。

  7. 針對需要存取此資源的所有用戶帳戶重複這些步驟。

記憶體帳戶的角色

  1. 移至 Azure 入口網站 中的記憶體帳戶頁面。
  2. 選取左側導覽功能表中的 [存取控制[IAM]。
  3. 選取 [新增] 以新增角色指派,然後選擇記憶體帳戶上的 儲存體 Blob 數據參與者角色。
  4. 在 [指派存取權] 中,選取 [受控識別]。
  5. 選取 [選取 成員]
  6. 選取您的訂用帳戶,並將 [語言 ] 選取為受控識別。 您可以在 [ 選取 ] 欄位中搜尋使用者名稱。

重要

如果您有虛擬網路或私人端點,請務必選取 [允許受信任服務] 清單中的 [允許 Azure 服務] 來存取 Azure 入口網站 中的此記憶體帳戶

為您的記憶體帳戶啟用 CORS

啟用跨原始來源資源分享時,請務必允許 (GET、PUT、DELETE) 方法。 將允許的來源欄位設定為 https://language.cognitive.azure.com。 新增至允許的標頭值以允許所有標頭 * ,並將最大存留期設定為 500

顯示如何將 CORS 用於記憶體帳戶的螢幕快照。

建立自訂具名實體辨識專案

設定您的資源和記憶體容器之後,請建立新的自定義 NER 專案。 專案是一個工作區域,可根據您的數據建置自定義 AI 模型。 專案只能由您和其他具有所使用 Azure 資源存取權的人員存取。 如果您已標記數據,您可以使用它來開始 匯入專案

  1. 登入 Language Studio。 隨即會出現一個視窗,讓您選取您的訂用帳戶和語言資源。 選取您在上述步驟中建立的語言資源。

  2. 在 Language Studio 的 [ 擷取資訊 ] 區段下,選取 [ 自定義具名實體辨識]。

    顯示 Language Studio 登陸頁面中自定義 NER 位置的螢幕快照。

  3. 從項目頁面的頂端功能表中選取 [建立新專案 ]。 建立專案可讓您標記數據、定型、評估、改善和部署模型。

    專案建立頁面的螢幕快照。

  4. 按兩下 [ 建立新專案] 之後,會出現一個視窗讓您連線記憶體帳戶。 如果您已連線記憶體帳戶,您會看到已連線的記憶體帳戶。 如果沒有,請從出現的下拉式清單中選擇儲存體帳戶,然後選取 [連線儲存體帳戶];這會為您的儲存體帳戶設定必要角色。 如果您未在記憶體帳戶上指派為 擁有者 ,此步驟可能會傳回錯誤。

    注意

    • 您只需要針對您使用的每個新資源執行此步驟一次。
    • 如果您將記憶體帳戶連線到您的語言資源,稍後就無法中斷連線,此程式將無法復原。
    • 您只能將語言資源連線到一個記憶體帳戶。

    顯示記憶體連線畫面的螢幕快照。

  5. 輸入項目資訊,包括專案中檔案的名稱、描述和語言。 如果您使用 範例數據集,請選取 [英文]。 您稍後將無法變更項目的名稱。 選取下一個

    提示

    您的數據集不需要完全使用相同的語言。 您可以有多個檔,每個檔都有不同的支持語言。 如果您的資料集包含不同語言的檔,或當您在運行時間預期來自不同語言的文字時,請在輸入專案的基本資訊時選取 [啟用多語系數據集 ] 選項。 此選項稍後可從 [項目設定] 頁面啟用

  6. 選取您已上傳數據集的容器。 如果您已經標示資料,請確定其遵循支援的格式,然後選取 [是,我的檔案已加上標籤,而且我已設定 JSON 標籤檔案的格式],然後從下拉式功能表中選取標籤檔案。 選取 [下一步]。

  7. 檢閱您輸入的數據,然後選取 [ 建立專案]。

匯入專案

如果您已經標記數據,您可以使用它來開始使用服務。 請確定已標記的數據遵循 接受的數據格式

  1. 登入 Language Studio。 隨即會出現一個視窗,讓您選取您的訂用帳戶和語言資源。 選取您的語言資源。

  2. 在 Language Studio 的 [ 擷取資訊 ] 區段下,選取 [ 自定義具名實體辨識]。

    螢幕快照,顯示 Language Studio 登陸頁面中自定義 NER 功能的位置。

  3. 從項目頁面的頂端功能表中選取 [建立新專案 ]。 建立專案可讓您標記數據、定型、評估、改善和部署模型。

    專案建立頁面的螢幕快照。

  4. 選取 [ 建立新專案] 之後,會出現一個畫面讓您連線記憶體帳戶。 如果您找不到記憶體帳戶,請確定您已使用建議的步驟建立資源。 如果您已經將記憶體帳戶連線到您的語言資源,您會看到記憶體帳戶已連線。

    注意

    • 您只需要針對您使用的每個新語言資源執行此步驟一次。
    • 如果您將記憶體帳戶連線到您的語言資源,稍後就無法中斷連線,此程式將無法復原。
    • 您只能將語言資源連線到一個記憶體帳戶。

    新專案的記憶體連線畫面螢幕快照。

  5. 輸入項目資訊,包括專案中檔案的名稱、描述和語言。 您稍後將無法變更項目的名稱。 選取 [下一步]。

    提示

    您的數據集不需要完全使用相同的語言。 您可以有多個檔,每個檔都有不同的支持語言。 如果您的資料集包含不同語言的檔,或當您在運行時間預期來自不同語言的文字時,請在輸入專案的基本資訊時選取 [啟用多語系數據集 ] 選項。 此選項稍後可從 [項目設定] 頁面啟用

  6. 選取您已上傳數據集的容器。

  7. 選取 [是,我的檔案已加上標籤,而且我已設定 JSON 標籤檔案的格式],然後從下方的下拉式功能表中選取標籤檔案,以匯入您的 JSON 標籤檔案。 請確定它遵循 支援的格式

  8. 選取 [下一步]。

  9. 檢閱您輸入的數據,然後選取 [ 建立專案]。

取得專案詳細數據

  1. 在 Language Studio移至您的項目設定頁面。

  2. 您可以看到項目詳細數據。

  3. 在此頁面中,您可以更新專案描述,並在項目設定中啟用/停用多語言數據集。

  4. 您也可以檢視連線的記憶體帳戶和容器至您的語言資源。

  5. 您也可以從此頁面擷取主要資源金鑰。

    Language Studio 中項目設定頁面的螢幕快照。

刪除專案

當您不再需要專案時,可以使用 Language Studio 刪除專案。 從頂端選取 [自訂具名實體辨識 (NER)]、選取您想要刪除的專案,然後從頂端功能表中選取 [刪除]。

下一步