快速入門:使用自訂模型建置、發佈和翻譯

翻譯工具是雲端式類神經機器翻譯服務,屬於 Azure AI 服務的 REST API 系列,可以搭配任何作業系統使用。 翻譯工具為全球數以千計企業所使用的眾多 Microsoft 產品和服務提供翻譯功能,以執行語言翻譯和其他語言相關的作業。 在此快速入門中,學習如何跨所有支援的語言,為應用程式建置自訂解決方案。

必要條件

若要使用自訂翻譯工具入口網站,您需要下列資源:

  • Microsoft 帳戶

  • Azure 訂用帳戶 - 建立免費帳戶

  • 擁有 Azure 訂用帳戶之後,請在 Azure 入口網站中建立翻譯工具資源,以取得您的金鑰和端點。 在其部署後,選取 [前往資源]

    • 您將需要來自資源的金鑰和端點,以將應用程式連線至翻譯工具服務。 稍後在快速入門中將金鑰和端點貼到程式碼中。 您可以在 Azure 入口網站的 [金鑰和端點] 頁面上找到這些值:

      Screenshot: Azure portal keys and endpoint page.

如需詳細資訊,請參閱如何建立翻譯工具資源

自訂翻譯工具入口網站

一旦您具備上述必要條件,請登入自訂翻譯工具入口網站,以建立工作區、建置專案、上傳檔案、定型模型,以及發佈自訂解決方案。

您可以閱讀翻譯和自訂翻譯的概觀、了解一些秘訣,並觀看 Azure AI 技術部落格中的使用者入門影片。

處理程序摘要

  1. 建立工作區。 工作區是用來撰寫和建置自訂翻譯系統的工作區域。 工作區可包含多個專案、模型和文件。 您在自訂翻譯工具中的所有工作都會在某個特定的工作區內完成。

  2. 建立專案。 專案是模型、文件和測試的包裝函式。 各專案皆包含已上傳至該工作區、且語言組正確的所有文件。 例如,如果您同時有英文翻譯成西班牙文的專案和西班牙文翻譯成英文的專案,這兩個專案將會包含相同的文件。

  3. 上傳平行文件。 平行文件是配對文件,其中的一份文件 (目標) 是另一份文件 (來源) 的翻譯。 該配對中的一份文件會包含原始語言的句子,而另一分文件會包含已翻譯成目標語言的句子。 無論哪種語言標示為「來源」、哪種語言標示為「目標」,您都可使用平行文件以任一方向定型翻譯系統。

  4. 定型您的模型。 模型是一種系統,提供特定語言組的翻譯。 成功定型的輸出就是模型。 在定型模型時,需要三種互斥的文件類型:定型、微調和測試。 若在將定型排入佇列時只提供定型資料,自訂翻譯工具會自動組合微調和測試資料。 其會使用您定型文件中的隨機句子子集,並將這些句子從定型資料本身中排除。 10,000 個平行句子是定型模型的最低需求。

  5. 測試 (人為評估) 您的模型。 測試集是用來計算 BLEU 分數。 此分數表示翻譯系統的品質。

  6. 發佈 (部署) 您定型的模型。 您的自訂模型可供執行階段轉譯要求使用。

  7. 翻譯文字。 使用雲端式、安全、高效能、可高度擴充的 Microsoft Translator Text API 第 3 版來提出翻譯要求。

建立工作區

  1. 登入自訂翻譯工具之後,系統會要求您從 Microsoft 身分識別平台讀取設定檔的權限,以要求使用者存取權杖和重新整理權杖。 驗證需要這兩個權杖,以確保您不會在即時工作階段期間或定型模型時登出。
    選取 [是]

    Screenshot illustrating how to create a workspace.

  2. 選取 [我的工作區]

  3. 選取 [建立新的工作區]

  4. 輸入 [工作區名稱]Contoso MT 模型,然後選取 [下一步]

  5. 從下拉式清單中的 [選取資源區域] 選取 [全域]。

  6. 複製/貼上翻譯工具服務金鑰。

  7. 選取 [下一步]。

  8. 選取完成

    注意

    區域必須符合在資源建立期間選取的區域。 您可以使用 KEY 1KEY 2。

    Screenshot illustrating the resource key.

    Screenshot illustrating workspace creation.

建立專案

成功建立工作區之後,您就會進入 [專案] 頁面。

您將建立英文到德文專案,只使用定型文件類型來定型自訂模型。

  1. 選取建立專案

  2. 針對 [專案名稱] 輸入英文到德文

  3. 從下拉式清單中選取 [英文 (en)] 來源語言

  4. 從下拉式清單中選取 [德文 (de)] 目標語言

  5. 從下拉式清單的 [領域] 中選取 [一般]

  6. 選取建立專案

    Screenshot illustrating how to create a project.

上傳文件

若要建立自訂模型,您必須上傳定型微調測試字典文件類型的所有項目或組合。

在本快速入門中,您將上傳定型文件以進行自訂。

注意

在本快速入門中,您可以使用我們的樣本定型、片語和句子字典資料集、客戶樣本英文到德文資料集。 不過,針對生產環境,最好上傳您自己的定型資料集。

  1. 選取 [英文到德文] 專案名稱。

  2. 從左側導覽功能表中選取 [管理文件]

  3. 選取 [新增文件集]

  4. 核取 [定型集] 方塊,然後選取 [下一步]

  5. 保持已勾選平行文件,並輸入 sample-English-German

  6. 在 [來源 (英文 - EN) 檔案] 底下,選取 [瀏覽檔案],然後選取 [sample-English-German-Training-en.txt]

  7. 在 [目標 (德文 - EN) 檔案] 底下,選取 [瀏覽檔案],然後選取 [sample-English-German-Training-de.txt]

  8. 選取 [上傳]

    注意

    您可以上傳樣本片語和句子字典資料集。 此步驟留給您完成。

    Screenshot illustrating how to upload documents.

定型您的模型

現在您已準備好將英文到德文模型定型。

  1. 從左側導覽功能表中選取 [定型模型]

  2. 在 [模型名稱] 中輸入包含樣本資料的 en-de

  3. 保持勾選 [完整定型]

  4. 在 [選取文件] 下,檢查 sample-English-German,並檢閱與所選句子數目相關聯的定型成本。

  5. 選取 [立即定型]

  6. 選取 [定型] 以確認。

    注意

    通知會顯示進行中的模型定型,例如提交資料狀態。 定型模型需要數小時的時間,取決於選取的句子數目。

    Screenshot illustrating how to create a model.

  7. 成功定型模型之後,請從左側導覽功能表中選取 [模型詳細資料]

  8. 選取模型名稱 具有樣本資料的 en-de。 檢閱定型日期/時間、總定型時間,以及用於定型、微調、測試和字典的句子數目。 檢查系統是否已產生測試和微調集。 您將使用 Category ID 進行翻譯要求。

  9. 評估模型 BLEU 分數。 測試集 BLEU分數是自訂模型分數,而基準 BLEU 是用於自訂的預先定型基準模型。 較高的 BLEU 分數表示使用自訂模型提升翻譯品質。

    注意

    如果您使用我們的共用客戶樣本資料集進行定型,BLEU 分數會與影像不同。

    Screenshot illustrating model details.

測試您的模型

定型成功完成之後,請檢查測試集翻譯的句子。

  1. 從左側導覽功能表中選取 [測試模型]
  2. 選取「具有樣本資料的 en-de」
  3. 人類針對參考 (測試集的目標翻譯),從新模型 (自訂模型),以及基準模型 (用於自訂的預先定型基準) 進行翻譯評估

發佈您的模型

發佈模型可讓您與翻譯工具 API 搭配使用。 專案可能有一或多個成功定型的模型。 每個專案只能發佈一個模型;不過,您可以視需求將模型發佈至一或多個區域。 如需詳細資訊,請參閱翻譯工具價格

  1. 從左側導覽功能表中選取 [發佈模型]

  2. 選取 [具有樣本資料的 en-de],然後選取 [發佈]

  3. 檢查所需的區域。

  4. 選取發行。 狀態應該會從 [部署中] 轉換為 [已部署]

    Screenshot illustrating how to deploy a trained model.

翻譯文字

  1. 開發人員應該在向 Microsoft 翻譯工具文字 API 第 3 版提出翻譯要求時使用 Category ID。 如需翻譯工具文字 API 的詳細資訊,請參閱 API 參考網頁。

  2. 企業使用者也可以下載並安裝我們免費提供的適用於 Windows 的 DocumentTranslator 應用程式

下一步