建置和管理定型文件

自訂翻譯工具可讓您組建翻譯模型,以反射您的業務、產業和網域特定術語和樣式。 訓練和部署自訂模型很簡單,不需要任何程式設計技能。 自訂翻譯工具可讓您上傳平行檔案、翻譯記憶體檔案或 ZIP 檔案。

平行文件是配對文件,其中的一份文件 (目標) 是另一份文件 (來源) 的翻譯。 該配對中的一份文件會包含來源語言的句子,而另一份文件會包含已翻譯成目標語言的這些句子。

上傳文件之前,請先檢閱文件格式和命名慣例指導,以確保自訂翻譯工具有支援您的檔案格式。

如何建立文件集合

尋找網域內品質資料的工作會根據使用者分類而有所不同,通常是一項具有挑戰性的工作。 以下是一些在評估哪些資料可以使用時,您可以先詢問自己的問題:

  • 企業通常會有豐富的翻譯資料,該翻譯資料累積了數年來使用人工翻譯的結果。 貴公司是否有先前的翻譯資料可供使用?

  • 您是否有大量的單一語言資料? 單一語言資料是只有一種語言的資料。 如果是,您可以取得此資料的翻譯嗎?

  • 您可以搜耙線上入口網站來收集來源句子和目標合成句子嗎?

每個文件型別的訓練材質

來源 作用 要遵守的規則
雙語定型文件 教系統學習您的術語和文風。 自由一點。 任何領域內的人工翻譯都比機器翻譯還要好。 在訓練的同時新增和移除文件,並試著改善 BLEU 分數
微調文件 訓練神經機器翻譯參數。 嚴格一點。 以最能代表您未來要翻譯的內容來撰寫。
測試文件 計算 BLEU 分數 嚴格一點。 以最能代表您未來預計要翻譯的內容來撰寫測試文件。
片語字典 一律強制使用指定的翻譯。 嚴格一點。 片語字典會區分大小寫,且會以您指定的方式對任何列出的單字或片語進行翻譯。 在許多情況下,讓系統學習會比使用片語字典還要好。
句子字典 一律強制使用指定的翻譯。 嚴格一點。 句子字典不會區分大小寫,比較適合在網域裡的簡短句子。 假設要比對句子字典,整個提交的句子就必須符合原始字典項目。 如果只有一部分的句子符合,則不會比對項目。

如何上傳文件

當您建立專案時,文件型別會與選取的語言配對相關聯。

  1. 登入自訂翻譯工具入口網站。 系統會載入預設工作區,並顯示先前建立的專案清單。

  2. 選取所需的專案 [名稱]。 系統會根據預設選取管理文件 刀鋒視窗,並顯示先前上傳的文件清單。

  3. 選取 [新增文件集合],然後選擇文件型別:

    • 訓練集合
    • 測試集合
    • 微調集合
    • 字典集合:
      • 片語字典
      • 句子字典
  4. 選取 [下一步]。

    Screenshot illustrating the document upload link.

    注意

    選擇 [字典集合] 會啟動 [選擇字典型別] 對話方塊。 選擇一個,然後選取 [下一步]

  5. 從選項按鈕選取您的文件格式。

    Screenshot illustrating the upload document page.

    • 針對 [平行文件],請填滿 Document set name 並選取 [瀏覽檔案] 以選取來源和目標文件。
    • 如需 翻譯記憶體 (TM) 檔案或使用 ZIP 上傳多個集合,請選取 [瀏覽檔案] 以選取檔案
  6. 選取上傳

此時,自訂翻譯工具正在處理您的文件,並嘗試擷取如上傳通知中所述的句子。 處理完成之後,您會看到上傳成功的通知。

Screenshot illustrating the upload document processing dialog window.

檢視上傳記錄

在工作區頁面中,您可以檢視所有文件上傳的詳細記錄,例如文件類型、語言組和上傳狀態等。

  1. 自訂翻譯工具入口網站工作區頁面,按一下 [上傳記錄] 索引標籤來檢視記錄。

    Screenshot showing the upload history tab.

  2. 此頁面會顯示所有過去的上傳狀態。 以最新到最舊的順序顯示上傳項目。 其中會顯示每次上傳的文件名稱、上傳狀態、上傳日期、上傳的檔案數目、上傳的檔案類型、檔案的語言組及建立者。 您可以使用篩選條件,依名稱、狀態、語言和日期範圍快速尋找文件。

    Screenshot showing the upload history page.

  3. 選取任何上傳記錄。 在上傳記錄的詳細資料頁面中,您可以檢視該上傳作業中的上傳檔案、檔案上傳狀態、檔案語言及錯誤訊息 (如果上傳中有發生錯誤的話)。

下一步