自訂翻譯工具主要詞彙

下表列出當您使用自訂翻譯工具時,可能會發現的主要詞彙清單。

單字或片語 定義
來源語言 來源語言是指要轉換成另一種語言 (「目標」) 的起始語言。
目標語言 目標語言是指您要讓機器翻譯在接收到來源語言後提供的語言。
單一語言檔案 單一語言檔案具有不與使用不同語言的另一個檔案配對的單一語言。
平行檔案 平行檔案是具有對應文字的兩個檔案相互的組合。 一個檔案具有來源語言。 另一個檔案則有目標語言。
句子對齊 平行資料集必須將兩種語言中代表相同文字的句子對齊。 例如,來源平行檔案中的第一個句子在理論上應對應至目標平行檔案中的第一個句子。
對齊的文字 檔案驗證最重要的步驟之一,是將平行文件中的句子對齊。 不同的語言會以不同的方式表示語句。 此外,不同的語言也會有不同的字組順序。 此步驟會執行將具有相同內容的句子對齊的作業,使這些句子可用於定型。 若句子對齊的程度偏低,表示可能有一或兩個檔案有問題。
斷字/取消斷字 斷字是在文字之間標示界限的功能。 許多書寫系統均使用空格來表示字與字之間的界限。 取消斷字是指移除在先前的步驟中可能插入於文字間的任何可見標記。
分隔符號 分隔符號是將句子分成區段或分隔句子邊界的方式。 以英文為例,空格會分隔單字,冒號和分號會分隔子句,而句號則分隔句子。
定型檔案 定型檔案可用來指示機器翻譯系統如何從一種語言 (來源) 對應至目標語言 (目標)。 您提供的資料越多,系統執行的效果就越好。
調整檔案 這些檔案通常隨機衍生自定型集 (如果您未選取調整集)。 句子是自動選取的且用來調整系統,並確保系統可正確運作。 如果您想要建立一般用途的翻譯模型,並建立自己的調整檔案,請確保這些句子是一組隨機而跨領域的句子
測試檔案 這些檔案通常是從定型集中隨機選取的衍生檔案 (如果您未選取任何測試集)。 這些句子的用途是要評估翻譯模型的精確度。 為了確保系統精確翻譯這些句子,您可能會想要建立測試集,並將其上傳到翻譯工具。 這麼做將確保這些句子用於系統評估 (產生 BLEU 分數)。
組合檔案 將來源和翻譯的句子包含在相同檔案中的檔案類型。 支援的檔案格式 (TMX、XLIFF、XLF、ICI 和 XLSX)。
封存檔 包含其他檔案的檔案。 支援的檔案格式 (zip、gz、tgz)。
BLEU 分數 BLEU 是業界用來評估翻譯模型「精確度」或正確性的標準方法。 雖然還有其他評估方法可供使用,但 Microsoft 翻譯工具會採用 BLEU 方法將精確度報告給專案擁有者。