カスタム翻訳ツールの重要な用語

次の表に、カスタム翻訳ツールを操作する際に見られる重要な用語の一覧を示します。

単語またはフレーズ 定義
ソース言語 ソース言語とは、別の言語 ("ターゲット") に変換する元の言語です。
ターゲット言語 ターゲット言語は、ソース言語を受け取った後に機械翻訳の提供に使用する言語です。
モノリンガル ファイル モノリンガル ファイルには、別の言語の別のファイルとペアリングされていない単一言語が含まれています。
並列ファイル 並列ファイルは、対応するファイルが含まれる 2 つのファイルの組み合わせです。 一方のファイルにはソース言語が含まれています。 もう一方のファイルにはターゲット言語が含まれています。
文のアライン 並列データセットでは、両方の言語で同じテキストを表す 2 つの文がアラインされている必要があります。 たとえば、ソース並列ファイルで、最初の文は、理論上は、ターゲット並列ファイルの最初の文にマップされている必要があります。
アライン済みテキスト ファイル検証の最も重要な手順の 1 つは、並列ドキュメント内の文をアラインすることです。 言語によって表現方法は異なります。 また、言語によって語順も異なります。 この手順では、トレーニングに使用できるように、内容が同じ文をアラインするジョブを実行します。 文のアラインが低いことは、ファイルの一方または両方に何か問題がある可能性を示します。
単語区切り/連結 単語区切りは、単語間に境界を作る機能です。 多くの筆記体系では、単語間の境界を示すためにスペースが使用されています。 単語連結は、前の手順で単語間に挿入された可能性がある任意の可視マーカーを削除することを示します。
区切り記号 区切り記号は、文をセグメントに分割する、または文の間を余白で区切る方法です。 たとえば、英語では、スペースで単語を区切り、コロンとセミコロンで句を区切り、ピリオドで文を区切ります。
トレーニング ファイル トレーニング ファイルは、ある言語 (ソース) からターゲット言語 (ターゲット) にマップする方法を機械翻訳システムに教えるために使用されます。 提供するデータが多いほど、システムのパフォーマンスが向上します。
チューニング ファイル 多くの場合、これらのファイルは、トレーニング セットからランダムに派生します (チューニング セットを選択していない場合)。 文は自動的に選択され、システムの調整と、適切に機能していることを確認するために使用されます。 汎用の翻訳モデルを作成し、独自のチューニング ファイルを作成する場合、それらにドメイン全体でランダムな文のセットが使用されるようにします。
テスト ファイル 多くの場合、これらのファイルは、トレーニング セットからランダムに選択される派生ファイルです (テスト セットを選択していない場合)。 これらの文の目的は、翻訳モデルの精度を評価することです。 システムがこれらの文を正確に変換できるようにするには、テスト セットを作成して Translator にアップロードすることをお勧めします。 これにより、これらの文がシステムの評価 (BLEU スコアの生成) で使用されるようになります。
複合ファイル 原文と翻訳済みの文が同じファイルに含まれているファイルの種類です。 サポートされているファイル形式 (TMX、XLIFF、XLF、ICI、XLSX)。
アーカイブ ファイル 他のファイルを含むファイル。 サポートされているファイル形式 (zip、gz、tgz)。
BLEU スコア BLEU は、翻訳モデルの "正確さ" つまり精度を評価する業界標準の方法です。 他の評価方法もありますが、Microsoft Translator は BLEU メソッドを使用してプロジェクト所有者に精度を報告します。