Vlastní klíčové výrazy překladatele
Následující tabulka uvádí seznam klíčových pojmů, které se mohou při práci s vlastním překladatelemnajít.
| Slovo nebo fráze | Definice |
|---|---|
| Zdrojový jazyk | Zdrojový jazyk je počáteční jazyk, který chcete převést na jiný jazyk ("cíl"). |
| Cílový jazyk | Cílový jazyk je jazyk, který má strojový překlad poskytnout poté, co obdrží zdrojový jazyk. |
| Soubor Monolingual | Soubor monolingual má jeden jazyk, který není spárován s jiným souborem jiného jazyka. |
| Paralelní soubory | Paralelní soubor je kombinací dvou souborů s odpovídajícím textem. Jeden soubor má zdrojový jazyk. Druhý má cílový jazyk. |
| Zarovnání věty | Paralelní datová sada musí mít zarovnaná věty na věty, které reprezentují stejný text v obou jazycích. Například ve zdrojovém paralelním souboru by první věta měla být teoreticky namapována na první větu v cílovém paralelním souboru. |
| Zarovnaný text | Jedním z nejdůležitějších kroků při ověřování souborů je zarovnání vět v paralelních dokumentech. Věci jsou v různých jazycích vyjádřené jinak. Různé jazyky mají různé wordové objednávky. Tento krok provede úlohu zarovnání vět se stejným obsahem, aby bylo možné je použít pro školení. V případě nesprávného zarovnání vět se zobrazuje něco špatného u jednoho nebo obou souborů. |
| Rozdělení nebo zrušení přerušení slova | Dělení slov je funkce označující hranice mezi slovy. Řada systémů psaní používá prostor k označení hranice mezi slovy. Zrušení přerušení slova odkazuje na odebrání viditelné značky, která může být vložena mezi slova v předchozím kroku. |
| Oddělovače | Oddělovače jsou způsoby, kterými je věta rozdělena do segmentů nebo je ohraničena na hranici mezi větami. V anglickém prostoru například vymezují slova, dvojtečky a klauzule pro vymezení středníků a vymezené věty. |
| Školicí soubory | Školicí soubor se používá k učení systému strojového překladu, jak namapovat z jednoho jazyka (zdroje) do cílového jazyka (cíle). Větší údaje, které zadáte, tím lépe bude systém provádět. |
| Ladění souborů | Tyto soubory jsou často náhodně odvozené ze sady školení (Pokud nevyberete sadu optimalizace). Tyto věty jsou využívány pro vyladění systému a jejich správné fungování. Pokud chcete vytvořit model překladu pro obecné účely a vytvořit vlastní soubory pro ladění, ujistěte se, že se jedná o náhodnou sadu vět napříč doménami. |
| Testování souborů | Tyto soubory jsou často odvozené soubory, náhodně vybrané ze sady školení (Pokud nevyberete žádnou testovací sadu). Účelem těchto vět je vyhodnotit přesnost modelu překladu. Vzhledem k tomu, že tyto věty jsou ty, které chcete zajistit, aby systém byl přesně předaný, možná budete chtít vytvořit testovací sadu a odeslat ji do překladatele. Tím zajistíte, že se tyto věty budou používat ve vyhodnocování systému (generování skóre BLEU). |
| Soubor se seznamem | Typ souboru, ve kterém jsou zdrojové a přeložené věty obsaženy ve stejném souboru. Podporované formáty souborů (. TMX,. xliff,. xlf,. ici,. xlsx). |
| Archivní soubor | Soubor, který obsahuje jiné soubory. Podporované formáty souborů (zip, GZ, tgz). |
| Skóre BLEU | Bleu je standardní metoda pro vyhodnocení "přesnosti" nebo přesnosti modelu překladu. I když existují jiné metody vyhodnocení, Microsoft Translator využívá metodu BLEU, která oznamuje přesnost vlastníkům projektu. |