Co jsou paralelní dokumenty?

Paralelní dokumenty jsou dvojice dokumentů, z nichž jeden je překladem druhého. Jeden dokument ve dvojici obsahuje věty ve zdrojovém jazyce a druhý dokument obsahuje tyto věty přeložené do cílového jazyka. Nezáleží na tom, který jazyk je označený jako zdrojový a který jako cílový – paralelní dokument lze použít k trénování překladového systému v obou směrech.

Požadavky

K trénování systému budete potřebovat minimálně 10 000 jedinečných zarovnaných paralelních vět. Toto omezení je bezpečnostní síť, která zajišťuje, aby paralelní věty obsahovaly dostatek jedinečných slovníků pro úspěšné trénování modelu překladu. Osvědčeným postupem je průběžně přidávat další paralelní obsah a přetrénovat, aby se zlepšila kvalita vašeho překladového systému. Další informace najdete v tématuZarovnání vět.

Společnost Microsoft vyžaduje, aby dokumenty nahrané do služby Custom Translator neporušovaly autorská práva nebo duševní vlastnictví třetí strany. Další informace najdete v podmínkách použití. Nahrání dokumentu pomocí portálu nemění vlastnictví duševního vlastnictví v samotném dokumentu.

Použití paralelních dokumentů

Systém používá paralelní dokumenty:

  1. Dozvíte se, jak se slova, fráze a věty mezi těmito dvěma jazyky běžně mapují.

  2. Zjistěte, jak zpracovat příslušný kontext v závislosti na okolních frázích. Slovo se nemusí vždy překládat na přesně stejné slovo v jiném jazyce.

Osvědčeným postupem je zajistit, aby mezi zdrojovými a cílovými jazykovými verzemi dokumentů byla shoda vět 1:1.

Pokud je váš projekt specifický pro doménu (kategorii), měly by být dokumenty v terminologii v rámci této kategorie konzistentní. Kvalita výsledného systému překladu závisí na počtu vět v sadě dokumentů a na kvalitě vět. Čím více příkladů vaše dokumenty obsahují s různými způsoby použití slova specifického pro vaši kategorii, tím lepší práci může systém při překladu provádět.

Nahrané dokumenty jsou soukromé v každém pracovním prostoru a dají se použít v tolika projektech nebo školeních, kolik chcete. Věty extrahované z vašich dokumentů se ve vašem úložišti ukládají samostatně jako textové soubory ve formátu Unicode ve formátu prostého formátu Unicode a můžete je odstranit. Nepoužívejte Custom Translator jako úložiště dokumentů, nebudete si moct stáhnout dokumenty, které jste nahráli ve formátu, který jste nahráli.

Další kroky