Co je slovník?

Slovník je zarovnaná dvojice dokumentů, která určuje seznam frází nebo vět a jejich odpovídajících překladů. Slovník použijte ve svém trénování, pokud chcete, aby Microsoft Translator vždy překládal všechny instance zdrojové fráze nebo věty pomocí překladu, který jste do slovníku poskytli. Slovníky se někdy nazývají glosáře nebo základ termínů. Slovník si můžete myslít jako hrubou silou "copy and replace" (kopírovat a nahradit) pro všechny termíny, které si vymezujete. Služba Microsoft Custom Translator navíc vytváří a využívá vlastní slovníky pro obecné účely ke zlepšení kvality překladu. Slovník poskytovaný zákazníkem ale přebírá precedent a bude nejprve vyhledán vyhledávací slova nebo věty.

Slovníky fungují jenom u projektů v párech jazyků, které mají plně podporovaný model obecné neurální sítě Microsoftu. Prohlédněte si úplný seznam jazyků.

Slovník frází

Slovník frází rozlišuje velká a malá písmena. Jedná se o operaci přesného vyhledání a nahrazení. Když do trénování modelu zahrníte slovník frází, přeloží se jakékoli uvedené slovo nebo fráze způsobem, který jste zadali. Zbytek věty se přeloží jako obvykle. Slovník frází můžete použít k určení frází, které by neměly být přeloženy, zadáním stejné nepřeložené fráze ve zdrojovém a cílovém souboru ve slovníku.

Slovník vět

Ve slovníku vět se velká a malá písmena neslišují. Slovník vět umožňuje určit přesný cílový překlad zdrojové věty. Aby došlo ke shodě slovníku vět, musí celá odeslaná věta odpovídat položce zdrojového slovníku. Pokud položka zdrojového slovníku končí interpunkcí, bude během shody ignorována. Pokud se shoduje jenom část věty, položka se neshoduje. Při zjištění shody se vrátí cílový záznam slovníku vět.

Trénování pouze pro slovník

Model můžete trénovat pouze pomocí slovníkových dat. Pokud to chcete udělat, vyberte jenom dokument slovníku (nebo více slovníkových dokumentů), který chcete zahrnout, a klepněte na Vytvořit model. Vzhledem k tomu, že se jedná o trénování pouze pro slovník, nevyžaduje se minimální počet trénovací věty. Váš model obvykle dokončí trénování mnohem rychleji než standardní trénování. Výsledné modely budou používat základní modely Microsoftu pro překlad s přidáním slovníků, které jste přidali. Testovací sestavu nezískate.

Poznámka

Vlastní Translator zarovná soubory slovníku na věty, takže je důležité, aby v dokumentech slovníku byl stejný počet zdrojových a cílových frází/vět a aby byly přesně zarovnané.

Doporučení

  • Slovníky nejsou náhradou za trénování modelu pomocí trénovací data. Doporučuje se jim se vyhnout a nechat systém, aby se učil z vašich trénovací dat. Pokud se ale věty nebo složená podstatné jméno musí vykreslit tak, jak jsou, použijte slovník.
  • Slovník frází by se měl používat jen tak, jak má. Proto si uvědomte, že při nahrazování fráze v rámci věty se kontext v této větě ztratí nebo je omezen pro překlad zbytku věty. Výsledkem je, že zatímco fráze nebo slovo ve větě se přeloží podle poskytnutého slovníku, celková kvalita překladu věty často utrpí.
  • Slovník frází funguje dobře pro složená podstatné jména, jako jsou názvy produktů ("Microsoft SQL Server"), správné názvy ("City of <0>") nebo vlastnosti produktu ("kontingenční tabulka"). Nefunguje stejně dobře pro slovesa nebo přídavná jména, protože jsou obvykle vysoce zachycována ve zdroji nebo v cílovém jazyce. Osvědčeným postupy je vyhnout se položkám slovníku frází pro cokoli jiného než složená podstatné jméno.
  • Při použití slovníku frází jsou důležitá velká písmena a interpunkce. Položky slovníku budou odpovídat pouze slovům a frázím ve vstupní větě, které používají přesně stejná velká a interpunkční písmena jako ve zdrojovém souboru slovníku. Překlady také odrážejí velká písmena a interpunkci, které jsou k dispozici v cílovém souboru slovníku. Pokud jste například natrénoval angličtinu na španělštinu, která používá slovník frází, který určuje "US" ve zdrojovém souboru, a "EE. UU. v cílovém souboru. Pokud si vyžádáte překlad věty, která obsahuje slovo "us" (bez velkých písmen), nebude se shodovat se slovníkem. Pokud si ale vyžádáte překlad věty, která obsahuje slovo "US" (velkými písmeny), bude se shodovat se slovníkem a překlad bude obsahovat "EE. UU. Všimněte si, že velká písmena a interpunkce v překladu se mohou lišit, než je určeno v cílovém souboru slovníku, a mohou se lišit od velkých a interpunkčních písmen ve zdroji. Dodržuje pravidla cílového jazyka.
  • Při použití slovníku vět se konec interpunkce věty ignoruje. Pokud například zdrojový slovník obsahuje text "tato věta končí interpunkcí!", budou se shodovat všechny žádosti o překlad obsahující text "tato věta končí interpunkcí".
  • Pokud se slovo v souboru slovníku zobrazuje vícekrát, systém vždy použije poslední poskytnutou položku. Slovník by proto neměl obsahovat více překladů stejného slova.

Další kroky