Custom Translator pro začátečníky

Custom Translator umožňuje vytvořit systém překladu, který odráží terminologii a styl specifický pro vaši firmu, odvětví a doménu. Trénování a nasazování vlastního systému je snadné a nevyžaduje žádné programovací dovednosti. Přizpůsobený systém překladu se bezproblémově integruje do stávajících aplikací, pracovních postupů a webů a je k dispozici v Azure prostřednictvím stejné cloudové služby Microsoft Text Translation API , která každý den využívá miliardy překladů.

Platforma umožňuje uživatelům vytvářet a publikovat vlastní systémy překladu do a z angličtiny. Custom Translator podporuje více než 60 jazyků, které se mapuje přímo na jazyky dostupné pro NMT. Úplný seznam najdete v tématuPodpora jazyka Translator.

Je vlastní model překladu pro mě správnou volbou?

Dobře vytrénovaný vlastní překlad poskytuje přesnější překlady specifické pro doménu, protože spoléhá na dříve přeložené dokumenty v doméně a učí se upřednostňované překlady. Translator používá tyto termíny a fráze v kontextu k vytváření plynulých překladů v cílovém jazyce při zachování gramatiky závislé na kontextu.

Trénování úplného vlastního modelu překladu vyžaduje značné množství dat. Pokud nemáte alespoň 10 000 vět dříve vytrénovaných dokumentů, nebudete moct trénovat model překladu v celém jazyce. Můžete ale buď vytrénovat model jen pro slovník, nebo použít vysoce kvalitní překlady, které jsou k dispozici v rozhraní API pro překlad textu.

Screenshot illustrating the difference between custom and general models.

Co zahrnuje trénování vlastního modelu překladu?

Vytvoření vlastního modelu překladu vyžaduje:

  • Vysvětlení případu použití

  • Získání přeložených dat v doméně (nejlépe přeložené člověkem)

  • Schopnost vyhodnotit kvalitu překladu nebo překlady cílového jazyka.

Návody vyhodnotit můj případ použití?

Když budete mít přehled o vašem případu použití a o tom, jak vypadá úspěch, je prvním krokem při získávání zkušených trénovacích dat. Tady je několik aspektů:

  • Jaký je požadovaný výsledek a jak ho změříte?

  • Co je vaše obchodní doména?

  • Máte v doménových větách podobnou terminologii a styl?

  • Zahrnuje váš případ použití více domén? Pokud ano, měli byste vytvořit jeden systém překladu nebo více systémů?

  • Máte požadavky, které mají vliv na rezidenci místních dat v klidovém stavu a při přenosu?

  • Jsou cíloví uživatelé v jedné nebo více oblastech?

Jak mám zdroj dat?

Hledání dat kvality v doméně je často náročný úkol, který se liší podle klasifikace uživatelů. Tady je několik otázek, které se můžete zeptat sami sebe, když vyhodnotíte, jaká data vám můžou být k dispozici:

  • Podniky často mají velké množství dat překladu, které se hromadily v průběhu mnoha let používání lidského překladu. Má vaše společnost k dispozici předchozí data překladu, která můžete použít?

  • Máte obrovské množství monolinguálních dat? Monolinguální data jsou data pouze v jednom jazyce. Pokud ano, můžete získat překlady těchto dat?

  • Můžete procházet online portály a shromažďovat zdrojové věty a syntetizovat cílové věty?

Co mám použít k trénovacímu materiálu?

Source Jak funguje Pravidla, která se mají dodržovat
Dvojjazyčné školicí dokumenty Naučí systém terminologii a styl. Buďte svobodní. Jakýkoli překlad člověka v doméně je lepší než strojový překlad. Při přidávání a odebírání dokumentů a pokuste se zlepšit skóre BLEU.
Ladění dokumentů Trénuje parametry neurálního strojového překladu. Buďte striktní. Napište je tak, aby optimálně reprezentovaly to, co budete v budoucnu překládat.
Testování dokumentů Výpočet skóre BLEU Buďte striktní. Vytvořte testovací dokumenty, které budou optimálně reprezentovat to, co plánujete v budoucnu přeložit.
Slovník frází Vynutí daný překlad 100 % času. Buďte omezující. Slovník frází se rozlišují malá a velká písmena a každé slovo nebo fráze uvedené se přeloží tak, jak zadáte. V mnoha případech je lepší nepoužívat slovník frází a nechat systém učit se.
Slovník vět Vynutí daný překlad 100 % času. Buďte striktní. Slovník vět je nerozlišující velká a malá písmena a je vhodný pro běžné v krátkých větách domény. Aby došlo ke shodě slovníku vět, musí celá odeslaná věta odpovídat položce zdrojového slovníku. Pokud se shoduje jenom část věty, položka se neshoduje.

Co je skóre BLEU?

BLEU (Bilingual Evaluation Understudy) je algoritmus pro vyhodnocení přesnosti nebo přesnosti textu, který byl strojově přeložen z jednoho jazyka do druhého. Custom Translator používá metriku BLEU jako jeden ze způsobů vyjádření přesnosti překladu.

Skóre BLEU je číslo mezi nulou a 100. Skóre nuly označuje nekvalitní překlad, ve kterém se žádný překlad neshodoval s odkazem. Skóre 100 označuje perfektní překlad, který je identický s odkazem. Není nutné dosáhnout skóre 100 - skóre BLEU mezi 40 a 60 označuje vysoce kvalitní překlad.

Další informace

Co se stane, když neodesílám ladicí nebo testovací data?

Optimalizace a testování vět jsou optimálně reprezentativní pro to, co plánujete v budoucnu přeložit. Pokud neodesíláte žádná tuningová nebo testovací data, Služba Custom Translator automaticky vyloučí věty z trénovacích dokumentů, které se použijí jako ladění a testování dat.

Generováno systémem Ruční výběr
Pohodlné. Umožňuje jemně doladit vaše budoucí potřeby.
Dobře, pokud víte, že trénovací data představují zástupce toho, co plánujete přeložit. Poskytuje větší volnost při vytváření trénovacích dat.
Snadné opakování při zvětšování nebo zmenšení domény. Umožňuje více dat a lepší pokrytí domény.
Změní každé trénovací spuštění. Zůstává statický nad opakovanými trénovacími běhy.

Jak je trénovací materiál zpracován službou Custom Translator?

Při přípravě na trénování projdou dokumenty řadou kroků zpracování a filtrování. Tyto kroky jsou vysvětleny níže. Znalost procesu filtrování může pomoct pochopit počet zobrazených vět a také kroky, které můžete provést při přípravě trénovacích dokumentů pro trénování pomocí služby Custom Translator.

  • Přidružení vět

    Pokud váš dokument není ve formátu XLIFF, XLSX, TMX nebo ALIGN, custom Translator zarovná věty zdrojového a cílového dokumentu k sobě navzájem, větami po větách. Translator neprovádí zarovnání dokumentu – řídí se vašimi konvencemi vytváření názvů, aby dokumenty našli odpovídající dokument v jiném jazyce. Ve zdrojovém textu se Custom Translator pokusí najít odpovídající větu v cílovém jazyce. K usnadnění zarovnání používá značky dokumentu, jako jsou vložené značky HTML.

    Pokud se zobrazí velký rozdíl mezi počtem vět ve zdrojovém a cílovém dokumentu, nemusí být zdrojový dokument paralelní nebo se nedá zarovnat. Dokument se páruje s velkým rozdílem (>10 %) vět na každé straně zaručuje druhý pohled, aby se ujistil, že jsou skutečně paralelní.

  • Extrahování ladění a testování dat

    Ladění a testování dat je volitelné. Pokud ho nezadáte, systém odebere z trénovacích dokumentů odpovídající procento, které se použije k ladění a testování. Odebrání probíhá dynamicky jako součást procesu trénování. Vzhledem k tomu, že k tomuto kroku dochází v rámci trénování, nebudou nahrané dokumenty ovlivněny. Po úspěšném trénování můžete zobrazit konečné počty použitých vět pro každou kategorii dat – trénování, ladění, testování a slovník – na stránce Podrobnosti modelu.

  • Filtr délky

    • Odebere věty jenom s jedním slovem na obou stranách.
    • Odebere věty s více než 100 slovy na obou stranách. Čínština, japonština, korejština jsou vyloučená.
    • Odebere věty s méně než třemi znaky. Čínština, japonština, korejština jsou vyloučená.
    • Odebere věty s více než 2000 znaky pro čínštinu, japonštinu a korejštinu.
    • Odebere věty s méně než 1% alfanumerickými znaky.
    • Odebere položky slovníku obsahující více než 50 slov.
  • Prázdné znaky

    • Nahradí libovolnou posloupnost prázdných znaků včetně tabulátorů a sekvencí CR/LF jedním znakem mezery.
    • Odebere úvodní nebo koncovou mezeru ve větě.
  • Interpunkce konce věty

    • Nahradí více interpunkčních znaků na konci věty jedinou instancí. Normalizace japonských znaků.

    • Převede písmena a číslice s plnou šířkou na znaky s poloviční šířkou.

  • Unescaped XML tags

    Transformuje neuskutečené značky na řídicí značky:

    Značka (tag) Stane se
    < & Lt;
    > & Gt;
    & & Amp;
  • Neplatné znaky

    Custom Translator odebere věty, které obsahují znak Unicode U+FFFD. Znakem U+FFFD se označuje neúspěšný převod kódování.

Jaké kroky mám provést před nahráním dat?

  • Odeberte věty s neplatným kódováním.
  • Odeberte znaky ovládacího prvku Unicode.
  • Pokud je to možné, zarovnejte věty (zdroj-cíl).
  • Odeberte zdrojové a cílové věty, které neodpovídají zdrojovému a cílovému jazyku.
  • Pokud mají zdrojové a cílové věty smíšené jazyky, zajistěte, aby nepřekládaná slova byla úmyslná, například názvy organizací a produktů.
  • Opravte gramatické a typografické chyby, abyste zabránili výuce těchto chyb v modelu.
  • I když náš trénovací proces zpracovává zdrojové a cílové řádky obsahující více vět, je lepší mít jednu zdrojovou větu namapovanou na jednu cílovou větu.

Návody vyhodnotit výsledky?

Po úspěšném vytrénování modelu můžete na stránce podrobností modelu zobrazit skóre BLEU modelu a skóre BLEU základního modelu. Stejnou sadu testovacích dat používáme k vygenerování skóre BLEU modelu i skóre BLEU podle směrného plánu. Tato data vám pomůžou učinit informované rozhodnutí o tom, který model bude pro váš případ použití vhodnější.

Další kroky