Custom Translator dla początkujących

Artykuł
01/10/2024

Usługa Custom Translator umożliwia tworzenie systemu tłumaczenia, który odzwierciedla twoją firmę, branżę i terminologię i styl specyficzny dla domeny. Trenowanie i wdrażanie niestandardowego systemu jest łatwe i nie wymaga żadnych umiejętności programistycznych. Dostosowany system tłumaczenia bezproblemowo integruje się z istniejącymi aplikacjami, przepływami pracy i witrynami internetowymi i jest dostępny na platformie Azure za pośrednictwem tej samej chmurowej usługi interfejsu API tłumaczenia tekstu firmy Microsoft, która codziennie obsługuje miliardy tłumaczeń.

Platforma umożliwia użytkownikom tworzenie i publikowanie niestandardowych systemów tłumaczenia do i z języka angielskiego. Usługa Custom Translator obsługuje ponad 60 języków mapujących bezpośrednio na języki dostępne dla nmT. Aby uzyskać pełną listę, zobaczObsługa języków w usłudze Translator.

Czy niestandardowy model tłumaczenia jest właściwym wyborem dla mnie?

Dobrze wyszkolony niestandardowy model tłumaczenia zapewnia dokładniejsze tłumaczenia specyficzne dla domeny, ponieważ opiera się na wcześniej przetłumaczonych dokumentach w domenie w celu uczenia się preferowanych tłumaczeń. Usługa Translator używa tych terminów i fraz w kontekście do tworzenia płynnych tłumaczeń w języku docelowym przy jednoczesnym poszanowaniu gramatyki zależnej od kontekstu.

Trenowanie pełnego niestandardowego modelu tłumaczenia wymaga znacznej ilości danych. Jeśli nie masz co najmniej 10 000 zdań wcześniej wytrenowanych dokumentów, nie będzie można wytrenować modelu tłumaczenia w pełnym języku. Można jednak wytrenować model tylko do słownika lub użyć wysokiej jakości, wbudowanych tłumaczeń dostępnych za pomocą interfejsu API tłumaczenia tekstu.

Screenshot illustrating the difference between custom and general models.

Co obejmuje trenowanie niestandardowego modelu tłumaczenia?

Utworzenie niestandardowego modelu tłumaczenia wymaga:

Opis przypadku użycia.
Uzyskiwanie danych przetłumaczonych w domenie (najlepiej przetłumaczonych przez człowieka).
Możliwość oceny jakości tłumaczenia lub tłumaczeń języka docelowego.

Jak mogę ocenić mój przypadek użycia?

Mając jasność co do przypadku użycia i jak wygląda sukces, jest pierwszym krokiem w kierunku określania biegłych danych treningowych. Oto kilka zagadnień:

Jaki jest żądany wynik i jak go zmierzysz?
Co to jest Twoja domena biznesowa?
Czy masz zdania w domenie podobnej terminologii i stylu?
Czy twój przypadek użycia obejmuje wiele domen? Jeśli tak, czy należy utworzyć jeden system tłumaczenia lub wiele systemów?
Czy masz wymagania wpływające na regionalną rezydencję danych magazynowanych i przesyłanych danych?
Czy użytkownicy docelowi znajdują się w jednym lub wielu regionach?

Jak mogę źródło moje dane?

Znajdowanie danych jakości w domenie jest często trudnym zadaniem, które różni się w zależności od klasyfikacji użytkowników. Oto kilka pytań, które możesz zadać sobie, oceniasz, jakie dane mogą być dostępne dla Ciebie:

Przedsiębiorstwa często mają mnóstwo danych tłumaczeń, które zgromadziły się przez wiele lat przy użyciu tłumaczeń ludzkich. Czy twoja firma ma dostępne poprzednie dane tłumaczenia, których można użyć?
Czy masz ogromną ilość monolingualnych danych? Monolingual data to dane tylko w jednym języku. Jeśli tak, czy możesz uzyskać tłumaczenia dla tych danych?
Czy można przeszukiwać portale online, aby zbierać zdania źródłowe i syntetyzować zdania docelowe?

Co należy użyć do materiałów treningowych?

Źródło	Wyniki działania	Reguły do naśladowania
Dokumenty szkoleniowe dwujęzyczne	Uczy systemu terminologii i stylu.	Bądź liberalny. Każde tłumaczenie ludzkie w domenie jest lepsze niż tłumaczenie maszynowe. Dodaj i usuń dokumenty podczas pracy i spróbuj poprawić wynik BLEU.
Dostrajanie dokumentów	Trenuje parametry neuronowego tłumaczenia maszynowego.	Bądź ścisły. Redaguj je, aby być optymalnie reprezentatywnym dla tego, co zamierzasz przetłumaczyć w przyszłości.
Testowanie dokumentów	Oblicz wynik BLEU.	Bądź ścisły. Utwórz dokumenty testowe, aby być optymalnie reprezentatywne dla tego, co planujesz przetłumaczyć w przyszłości.
Słownik fraz	Wymusza tłumaczenie 100% czasu.	Bądź restrykcyjny. Słownik fraz jest uwzględniany w wielkości liter, a wszystkie wymienione wyrazy lub frazy są tłumaczone w sposób określony przez Użytkownika. W wielu przypadkach lepiej nie używać słownika fraz i pozwolić systemowi się uczyć.
Słownik zdań	Wymusza tłumaczenie 100% czasu.	Bądź ścisły. Słownik zdań jest niewrażliwy na wielkość liter i jest dobry dla typowych w krótkich zdaniach domeny. Aby wystąpiło dopasowanie słownika zdań, całe przesłane zdanie musi być zgodne z wpisem słownika źródłowego. Jeśli tylko część zdania jest zgodna, wpis nie będzie zgodny.

Co to jest wskaźnik BLEU?

BLEU (Dwujęzyczna ocena understudy) to algorytm oceny dokładności lub dokładności tekstu przetłumaczonego z jednego języka na inny. Usługa Custom Translator używa metryki BLEU jako jednego sposobu przekazywania dokładności tłumaczenia.

Wynik BLEU jest liczbą z zakresu od zera do 100. Wynik zerowy wskazuje tłumaczenie niskiej jakości, w którym nic w tłumaczeniu nie pasuje do odwołania. Wynik 100 wskazuje idealne tłumaczenie, które jest identyczne z odwołaniem. Nie jest konieczne uzyskanie wyniku 100 - wynik BLEU z zakresu od 40 do 60 wskazuje wysokiej jakości tłumaczenie.

Dowiedz się więcej

Co się stanie, jeśli nie przesyłam danych dostrajania ani testowania?

Dostrajanie i testowanie zdań jest optymalnie reprezentatywne dla tego, co planujesz przetłumaczyć w przyszłości. Jeśli nie prześlesz żadnych danych dostrajania ani testowania, usługa Custom Translator automatycznie wykluczy zdania z dokumentów szkoleniowych, które będą używane jako dane dostrajania i testowania.

Wygenerowany przez system	Wybór ręczny
Wygodne.	Umożliwia dostrajanie pod kątem przyszłych potrzeb.
Dobrze, jeśli wiesz, że dane szkoleniowe są reprezentatywne dla tego, co planujesz przetłumaczyć.	Zapewnia większą swobodę tworzenia danych szkoleniowych.
Łatwe ponowne wdrożenie podczas zwiększania lub zmniejszania domeny.	Umożliwia uzyskanie większej ilości danych i lepszego pokrycia domeny.
Zmienia każdy przebieg trenowania.	Pozostaje statyczny w przypadku powtarzających się przebiegów trenowania

W jaki sposób materiał szkoleniowy jest przetwarzany przez usługę Custom Translator?

Aby przygotować się do szkolenia, dokumenty przechodzą serię kroków przetwarzania i filtrowania. Te kroki zostały wyjaśnione poniżej. Znajomość procesu filtrowania może pomóc w zrozumieniu liczby wyświetlanych zdań, a także kroków, które można wykonać w celu przygotowania dokumentów szkoleniowych do trenowania za pomocą usługi Custom Translator.

Wyrównanie zdań

Jeśli dokument nie jest w formacie XLIFF, XLSX, TMX lub ALIGN, usługa Custom Translator wyrównuje zdania źródłowych i docelowych dokumentów do siebie, zdania po zdaniu. Usługa Translator nie wykonuje wyrównania dokumentu — jest zgodna z konwencją nazewnictwa dokumentów w celu znalezienia pasującego dokumentu w innym języku. W tekście źródłowym usługa Custom Translator próbuje znaleźć odpowiednie zdanie w języku docelowym. Używa on znaczników dokumentów, takich jak osadzone tagi HTML, aby ułatwić wyrównanie.

Jeśli zobaczysz dużą rozbieżność między liczbą zdań w dokumentach źródłowych i docelowych, dokument źródłowy może nie być równoległy lub nie można go wyrównać. Dokument zawiera dużą różnicę (>10%) zdań po każdej stronie gwarantuje drugie spojrzenie, aby upewnić się, że są one rzeczywiście równoległe.
Wyodrębnianie i testowanie danych

Dostrajanie i testowanie danych jest opcjonalne. Jeśli go nie podasz, system usunie odpowiedni procent z dokumentów szkoleniowych, które będą używane do dostrajania i testowania. Usunięcie odbywa się dynamicznie w ramach procesu trenowania. Ponieważ ten krok występuje w ramach trenowania, przekazane dokumenty nie mają wpływu. Końcowe liczby zdań używanych dla każdej kategorii danych — trenowania, dostrajania, testowania i słownika — można zobaczyć na stronie Szczegóły modelu po pomyślnym zakończeniu trenowania.
Filtr długości
- Usuwa zdania z tylko jednym wyrazem po obu stronach.
- Usuwa zdania z więcej niż 100 wyrazami po obu stronach. Chiński, japoński, koreański są zwolnione.
- Usuwa zdania z mniej niż trzema znakami. Chiński, japoński, koreański są zwolnione.
- Usuwa zdania z ponad 2000 znakami dla chińskich, japońskich, koreańskich.
- Usuwa zdania z mniej niż 1% znakami alfanumerycznymi.
- Usuwa wpisy słownika zawierające więcej niż 50 wyrazów.
Odstępu
- Zastępuje dowolną sekwencję znaków odstępów, w tym tabulatory i sekwencje CR/LF pojedynczym znakiem spacji.
- Usuwa spację prowadzącą lub końcową w zdaniu.
Znak interpunkcyjny końca zdania
- Zamienia wiele znaków interpunkcyjnych na jedno wystąpienie. Normalizacja znaków japońskich.
- Konwertuje pełne litery i cyfry na znaki o połowie szerokości.
Unescaped XML tags (Niezasłane tagi XML)

Przekształca niezasłane tagi na tagi ucieczki:

Tagowy Staje się

< & Por;

> & Gt;

& & Amp;
Nieprawidłowe znaki

Usługa Custom Translator usuwa zdania zawierające znaki Unicode U+FFFD. Znak U+FFFD wskazuje na nieudaną konwersję kodowania.

Tagowy	Staje się
<	& Por;
>	& Gt;
&	& Amp;

Jakie kroki należy wykonać przed przekazaniem danych?

Usuń zdania z nieprawidłowym kodowaniem.
Usuń znaki sterujące Unicode.
Jeśli jest to możliwe, wyrównaj zdania (źródło do celu).
Usuń zdania źródłowe i docelowe, które nie pasują do języków źródłowych i docelowych.
Gdy zdania źródłowe i docelowe mają języki mieszane, upewnij się, że nieprzetłumaczone wyrazy są zamierzone, na przykład nazwy organizacji i produktów.
Popraw błędy gramatyczne i typograficzne, aby zapobiec nauczaniu tych błędów w modelu.
Chociaż nasz proces trenowania obsługuje wiersze źródłowe i docelowe zawierające wiele zdań, lepiej jest zamapować jedno zdanie źródłowe na jedno zdanie docelowe.

Jak mogę ocenić wyniki?

Po pomyślnym wytrenowanym modelu możesz wyświetlić wynik BLEU modelu i wynik BLEU modelu bazowego na stronie szczegółów modelu. Używamy tego samego zestawu danych testowych, aby wygenerować zarówno wynik BLEU modelu, jak i wynik BLEU punktu odniesienia. Te dane pomogą Ci w podjęciu świadomej decyzji dotyczącej tego, który model byłby lepszy dla twojego przypadku użycia.

Następne kroki

Wypróbuj nasz przewodnik Szybki start

Share via

Custom Translator dla początkujących

Czy niestandardowy model tłumaczenia jest właściwym wyborem dla mnie?

Co obejmuje trenowanie niestandardowego modelu tłumaczenia?

Jak mogę ocenić mój przypadek użycia?

Jak mogę źródło moje dane?

Co należy użyć do materiałów treningowych?

Co to jest wskaźnik BLEU?

Co się stanie, jeśli nie przesyłam danych dostrajania ani testowania?

W jaki sposób materiał szkoleniowy jest przetwarzany przez usługę Custom Translator?

Wyrównanie zdań

Wyodrębnianie i testowanie danych

Filtr długości

Odstępu

Znak interpunkcyjny końca zdania

Unescaped XML tags (Niezasłane tagi XML)

Nieprawidłowe znaki

Jakie kroki należy wykonać przed przekazaniem danych?

Jak mogę ocenić wyniki?

Następne kroki

Dodatkowe zasoby