Co to jest słownik?

Słownik jest wyrównaną parą dokumentów, która określa listę fraz lub zdań i odpowiadających im tłumaczeń. Użyj słownika w trenowaniu, gdy chcesz, aby usługa Translator tłumaczyła wszystkie wystąpienia frazy źródłowej lub zdania przy użyciu tłumaczenia podanego w słowniku. Słowniki są czasami nazywane słownikami lub bazami terminów. Słownik można traktować jako siłę "kopiuj i zastąp" dla wszystkich terminów, które masz na liście. Ponadto usługa Microsoft Custom Translator tworzy i korzysta z własnych słowników ogólnego przeznaczenia w celu poprawy jakości tłumaczenia. Jednak słownik podany przez klienta ma pierwszeństwo i jest wyszukiwany jako pierwszy, aby wyszukać wyrazy lub zdania.

Słowniki działają tylko w przypadku projektów w parach językowych, które mają w pełni obsługiwany ogólny model sieci neuronowej firmy Microsoft. Wyświetl pełną listę języków.

Słownik fraz

W słowniku fraz jest uwzględniana wielkość liter. Jest to dokładna operacja znajdowania i zastępowania. W przypadku uwzględnienia słownika fraz w trenowaniu modelu wszystkie wymienione wyrazy lub frazy są tłumaczone w sposób określony. Reszta zdania jest tłumaczona jak zwykle. Słownik fraz umożliwia określenie fraz, które nie powinny być tłumaczone przez podanie tej samej nieprzetłumaczonej frazy w plikach źródłowych i docelowych.

Słownik dynamiczny

Funkcja słownika dynamicznego umożliwia dostosowywanie tłumaczeń dla określonych terminów lub fraz. Można zdefiniować tłumaczenia niestandardowe dla unikatowego kontekstu, języka lub określonych potrzeb.

Słownik fraz neuronowych

Słownik fraz neuronowych rozszerza nasz słownik dynamiczny i standardowe funkcje słownika fraz. Słowniki dynamiczne i frazy umożliwiają dostosowanie danych wyjściowych tłumaczenia przez udostępnienie własnych tłumaczeń dla określonych terminów lub fraz. Funkcja słownika dynamicznego jest używana z interfejsem API usługi Translator, podczas gdy słownik fraz neuronowych jest włączony przy użyciu usługi Custom Translator. Słownik fraz neuronowych poprawia jakość tłumaczenia zdań, które zawierają co najmniej jedno tłumaczenie terminów, umożliwiając modelowi tłumaczenia maszynowego dostosowanie zarówno terminu, jak i kontekstu. Ta korekta generuje bardziej płynne tłumaczenia. Jednocześnie zachowuje wysoką dokładność tłumaczenia.

Słownik zdań

Słownik zdań jest niewrażliwy na wielkość liter. Słownik zdań umożliwia określenie dokładnego tłumaczenia docelowego dla zdania źródłowego. Aby wystąpiło dopasowanie słownika zdań, całe przesłane zdanie musi być zgodne z wpisem słownika źródłowego. Wpis słownika źródłowego kończący się znakiem interpunkcyjnym jest ignorowany podczas dopasowywania. Jeśli tylko część zdania jest zgodna, wpis nie jest zgodny. Po wykryciu dopasowania zwracany jest docelowy wpis słownika zdań.

Szkolenia tylko dla słowników

Model można wytrenować przy użyciu tylko danych słownika. W tym celu wybierz tylko dokument słownikowy (lub wiele dokumentów słownika), które chcesz dołączyć, i wybierz pozycję Utwórz model. Ponieważ to szkolenie jest tylko słownikiem, nie jest wymagana minimalna liczba zdań szkoleniowych. Model zazwyczaj kończy trenowanie szybciej niż standardowe trenowanie. Wynikowe modele używają modeli bazowych firmy Microsoft do tłumaczenia z dodaniem dodanych słowników. Nie otrzymujesz raportu testowego.

Uwaga

Usługa Custom Translator nie wyrównuje plików słowników, dlatego ważne jest, aby w dokumentach słownika były dokładnie wyrównane wyrażenia źródłowe i docelowe frazy/zdania.

Zalecenia

  • Słowniki nie są zamiennikiem trenowania modelu przy użyciu danych treningowych. W celu uzyskania lepszych wyników zalecamy umożliwienie systemowi nauki na podstawie danych treningowych. Jeśli jednak zdania lub elementy złożone muszą być tłumaczone dosłownie, należy użyć słownika fraz.

  • Słownik fraz powinien być używany oszczędnie. Gdy fraza w zdaniu zostanie zamieniona, kontekst tego zdania zostanie utracony lub ograniczony do tłumaczenia pozostałej części zdania. Wynikiem jest to, że podczas gdy fraza lub wyraz w zdaniu jest tłumaczona zgodnie z podanym słownikem, ogólna jakość tłumaczenia zdania często cierpi.

  • Słownik fraz działa dobrze w przypadku rzeczowników złożonych, takich jak nazwy produktów ("Microsoft SQL Server"), nazwy właściwe ("Miasto Hamburg") lub funkcje produktu ("tabela przestawna"). Nie działa również w przypadku czasowników ani przymiotników, ponieważ te słowa są zwykle wysoce kontekstowe w języku źródłowym lub docelowym. Najlepszym rozwiązaniem jest unikanie wpisów słownika fraz dla niczego, ale rzeczowników złożonych.

  • Jeśli używasz słownika fraz, wielkie litery i znaki interpunkcyjne są ważne. Wpisów słownika jest rozróżniana wielkość liter i znaków interpunkcyjnych. Niestandardowa usługa Translator pasuje tylko do wyrazów i fraz w zdaniu wejściowym, które używają dokładnie tych samych znaków wielkich liter i znaków interpunkcyjnych, jak określono w pliku słownika źródłowego. Ponadto tłumaczenia odzwierciedlają wielkie litery i znaki interpunkcyjne podane w pliku słownika docelowego.

    Przykład

    • Jeśli trenujesz system z języka angielskiego na hiszpański, który używa słownika fraz i określasz serwer SQL w pliku źródłowym i programie Microsoft SQL Server w pliku docelowym. Gdy zażądasz tłumaczenia zdania zawierającego frazę SQL Server, usługa Custom Translator pasuje do wpisu słownika i tłumaczenia zawierającego program Microsoft SQL Server.
    • Jeśli żądasz tłumaczenia zdania zawierającego tę samą frazę, ale nie pasuje do tego, co znajduje się w pliku źródłowym, takim jak sql server, sql Server lub SQL Server, nie zwróci dopasowania ze słownika.
    • Tłumaczenie jest zgodne z regułami języka docelowego, jak określono w słowniku fraz.
  • Aby uzyskać więcej informacji na temat słownika fraz neuronowych, zobaczwskazówki i zalecenia dotyczące słownika neuronowego.

  • Jeśli używasz słownika zdań, znaki interpunkcyjne końca zdania są ignorowane.

    Przykład

    • Jeśli słownik źródłowy zawiera tekst "To zdanie kończy się znakiem interpunkcyjnym!", wszystkie żądania tłumaczenia zawierające tekst "To zdanie kończy się znakiem interpunkcyjnym".
  • Słownik powinien zawierać unikatowe wiersze źródłowe. Jeśli wiersz źródłowy (wyraz, fraza lub zdanie) pojawia się więcej niż raz w pliku słownika, system zawsze używa ostatniego wpisu podanego i zwraca element docelowy po znalezieniu dopasowania.

  • Unikaj dodawania fraz, które składają się tylko z cyfr lub są wyrazami dwuliterowymi lub trzyliterowymi, takimi jak akronimy, w pliku słownika źródłowego.

Następne kroki