Co to jest tłumaczenie mowy?

Z tego artykułu dowiesz się więcej o korzyściach i możliwościach tłumaczenia za pomocą usługi Azure AI Speech. Usługa mowa obsługuje mowę w czasie rzeczywistym i mowę w wielu językach oraz tłumaczenie mowy na tekst strumieni audio.

Korzystając z zestawu Speech SDK lub interfejsu wiersza polecenia usługi Mowa, możesz zapewnić aplikacjom, narzędziom i urządzeniom dostęp do źródłowych transkrypcji i danych wyjściowych tłumaczenia dla podanego dźwięku. Tymczasowe transkrypcje i wyniki tłumaczenia są zwracane w miarę wykrywania mowy, a ostateczne wyniki można przekonwertować na syntetyzowaną mowę.

Aby uzyskać listę języków obsługiwanych na potrzeby tłumaczenia mowy, zobacz Obsługa języka i głosu.

Napiwek

Przejdź do programu Speech Studio , aby szybko przetestować i przetłumaczyć mowę na inne wybrane języki z małym opóźnieniem.

Podstawowe funkcje

Podstawowe funkcje tłumaczenia mowy obejmują:

Tłumaczenie mowy na tekst

Standardową funkcją oferowaną przez usługę rozpoznawania mowy jest możliwość wprowadzania strumienia audio w określonym języku źródłowym oraz tłumaczenia i wyprowadzania go jako tekstu w określonym języku docelowym.

Tłumaczenie mowy na mowę

Jako uzupełnienie powyższej funkcji usługa mowa oferuje również opcję odczytywania przetłumaczonego tekstu przy użyciu naszej dużej bazy danych wstępnie wytrenowanych głosów, co pozwala na naturalne wyjście mowy wejściowej.

Tłumaczenie mowy wielojęzycznej (wersja zapoznawcza)

Tłumaczenie mowy wielojęzycznej implementuje nowy poziom technologii tłumaczenia mowy, która umożliwia odblokowanie różnych możliwości, w tym brak określonego języka wejściowego, obsługę przełączników językowych w ramach tej samej sesji i obsługę translacji transmisji strumieniowej na żywo w języku angielskim. Te funkcje umożliwiają nowy poziom uprawnień tłumaczenia mowy, które można zaimplementować w produktach.

  • Nieokreślony język danych wejściowych. Tłumaczenie mowy wielojęzycznej może odbierać dźwięk w wielu językach i nie trzeba określać oczekiwanego języka wejściowego.
  • Przełączanie języka. Tłumaczenie mowy wielojęzycznej umożliwia używanie wielu języków podczas tej samej sesji i tłumaczenie ich na ten sam język docelowy. Nie ma potrzeby ponownego uruchamiania sesji, gdy język wejściowy zmieni się lub jakiekolwiek inne akcje.
  • Transkrypcji. Usługa generuje transkrypcję w określonym języku docelowym. Transkrypcja języka źródłowego nie jest jeszcze dostępna.

Niektóre przypadki użycia tłumaczenia mowy wielojęzycznej obejmują:

  • Interpreter podróży. Podczas podróży za granicę tłumaczenie mowy wielojęzycznej oferuje możliwość utworzenia rozwiązania, które umożliwia klientom tłumaczenie dowolnego wejściowego dźwięku na język lokalny i z tego języka. Dzięki temu mogą komunikować się z mieszkańcami i lepiej zrozumieć otoczenie.
  • Spotkanie biznesowe. Na spotkaniu z osobami, które mówią w różnych językach, tłumaczenie mowy wielojęzycznej umożliwia członkom spotkania komunikowanie się ze sobą naturalnie tak, jakby nie było bariery językowej.

W przypadku tłumaczenia mowy wielojęzycznej są to języki, w których usługa mowa może automatycznie wykrywać i przełączać się między danymi wejściowymi: arabski (ar), baskijski (eu), bośniacki (bs), bułgarski (bg), chiński uproszczony (zh), chiński tradycyjny (zh), czeski (cs), duński (da), holenderski (nl), angielski (en), estoński (et), fiński (fi), francuski (fr), galicyjski (gl), niemiecki (de), grecki (el), hindi (hi), Węgierski (hu), Indonezyjski (id), włoski (it), japoński (ja), koreański (ko), łotewski (lv), litewski (lt), macedoński (mk), norweski (nb), polski (pl), portugalski (pt), rumuński (ro), rosyjski (ru), serbski (sr), słowacki (sk), słoweński (sl), hiszpański (es), szwedzki (sv), tajski (th), turecki (tr), ukraiński (uk), wietnamski (vi) i walijski (cy).

Aby uzyskać listę obsługiwanych języków wyjściowych (docelowych), zobacz tabelę Tłumaczenie na język tekstowy w dokumentacji obsługi języka i głosu.

Aby uzyskać więcej informacji na temat tłumaczenia mowy wielojęzycznej, zobacz tłumaczenie mowy, jak kierować przykładami tłumaczenia mowy i tłumaczenia mowy w usłudze GitHub.

Tłumaczenie wielu języków docelowych

W scenariuszach, w których chcesz uzyskać dane wyjściowe w wielu językach, usługa rozpoznawania mowy bezpośrednio oferuje możliwość tłumaczenia języka wejściowego na dwa języki docelowe. Umożliwia to odbieranie dwóch danych wyjściowych i udostępnianie tych tłumaczeń szerszej odbiorcom za pomocą jednego wywołania interfejsu API. Jeśli wymagane są więcej języków wyjściowych, możesz utworzyć zasób z wieloma usługami lub użyć oddzielnych usług tłumaczenia.

Jeśli potrzebujesz tłumaczenia na więcej niż dwa języki docelowe, musisz utworzyć zasób z wieloma usługami lub użyć oddzielnych usług tłumaczenia dla większej liczby języków poza drugim. Jeśli zdecydujesz się wywołać usługę tłumaczenia mowy z zasobem z wieloma usługami, należy pamiętać, że opłaty za tłumaczenie mają zastosowanie do każdego języka poza drugim, na podstawie liczby znaków tłumaczenia.

Aby obliczyć zastosowaną opłatę za tłumaczenie, zapoznaj się z cennikiem usługi Azure AI Translator.

Cennik tłumaczenia wielu języków docelowych

Należy pamiętać, że usługa tłumaczenia mowy działa w czasie rzeczywistym, a wyniki pośredniej mowy są tłumaczone na generowanie wyników tłumaczenia pośredniego. W związku z tym rzeczywista ilość tłumaczenia jest większa niż tokeny wejściowego dźwięku. Opłaty są naliczane za transkrypcję mowy na tekst i tłumaczenie tekstu dla każdego języka docelowego.

Załóżmy na przykład, że chcesz tłumaczyć tekst z jednogodzinnego pliku audio do trzech języków docelowych. Jeśli początkowa transkrypcja mowy na tekst zawiera 10 000 znaków, może zostać naliczona opłata w wysokości 2,80 USD.

Ostrzeżenie

Ceny w tym przykładzie są przeznaczone tylko do celów ilustracyjnych. Zapoznaj się z cennikiem usługi Azure AI Speech i cennikiem usługi Azure AI Translator, aby uzyskać najbardziej aktualne informacje o cenach.

Poprzednia przykładowa cena 2,80 USD została obliczona przez połączenie mowy z transkrypcją tekstu i kosztami tłumaczenia tekstu. Poniżej przedstawiono sposób wykonywania obliczeń:

  • Cena cennika tłumaczenia mowy wynosi 2,50 USD za godzinę, co obejmuje do 2 języków docelowych. Cena jest używana jako przykład sposobu obliczania kosztów. Aby uzyskać najbardziej aktualne informacje o cenach, zobacz Pay as You Go>Speech Translation Standard (Standardowa tłumaczenia>mowy w usłudze Azure AI) w tabeli cenowej usługi Azure AI Speech.
  • W tym przykładzie koszt tłumaczenia trzeciego języka wynosi 30 centów. Cena cennika tłumaczenia wynosi 10 USD za milion znaków. Ponieważ plik audio zawiera 10 000 znaków, koszt tłumaczenia wynosi $10 * 10,000 / 1,000,000 * 3 = $0.3. Liczba "3" w tym równaniu reprezentuje współczynnik wagi ruchu pośredniego, który może się różnić w zależności od języków. Cena jest używana jako przykład sposobu obliczania kosztów. Zobacz Tłumaczenie tekstu w warstwie Standardowa z płatnością zgodnie>z rzeczywistym użyciem> w tabeli cenowej usługi Azure AI Translator, aby uzyskać najbardziej aktualne informacje o cenach.

Rozpocznij

W pierwszym kroku wypróbuj przewodnik Szybki start dotyczący tłumaczenia mowy. Usługa tłumaczenia mowy jest dostępna za pośrednictwem zestawu SPEECH SDK i interfejsu wiersza polecenia usługi Mowa.

W usłudze GitHub znajdziesz mowę zestawu Speech SDK do tekstu i tłumaczenia . Te przykłady obejmują typowe scenariusze, takie jak odczytywanie dźwięku z pliku lub strumienia, ciągłe i jednosstrzałowe rozpoznawanie i tłumaczenie oraz praca z modelami niestandardowymi.

Następne kroki