Typy usług interfejsu API mowy

Artykuł
06/01/2023

Za pomocą usługi Rozpoznawanie mowy w usługach Azure Cognitive Services można wykonywać przekształcenia języka mówionego, w tym zamianę zamiany mowy na tekst, zamianę tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.

Uwaga

Użyj usługi Azure Cognitive Service for Language , jeśli chcesz zebrać szczegółowe informacje na temat terminów lub fraz lub uzyskać szczegółową analizę kontekstową języka mówionego lub napisanego.

Usługi

Zamiana mowy na tekst może konwertować strumienie audio na tekst w czasie rzeczywistym lub w partii.
Zamiana tekstu na mowę umożliwia aplikacjom konwertowanie tekstu na mowę podobną do człowieka.
Tłumaczenie mowy zapewnia tłumaczenie mowy na mowę i zamianę mowy na tekst strumieni audio.

Jak wybrać usługę mowy

Ten wykres blokowy może pomóc w wyborze usługi rozpoznawania mowy, która odpowiada Twoim potrzebom:

Diagram przedstawiający sposób wybierania usługi mowy.

Po lewej stronie diagramu przedstawiono procesy audio-to-audio lub audio-to-text.

Zamiana mowy na tekst służy do konwertowania mowy ze źródła audio na format tekstu.
Zamiana mowy na mowę służy do tłumaczenia mowy w jednym języku na mowę w innym języku.

Po prawej stronie diagramu przedstawiono procesy tekstowe do audio.

Zamiana tekstu na mowę służy do generowania dźwięku mówionego ze źródła tekstu.

Typowe przypadki użycia

Poniższa tabela zawiera zalecenia dotyczące usług dla niektórych typowych przypadków użycia.

Przypadek użycia	Usługa do użycia
Podaj napisy dla nagranych lub wideo na żywo	Zamiana mowy na tekst
Tworzenie transkrypcji rozmowy telefonicznej lub spotkania	Zamiana mowy na tekst
Implementowanie zautomatyzowanego dyktowania notatek	Zamiana mowy na tekst
Określanie zamierzonych danych wejściowych użytkownika do dalszego przetwarzania	Zamiana mowy na tekst
Generowanie odpowiedzi mówionych na dane wejściowe użytkownika	Zamiana tekstu na mowę
Tworzenie menu głosowych dla systemów telefonicznych	Zamiana tekstu na mowę
Odczytywanie wiadomości e-mail lub wiadomości SMS na głos w scenariuszach bez rąk	Zamiana tekstu na mowę
Ogłoszenia emisji w miejscach publicznych, takich jak stacje kolejowe lub lotniska	Zamiana tekstu na mowę
Tworzenie napisów w czasie rzeczywistym dla mowy lub jednoczesnego dwukierunkowego tłumaczenia konwersacji mówionej	Zamiana mowy na tekst

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Kruti Mehta | Starszy inżynier Fast-Track platformy Azure
Oscar Shimabukuro | Starszy architekt rozwiązań w chmurze

Inni współautorzy:

Mick Alberts | Składnik zapisywania technicznego
Ashish Chahuan | Starszy architekt rozwiązań w chmurze
Brandon Cowen | Starszy architekt rozwiązań w chmurze
Manjit Singh | Inżynier oprogramowania
Christina Skarpathiotaki | Starszy architekt rozwiązań w chmurze
Nathan Widdup | Starszy inżynier Fast-Track platformy Azure

Aby wyświetlić niepublikacyjne profile LinkedIn, zaloguj się do serwisu LinkedIn.

Typy usług interfejsu API mowy

Usługi

Jak wybrać usługę mowy

Typowe przypadki użycia

Współautorzy

Następne kroki

Opinia

Opinia

Dodatkowe zasoby

Typy usług interfejsu API mowy

Usługi

Jak wybrać usługę mowy

Typowe przypadki użycia

Współautorzy

Następne kroki

Powiązane zasoby

Opinia

Opinia

Dodatkowe zasoby