Typy usług interfejsu API mowy
Za pomocą usługi Rozpoznawanie mowy w usługach Azure Cognitive Services można wykonywać przekształcenia języka mówionego, w tym zamianę zamiany mowy na tekst, zamianę tekstu na mowę, tłumaczenie mowy i rozpoznawanie osoby mówiącej.
Uwaga
Użyj usługi Azure Cognitive Service for Language , jeśli chcesz zebrać szczegółowe informacje na temat terminów lub fraz lub uzyskać szczegółową analizę kontekstową języka mówionego lub napisanego.
Usługi
- Zamiana mowy na tekst może konwertować strumienie audio na tekst w czasie rzeczywistym lub w partii.
- Zamiana tekstu na mowę umożliwia aplikacjom konwertowanie tekstu na mowę podobną do człowieka.
- Tłumaczenie mowy zapewnia tłumaczenie mowy na mowę i zamianę mowy na tekst strumieni audio.
Jak wybrać usługę mowy
Ten wykres blokowy może pomóc w wyborze usługi rozpoznawania mowy, która odpowiada Twoim potrzebom:
Po lewej stronie diagramu przedstawiono procesy audio-to-audio lub audio-to-text.
- Zamiana mowy na tekst służy do konwertowania mowy ze źródła audio na format tekstu.
- Zamiana mowy na mowę służy do tłumaczenia mowy w jednym języku na mowę w innym języku.
Po prawej stronie diagramu przedstawiono procesy tekstowe do audio.
- Zamiana tekstu na mowę służy do generowania dźwięku mówionego ze źródła tekstu.
Typowe przypadki użycia
Poniższa tabela zawiera zalecenia dotyczące usług dla niektórych typowych przypadków użycia.
Przypadek użycia | Usługa do użycia |
---|---|
Podaj napisy dla nagranych lub wideo na żywo | Zamiana mowy na tekst |
Tworzenie transkrypcji rozmowy telefonicznej lub spotkania | Zamiana mowy na tekst |
Implementowanie zautomatyzowanego dyktowania notatek | Zamiana mowy na tekst |
Określanie zamierzonych danych wejściowych użytkownika do dalszego przetwarzania | Zamiana mowy na tekst |
Generowanie odpowiedzi mówionych na dane wejściowe użytkownika | Zamiana tekstu na mowę |
Tworzenie menu głosowych dla systemów telefonicznych | Zamiana tekstu na mowę |
Odczytywanie wiadomości e-mail lub wiadomości SMS na głos w scenariuszach bez rąk | Zamiana tekstu na mowę |
Ogłoszenia emisji w miejscach publicznych, takich jak stacje kolejowe lub lotniska | Zamiana tekstu na mowę |
Tworzenie napisów w czasie rzeczywistym dla mowy lub jednoczesnego dwukierunkowego tłumaczenia konwersacji mówionej | Zamiana mowy na tekst |
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Autorzy zabezpieczeń:
- Kruti Mehta | Starszy inżynier Fast-Track platformy Azure
- Oscar Shimabukuro | Starszy architekt rozwiązań w chmurze
Inni współautorzy:
- Mick Alberts | Składnik zapisywania technicznego
- Ashish Chahuan | Starszy architekt rozwiązań w chmurze
- Brandon Cowen | Starszy architekt rozwiązań w chmurze
- Manjit Singh | Inżynier oprogramowania
- Christina Skarpathiotaki | Starszy architekt rozwiązań w chmurze
- Nathan Widdup | Starszy inżynier Fast-Track platformy Azure
Aby wyświetlić niepublikacyjne profile LinkedIn, zaloguj się do serwisu LinkedIn.
Następne kroki
- Czym jest usługa rozpoznawania mowy?
- Wpis w blogu interfejsów API usługi Mowa
- Ścieżka szkoleniowa: Aprowizuj usługi Azure Cognitive Services i zarządzaj nimi
- Ścieżka szkoleniowa: przetwarzanie i tłumaczenie mowy za pomocą usług Azure Cognitive Speech Services
Powiązane zasoby
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla