Rozpocznij pracę z mową na platformie Azure

3 min

Platforma Microsoft Azure oferuje zarówno funkcje rozpoznawania mowy, jak i syntezy mowy za pośrednictwem usługi Azure AI Speech , która obejmuje następujące interfejsy programowania aplikacji (API):

Interfejs API zamiany mowy na tekst
Interfejs API zamiany tekstu na mowę

Zasoby platformy Azure dla usługi Azure AI Speech

Aby korzystać z usługi Azure AI Speech w aplikacji, musisz utworzyć odpowiedni zasób w ramach subskrypcji platformy Azure. Możesz utworzyć jeden z następujących typów zasobów:

Zasób usługi Mowa — wybierz ten typ zasobu, jeśli planujesz używać usługi Azure AI Speech lub chcesz zarządzać dostępem i rozliczeniami dla zasobu niezależnie od innych usług.
Zasób usług AI platformy Azure — wybierz ten typ zasobu, jeśli planujesz używać usługi Azure AI Speech w połączeniu z innymi usługami azure AI i chcesz zarządzać dostępem i rozliczeniami dla tych usług.

Interfejs API zamiany mowy na tekst

Za pomocą interfejsu API zamiany mowy na sztuczną inteligencję platformy Azure możesz wykonywać transkrypcję w czasie rzeczywistym lub wsadową transkrypcję dźwięku w formacie tekstowym. Źródłem audio transkrypcji może być strumień audio w czasie rzeczywistym z mikrofonu lub pliku audio.

Model, który jest używany przez interfejs API zamiany mowy na tekst, jest oparty na modelu języka uniwersalnego, który został wytrenowany przez firmę Microsoft. Dane modelu są własnością firmy Microsoft i wdrażane na platformie Microsoft Azure. Model jest zoptymalizowany pod kątem dwóch scenariuszy, konwersacji i dyktowania. Możesz również tworzyć i trenować własne modele niestandardowe, w tym akustyki, języka i wymowy, jeśli wstępnie utworzone modele firmy Microsoft nie zapewniają potrzebnych informacji.

Transkrypcja w czasie rzeczywistym

Zamiana mowy w czasie rzeczywistym na tekst umożliwia transkrypcję tekstu w strumieniach audio. Transkrypcja w czasie rzeczywistym umożliwia prezentacje, pokazy lub inny scenariusz, w którym mówi dana osoba.

Aby transkrypcja w czasie rzeczywistym działała, aplikacja musi nasłuchiwać przychodzącego dźwięku z mikrofonu lub innego źródła danych wejściowych audio, takich jak plik audio. Kod aplikacji przesyła strumieniowo dźwięk do usługi, co zwraca transkrypowany tekst.

Transkrypcja wsadowa

Nie wszystkie scenariusze zamiany mowy na tekst są w czasie rzeczywistym. Nagrania audio mogą być przechowywane w udziale plików, serwerze zdalnym, a nawet w usłudze Azure Storage. Możesz wskazać pliki audio z identyfikatorem URI sygnatury dostępu współdzielonego (SAS) i asynchronicznie odbierać wyniki transkrypcji.

Transkrypcja wsadowa powinna być uruchamiana w sposób asynchroniczny, ponieważ zadania wsadowe są zaplanowane na podstawie najlepszego nakładu pracy. Zwykle zadanie rozpocznie wykonywanie w ciągu kilku minut od żądania, ale nie ma oszacowania, kiedy zadanie zmieni się w stan uruchomienia.

Interfejs API zamiany tekstu na mowę

Interfejs API zamiany tekstu na mowę umożliwia konwertowanie danych wejściowych tekstu na mowę słyszalną, którą można odtwarzać bezpośrednio za pośrednictwem głośnika komputera lub zapisywać w pliku audio.

Głosy syntezy mowy

Korzystając z interfejsu API zamiany tekstu na mowę, możesz określić głos, który ma być używany do wokalizacji tekstu. Ta funkcja zapewnia elastyczność personalizacji rozwiązania syntezy mowy i nadania mu określonego znaku.

Usługa obejmuje wiele wstępnie zdefiniowanych głosów z obsługą wielu języków i wymowy regionalnej, w tym neuronowych głosów, które wykorzystują sieci neuronowe do przezwyciężenia typowych ograniczeń syntezy mowy w odniesieniu do intonacji, co powoduje bardziej naturalny głos brzmiący. Możesz również opracowywać niestandardowe głosy i używać ich za pomocą interfejsu API zamiany tekstu na mowę

Obsługiwane języki

Interfejsy API zamiany mowy na tekst i tekst na mowę obsługują różne języki. Skorzystaj z poniższych linków, aby znaleźć szczegółowe informacje o obsługiwanych językach:

Zamiana mowy na języki tekstowe.
Zamiana tekstu na języki mowy.

Kontynuuj