Migrowanie kodu z interfejsu Long Audio API do interfejsu API syntezy usługi Batch

Artykuł
04/04/2024

Interfejs API syntezy usługi Batch zapewnia asynchroniczną syntezę długiego tekstu na mowę. W tym artykule opisano zalety uaktualniania interfejsu LONG Audio API do interfejsu API syntezy usługi Batch oraz szczegółowe informacje o tym, jak to zrobić.

Ważne

Interfejs API syntezy usługi Batch jest ogólnie dostępny. Long Audio API zostanie wycofany 1 kwietnia 2027 r.

Ścieżka podstawowa i wersja

Zaktualizuj punkt końcowy z https://YourSpeechRegion.customvoice.api.speech.microsoft.com do https://YourSpeechRegion.api.cognitive.microsoft.com lub zamiast tego możesz użyć domeny niestandardowej: https://{customDomainName}.cognitiveservices.azure.com/.

Zaktualizuj ścieżkę podstawową w kodzie z /texttospeech/v3.0/longaudiosynthesis do /texttospeech/batchsyntheses.

Zaktualizuj wersję ze ścieżki podstawowej do ciągu /texttospeech/v3.0/longaudiosynthesis zapytania na ?api-version=2024-04-01.

Aby na przykład wyświetlić listę zadań syntezy dla zasobu usługi Mowa w eastus regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 zamiast https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regiony i punkty końcowe

Interfejs API syntezy usługi Batch jest dostępny w większej regionach usługi Mowa.

Długi interfejs API audio jest ograniczony do następujących regionów:

Region (Region)	Punkt końcowy
Australia Wschodnia	`https://australiaeast.customvoice.api.speech.microsoft.com`
Wschodnie stany USA	`https://eastus.customvoice.api.speech.microsoft.com`
Indie Środkowe	`https://centralindia.customvoice.api.speech.microsoft.com`
South Central US	`https://southcentralus.customvoice.api.speech.microsoft.com`
Southeast Asia	`https://southeastasia.customvoice.api.speech.microsoft.com`
Południowe Zjednoczone Królestwo	`https://uksouth.customvoice.api.speech.microsoft.com`
West Europe	`https://westeurope.customvoice.api.speech.microsoft.com`

Lista głosów

Interfejs API syntezy usługi Batch obsługuje cały tekst na głosy i style mowy.

Długi interfejs API audio jest ograniczony do zestawu głosów zwracanych przez żądanie GET do https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Wprowadzanie tekstu

Dane wejściowe tekstu syntezy wsadowej są wysyłane w ładunku JSON do 2 megabajtów.

Długie dane wejściowe tekstu interfejsu API audio są przekazywane z pliku spełniającego następujące wymagania:

Jeden plik w postaci zwykłego tekstu (.txt) lub tekstu SSML (.txt) zakodowany jako UTF-8 z znacznikiem kolejności bajtów (BOM). Nie używaj skompresowanych plików, takich jak ZIP. Jeśli masz więcej niż jeden plik wejściowy, musisz przesłać wiele żądań.
Zawiera więcej niż 400 znaków dla zwykłego tekstu lub 400 znaków rozliczanych dla tekstu SSML i mniej niż 10 000 akapitów. W przypadku zwykłego tekstu każdy akapit jest oddzielony nowym wierszem. W przypadku tekstu SSML każdy fragment SSML jest traktowany jako akapit. Oddziel fragmenty SSML według różnych akapitów.

Za pomocą interfejsu API syntezy usługi Batch można użyć dowolnego z obsługiwanych elementów SSML, w tym audioelementów , mstts:backgroundaudioi lexicon . Długi interfejs API audio nie obsługuje audioelementów , mstts:backgroundaudioi lexicon .

Formaty danych wyjściowych audio

Interfejs API syntezy usługi Batch obsługuje wszystkie formaty danych wyjściowych mowy na mowę.

Interfejs Long Audio API jest ograniczony do następującego zestawu formatów danych wyjściowych audio. Częstotliwość próbkowania długich głosów audio wynosi 24kHz, a nie 48kHz. Inne współczynniki próbek można uzyskać za pośrednictwem upsampling lub downsampling podczas synchronizowania.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Pobieranie wyników

W przypadku interfejsu API syntezy wsadowej użyj adresu URL z outputs.result właściwości odpowiedzi syntezy wsadowej HTTP GET. Wyniki znajdują się w pliku ZIP zawierającym dźwięk (na przykład 0001.wav), podsumowanie i szczegóły debugowania.

Długie dane wejściowe i wyniki interfejsu API audio są zwracane za pośrednictwem dwóch oddzielnych adresów URL zawartości, jak pokazano w poniższym przykładzie. Element z elementem "kind": "LongAudioSynthesisScript" to przesłany skrypt wejściowy. Drugi z elementem "kind": "LongAudioSynthesisResult" jest wynikiem tego żądania. Oba pliki ZIP można pobrać z adresu URL we właściwości links.contentUrl .

Oczyszczanie zasobów

Interfejs API syntezy usługi Batch obsługuje maksymalnie 300 zadań syntezy wsadowej, które nie mają stanu "Powodzenie" lub "Niepowodzenie". Usługa rozpoznawania mowy przechowuje każdą historię syntezy przez maksymalnie 31 dni lub czas trwania właściwości żądania timeToLiveInHours , w zależności od tego, co nastąpi wcześniej. Data i godzina automatycznego usuwania (w przypadku zadań syntezy ze stanem "Powodzenie" lub "Niepowodzenie") jest równa lastActionDateTime + timeToLiveInHours właściwościom.

Długi interfejs API audio jest ograniczony do 20 000 żądań dla każdego konta subskrypcji platformy Azure. Usługa rozpoznawania mowy nie usuwa automatycznie historii zadań. Przed utworzeniem nowych żądań, które w przeciwnym razie przekroczą limit, musisz usunąć poprzednią historię uruchamiania zadania.