Migrera kod från API för långt ljud till Batch-syntes-API

Artikel
04/04/2024

Batch-syntes-API:et tillhandahåller asynkron syntes av långformatstext till tal. Den här artikeln beskriver fördelarna med att uppgradera från Long Audio API till Batch synthesis API och information om hur du gör det.

Viktigt!

Batchsyntes-API är allmänt tillgängligt. Long Audio-API:et dras tillbaka den 1 april 2027.

Grundläggande sökväg och version

Uppdatera slutpunkten från https://YourSpeechRegion.customvoice.api.speech.microsoft.com till https://YourSpeechRegion.api.cognitive.microsoft.com eller så kan du använda anpassad domän i stället: https://{customDomainName}.cognitiveservices.azure.com/.

Uppdatera bassökvägen i koden från /texttospeech/v3.0/longaudiosynthesis till /texttospeech/batchsyntheses.

Uppdatera versionen från bassökvägen till frågesträngen /texttospeech/v3.0/longaudiosynthesis till ?api-version=2024-04-01.

Om du till exempel vill visa en lista över syntesjobb för din Speech-resurs i eastus regionen använder du https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 i stället https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesisför .

Regioner och slutpunkter

Batchsyntes-API är tillgängligt i fler Talregioner.

API:et för långt ljud är begränsat till följande regioner:

Region	Slutpunkt
Australien, östra	`https://australiaeast.customvoice.api.speech.microsoft.com`
USA, östra	`https://eastus.customvoice.api.speech.microsoft.com`
Indien, centrala	`https://centralindia.customvoice.api.speech.microsoft.com`
USA, södra centrala	`https://southcentralus.customvoice.api.speech.microsoft.com`
Sydostasien	`https://southeastasia.customvoice.api.speech.microsoft.com`
Storbritannien, södra	`https://uksouth.customvoice.api.speech.microsoft.com`
Europa, västra	`https://westeurope.customvoice.api.speech.microsoft.com`

Röstlista

Batch-syntes-API:et stöder alla text till talröster och formatmallar.

Api:et för långt ljud är begränsat till den uppsättning röster som returneras av en GET-begäran till https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Textindata

Textindata för batchsyntes skickas i en JSON-nyttolast på upp till 2 megabyte.

Textindata för Long Audio API laddas upp från en fil som uppfyller följande krav:

En oformaterad textfil (.txt) eller SSML-textfil (.txt) som kodas som UTF-8 med Byte Order Mark (BOM). Använd inte komprimerade filer som ZIP. Om du har fler än en indatafil måste du skicka flera begäranden.
Innehåller mer än 400 tecken för oformaterad text eller 400 fakturerbara tecken för SSML-text och mindre än 10 000 stycken. För oformaterad text avgränsas varje stycke med en ny rad. För SSML-text betraktas varje SSML-del som ett stycke. Avgränsa SSML-bitar med olika stycken.

Med Batch-syntes-API:et kan du använda något av de SSML-element som stöds, inklusive elementen audio, mstts:backgroundaudiooch lexicon . Det långa ljud-API:et stöder inte elementen audio, mstts:backgroundaudiooch lexicon .

Ljudutdataformat

Batch-syntes-API:et stöder alla text-till-tal-ljudutdataformat.

API:et för långt ljud är begränsat till följande uppsättning ljudutdataformat. Exempelfrekvensen för långa ljudröster är 24 kHz, inte 48 kHz. Andra exempelfrekvenser kan erhållas genom uppsampling eller nedsampling vid syntetiserande.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Få resultat

Med batchsyntes-API använder du URL:en från outputs.result egenskapen för HTTP GET-batchsyntessvaret. Resultatet finns i en ZIP-fil som innehåller ljud (till exempel 0001.wav), sammanfattning och felsökningsinformation.

Textindata och resultat för Long Audio API returneras via två separata innehålls-URL:er enligt följande exempel. Den med "kind": "LongAudioSynthesisScript" är indataskriptet som skickats. Den andra med "kind": "LongAudioSynthesisResult" är resultatet av den här begäran. Båda ZIP-filerna kan laddas ned från URL:en i deras links.contentUrl egenskap.

Rensa resurser

Batch synthesis API stöder upp till 300 batchsyntesjobb som inte har statusen "Lyckades" eller "Misslyckades". Speech-tjänsten behåller varje synteshistorik i upp till 31 dagar, eller varaktigheten för begärandeegenskapen timeToLiveInHours , beroende på vilket som inträffar tidigare. Datum och tid för automatisk borttagning (för syntesjobb med statusen "Lyckades" eller "Misslyckades") är lika lastActionDateTime + timeToLiveInHours med egenskaperna.

Api:et för långt ljud är begränsat till 20 000 begäranden för varje Azure-prenumerationskonto. Speech-tjänsten tar inte bort jobbhistoriken automatiskt. Du måste ta bort den tidigare jobbkörningshistoriken innan du gör nya begäranden som annars skulle överskrida gränsen.