Memigrasikan kode dari API Long Audio ke API sintesis Batch

Artikel
04/04/2024

API sintesis Batch menyediakan sintesis asinkron teks bentuk panjang ke ucapan. Artikel ini menjelaskan manfaat peningkatan dari API Long Audio ke API sintesis Batch, dan detail tentang cara melakukannya.

Penting

API sintesis batch umumnya tersedia. Long Audio API akan dihentikan pada 1 April 2027.

Jalur dan versi dasar

Perbarui titik akhir dari https://YourSpeechRegion.customvoice.api.speech.microsoft.com ke https://YourSpeechRegion.api.cognitive.microsoft.com atau Anda bisa menggunakan domain kustom sebagai gantinya: https://{customDomainName}.cognitiveservices.azure.com/.

Perbarui jalur dasar dalam kode Anda dari /texttospeech/v3.0/longaudiosynthesis ke /texttospeech/batchsyntheses.

Perbarui versi dari jalur dasar ke string /texttospeech/v3.0/longaudiosynthesis kueri ke ?api-version=2024-04-01.

Misalnya, untuk mencantumkan pekerjaan sintesis untuk sumber daya Ucapan Anda di wilayah tersebut eastus , gunakan https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 alih-alih https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Wilayah dan titik akhir

API sintesis batch tersedia di lebih banyak wilayah Ucapan.

LONG Audio API terbatas pada wilayah berikut:

Wilayah	Titik akhir
Australia Timur	`https://australiaeast.customvoice.api.speech.microsoft.com`
AS Timur	`https://eastus.customvoice.api.speech.microsoft.com`
India Tengah	`https://centralindia.customvoice.api.speech.microsoft.com`
US Tengah Selatan	`https://southcentralus.customvoice.api.speech.microsoft.com`
Asia Tenggara	`https://southeastasia.customvoice.api.speech.microsoft.com`
UK Selatan	`https://uksouth.customvoice.api.speech.microsoft.com`
Eropa Barat	`https://westeurope.customvoice.api.speech.microsoft.com`

Daftar suara

API sintesis batch mendukung semua teks ke suara dan gaya ucapan.

API Long Audio dibatasi pada sekumpulan suara yang dikembalikan oleh permintaan GET ke https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Input teks

Input teks sintesis batch dikirim dalam payload JSON hingga 2 megabyte.

Input teks API Long Audio diunggah dari file yang memenuhi persyaratan berikut:

Satu file teks biasa (.txt) atau teks SSML (.txt) yang dikodekan sebagai UTF-8 dengan Byte Order Mark (BOM). Jangan gunakan file terkompresi seperti ZIP. Jika Anda memiliki lebih dari satu file input, Anda harus mengirimkan beberapa permintaan.
Berisi lebih dari 400 karakter untuk teks biasa atau 400 karakter yang dapat ditagih untuk teks SSML, dan kurang dari 10.000 paragraf. Untuk teks biasa, setiap paragraf dipisahkan oleh baris baru. Untuk teks SSML, setiap bagian SSML dianggap sebagai paragraf. Pisahkan potongan SSML dengan paragraf yang berbeda.

Dengan API sintesis Batch, Anda dapat menggunakan salah satu elemen SSML yang didukung, termasuk audioelemen , , mstts:backgroundaudiodan lexicon . API audio panjang tidak mendukung audioelemen , , mstts:backgroundaudiodan lexicon .

Format output audio

API sintesis batch mendukung semua format output audio teks ke ucapan.

LONG Audio API terbatas pada set format output audio berikut. Laju sampel untuk suara audio panjang adalah 24kHz, bukan 48kHz. Laju sampel lainnya dapat diperoleh melalui upsampling atau downsampling saat mensintesis.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Mendapatkan hasil

Dengan API sintesis batch, gunakan URL dari outputs.result properti respons sintesis batch HTTP GET. Hasilnya ada dalam file ZIP yang berisi audio (seperti 0001.wav), ringkasan, dan detail debug.

Input dan hasil teks LONG Audio API dikembalikan melalui dua URL konten terpisah seperti yang ditunjukkan dalam contoh berikut. File pertama dengan "kind": "LongAudioSynthesisScript" adalah skrip input yang dikirimkan. File lainnya dengan "kind": "LongAudioSynthesisResult" adalah hasil dari permintaan ini. Kedua file ZIP dapat diunduh dari URL di properti mereka links.contentUrl .

Membersihkan sumber daya

API sintesis batch mendukung hingga 300 pekerjaan sintesis batch yang tidak memiliki status "Berhasil" atau "Gagal". Layanan Ucapan menyimpan setiap riwayat sintesis hingga 31 hari, atau durasi properti permintaan timeToLiveInHours , mana yang datang lebih cepat. Tanggal dan waktu penghapusan otomatis (untuk pekerjaan sintesis dengan status "Berhasil" atau "Gagal") sama dengan lastActionDateTime + timeToLiveInHours properti.

API Long Audio dibatasi hingga 20.000 permintaan untuk setiap akun langganan Azure. Layanan Ucapan tidak menghapus riwayat pekerjaan secara otomatis. Anda harus menghapus riwayat eksekusi pekerjaan sebelumnya sebelum membuat permintaan baru yang jika tidak akan melebihi batas.