Data pelatihan untuk suara saraf kustom

Artikel
01/22/2024

Saat Anda siap untuk membuat suara Teks ke ucapan kustom untuk aplikasi Anda, langkah pertama adalah mengumpulkan rekaman audio dan skrip terkait untuk mulai melatih model suara. Layanan Ucapan menggunakan data ini untuk membuat suara unik yang disetel agar sesuai dengan suara dalam rekaman. Setelah melatih suara, Anda dapat mulai mensintesis ucapan di aplikasi Anda.

Tip

Untuk membuat suara untuk penggunaan produksi, kami sarankan Anda menggunakan studio rekaman profesional dan bakat suara. Untuk informasi selengkapnya, lihat merekam sampel suara untuk membuat suara neural kustom.

Jenis data pelatihan

Himpunan data pelatihan suara menyertakan rekaman audio, dan file teks dengan transkripsi terkait. Setiap file audio harus berisi satu ucapan (satu kalimat atau belokan tunggal untuk sistem dialog), dan panjangnya kurang dari 15 detik.

Dalam beberapa kasus, Anda mungkin tidak memiliki himpunan data yang tepat yang siap. Anda dapat menguji pelatihan suara saraf kustom dengan file audio yang tersedia, pendek atau panjang, dengan atau tanpa transkrip.

Tabel ini mencantumkan jenis data dan bagaimana masing-masing digunakan untuk membuat model suara Teks ke ucapan kustom.

Jenis data	Deskripsi	Waktu menggunakan	Diperlukan pemrosesan ekstra
Ungkapan individu + transkrip yang cocok	Koleksi (.zip) file audio (.wav) sebagai ungkapan individu. Setiap file audio harus berdurasi 15 detik atau kurang, dipasangkan dengan transkrip yang diformat (.txt).	Rekaman profesional dengan transkrip yang cocok	Siap untuk pelatihan.
Audio panjang + transkrip	Koleksi (.zip) dari file audio panjang dan tidak tersegmentasi (.wav atau .mp3, lebih dari 20 detik, paling banyak 1000 file audio), dipasangkan dengan koleksi (.zip) transkrip yang berisi semua kata yang diucapkan.	Anda memiliki file audio dan transkrip yang cocok, tetapi tidak disegmentasikan ke dalam ucapan.	Segmentasi (menggunakan transkripsi batch). Transformasi format audio di mana pun diperlukan.
Audio saja (Pratinjau)	Koleksi (.zip) dari file audio (.wav atau .mp3, paling banyak 1000 file audio) tanpa transkrip.	Anda hanya memiliki file audio yang tersedia, tanpa transkrip.	Segmentasi + pembuatan transkrip (menggunakan transkripsi batch). Transformasi format audio di mana pun diperlukan.

File harus dikelompokkan menurut jenis ke dalam himpunan data dan diunggah sebagai file zip. Setiap himpunan data hanya dapat berisi satu jenis data.

Catatan

Jumlah maksimum himpunan data yang diizinkan untuk diimpor per langganan adalah 500 file zip untuk pengguna langganan standar (S0).

Ungkapan individu + transkrip yang cocok

Anda dapat menyiapkan rekaman ungkapan individu dan transkrip yang cocok dengan dua cara. Baik menulis skrip dan membacanya dengan pengisi suara atau menggunakan audio yang tersedia untuk umum dan transkrip ke teks. Jika Anda melakukan yang terakhir, edit disfluencies dari file audio, seperti "um" dan suara pengisi lainnya, gagap, kata-kata bergumam, atau salah pengucapan.

Untuk menghasilkan model suara yang baik, buat rekaman di ruangan yang tenang dengan mikrofon berkualitas tinggi. Volume yang konsisten, tingkat berbicara, pitch berbicara, dan perilaku bicara yang ekspresif sangat penting.

Untuk contoh format data, lihat sampel pelatihan yang ditetapkan di GitHub. Sampel set pelatihan mencakup skrip sampel dan audio terkait.

Data audio untuk Ucapan individu + transkrip yang cocok

Setiap file audio harus berisi satu ucapan (satu kalimat atau satu putaran sistem dialog), berdurasi kurang dari 15 detik. Semua berkas harus dalam bahasa lisan yang sama. Teks kustom multibahasa ke suara ucapan tidak didukung, kecuali untuk dua bahasa Tionghoa-Inggris. Setiap file audio harus memiliki nama file unik dengan ekstensi nama file .wav.

Ikuti panduan ini saat menyiapkan audio.

Properti	Nilai
Format file	RIFF (.wav), dikelompokkan ke dalam berkas .zip
Nama file	Karakter nama file didukung oleh OS Windows, dengan ekstensi .wav. Karakter `\ / : * ? " < > \\|` tidak diperbolehkan. Ini tidak dapat dimulai atau diakhiri dengan spasi, dan tidak dapat dimulai dengan titik. Tak boleh ada nama berkas duplikat.
Tingkat pengambilan sampel	Saat Anda membuat suara saraf kustom, diperlukan 24.000 Hz.
Format sampel	PCM, setidaknya 16-bit
Panjang audio	Lebih pendek dari 15 detik
Format arsip	.Zip
Ukuran arsip maksimum	2048 MB

Catatan

Tingkat pengambilan sampel default untuk suara saraf kustom adalah 24.000 Hz. File audio dengan laju pengambilan sampel lebih rendah dari 16.000 Hz akan ditolak. Jika file .zip berisi .wav dengan laju sampel yang berbeda, hanya yang sama dengan atau lebih tinggi dari 16.000 Hz yang akan diimpor. File audio Anda dengan laju pengambilan sampel lebih tinggi dari 16.000 Hz dan lebih rendah dari 24.000 Hz akan diambil sampelnya hingga 24.000 Hz untuk melatih suara neural. Disarankan agar Anda harus menggunakan laju sampel 24.000 Hz untuk data pelatihan Anda.

Data transkripsi untuk ucapan Individu + transkrip yang cocok

File transkripsi adalah file teks biasa. Gunakan panduan ini untuk menyiapkan transkripsi Anda.

Properti	Nilai
Format file	Teks biasa (.txt)
Format pengodean	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, atau UTF-16-BE. Untuk pengodean zh-CN, ANSI dan ASCII tidak didukung.
# ungkapan per baris	Satu -Setiap baris file transkripsi harus berisi nama salah satu file audio, diikuti dengan transkripsi yang sesuai. Anda harus menggunakan tab (\t) untuk memisahkan nama file dan transkripsi.
Ukuran file maksimal	2048 MB

Berikut adalah contoh bagaimana transkrip diatur ucapan dengan ucapan dalam satu file .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Penting bahwa transkrip adalah transkripsi akurat 100% dari audio yang sesuai. Kesalahan dalam transkrip memperkenalkan kehilangan kualitas selama pelatihan.

Audio panjang + transkrip (Pratinjau)

Catatan

Untuk audio panjang + transkrip (Pratinjau), hanya bahasa-bahasa ini yang didukung: Tionghoa (Mandarin, Sederhana), Inggris (India), Inggris (Inggris), Inggris (Amerika Serikat), Prancis (Prancis), Jerman (Jerman), Italia (Italia), Jepang (Jepang), Portugis (Brasil), dan Spanyol (Meksiko).

Dalam beberapa kasus, Anda mungkin tidak memiliki audio tersegmentasi yang tersedia. Speech Studio dapat membantu Anda mensegmentasi file audio panjang dan membuat transkripsi. Layanan segmentasi audio panjang menggunakan fitur API Transkripsi Batch dari ucapan ke teks.

Selama pemrosesan segmentasi, file audio Anda dan transkrip juga dikirim ke layanan ucapan kustom untuk memperbaiki model pengenalan sehingga akurasi dapat ditingkatkan untuk data Anda. Tidak ada data yang disimpan selama proses ini. Setelah segmentasi selesai, hanya ucapan yang tersegmentasi dan transkrip pemetaan mereka akan disimpan untuk pengunduhan dan pelatihan Anda.

Catatan

Layanan ini akan dikenakan biaya terhadap penggunaan langganan ucapan ke teks Anda. Layanan segmentasi audio panjang hanya didukung dengan sumber daya Ucapan standar (S0).

Data audio untuk Audio panjang + transkrip

Ikuti panduan ini saat menyiapkan audio untuk segmentasi.

Properti	Nilai
Format file	RIFF (.wav) atau .mp3, dikelompokkan ke dalam file .zip
Nama file	Karakter nama file didukung oleh OS Windows, dengan ekstensi .wav. Karakter `\ / : * ? " < > \\|` tidak diperbolehkan. Ini tidak dapat dimulai atau diakhiri dengan spasi, dan tidak dapat dimulai dengan titik. Tak boleh ada nama berkas duplikat.
Tingkat pengambilan sampel	Saat Anda membuat suara saraf kustom, diperlukan 24.000 Hz.
Format sampel	RIFF(.wav): PCM, setidaknya 16-bit. mp3: Setidaknya laju bit 256 KBps.
Panjang audio	Lebih dari 20 detik
Format arsip	.Zip
Ukuran arsip maksimum	2048 MB, paling banyak 1000 file audio disertakan

Catatan

Tingkat pengambilan sampel default untuk suara saraf kustom adalah 24.000 Hz. File audio dengan laju pengambilan sampel lebih rendah dari 16.000 Hz akan ditolak. File audio Anda dengan laju pengambilan sampel lebih tinggi dari 16.000 Hz dan lebih rendah dari 24.000 Hz akan diambil sampelnya hingga 24.000 Hz untuk melatih suara neural. Disarankan agar Anda harus menggunakan laju sampel 24.000 Hz untuk data pelatihan Anda.

Semua file audio harus dikelompokkan ke dalam file zip. Tidak masalah untuk memasukkan file .wav dan file .mp3 ke dalam file zip yang sama. Misalnya, Anda dapat mengunggah file audio 45 detik bernama 'kingstory.wav' dan file audio panjang 200 detik bernama 'queenstory.mp3' dalam file zip yang sama. Semua .mp3 akan diubah menjadi format .wav setelah diproses.

Data transkripsi untuk Audio panjang + transkrip

Transkrip harus disiapkan dengan spesifikasi yang tercantum dalam tabel ini. Setiap file audio harus dicocokkan dengan transkrip.

Properti	Nilai
Format file	Teks biasa (.txt), dikelompokkan ke dalam .zip
Nama file	Gunakan nama yang sama dengan file audio yang cocok
Format pengodean	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, atau UTF-16-BE. Untuk pengodean zh-CN, ANSI dan ASCII tidak didukung.
# ungkapan per baris	Tidak ada batasan
Ukuran file maksimal	2048 MB

Semua file transkrip dalam tipe data ini harus dikelompokkan ke dalam file zip. Misalnya, Anda dapat mengunggah file audio 45 detik bernama 'kingstory.wav' dan file audio panjang 200 detik bernama 'queenstory.mp3' dalam file zip yang sama. Anda perlu mengunggah file zip lain yang berisi dua transkrip yang sesuai--satu bernama 'kingstory.txt' dan yang lain bernama 'queenstory.txt'. Dalam setiap file teks biasa, Anda menyediakan transkripsi lengkap yang benar untuk audio yang cocok.

Setelah himpunan data Anda berhasil diunggah, kami akan membantu Anda menyegmentasi file audio menjadi ucapan berdasarkan transkrip yang disediakan. Anda dapat memeriksa ucapan tersegmentasi dan transkrip yang cocok dengan mengunduh himpunan data. ID unik ditetapkan ke ucapan tersegmentasi secara otomatis. Penting bagi Anda untuk memastikan transkrip yang Anda berikan akurat 100%. Kesalahan dalam transkrip dapat mengurangi akurasi selama segmentasi audio dan lebih lanjut memperkenalkan kehilangan kualitas dalam fase pelatihan yang datang kemudian.

Audio saja (Pratinjau)

Catatan

Untuk Audio saja (Pratinjau), hanya bahasa-bahasa ini yang didukung: Mandarin (Mandarin, Sederhana), Inggris (India), Inggris (Inggris), Inggris (Amerika Serikat), Prancis (Prancis), Jerman (Jerman), Italia (Italia), Jepang (Jepang), Portugis (Brasil), dan Spanyol (Meksiko).

Jika Anda tidak memiliki transkripsi untuk rekaman audio Anda, gunakan opsi Hanya audio untuk mengunggah data Anda. Sistem kami dapat membantu Anda mensegmentasi dan mentranskripsikan file audio Anda. Perlu diingat, layanan ini dikenakan biaya terhadap penggunaan langganan ucapan ke teks Anda.

Ikuti panduan ini saat menyiapkan audio.

Catatan

Layanan segmentasi audio panjang akan memanfaatkan fitur transkripsi batch ucapan ke teks, yang hanya mendukung pengguna langganan standar (S0).

Properti	Nilai
Format file	RIFF (.wav) atau .mp3, dikelompokkan ke dalam file .zip
Nama file	Karakter nama file didukung oleh OS Windows, dengan ekstensi .wav. Karakter `\ / : * ? " < > \\|` tidak diperbolehkan. Ini tidak dapat dimulai atau diakhiri dengan spasi, dan tidak dapat dimulai dengan titik. Tak boleh ada nama berkas duplikat.
Tingkat pengambilan sampel	Saat Anda membuat suara saraf kustom, diperlukan 24.000 Hz.
Format sampel	RIFF (.wav): PCM, setidaknya 16-bit mp3: Setidaknya laju bit 256 KBps.
Panjang audio	Tidak ada batasan
Format arsip	.Zip
Ukuran arsip maksimum	2048 MB, paling banyak 1000 file audio disertakan

Catatan

Tingkat pengambilan sampel default untuk suara saraf kustom adalah 24.000 Hz. File audio Anda dengan laju pengambilan sampel lebih tinggi dari 16.000 Hz dan lebih rendah dari 24.000 Hz akan diambil sampelnya hingga 24.000 Hz untuk melatih suara neural. Disarankan agar Anda harus menggunakan laju sampel 24.000 Hz untuk data pelatihan Anda.

Semua file audio harus dikelompokkan ke dalam file zip. Setelah himpunan data Anda berhasil diunggah, layanan Ucapan membantu Anda mensegmentasi file audio menjadi ucapan berdasarkan layanan transkripsi batch ucapan kami. ID unik ditetapkan ke ucapan tersegmentasi secara otomatis. Transkrip yang cocok dihasilkan melalui pengenalan ucapan. Semua .mp3 akan diubah menjadi format .wav setelah diproses. Anda dapat memeriksa ucapan tersegmentasi dan transkrip yang cocok dengan mengunduh himpunan data.

Share via

Data pelatihan untuk suara saraf kustom

Jenis data pelatihan

Ungkapan individu + transkrip yang cocok

Data audio untuk Ucapan individu + transkrip yang cocok

Data transkripsi untuk ucapan Individu + transkrip yang cocok

Audio panjang + transkrip (Pratinjau)

Data audio untuk Audio panjang + transkrip

Data transkripsi untuk Audio panjang + transkrip

Audio saja (Pratinjau)

Langkah berikutnya

Sumber Daya Tambahan: