Apa itu suara neural kustom?

Artikel
01/18/2024

Suara neural kustom (CNV) adalah fitur teks ke ucapan yang memungkinkan Anda membuat suara sintetis yang unik dan disesuaikan untuk aplikasi Anda. Dengan suara neural kustom, Anda dapat membangun suara yang sangat terdengar alami untuk merek atau karakter Anda dengan menyediakan sampel ucapan manusia sebagai data pelatihan.

Penting

Akses suara neural kustom terbatas berdasarkan kriteria kelayakan dan penggunaan. Minta akses pada formulir intake.

Akses ke Suara neural kustom (CNV) Lite tersedia bagi siapa saja untuk demo dan mengevaluasi CNV sebelum berinvestasi dalam rekaman profesional untuk membuat suara berkualitas lebih tinggi.

Di luar kotak, teks ke ucapan dapat digunakan dengan suara neural bawaan untuk setiap bahasa yang didukung. Suara saraf bawaan berfungsi dengan baik di sebagian besar skenario teks ke ucapan jika suara unik tidak diperlukan.

Suara saraf kustom didasarkan pada teks saraf ke teknologi ucapan dan model universal multibahasa, multi-pembicara. Anda dapat membuat suara sintetis yang kaya akan gaya berbicara, atau bahasa lintas bahasa yang dapat disesuaikan. Suara suara neural kustom yang realistis dan terdengar alami dapat mewakili merek, memperorangkan mesin, dan memungkinkan pengguna untuk berinteraksi dengan aplikasi secara percakapan. Lihat bahasa yang didukung untuk suara neural kustom.

Bagaimana cara kerjanya?

Untuk membuat suara neural kustom, gunakan Speech Studio untuk mengunggah rekaman audio dan skrip yang sesuai, melatih model, dan menyebarkan suara ke titik akhir kustom.

Tip

Coba Suara neural kustom (CNV) Lite untuk demo dan evaluasi CNV sebelum berinvestasi dalam rekaman profesional untuk membuat suara berkualitas lebih tinggi.

Membuat suara neural kustom yang bagus memerlukan kontrol kualitas yang cermat di setiap langkah, mulai dari desain suara dan penyiapan data, hingga penyebaran model suara ke sistem Anda.

Sebelum Anda memulai di Speech Studio, berikut adalah beberapa pertimbangan:

Rancang persona suara yang mewakili merek Anda dengan menggunakan dokumen singkat persona. Dokumen ini menentukan elemen seperti fitur suara, dan karakter di balik suara. Hal ini membantu memandu proses pembuatan model suara neural kustom, termasuk menentukan skrip, memilih pengisi suara, pelatihan, dan penyetelan suara Anda.
Pilih skrip rekaman untuk mewakili skenario pengguna untuk suara Anda. Misalnya, Anda dapat menggunakan frasa dari percakapan bot sebagai skrip rekaman jika membuat bot layanan pelanggan. Sertakan berbagai jenis kalimat dalam skrip Anda, termasuk pernyataan, pertanyaan, dan seruan.

Berikut adalah gambaran umum langkah-langkah untuk membuat suara neural kustom di Speech Studio:

Buat proyek untuk berisi data, model suara, pengujian, dan titik akhir Anda. Setiap proyek khusus untuk negara/wilayah dan bahasa. Jika Anda akan membuat beberapa suara, disarankan agar Anda membuat proyek untuk setiap suara.
Menyiapkan bakat suara. Sebelum dapat melatih suara saraf, Anda harus mengirimkan rekaman pernyataan persetujuan bakat suara. Pernyataan bakat suara adalah rekaman bakat suara membaca pernyataan bahwa mereka menyetujui penggunaan data ucapan mereka untuk melatih model suara kustom.
Siapkan data pelatihan dalam format yang tepat. Sebaiknya ambil rekaman audio di studio rekaman berkualitas profesional untuk mencapai rasio sinyal-ke-kebisingan yang tinggi. Kualitas model suara sangat tergantung pada data pelatihan Anda. Volume yang konsisten, kecepatan berbicara, nada suara, dan konsistensi dalam tingkah laku ekspresif diperlukan.
Latih model suara Anda. Anda harus memilih setidaknya 300 ucapan untuk membuat suara neural kustom. Serangkaian pemeriksaan kualitas data dilakukan secara otomatis saat Anda mengunggahnya. Untuk membangun model suara berkualitas tinggi, Anda harus memperbaiki kesalahan yang ada dan mengirimkannya lagi.
Uji suara Anda. Siapkan skrip pengujian untuk model suara Anda yang mencakup berbagai kasus penggunaan untuk aplikasi. Sebaiknya gunakan skrip di dalam dan di luar himpunan data pelatihan, sehingga Anda dapat menguji kualitas secara lebih luas untuk konten yang berbeda.
Sebarkan dan gunakan model suara Anda di aplikasi Anda.

Anda dapat menyetel, menyesuaikan, dan menggunakan suara kustom Anda, sama seperti Anda akan menggunakan suara saraf bawaan. Konversi teks menjadi ucapan secara real time, atau hasilkan konten audio offline dengan input teks. Anda menggunakan REST API, Speech SDK, atau Speech Studio.

Tip

Anda juga dapat menggunakan Speech SDK dan REST API suara kustom untuk melatih suara neural kustom.

Lihat sampel kode di repositori Speech SDK di GitHub untuk melihat cara menggunakan suara saraf kustom di aplikasi Anda.

Gaya dan karakteristik model suara yang dilatih tergantung pada gaya dan kualitas rekaman dari pengisi suara yang digunakan untuk pelatihan. Namun, Anda dapat melakukan beberapa penyesuaian dengan menggunakan SSML (Speech Synthesis Markup Language) saat Anda membuat panggilan API ke model suara untuk menghasilkan ucapan sintetis. SSML adalah bahasa markup yang digunakan untuk berkomunikasi dengan layanan teks ke ucapan untuk mengonversi teks menjadi audio. Penyesuaian tersebut meliputi perubahan nada, laju, intonasi, dan koreksi pengucapan. Jika model suara dibuat dengan beberapa gaya, Anda juga dapat menggunakan SSML untuk mengganti gaya.

Urutan komponen

Suara saraf kustom terdiri dari tiga komponen utama: penganalisis teks, model akustik neural, dan vocoder saraf. Untuk menghasilkan ucapan sintetis alami dari teks, teks terlebih dahulu dimasukkan ke dalam penganalisis teks, yang memberikan output berupa urutan fonem. Fonem adalah satuan dasar bunyi yang membedakan satu kata dengan kata lain dalam bahasa tertentu. Urutan fonem mendefinisikan pengucapan kata-kata yang disediakan dalam teks.

Selanjutnya, urutan fonem masuk ke model akustik neural untuk memprediksi fitur akustik yang menentukan sinyal ucapan. Fitur akustik meliputi timbre, gaya berbicara, kecepatan, intonasi, dan pola penekanan. Terakhir, vocoder neural mengubah fitur akustik menjadi gelombang yang dapat didengar, sehingga menghasilkan suara sintetis.

Diagram alur yang menunjukkan komponen suara saraf kustom.

Model suara teks ke ucapan neural dilatih dengan menggunakan jaringan neural mendalam berdasarkan sampel rekaman suara manusia. Untuk informasi selengkapnya, lihat posting blog Microsoft ini. Untuk mempelajari selengkapnya tentang cara melatih vocoder neural, lihat posting blog Microsoft ini.

Migrasi ke Suara Neural Kustom

Jika Anda menggunakan versi lama suara kustom (yang dijadwalkan akan dihentikan pada Bulan Februari 2024), lihat Cara bermigrasi ke suara saraf kustom.

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Apa itu suara neural kustom?

Bagaimana cara kerjanya?

Urutan komponen

Migrasi ke Suara Neural Kustom

AI yang Bertanggung Jawab

Langkah berikutnya

Sumber Daya Tambahan: