Apa itu teks ke ucapan?

Dalam gambaran umum ini, Anda mempelajari tentang manfaat dan kemampuan fitur teks ke ucapan dari layanan Ucapan, yang merupakan bagian dari layanan Azure AI.

Teks ke ucapan memungkinkan aplikasi, alat, atau perangkat Anda untuk mengonversi teks menjadi manusia seperti ucapan yang disintesis. Kemampuan teks ke ucapan juga dikenal sebagai sintesis ucapan. Gunakan suara saraf bawaan seperti manusia di luar kotak, atau buat suara neural kustom yang unik untuk produk atau merek Anda. Untuk daftar lengkap suara, bahasa, dan lokal yang didukung, lihat Dukungan bahasa dan suara untuk layanan Ucapan.

Fitur inti

Teks ke ucapan menyertakan fitur berikut:

Fitur Ringkasan Demo
Suara neural bawaan (disebut Neural pada halaman harga) Suara siap pakai yang sangat alami. Buat akun Azure dan langganan layanan Ucapan, lalu gunakan Speech SDK atau kunjungi portal Studio Ucapan dan pilih suara neural bawaan untuk memulai. Periksa detail harganya. Periksa Galeri Suara dan tentukan suara yang tepat untuk kebutuhan bisnis Anda.
Suara neural kustom (disebut Neural Kustom pada halaman harga) Layanan mandiri yang mudah digunakan untuk menciptakan suara merek alami, dengan akses terbatas untuk penggunaan yang bertanggung jawab. Buat akun Azure dan langganan layanan Ucapan (dengan tingkat S0), dan terapkan untuk menggunakan fitur neural kustom. Setelah Anda diberikan akses, kunjungi portal Speech Studio dan pilih Suara kustom untuk memulai. Periksa detail harganya. Periksa sampel suara.

Selengkapnya tentang teks neural ke fitur ucapan

Teks ke ucapan menggunakan jaringan neural mendalam untuk membuat suara komputer hampir tidak dapat dibedakan dari rekaman orang. Dengan artikulasi kata yang jelas, teks neural ke ucapan secara signifikan mengurangi kelelahan mendengarkan ketika pengguna berinteraksi dengan sistem AI.

Pola tekanan dan intonasi dalam bahasa lisan disebut prosodi. Sistem teks ke ucapan tradisional memecah prosody menjadi analisis linguistik terpisah dan langkah-langkah prediksi akustik yang diatur oleh model independen. Itu dapat menghasilkan sintesis suara yang teredam dan berdengung.

Berikut adalah informasi selengkapnya tentang fitur teks saraf ke ucapan di layanan Ucapan, dan bagaimana mereka mengatasi batas sistem teks ke ucapan tradisional:

  • Sintesis ucapan real time: Gunakan Speech SDK atau REST API untuk mengonversi teks ke ucapan dengan menggunakan suara saraf bawaan atau suara saraf kustom.

  • Sintesis asinkron audio panjang: Gunakan API sintesis batch (Pratinjau) untuk secara asinkron mensintesis teks ke file ucapan lebih dari 10 menit (misalnya, buku audio atau kuliah). Tidak seperti sintesis yang dilakukan melalui Speech SDK atau Speech to text REST API, respons tidak dikembalikan secara real time. Harapannya adalah bahwa permintaan dikirim secara asinkron, respons disurvei, dan audio yang disintesis diunduh saat layanan menyediakannya.

  • Suara saraf bawaan: Kemampuan teks neural ke ucapan Microsoft menggunakan jaringan saraf dalam untuk mengatasi batas sintesis ucapan tradisional mengenai stres dan intonasi dalam bahasa lisan. Prediksi prosodi dan sintesis suara dilakukan secara bersamaan, yang menghasilkan output yang lebih lancar dan terdengar alami. Setiap model suara neural bawaan tersedia pada 24 kHz dan keakuratan tinggi 48 kHz. Anda dapat menggunakan suara neural untuk:

    • Menjadikan interaksi dengan chatbot dan asisten suara lebih alami dan menarik.
    • Mengubah teks digital seperti e-book menjadi buku audio.
    • Meningkatkan sistem navigasi dalam mobil.

    Untuk daftar lengkap suara neural platform, lihat Dukungan bahasa dan suara untuk layanan Ucapan.

  • Menyempurnakan output teks ke ucapan dengan SSML: Speech Synthesis Markup Language (SSML) adalah bahasa markup berbasis XML yang digunakan untuk menyesuaikan output teks ke ucapan. Dengan SSML, Anda dapat menyesuaikan pitch, menambahkan jeda, meningkatkan pengucapan, mengubah laju bicara, menyesuaikan volume, dan mengaitkan beberapa suara ke satu dokumen.

    Anda dapat menggunakan SSML untuk menentukan leksikon Anda sendiri atau beralih ke gaya berbicara yang berbeda. Dengan suara multibahasa, Anda juga dapat menyesuaikan bahasa yang diucapkan melalui SSML. Untuk menyempurnakan output suara untuk skenario Anda, lihat Meningkatkan sintesis dengan Bahasa Markup Sintesis Ucapan dan Sintesis Ucapan dengan alat Pembuatan Konten Audio.

  • Visemes: Visemes adalah pose kunci dalam ucapan yang diamati, termasuk posisi bibir, rahang, dan lidah saat menghasilkan fonem tertentu. Visemes memiliki korelasi yang kuat dengan suara dan fonem.

    Dengan menggunakan peristiwa viseme di Speech SDK, Anda dapat menghasilkan data animasi wajah. Data ini dapat digunakan untuk menganimasikan wajah dalam komunikasi membaca bibir, edukasi, hiburan, daln layanan pelanggan. Viseme saat ini hanya didukung untuk en-US (Bahasa Inggris AS) suara neural.

Catatan

Kami berencana untuk menghentikan suara tradisional/standar dan suara kustom non-neural pada 2024. Setelah itu, kami tidak akan lagi mendukungnya.

Jika aplikasi, alat, atau produk Anda menggunakan salah satu suara standar dan suara kustom, Anda harus bermigrasi ke versi neural. Untuk informasi selengkapnya, lihat Bermigrasi ke suara neural.

Mulai

Untuk mulai menggunakan teks ke ucapan, lihat mulai cepat. Teks ke ucapan tersedia melalui Speech SDK, REST API, dan Speech CLI.

Tip

Untuk mengonversi teks ke ucapan dengan pendekatan tanpa kode, coba alat Pembuatan Konten Audio di Speech Studio.

Kode Sampel

Kode sampel untuk teks ke ucapan tersedia di GitHub. Sampel ini mencakup konversi teks ke ucapan dalam bahasa pemrograman paling populer:

Suara neural kustom

Selain suara neural bawaan, Anda dapat membuat dan menyempurnakan suara neural kustom yang unik untuk produk atau merek Anda. Yang diperlukan untuk memulai adalah beberapa file audio dan transkripsi terkait. Untuk informasi selengkapnya, lihat Memulai dengan suara neural kustom.

Catatan harga

Karakter yang dapat ditagih

Saat Anda menggunakan fitur teks ke ucapan, Anda akan ditagih untuk setiap karakter yang dikonversi ke ucapan, termasuk tanda baca. Meskipun dokumen SSML itu sendiri tidak dapat ditagih, elemen opsional yang digunakan untuk menyesuaikan bagaimana teks dikonversi ke ucapan, seperti fonem dan nada, dihitung sebagai karakter yang dapat ditagih. Berikut adalah daftar apa yang dapat ditagihkan:

  • Teks yang diteruskan ke fitur teks ke ucapan di isi SSML permintaan
  • Semua markup dalam bidang teks isi permintaan dalam format SSML, kecuali untuk tag <speak> dan <voice>
  • Huruf, tanda baca, spasi, tab, markup, dan semua karakter spasi putih
  • Setiap titik kode didefinisikan dalam Unicode

Untuk informasi terperinci, lihat Harga layanan Ucapan.

Penting

Setiap karakter Bahasa Tionghoa dihitung sebagai dua karakter untuk penagihan, termasuk kanji yang digunakan dalam bahasa Jepang, hanja yang digunakan dalam bahasa Korea, atau hanzi yang digunakan dalam bahasa lain.

Pelatihan model dan waktu hosting untuk suara neural kustom

Pelatihan dan hosting suara neural kustom dihitung berdasarkan jam dan ditagih per detik. Untuk harga unit penagihan, lihat Harga layanan Ucapan.

Waktu pelatihan suara neural kustom (CNV) diukur dengan 'jam komputasi' (unit untuk mengukur waktu berjalan mesin). Biasanya, saat melatih model suara, dua tugas komputasi berjalan secara paralel. Jadi, jam komputasi yang dihitung lebih lama dari waktu pelatihan aktual. Rata-rata, dibutuhkan kurang dari satu jam komputasi untuk melatih suara CNV Lite; sementara untuk CNV Pro, biasanya dibutuhkan 20 hingga 40 jam komputasi untuk melatih suara gaya tunggal, dan sekitar 90 jam komputasi untuk melatih suara multi-gaya. Waktu pelatihan CNV ditagih dengan batas 96 jam komputasi. Jadi dalam kasus model suara dilatih dalam 98 jam komputasi, Anda hanya akan dikenakan biaya dengan 96 jam komputasi.

Hosting titik akhir suara neural kustom (CNV) diukur dengan waktu aktual (jam). Waktu hosting (jam) untuk setiap titik akhir dihitung pada 00:00 UTC setiap hari selama 24 jam sebelumnya. Misalnya, jika titik akhir telah aktif selama 24 jam pada hari pertama, titik akhir ditagih selama 24 jam pada pukul 00.00 UTC hari kedua. Jika titik akhir baru dibuat atau ditangguhkan pada siang hari, titik akhir akan ditagih untuk akumulasi waktu berjalannya hingga pukul 00.00 UTC hari kedua. Jika titik akhir saat ini tidak dihosting, titik akhir tidak ditagih. Selain perhitungan harian pada pukul 00:00 UTC setiap hari, penagihan juga segera dipicu ketika titik akhir dihapus atau ditangguhkan. Misalnya, untuk titik akhir yang dibuat pada 08:00 UTC pada 1 Desember, jam hosting akan dihitung hingga 16 jam pada pukul 00:00 UTC pada 2 Desember dan 24 jam pada pukul 00:00 UTC pada 3 Desember. Jika pengguna menangguhkan hosting titik akhir pada 16:30 UTC pada 3 Desember, durasi (16,5 jam) dari 00:00 hingga 16:30 UTC pada 3 Desember akan dihitung untuk penagihan.

Dokumen referensi

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Langkah berikutnya