Apa itu ucapan ke teks?

Dalam gambaran umum ini, Anda mempelajari tentang manfaat dan kemampuan fitur ucapan ke teks dari layanan Ucapan, yang merupakan bagian dari layanan Azure AI. Ucapan ke teks dapat digunakan untuk transkripsi real time atau batch aliran audio ke dalam teks.

Catatan

Untuk membandingkan harga real-time dengan transkripsi batch, lihat Harga layanan Ucapan.

Untuk daftar lengkap bahasa ucapan ke teks yang tersedia, lihat Dukungan bahasa dan suara.

Ucapan real time ke teks

Dengan ucapan real time ke teks, audio ditranskripsikan sebagai ucapan dikenali dari mikrofon atau file. Gunakan ucapan real time ke teks untuk aplikasi yang perlu mentranskripsikan audio secara real time seperti:

Ucapan ke teks real time tersedia melalui Speech SDK dan Speech CLI.

Transkripsi batch

Transkripsi batch digunakan untuk mentranskripsikan sejumlah besar audio dalam penyimpanan. Anda dapat mengarahkan ke file audio menggunakan URI tanda tangan akses bersama (SAS) dan menerima hasil transkripsi secara asinkron. Gunakan transkripsi batch untuk aplikasi yang perlu mentranskripsikan audio secara massal seperti:

  • Transkripsi, keterangan, atau subtitel untuk audio yang telah direkam sebelumnya
  • Analitik pasca-panggilan pusat kontak
  • Diarisasi

Transkripsi batch tersedia melalui:

Ucapan kustom

Dengan ucapan kustom, Anda dapat mengevaluasi dan meningkatkan akurasi pengenalan ucapan untuk aplikasi dan produk Anda. Model ucapan kustom dapat digunakan untuk ucapan real time ke teks, terjemahan ucapan, dan transkripsi batch.

Tip

Titik akhir penyebaran yang dihosting tidak diperlukan untuk menggunakan ucapan kustom dengan API transkripsi Batch. Anda dapat menghemat sumber daya jika model ucapan kustom hanya digunakan untuk transkripsi batch. Untuk informasi selengkapnya, lihat Harga layanan Azure Cognitive Service untuk Ucapan.

Di luar kotak, pengenalan ucapan menggunakan Model Bahasa Universal sebagai model dasar yang dilatih dengan data milik Microsoft dan mencerminkan bahasa lisan yang umum digunakan. Model dasar telah dilatih sebelumnya dengan dialek dan fonetik yang mewakili berbagai domain umum. Saat Anda membuat permintaan pengenalan ucapan, model dasar terbaru untuk setiap bahasa yang didukung digunakan secara default. Model dasar bekerja dengan baik dalam sebagian besar skenario pengenalan ucapan.

Model kustom dapat digunakan untuk menambah model dasar untuk meningkatkan pengenalan kosakata khusus domain khusus untuk aplikasi dengan menyediakan data teks untuk melatih model. Model ini juga dapat digunakan untuk meningkatkan pengenalan berdasarkan kondisi audio tertentu dari aplikasi dengan menyediakan data audio dengan transkripsi referensi. Untuk informasi selengkapnya, lihat ucapan kustom dan Ucapan ke teks REST API.

Opsi kustomisasi bervariasi menurut bahasa atau lokal. Untuk memverifikasi dukungan, lihat Dukungan bahasa dan suara untuk layanan Ucapan.

AI yang Bertanggung Jawab

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang menggunakannya, orang-orang yang terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Baca catatan transparansi untuk mempelajari tentang penggunaan dan penyebaran AI yang bertanggung jawab di sistem Anda.

Langkah berikutnya