Mengkustomisasi Model bahasa dengan Pengindeks Video Azure AI

Artikel
03/23/2024

Penting

Karena pengumuman penghentian Azure Media Services, Azure AI Video Indexer mengumumkan penyesuaian fitur Azure AI Video Indexer. Lihat Perubahan yang terkait dengan penghentian Azure Media Service (AMS) untuk memahami apa artinya ini untuk akun Azure AI Video Indexer Anda. Lihat panduan Mempersiapkan penghentian AMS: Pembaruan VI dan migrasi.

Azure AI Video Indexer mendukung pengenalan ucapan otomatis melalui integrasi dengan Layanan Ucapan Kustom Microsoft. Anda dapat menyesuaikan Model bahasa dengan mengunggah teks adaptasi. Teks ini berasal dari domain yang kosakatanya ingin Anda gunakan mesin untuk beradaptasi. Setelah Anda melatih model Anda, kata-kata baru yang muncul dalam teks adaptasi dikenali, dengan asumsi pengucapan default, dan Model bahasa mempelajari urutan kata-kata baru yang mungkin. Lihat daftar bahasa yang didukung oleh Azure AI Video Indexer di langue yang didukung.

Misalnya, "Kubernetes" (dalam konteks layanan Azure Kubernetes), adalah kata yang sangat spesifik. Karena kata ini baru untuk Azure AI Video Indexer, kata ini dikenal sebagai "komunitas". Anda perlu melatih model untuk mengenalinya sebagai "Kubernetes". Dalam kasus lain, kata-kata ada, tetapi Model bahasa tidak mengharapkannya muncul dalam konteks tertentu. Misalnya, "layanan kontainer" bukan urutan 2 kata yang akan dikenali oleh model Bahasa yang tidak dispesialisasikan sebagai sekumpulan kata tertentu.

Ada dua cara untuk menyesuaikan model bahasa:

Opsi 1: Edit transkrip yang dihasilkan oleh Azure AI Video Indexer. Dengan mengedit dan memperbaiki transkrip, Anda melatih model bahasa untuk memberikan hasil yang ditingkatkan di masa mendatang.
Opsi 2: Unggah file teks untuk melatih model bahasa. File unggahan dapat berisi daftar kata-kata seperti yang Anda inginkan muncul dalam transkrip Video Indexer atau kata-kata yang relevan yang disertakan secara alami dalam kalimat dan paragraf. Karena hasil yang lebih baik dicapai dengan pendekatan terakhir, disarankan agar file unggahan berisi kalimat atau paragraf lengkap yang terkait dengan konten Anda.

Penting

Jangan sertakan dalam file unggahan kata atau kalimat seperti yang saat ini salah ditranskripsikan (misalnya, "komunitas") karena ini akan meniadakan dampak yang dimaksudkan. Hanya sertakan kata-kata seperti yang Anda inginkan untuk muncul (misalnya, "Kubernetes").

Praktik terbaik untuk model Bahasa kustom

Azure AI Video Indexer belajar berdasarkan probabilitas kombinasi kata, jadi untuk mempelajari yang terbaik:

Berikan secara cukup contoh kalimat yang nyata seperti yang akan diucapkan.
Letakkan hanya satu kalimat per baris, tidak lebih. Jika tidak, sistem akan mempelajari probabilitas di seluruh kalimat.
Tidak apa-apa untuk menempatkan satu kata sebagai kalimat untuk meningkatkan kata terhadap orang lain, tetapi sistem belajar terbaik dari kalimat lengkap.
Saat memperkenalkan kata-kata atau akronim baru, jika memungkinkan, berikan sebanyak mungkin contoh penggunaan dalam kalimat lengkap untuk memberikan konteks sebanyak mungkin pada sistem.
Cobalah untuk menempatkan beberapa opsi adaptasi, dan lihatlah bagaimana mereka bekerja untuk Anda.
Hindari pengulangan kalimat yang sama persis beberapa kali. Hal itu bisa menciptakan bias terhadap {i>input
Hindari menyertakan simbol yang jarang (~, # @ % &) karena akan dibuang. Kalimat di mana mereka muncul juga akan dibuang.
Hindari memasukkan {i>input

Mengkustomisasi Model bahasa dengan Pengindeks Video Azure AI

Praktik terbaik untuk model Bahasa kustom

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: