Mengidentifikasi bahasa lisan secara otomatis dengan model identifikasi bahasa

Azure Video Analyzer for Media (sebelumnya Video Indexer) mendukung identifikasi bahasa otomatis (LID), yang mana merupakan proses mengidentifikasi konten bahasa lisan secara otomatis dari audio dan mengirim file media untuk ditranskripsikan dalam bahasa yang diidentifikasi secara dominan.

LID saat ini mendukung: Inggris, Spanyol, Prancis, Jerman, Italia, Cina Mandarin, Jepang, Rusia, dan Portugis (Brasil).

Pastikan untuk meninjau bagian Pedoman dan batasan di bawah.

Memilih identifikasi bahasa otomatis pada pengindeksan

Saat mengindeks atau mengindeks ulang video menggunakan API, pilih opsi auto detect pada parameter sourceLanguage.

Saat menggunakan portal, buka Video akun Anda di halaman beranda Video Analyzer for Media dan arahkan mouse ke atas nama video yang ingin Anda indeks ulang. Di pojok kanan bawah, klik tombol indeks ulang. Dalam dialog Indeks ulang video, pilih Deteksi otomatis dari kotak drop-down Bahasa sumber video.

deteksi otomatis

Output model

Video Analyzer for Media mentranskripsikan video sesuai dengan bahasa yang paling mungkin jika keyakinan untuk bahasa itu adalah > 0.6. Jika bahasa tidak dapat diidentifikasi dengan keyakinan, Video Analyzer for Media menganggap bahasa lisan tersebut adalah bahasa Inggris.

Bahasa dominan model tersedia dalam wawasan JSON sebagai atribut sourceLanguage (di bawah akar/video/wawasan). Skor keyakinan yang sesuai juga tersedia di bawah atribut sourceLanguageConfidence.

"insights": {
        "version": "1.0.0.0",
        "duration": "0:05:30.902",
        "sourceLanguage": "fr-FR",
        "language": "fr-FR",
        "transcript": [...],
        . . .
        "sourceLanguageConfidence": 0.8563
      },

Pedoman dan batasan

  • Identifikasi bahasa otomatis (LID) mendukung bahasa-bahasa berikut:

    Inggris, Spanyol, Prancis, Jerman, Italia, Cina Mandarin, Jepang, Rusia, dan Portugis (Brasil).

  • Meskipun Video Analyzer for Media mendukung bahasa Arab (Modern Standard dan Levantine), Hindi, dan Korea, bahasa-bahasa ini tidak didukung dalam LID.

  • Jika audio berisi bahasa selain daftar yang didukung di atas, hasilnya tidak terduga.

  • Jika Video Analyzer for Media tidak dapat mengidentifikasi bahasa dengan keyakinan yang cukup tinggi (>0.6), bahasa yang menjadi patokan adalah bahasa Inggris.

  • Tidak ada dukungan saat ini untuk file dengan audio berbahasa campuran. Jika audio berisi bahasa campuran, hasilnya akan tidak terduga.

  • Audio berkualitas rendah dapat memengaruhi hasil model.

  • Model membutuhkan setidaknya satu menit pembicaraan dalam audio.

  • Model ini didesain untuk mengenali pembicaraan percakapan spontan (bukan perintah suara, bernyanyi, dll.).

Langkah berikutnya