التعرف تلقائيا على اللغة المنطوقة باستخدام نموذج تحديد اللغة
يدعم Azure Video Indexer (المعروف سابقا باسم Azure Video Analyzer for Media) التعرف التلقائي على اللغة (LID)، وهي عملية التعرف التلقائي على محتوى اللغة المنطوقة من الصوت وإرسال ملف الوسائط ليتم نسخه باللغة المحددة السائدة.
يدعم LID حاليا: الإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والماندرين الصينية واليابانية والروسية والبرتغالية (البرازيلية).
تأكد من مراجعة قسم الإرشادات والقيود أدناه.
اختيار تعريف اللغة التلقائي عند الفهرسة
عند فهرسة فيديو أو إعادة فهرسته باستخدام واجهة برمجة التطبيقات، حدد الخيار في auto detect المعلمة sourceLanguage .
عند استخدام البوابة الإلكترونية، انتقل إلى مقاطع فيديو حسابك على الصفحة الرئيسية ل Azure Video Indexer ومرر مؤشر الماوس فوق اسم الفيديو الذي تريد إعادة فهرسته. في الزاوية السفلية اليسرى، انقر فوق الزر إعادة فهرسة. في مربع الحوار إعادة فهرسة الفيديو، اختر الكشف التلقائي من المربع المنسدل للغة مصدر الفيديو .

إخراج النموذج
يقوم Azure Video Indexer بنسخ الفيديو وفقا للغة الأكثر احتمالا إذا كانت الثقة في تلك اللغة هي > 0.6. إذا لم يكن من الممكن تحديد اللغة بثقة ، فإنها تفترض أن اللغة المنطوقة هي اللغة الإنجليزية.
تتوفر اللغة السائدة للنموذج في إحصاءات JSON كسمة sourceLanguage (ضمن الجذر / مقاطع الفيديو / الرؤى). تتوفر أيضا درجة ثقة مقابلة تحت السمة sourceLanguageConfidence .
"insights": {
"version": "1.0.0.0",
"duration": "0:05:30.902",
"sourceLanguage": "fr-FR",
"language": "fr-FR",
"transcript": [...],
. . .
"sourceLanguageConfidence": 0.8563
},
المبادئ الإرشادية والقيود
يدعم التعرف التلقائي على اللغة (LID) اللغات التالية:
الإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والماندرين تشينز واليابانية والروسية والبرتغالية (البرازيلية).
على الرغم من أن Azure Video Indexer يدعم اللغة العربية (الحديثة القياسية والشامية) والهندية والكورية، إلا أن هذه اللغات غير مدعومة في LID.
إذا كان الصوت يحتوي على لغات أخرى غير القائمة المعتمدة أعلاه، فإن النتيجة غير متوقعة.
إذا تعذر على Azure Video Indexer تحديد اللغة بثقة عالية بما فيه الكفاية (
>0.6)، فإن اللغة الاحتياطية هي الإنجليزية.لا يوجد دعم حالي للملف بلغات مختلطة الصوت. إذا كان الصوت يحتوي على لغات مختلطة، فإن النتيجة غير متوقعة.
قد يؤثر الصوت منخفض الجودة على نتائج النموذج.
يتطلب النموذج دقيقة واحدة على الأقل من الكلام في الصوت.
تم تصميم النموذج للتعرف على خطاب المحادثة العفوي (وليس الأوامر الصوتية والغناء وما إلى ذلك).