اكتشاف المؤثرات الصوتية (معاينة)

يعد اكتشاف المؤثرات الصوتية أحد إمكانات Azure Video Indexer الذكاء الاصطناعي التي تكتشف أحداث الصوتيات المختلفة وتصنفها إلى فئات صوتية مختلفة (مثل نباح الكلاب وردود فعل الحشود والضحك والمزيد).

بعض السيناريوهات التي تكون فيها هذه الميزة مفيدة:

  • يمكن للشركات التي لديها مجموعة كبيرة من أرشيفات الفيديو تحسين إمكانية الوصول بسهولة من خلال اكتشاف المؤثرات الصوتية. توفر هذه الميزة المزيد من السياق للأشخاص الذين يعانون من ضعف السمع ، وتعزز نسخ الفيديو بتأثيرات غير الكلام.
  • في مجال Media & Entertainment، يمكن لميزة الكشف تحسين الكفاءة عند إنشاء بيانات أولية لمنشئي المحتوى. يمكن تحديد اللحظات المهمة في العروض الترويجية والمقطورات (مثل الضحك أو ردود فعل الحشود أو الطلقات النارية أو الانفجار) باستخدام اكتشاف المؤثرات الصوتية.
  • في مجال عدالة السلامة & العامة ، يمكن للميزة اكتشاف وتصنيف الطلقات النارية والانفجارات وتحطيم الزجاج. يمكن تنفيذه في نظام المدينة الذكية أو في البيئات العامة الأخرى التي تشمل الكاميرات والميكروفونات لتوفير اكتشاف سريع ودقيق لحوادث العنف.

فئات الصوت المدعومة

يمكن للكشف عن تأثير الصوت اكتشاف وتصنيف 7 فئات مختلفة. في الجدول التالي ، يمكنك العثور على الفئات المختلفة مقسمة إلى إعدادات مسبقة مختلفة ، مقسمة إلى قياسيومتقدم. لمزيد من المعلومات، راجع التسعير.

نوع الفهرسة الفهرسة القياسية فهرسة متقدمة
اسم معد مسبقا "الصوت فقط"
"فيديو + صوت"
"صوت متقدم"
"فيديو متقدم + صوت"
الظهور في جزء الإحصاءات V
ردود فعل الحشود V
صمت V V
طلقة نارية أو انفجار V
كسر الزجاج V
إنذار أو صفارة إنذار V
ضحك V
نباح الكلب V

تنسيقات النتائج

يتم استرداد المؤثرات الصوتية في رؤى JSON التي تتضمن معرف الفئة والنوع والاسم ومجموعة المثيلات لكل فئة إلى جانب إطارها الزمني المحدد ودرجة الثقة.

سيتم تقديم المعلمة name باللغة التي تمت فهرسة JSON بها ، بينما سيظل النوع دائما كما هو.

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        name: "Gunshot",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        name: "Crowd Reactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

كيفية فهرسة المؤثرات الصوتية

من أجل تعيين عملية الفهرس لتشمل اكتشاف المؤثرات الصوتية ، يجب على المستخدم اختيار أحد الإعدادات المسبقة المتقدمة ضمن قائمة فهرسة الفيديو + الصوت كما هو موضح أدناه.

Index Audio Effects image

تسمية توضيحية مغلقة

عندما يتم استرداد المؤثرات الصوتية في ملفات التسميات التوضيحية المغلقة ، سيتم استردادها بين قوسين معقوفين الهيكل التالي:

النوع مثال
إس آر تي 00:00:00,000 00:00:03,671
[طلقة نارية أو انفجار]
في تي تي 00:00:00.000 00:00:03.671
[طلقة نارية أو انفجار]
TTML الثقة: 0.9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [طلقة نارية أو انفجار]
CSV 0.9047,00:00:00.000,00:00:03.671, [طلقة نارية أو انفجار]

سيتم استرداد المؤثرات الصوتية في ملف التسميات التوضيحية المغلقة باستخدام المنطق التالي المستخدم:

  • Silence لن تتم إضافة نوع الحدث إلى التسميات التوضيحية المغلقة
  • الحد الأقصى لمدة عرض حدث I 5 ثوان
  • الحد الأدنى لمدة المؤقت لعرض حدث ما هو 700 مللي ثانية

إضافة مؤثرات صوتية في ملفات التسميات التوضيحية المغلقة

يمكن إضافة المؤثرات الصوتية إلى ملفات التسميات التوضيحية المغلقة التي يدعمها Azure Video Indexer عبر واجهة برمجة تطبيقات الحصول على تسميات توضيحية للفيديو عن طريق اختيار true في includeAudioEffects المعلمة أو عبر تجربة مدخل video.ai عن طريق تحديد تنزيل -تسميات توضيحية مغلقة ->>تضمين تأثيرات صوتية.

Audio Effects in CC

ملاحظة

عند استخدام نص التحديث من ملفات التسميات التوضيحية المغلقة أو تحديث نموذج اللغة المخصص من ملفات التسميات التوضيحية المغلقة، سيتم تجاهل المؤثرات الصوتية المضمنة في هذه الملفات.

القيود والافتراضات

  • يتم الكشف عن المؤثرات الصوتية عند وجودها في مقاطع غير كلامية فقط.
  • تم تحسين النموذج للحالات التي لا توجد فيها موسيقى خلفية صاخبة.
  • قد يؤثر الصوت منخفض الجودة على نتائج الكشف.
  • الحد الأدنى من مدة القسم غير الكلامي هو 2 ثانية.
  • يمكن تصنيف الموسيقى التي تتميز بتردد متكرر و / أو خطي ممسوح ضوئيا عن طريق الخطأ على أنها إنذار أو صفارة إنذار.
  • تم تحسين النموذج حاليا لأصوات الطلقات النارية والانفجارات الطبيعية وغير الاصطناعية.
  • يمكن في بعض الأحيان وصف طرق الأبواب وطرق الأبواب عن طريق الخطأ بأنها طلقات نارية وانفجارات.
  • يمكن في بعض الأحيان اكتشاف أصوات الصراخ المطول والجهد البدني البشري عن طريق الخطأ.
  • يمكن تصنيف مجموعة من الأشخاص الذين يضحكون في وقت ما على أنهم ضحكات وردود فعل جماعية.

الخطوات التالية

نظرة عامة على المراجعة