ما هو Azure Video Indexer؟
تحذير
في 11 يونيو 2020، أعلنت Microsoft أنها لن تبيع تكنولوجيا التعرف على الوجه إلى إدارات الشرطة في الولايات المتحدة حتى يتم سن قوانين قوية، تستند إلى حقوق الإنسان. على هذا النحو، قد لا يستخدم العملاء ميزات التعرف على الوجه أو الوظائف المضمنة في خدمات Azure، مثل Face أو Azure Video Indexer (المعروف سابقا باسم Azure Video Analyzer for Media)، إذا كان العملاء يسمحون أو يسمحون باستخدام هذه الخدمات من قبل أو ل، قسم شرطة في الولايات المتحدة.
Azure Video Indexer (المعروف سابقا باسم Azure Video Analyzer for Media) هو تطبيق سحابي، وهو جزء من Azure Applied الذكاء الاصطناعي Services، مبني على Azure Media Services وAzure Cognitive Services (مثل Face و المترجم و Computer Vision و Speech). يمكنك من استخراج الرؤى من مقاطع الفيديو الخاصة بك باستخدام نماذج الفيديو والصوت في Azure Video Indexer.
لبدء استخراج الرؤى باستخدام Azure Video Indexer، تحتاج إلى إنشاء حساب وتحميل مقاطع الفيديو. عند تحميل مقاطع الفيديو الخاصة بك إلى Azure Video Indexer، فإنه يحلل كل من المرئيات والصوت عن طريق تشغيل نماذج الذكاء الاصطناعي مختلفة. بينما يقوم Azure Video Indexer بتحليل الفيديو الخاص بك، فإن الرؤى التي يتم استخراجها بواسطة نماذج الذكاء الاصطناعي.
عند إنشاء حساب مفهرس فيديو Azure وتوصيله بخدمات الوسائط، يتم تخزين ملفات الوسائط وبيانات التعريف في حساب تخزين Azure المقترن بحساب خدمات الوسائط هذا. لمزيد من المعلومات، راجع إنشاء حساب مفهرس فيديو Azure متصل ب Azure.
الرسم التخطيطي التالي هو رسم توضيحي وليس شرحا تقنيا لكيفية عمل Azure Video Indexer في الخلفية.
الامتثال والخصوصية والأمان
كتذكير مهم، يجب عليك الامتثال لجميع القوانين المعمول بها في استخدامك لمفهرس فيديو Azure، ولا يجوز لك استخدام Azure Video Indexer أو أي خدمة Azure بطريقة تنتهك حقوق الآخرين، أو قد تكون ضارة للآخرين.
قبل تحميل أي فيديو/صورة إلى Azure Video Indexer، يجب أن يكون لديك جميع الحقوق المناسبة لاستخدام الفيديو/الصورة، بما في ذلك، حيثما يقتضي القانون، جميع الموافقات الضرورية من الأفراد (إن وجد) في الفيديو/الصورة، لاستخدام بياناتهم ومعالجتها وتخزينها في Azure Video Indexer وAzure. قد تفرض بعض الولايات القضائية متطلبات قانونية خاصة لجمع ومعالجة وتخزين فئات معينة من البيانات عبر الإنترنت، مثل بيانات المقاييس الحيوية. قبل استخدام Azure Video Indexer وAzure لمعالجة وتخزين أي بيانات تخضع لمتطلبات قانونية خاصة، يجب عليك التأكد من الامتثال لأي من هذه المتطلبات القانونية التي قد تنطبق عليك.
للتعرف على التوافق والخصوصية والأمان في Azure Video Indexer، يرجى زيارة مركز توثيق Microsoft. بالنسبة لالتزامات الخصوصية الخاصة بشركة Microsoft، وممارسات معالجة البيانات والاحتفاظ بها، بما في ذلك كيفية حذف بياناتك، راجع بيان خصوصيةMicrosoft وبنود الخدمات عبر الإنترنت ("OST")، وإضافة معالجة البيانات ("DPA"). باستخدام Azure Video Indexer، فإنك توافق على الالتزام ب OST وDPA وبيان الخصوصية.
ما الذي يمكنني فعله باستخدام Azure Video Indexer؟
يمكن تطبيق رؤى Azure Video Indexer على العديد من السيناريوهات، من بينها:
- البحث العميق: استخدم نتيجة التحليلات المستخلصة من الفيديو لتحسين تجربة البحث عبر مكتبة الفيديو. على سبيل المثال، يمكن أن تتيح فهرسة الكلمات المنطوقة والوجوه تجربة البحث للعثور على لحظات في مقطع فيديو يتحدث فيه شخص ما بكلمات معينة أو عندما شوهد شخصان معًا. البحث على أساس نتيجة هذه التحليلات من أشرطة الفيديو ينطبق على وكالات الأنباء والمعاهد التعليمية والمذيعين وأصحاب المحتوى الترفيهي، وتطبيقات LOB للمؤسسة، وبشكل عام على أي صناعة لديها مكتبة فيديو يحتاج المستخدمون إلى البحث ضدها.
- إنشاء المحتوى: إنشاء مقطورات أو تمييز البكرات أو محتوى الوسائط الاجتماعية أو مقاطع الأخبار استنادا إلى نتائج التحليلات التي يستخرجها Azure Video Indexer من المحتوى الخاص بك. تجعل الأطر الأساسية وعلامات المشاهد والطوابع الزمنية للأشخاص وظهور التسمية عملية الإنشاء أكثر سلاسة وأسهل، وتتيح لك الوصول إلى أجزاء الفيديو التي تحتاجها للمحتوى الذي تنشئه.
- إمكانية وصول ذوي الاحتياجات الخاصة: سواء كنت تريد توفير المحتوى الخاص بك للأشخاص ذوي الاحتياجات الخاصة أو إذا كنت تريد توزيع المحتوى الخاص بك على مناطق مختلفة باستخدام لغات مختلفة، يمكنك استخدام النسخ والترجمة التي يوفرها Azure Video Indexer بلغات متعددة.
- تحقيق الدخل: يمكن أن يساعد Azure Video Indexer في زيادة قيمة مقاطع الفيديو. على سبيل المثال، يمكن للصناعات التي تعتمد على إيرادات الإعلانات (وسائل الإعلام الإخبارية ووسائل التواصل الاجتماعي وما إلى ذلك) تقديم إعلانات ذات صلة باستخدام نتيجة التحليلات المستخلصة كإشارات إضافية إلى خادم الإعلانات.
- الإشراف على المحتوى: استخدم نماذج الإشراف على المحتوى النصي والمرئي للحفاظ على سلامة المستخدمين من المحتوى غير اللائق والتحقق من تطابق المحتوى الذي تنشره مع قيم مؤسستك. يمكنك حظر مقاطع فيديو معينة تلقائيًا أو تنبيه المستخدمين حول المحتوى.
- التوصيات: يمكن استخدام نتيجة تحليلات الفيديو لتحسين تفاعل المستخدمين من خلال تسليط الضوء على لحظات الفيديو ذات الصلة للمستخدمين. من خلال وضع علامات على كل فيديو باستخدام بيانات تعريف إضافية، يمكنك أن توصي المستخدمين بأهم مقاطع الفيديو ذات الصلة وتسليط الضوء على أجزاء الفيديو التي ستطابق احتياجاتهم.
الميزات
تظهر القائمة التالية الرؤى التي يمكنك استردادها من مقاطع الفيديو الخاصة بك باستخدام نماذج الفيديو والصوت في Azure Video Indexer:
نتيجة تحليلات الفيديو
- الكشف عن الوجه: يكشف عن وجوه تظهر في الفيديو ويجمعها.
- تعريف المشاهير: يحدد Azure Video Indexer تلقائيا أكثر من مليون شخص من المشاهير - مثل قادة العالم والممثلين والممثلات والرياضيين والباحثين ورجال الأعمال وقادة التكنولوجيا في جميع أنحاء العالم. يمكن أيضًا العثور على بيانات حول هؤلاء المشاهير على مواقع الويب المختلفة (IMDB وWikipedia وما إلى ذلك).
- تعريف الوجه المستند إلى الحساب: يقوم Azure Video Indexer بتدريب نموذج لحساب معين. ثم يتعرف على الوجوه في الفيديو بناءً على النموذج المدرب. لمزيد من المعلومات، راجع تخصيص نموذج شخص من موقع Azure Video Indexer على الويبوتخصيص نموذج Person باستخدام واجهة برمجة تطبيقات مفهرس الفيديو Azure.
- استخراج الصور المصغرة للوجوه ("أفضل وجه"): يحدد تلقائيًا أفضل وجه تم التقاطه في كل مجموعة من الوجوه (استنادًا إلى الجودة والحجم والموقع الأمامي) وينتزعه ويستخرجه كأصل صورة.
- التعرف على النص المرئي (OCR): يستخرج النص المعروض بصريًا في الفيديو.
- الإشراف على المحتوى المرئي: يكشف صور البالغين و/أو المرئيات المفعمة بالحيوية.
- تعريف التسميات: يعرّف الكائنات المرئية والإجراءات المعروضة.
- تقسيم المشهد: يحدد متى يتغير المشهد في الفيديو استنادًا إلى الإشارات المرئية. يصور المشهد حدثًا واحدًا ويتكون من سلسلة من اللقطات المتتالية، والتي ترتبط دلاليًا.
- الكشف عن اللقطة: يحدد متى تتغير اللقطة في الفيديو استنادًا إلى الإشارات المرئية. لقطة هي سلسلة من الإطارات مأخوذة من نفس الكاميرا السينمائية. لمزيد من المعلومات، راجع المشاهد واللقطات والأطر الأساسية.
- الكشف عن الإطار الأسود: يحدد الإطارات السوداء المعروضة في الفيديو.
- استخراج الإطار الأساسي: يكشف إطارات أساسية ثابتة في الفيديو.
- عرض أسماء المشاركين: يحدد بداية ونهاية عرض أسماء المشاركين في نهاية البرامج التلفزيونية والأفلام.
- الكشف عن الشخصيات المتحركة (معاينة): الكشف عن الشخصيات وتجميعها والتعرف عليها في محتوى الرسوم المتحركة عبر التكامل مع الرؤية المخصصة للخدمات المعرفية. لمزيد من المعلومات، راجع الكشف عن الشخصيات المتحركة.
- الكشف عن نوع اللقطة التحريرية: وضع علامات على لقطات استنادًا إلى نوعها (مثل اللقطة العريضة، واللقطة المتوسطة، والتقريب، والتقريب الشديد، واللقطة المزدوجة، وعدة أشخاص، وفي الهواء الطلق وداخل المنزل، وما إلى ذلك). لمزيد من المعلومات، راجع الكشف عن نوع اللقطة التحريرية.
- تعقب الأشخاص المرصود (معاينة): يكتشف الأشخاص الذين تمت ملاحظته في مقاطع الفيديو ويوفر معلومات مثل موقع الشخص في إطار الفيديو (باستخدام مربعات الإحاطة) والطوابع الزمنية الدقيقة (البدء والنهاية) والثقة عند ظهور شخص ما. لمزيد من المعلومات، راجع تتبع الأشخاص المُلاحظين في مقطع فيديو.
- ملابس الأشخاص المكتشفة: يكشف عن أنواع الملابس التي تظهر في الفيديو ويوفر معلومات مثل الأكمام الطويلة أو القصيرة والسراويل الطويلة أو القصيرة والتنانير أو اللباس. ترتبط الملابس المكتشفة بالأشخاص الذين يرتدونها ويتم توفير الطابع الزمني الدقيق (البداية والنهاية) جنبا إلى جنب مع مستوى الثقة للكشف.
- الشخص المطابق: التطابقات بين الأشخاص الذين تمت ملاحظتها في الفيديو مع الكشف عن الوجوه المقابلة. تحتوي المطابقة بين الأشخاص المرصودين والوجوه على مستوى ثقة.
نتيجة تحليلات الصوت
النسخ الصوتي: تحويل الكلام إلى نص بأكثر من 50 لغة ويسمح بالإضافات. تشمل اللغات المدعومة الإنجليزية الولايات المتحدة، الإنجليزية المملكة المتحدة، الإنجليزية أستراليا، الإسبانية، الإسبانية (المكسيك)، الفرنسية، الفرنسية (كندا)، الألمانية، الإيطالية، الماندرين الصينية، الصينية (الكانتونية، التقليدية)، الصينية (المبسطة)، اليابانية، الروسية، البرتغالية، الهندية، التشيكية، الهولندية، البولندية، الدنماركية، النرويجية، الفنلندية، السويدية، التايلاندية، التركية، الكورية، العربية (مصر)، العربية (الجمهورية العربية السورية)، العربية (إسرائيل)، العربية (العراق)، العربية (الأردن) والعربية (الكويت) والعربية (لبنان) والعربية (عمان) والعربية (قطر) والعربية (المملكة العربية السعودية) والعربية (الإمارات العربية المتحدة) والعربية (السلطة الفلسطينية) والمعايير العربية الحديثة (البحرين).
الكشف التلقائي عن اللغة: يحدد اللغة المنطوقة السائدة تلقائيًا. تشمل اللغات المدعومة الإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والصينية واليابانية والروسية والبرتغالية. إذا تعذر التعرف على اللغة بثقة، يفترض Azure Video Indexer أن اللغة المنطوقة هي الإنجليزية. لمزيد من المعلومات، راجع نموذج تعريف اللغة.
تعريف الكلام المتعدد اللغات ونسخه: يحدد تلقائيًا اللغة المنطوقة في مقاطع مختلفة من الصوت. يرسل كل جزء من ملف الوسائط ليتم نسخه ثم يجمع كتابة الحديث مرة أخرى إلى نسخة واحدة موحدة. لمزيد من المعلومات، راجع التعرف على المحتوى متعدد اللغات ونسخه تلقائيًا.
التسمية التوضيحية: تنشئ شرحًا مكتوبًا لأحداث العرض بثلاثة تنسيقات: VTT وTTML وSRT.
معالجة قناتين: يكشف تلقائيًا عن نص منفصل ويدمج في مخطط زمني واحد.
الحد من الضوضاء: مسح الصوت الهاتفي أو التسجيلات الصاخبة (استنادًا إلى مرشحات Skype).
تخصيص النص (CRIS): يدرب الكلام المخصص على نماذج النص لإنشاء نصوص خاصة بالصناعة. لمزيد من المعلومات، راجع تخصيص نموذج لغة من موقع Azure Video Indexer على الويبوتخصيص نموذج لغة باستخدام واجهات برمجة تطبيقات مفهرس الفيديو Azure.
تعداد المتحدث: يعين ويفهم أي متحدث يتحدث أي كلمات ومتى. يمكن الكشف عن ستة عشر مكبر صوت في ملف صوتي واحد.
إحصائيات المتحدثين: توفر إحصائيات لنسب الكلام للمتحدثين.
الإشراف على المحتوى النصي: يكشف النص الصريح في نص الصوت.
التأثيرات الصوتية (معاينة): يكشف التأثيرات الصوتية التالية في الأجزاء غير الكلامية من المحتوى: طلقات نارية، تحطيم الزجاج، إنذار، صفارات الإنذار، انفجار، نباح الكلب، الصراخ، الضحك، ردود فعل الحشد (الهتاف، التصفيق، والاستهجان) والصمت. ملاحظة: تتوفر المجموعة الكاملة من الأحداث فقط عند اختيار "تحليل صوتي متقدم" في إعداد التحميل المسبق، وإلا فلن يتوفر سوى الصمت ورد فعل الحشد.
الكشف عن العاطفة: يحدد العواطف على أساس الكلام (ما يقال) ونغمة الصوت (كيف يقال). العاطفة يمكن أن تكون فرحًا أو حزنًا أو غضبًا أو خوفًا.
الترجمة: ينشئ ترجمات من نص الصوت إلى 54 لغة مختلفة.
الكشف عن التأثيرات الصوتية (معاينة): يكتشف التأثيرات الصوتية التالية في مقاطع غير الكلام من المحتوى: المنبه أو صفارات الإنذار، ينبح الكلب، تفاعلات الحشد (الهتاف، التصفيق، والهزاز)، وطلق ناري أو انفجار، والضحك، وكسر الزجاج، والصمت.
الأحداث الصوتية المكتشفة موجودة في ملف التسمية التوضيحية. يمكن تنزيل الملف من مدخل Azure Video Indexer. لمزيد من المعلومات، راجع الكشف عن التأثيرات الصوتية.
ملاحظة
تتوفر المجموعة الكاملة من الأحداث فقط عند اختيار Advanced Audio Analysis عند تحميل ملف، في الإعداد المسبق للتحميل. بشكل افتراضي، يتم الكشف عن الصمت فقط.
نتيجة تحليلات الصوت والفيديو (قنوات متعددة)
عند الفهرسة بواسطة قناة واحدة، ستتوفر نتيجة جزئية لتلك النماذج.
- استخراج الكلمات الرئيسية: يستخرج الكلمات الرئيسية من الكلام والنص المرئي.
- استخراج الكيانات المسماة: مقتطفات العلامات التجارية والمواقع والأشخاص من الكلام والنص المرئي عبر معالجة اللغة الطبيعية (NLP).
- استدلال الموضوع: يستخرج مواضيع تستند إلى كلمات أساسية مختلفة (أي الكلمات الأساسية "الأسهم Exchange"، و"وول ستريت" سوف تنتج موضوع "الاقتصاد"). يستخدم النموذج ثلاثة مخططات مختلفة (IPTC، ويكيبيديا ، والموضوع الهرمي لمفهرس الفيديو ontology). يستخدم النموذج النسخ (الكلمات المنطوقة) ومحتوى التعرف البصري على الحروف (النص المرئي) والمشاهير المتعرفين في الفيديو باستخدام نموذج التعرف على الوجه لمفهرس الفيديو.
- القطع الأثرية: يستخرج مجموعة غنية من "المستوى التالي من التفاصيل" التحف لكل من النماذج.
- تحليل المشاعر: يحدد المشاعر الإيجابية والسلبية والمحايدة من الكلام والنص المرئي.
كيف يمكنني البدء باستخدام Azure Video Indexer؟
يمكنك الوصول إلى قدرات Azure Video Indexer بثلاث طرق:
مدخل Azure Video Indexer: حل سهل الاستخدام يتيح لك تقييم المنتج وإدارة الحساب وتخصيص النماذج.
لمزيد من المعلومات حول المدخل، راجع بدء استخدام موقع Azure Video Indexer على الويب.
تكامل واجهة برمجة التطبيقات: تتوفر جميع قدرات Azure Video Indexer من خلال واجهة برمجة تطبيقات REST، والتي تتيح لك دمج الحل في تطبيقاتك والبنية الأساسية الخاصة بك.
للبدء كمطور، راجع استخدام واجهة برمجة تطبيقات REST لمفهرس الفيديو Azure.
عنصر واجهة مستخدم قابل للتضمين: يتيح لك تضمين نتائج تحليلات Azure Video Indexer واللاعبين وتجارب المحرر في تطبيقك.
لمزيد من المعلومات، راجع تضمين عناصر واجهة المستخدم المرئية في التطبيق الخاص بك.
إذا كنت تستخدم موقع الويب، تتم إضافة نتيجة التحليلات كبيانات التعريف وهي مرئية في المدخل. إذا كنت تستخدم واجهات برمجة التطبيقات، فإن نتيجة التحليلات متوفرة كملف JSON.
المتصفحات المدعومة
تعرض القائمة التالية المستعرضات المدعومة التي يمكنك استخدامها لموقع Azure Video Indexer على الويب وتطبيقاتك التي تتضمن عناصر واجهة المستخدم. تعرض القائمة أيضًا إصدار المتصفح المعتمد الأدنى:
- Edge، الإصدار: 16
- Firefox، الإصدار: 54
- Chrome، الإصدار: 58
- Safari، الإصدار: 11
- Opera، الإصدار: 44
- Opera Mobile، الإصدار: 59
- Android Browser، الإصدار: 81
- Samsung Browser، الإصدار: 7
- Chrome for Android، الإصدار: 87
- Firefox for Android، الإصدار: 83
الخطوات التالية
أنت مستعد لبدء استخدام Azure Video Indexer. لمزيد من المعلومات، راجع المقالات التالية: