تخصيص نموذج لغة باستخدام مفهرس فيديو Azure
يدعم Azure Video Indexer (المعروف سابقا باسم Azure Video Analyzer for Media) التعرف التلقائي على الكلام من خلال التكامل مع خدمة الكلام المخصصة من Microsoft. يمكنك تخصيص نموذج اللغة عن طريق تحميل نص التكيف، أي نص من النطاق الذي تريد أن يتكيف المحرك مع مفرداته. بمجرد تدريب النموذج الخاص بك ، سيتم التعرف على الكلمات الجديدة التي تظهر في نص التكيف ، بافتراض النطق الافتراضي ، وسيتعلم نموذج اللغة تسلسلات محتملة جديدة من الكلمات. راجع قائمة اللغات التي يدعمها Azure Video Indexer باللغات المدعومة.
لنأخذ كلمة محددة للغاية ، مثل "Kubernetes" (في سياق خدمة Azure Kubernetes) ، كمثال. نظرا لأن الكلمة جديدة على Azure Video Indexer ، يتم التعرف عليها باسم "المجتمعات". تحتاج إلى تدريب النموذج للتعرف عليه باسم "Kubernetes". في حالات أخرى ، توجد الكلمات ، لكن نموذج اللغة لا يتوقع ظهورها في سياق معين. على سبيل المثال ، "خدمة الحاويات" ليست تسلسلا من 2 كلمة يتعرف عليه نموذج لغة غير متخصص كمجموعة محددة من الكلمات.
لديك خيار تحميل الكلمات بدون سياق في قائمة في ملف نصي. هذا يعتبر التكيف الجزئي. بدلا من ذلك ، يمكنك تحميل ملف (ملفات) نصية من الوثائق أو الجمل المتعلقة بالمحتوى الخاص بك لتحسين التكيف.
يمكنك استخدام واجهات برمجة تطبيقات Azure Video Indexer أو موقع ويب لإنشاء نماذج لغة مخصصة وتحريرها، كما هو موضح في الموضوعات في قسم الخطوات التالية من هذا الموضوع.
أفضل الممارسات لنماذج اللغات المخصصة
يتعلم Azure Video Indexer استنادا إلى احتمالات مجموعات الكلمات، وذلك للتعلم بشكل أفضل:
- أعط أمثلة حقيقية كافية للجمل كما سيتم نطقها.
- ضع جملة واحدة فقط لكل سطر ، وليس أكثر. وإلا فإن النظام سيتعلم الاحتمالات عبر الجمل.
- لا بأس من وضع كلمة واحدة كجملة لتعزيز الكلمة ضد الآخرين ، لكن النظام يتعلم بشكل أفضل من الجمل الكاملة.
- عند إدخال كلمات أو اختصارات جديدة ، إن أمكن ، أعط أكبر عدد ممكن من الأمثلة على الاستخدام في جملة كاملة لإعطاء أكبر قدر ممكن من السياق للنظام.
- حاول وضع العديد من خيارات التكيف ، وشاهد كيف تعمل من أجلك.
- تجنب تكرار نفس الجملة بالضبط عدة مرات. قد يخلق تحيزا ضد بقية المدخلات.
- تجنب تضمين رموز غير شائعة (~ ، # @ ٪ &) حيث سيتم التخلص منها. سيتم أيضا تجاهل الجمل التي تظهر فيها.
- تجنب وضع مدخلات كبيرة جدا، مثل مئات الآلاف من الجمل، لأن القيام بذلك سيخفف من تأثير التعزيز.