ما هو نسخ المحادثة؟

نسخ المحادثة هو حل تحويل الكلام إلى نص يوفر نسخا في الوقت الفعلي أو غير متزامن لأي محادثة. تجمع هذه الميزة، التي هي حاليا قيد المعاينة، بين التعرف على الكلام وتحديد المتحدث وإسناد الجملة لتحديد من قال ماذا ومتى في محادثة.

ملاحظة

يعد الوصول إلى المحادثة متعددة الأجهزة ميزة معاينة.

الميزات الأساسية

قد تجد الميزات التالية لنسخ المحادثة مفيدة:

  • الطوابع الزمنية: كل كلام متحدث له طابع زمني ، بحيث يمكنك بسهولة العثور على وقت قول العبارة.
  • نصوص قابلة للقراءة: تحتوي النصوص على تنسيق وعلامات ترقيم تضاف تلقائيا لضمان تطابق النص بشكل وثيق مع ما كان يقال.
  • ملفات تعريف المستخدمين: يتم إنشاء ملفات تعريف المستخدمين عن طريق جمع عينات صوت المستخدم وإرسالها إلى إنشاء التوقيع.
  • تحديد هوية المتحدث: يتم تحديد المتحدثين باستخدام ملفات تعريف المستخدمين، ويتم تعيين معرف مكبر صوت لكل منها.
  • التقسيم متعدد السماعات: حدد من قال ماذا عن طريق توليف دفق الصوت مع كل معرف مكبر صوت.
  • النسخ في الوقت الحقيقي: قدم نصوصا حية لمن يقول ماذا ومتى أثناء حدوث المحادثة.
  • النسخ غير المتزامن: توفير النصوص بدقة أعلى باستخدام دفق صوتي متعدد القنوات.

ملاحظة

على الرغم من أن نسخ المحادثة لا يضع حدا لعدد المتحدثين في الغرفة ، إلا أنه تم تحسينه ل 2-10 متحدثين في الجلسة الواحدة.

الشروع في العمل

شاهد التشغيل السريع لنسخ المحادثة في الوقت الفعلي للبدء.

حالات الاستخدام

لجعل الاجتماعات شاملة للجميع، مثل المشاركين الصم وضعاف السمع، من المهم إجراء النسخ في الوقت الفعلي. يأخذ نسخ المحادثة في وضع الوقت الفعلي صوت الاجتماع ويحدد من يقول ماذا ، مما يسمح لجميع المشاركين في الاجتماع بمتابعة النص والمشاركة في الاجتماع ، دون تأخير.

يمكن للمشاركين في الاجتماع التركيز على الاجتماع وترك تدوين الملاحظات لنسخ المحادثة. يمكن للمشاركين المشاركة بنشاط في الاجتماع ومتابعة الخطوات التالية بسرعة ، باستخدام النص بدلا من تدوين الملاحظات واحتمال فقدان شيء ما أثناء الاجتماع.

كيف تعمل هذه الميزة

يعرض الرسم التخطيطي التالي نظرة عامة عالية المستوى حول كيفية عمل الميزة.

Diagram that shows the relationships among different pieces of the conversation transcription solution.

المدخلات المتوقعة

يستخدم نسخ المحادثة نوعين من المدخلات:

  • دفق صوتي متعدد القنوات: للحصول على تفاصيل المواصفات والتصميم، راجع توصيات صفيف الميكروفون.
  • عينات صوت المستخدم: يحتاج نسخ المحادثة إلى ملفات تعريف المستخدمين قبل المحادثة لتحديد هوية المتحدث. جمع التسجيلات الصوتية من كل مستخدم، ثم إرسال التسجيلات إلى خدمة إنشاء التوقيع للتحقق من صحة الصوت وإنشاء ملفات تعريف المستخدمين.

عينات صوت المستخدم للتوقيعات الصوتية مطلوبة لتحديد هوية المتحدث. يتم التعرف على مكبرات الصوت التي ليس لديها عينات صوتية على أنها مجهولة الهوية. لا يزال من الممكن التمييز بين مكبرات الصوت المجهولة DifferentiateGuestSpeakers الهوية عند تمكين الخاصية (انظر المثال التالي). ثم يظهر مخرج النسخ المتحدثين على أنهم ، على سبيل المثال ، Guest_0Guest_1 ، بدلا من التعرف عليهم كأسماء متحدثين محددة مسجلة مسبقا.

config.SetProperty("DifferentiateGuestSpeakers", "true");

في الوقت الحقيقي مقابل غير متزامن

توفر الأقسام التالية مزيدا من التفاصيل حول أوضاع النسخ التي يمكنك اختيارها.

الوقت الفعلي

تتم معالجة البيانات الصوتية مباشرة لإعادة معرف المتحدث ونصه. حدد هذا الوضع إذا كان متطلب حل النسخ الخاص بك هو تزويد المشاركين في المحادثة بعرض نصي مباشر لمحادثتهم الجارية. على سبيل المثال، يعد إنشاء تطبيق لجعل الاجتماعات في متناول المشاركين الذين يعانون من فقدان السمع أو الصمم حالة استخدام مثالية للنسخ في الوقت الفعلي.

غير متزامن

تتم معالجة البيانات الصوتية دفعة واحدة لإرجاع معرف السماعة والنص. حدد هذا الوضع إذا كان متطلب حل النسخ الخاص بك هو توفير دقة أعلى، بدون عرض النص المباشر. على سبيل المثال، إذا كنت ترغب في إنشاء تطبيق للسماح للمشاركين في الاجتماع باللحاق بسهولة بالاجتماعات الفائتة، فاستخدم وضع النسخ غير المتزامن للحصول على نتائج نسخ عالية الدقة.

في الوقت الحقيقي بالإضافة إلى غير متزامن

تتم معالجة البيانات الصوتية مباشرة لإعادة معرف المتحدث ونصه ، بالإضافة إلى ذلك ، يطلب نصا عالي الدقة من خلال المعالجة غير المتزامنة. حدد هذا الوضع إذا كان تطبيقك بحاجة إلى نسخ في الوقت الفعلي، ويتطلب أيضا نصا أعلى دقة للاستخدام بعد إجراء المحادثة أو الاجتماع.

دعم اللغة

حاليا، يدعم نسخ المحادثة جميع لغات تحويل الكلام إلى نص في المناطق التالية: centralus, , , eastasiaeastuswesteurope.

الخطوات التالية