ما هو التعرف على المتحدث؟

مقالة
01/21/2024

يمكن أن يساعد التعرف على مكبر الصوت في تحديد من يتحدث في مقطع صوتي. يمكن للخدمة التحقق من المتكلمين والتعرف عليهم من خلال خصائصهم الصوتية الفريدة، باستخدام القياس الحيوي للصوت.

أنت توفر بيانات تدريب صوتية لمتحدث واحد، ما يؤدي إلى إنشاء ملف تعريف تسجيل بناءً على الخصائص الفريدة لصوت المتحدث. يمكنك بعد ذلك التحقق من عينات الصوت الصوتية مقابل هذا ملف التعريف للتحقق من أن المتحدث هو نفس الشخص (التحقق من المتحدث). يمكنك أيضاً التحقق من عينات الصوت مقابل مجموعة من ملفات تعريف المتحدث المسجلة لمعرفة ما إذا كانت تتطابق مع أي ملف تعريف في المجموعة (تعريف المتحدث).

هام

تحد Microsoft من الوصول إلى التعرف على المتحدث. يمكنك التقدم بطلب للوصول من خلال مراجعة الوصول المحدودة للتعرف على المتحدث لخدمات Azure الذكاء الاصطناعي. لمزيد من المعلومات، راجع وصول محدود للتعرف على المتحدث.

التحقق من المتحدث

يعمل التحقق من المتحدث على تبسيط عملية التحقق من هوية المتحدث المسجل إما بعبارات مرور أو إدخال صوتي حر. على سبيل المثال، يمكنك استخدامه للتحقق من هوية العميل في مراكز الاتصال أو الوصول إلى منشأة دون تلامس.

كيف يعمل التحقق من المتحدث؟

يوفر المخطط الانسيابي التالي عرضاً مرئياً لكيفية عمل ذلك:

Flowchart that shows how speaker verification works.

يمكن أن يكون التحقق من مكبر الصوت إما معتمداً على النص أو مستقلاً عن النص. يعني التحقق المعتمد على النص أن المتحدثين بحاجة إلى اختيار نفس عبارة المرور لاستخدامها أثناء مرحلتي التسجيل والتحقق. يعني التحقق المستقل عن النص أنه يمكن للمتحدثين التحدث باللغة اليومية في عبارات التسجيل والتحقق.

للتحقق المعتمد على النص، يتم تسجيل صوت المتحدث من خلال نطق عبارة مرور من مجموعة من العبارات المحددة مسبقاً. يتم استخراج ميزات الصوت من التسجيل الصوتي لتشكيل توقيع صوتي فريد، كما يتم التعرف على عبارة المرور المختارة. يتم استخدام التوقيع الصوتي وعبارة المرور معاً للتحقق من المتحدث.

لا توجد قيود على ما يقوله المتحدث أثناء التسجيل، بالإضافة إلى عبارة التنشيط الأولية عند تمكين التسجيل النشط. ليس لديها أي قيود على عينة الصوت ليتم التحقق منها، لأنها تستخرج ميزات الصوت فقط لتسجيل التشابه.

لا تهدف واجهات برمجة التطبيقات إلى تحديد ما إذا كان الصوت من شخص حي، أو من تقليد أو تسجيل مكبر صوت مسجل.

Speaker identification

يساعدك التعرف على مكبر الصوت في تحديد هوية متحدث غير معروف ضمن مجموعة من المتحدثين المسجلين. يمكّنك تحديد السماعة من إسناد الكلام إلى مكبرات الصوت الفردية، وإلغاء تأمين القيمة من السيناريوهات باستخدام مكبرات صوت متعددة، مثل:

دعم الحلول لإنتاجية الاجتماعات عن بعد.
بناء إضفاء الطابع الشخصي على جهاز متعدد المستخدمين.

كيف يعمل تحديد المتحدث؟

التسجيل لتعريف المتحدث يعتمد على النص. لا توجد قيود على ما يقوله المتحدث في الصوت، بالإضافة إلى عبارة التنشيط الأولية عند تمكين التسجيل النشط. على غرار التحقق من المتحدث، يتم تسجيل صوت المتحدث في مرحلة التسجيل، ويتم استخراج ميزات الصوت لتشكيل توقيع صوتي فريد. في مرحلة التعريف، تتم مقارنة عينة إدخال الصوت بقائمة محددة من الأصوات المسجلة (حتى 50 في كل طلب).

أمان البيانات وخصوصيتها

يتم تخزين بيانات تسجيل مكبر الصوت في نظام آمن، بما في ذلك صوت الكلام للتسجيل وميزات التوقيع الصوتي. يتم استخدام صوت الكلام للتسجيل فقط عند ترقية الخوارزمية، وتحتاج الميزات إلى الاستخراج مرة أخرى. لا تحتفظ الخدمة بتسجيل الكلام أو ميزات الصوت المستخرجة التي يتم إرسالها إلى الخدمة أثناء مرحلة التعرف.

أنت تتحكم في مدة الاحتفاظ بالبيانات. يمكنك إنشاء وتحديث وحذف بيانات التسجيل للمتحدثين الفرديين من خلال مكالمات API. عند حذف الاشتراك، يتم أيضا حذف جميع بيانات تسجيل المحاضر المقترنة بالاشتراك.

كما هو الحال مع جميع موارد خدمات Azure الذكاء الاصطناعي، يجب أن يكون المطورون الذين يستخدمون ميزة التعرف على المتحدث على دراية بنهج Microsoft على بيانات العملاء. يجب عليك التأكد من تلقي الأذونات المناسبة من المستخدمين. يمكنك العثور على مزيد من التفاصيل في Data and privacy for speaker recognition. لمزيد من المعلومات، راجع صفحة خدمات Azure الذكاء الاصطناعي في مركز توثيق Microsoft.

أسئلة وحلول شائعة

السؤال	Solution
ما المواقف التي من المرجح أن أستخدم فيها التعرف على المتحدث؟	تشمل الأمثلة الجيدة التحقق من عملاء مركز الاتصال، وتسجيل الوصول الصوتي للمريض، وكتابة الحديث الاجتماع، وتخصيص الجهاز متعدد المستخدمين.
ما الفرق بين تحديد الهوية والتحقق؟	تحديد الهوية هو عملية الكشف عن أي عضو من مجموعة المتحدثين يتحدث. التحقق هو عملية التأكيد على مطابقة المتحدث لصوت مسجل معروف.
ما اللغات المدعومة؟	راجع دعم لغة التعرف على المتحدث.
ما هي مناطق Azure المدعومة؟	راجع دعم منطقة التعرف على المتحدث.
ما هي صيغ الصوت المدعومة؟	أحادي 16 بت، 16 كيلو هرتز WAV بترميز PCM.
هل يمكنك تسجيل متحدث واحد عدة مرات؟	نعم، للتحقق المعتمد على النص، يمكنك تسجيل مكبر صوت حتى 50 مرة. للتحقق من النص المستقل أو التعرف على السماعة، يمكنك التسجيل بما يصل إلى 300 ثانية من الصوت.
ما هي البيانات المخزنة في Azure؟	يتم تخزين صوت التسجيل في الخدمة حتى يتم حذف ملف التعريف الصوتي. لا يتم الاحتفاظ بنماذج صوت التعرف أو تخزينها.

الذكاء الاصطناعي المسؤول

لا يتضمن نظام الذكاء الاصطناعي التكنولوجيا فحسب، بل يشمل أيضا الأشخاص الذين يستخدمونها، والأشخاص المتأثرين بها، والبيئة التي يتم نشرها فيها. اقرأ ملاحظات الشفافية للتعرف على الذكاء الاصطناعي المسؤولة واستخدامها ونشرها في أنظمتك.

الخطوات التالية

التشغيل السريع للتعرف على المتحدث