خدمة الكلام للبيانات الهاتفية
عادة ما تكون البيانات الهاتفية التي يتم إنشاؤها من خلال الخطوط الأرضية والهواتف المحمولة وأجهزة الراديو ذات جودة منخفضة. هذه البيانات ضيقة النطاق أيضا ، في نطاق 8 كيلوهرتز ، والتي يمكن أن تخلق تحديات عند تحويل الكلام إلى نص.
تتفوق أحدث نماذج التعرف على الكلام في خدمة الكلام في نسخ بيانات الهاتف هذه ، حتى عندما يصعب على الإنسان فهم البيانات. يتم تدريب هذه النماذج على كميات كبيرة من البيانات الهاتفية ، ولديها دقة التعرف على الأفضل في السوق ، حتى في البيئات الصاخبة.
السيناريو الشائع لتحويل الكلام إلى نص هو نسخ كميات كبيرة من البيانات الهاتفية التي تأتي من مجموعة متنوعة من الأنظمة ، مثل الاستجابة الصوتية التفاعلية (IVR). يمكن أن يكون الصوت الذي توفره هذه الأنظمة ستيريو أو أحادي اللون ، وخام ، مع القليل من المعالجة اللاحقة أو عدم القيام بها على الإشارة. باستخدام خدمة الكلام ونموذج الكلام الموحد، يمكن لشركتك الحصول على نسخ عالية الجودة، مهما كانت الأنظمة التي تستخدمها لالتقاط الصوت.
يمكنك استخدام البيانات الهاتفية لفهم احتياجات عملائك بشكل أفضل أو تحديد فرص تسويقية جديدة أو تقييم أداء وكلاء مركز الاتصال. بعد نسخ البيانات ، يمكن لنشاطك التجاري استخدام المخرجات لتحسين القياس عن بعد وتحديد العبارات الرئيسية وتحليل مشاعر العملاء وأغراض أخرى.
التقنيات الموضحة في هذه المقالة هي من Microsoft داخليا لمختلف خدمات معالجة مكالمات الدعم، سواء في الوقت الفعلي أو وضع الدفعات.
تتناول هذه المقالة بعض التقنيات والميزات ذات الصلة التي تقدمها خدمة الكلام.
هام
يتم تدريب النموذج الموحد لخدمة الكلام على بيانات متنوعة ويقدم حلا أحادي النموذج للعديد من السيناريوهات، من الإملاء إلى التحليلات الهاتفية.
تقنية Azure لمراكز الاتصال
بالإضافة إلى الجانب الوظيفي لميزات خدمة الكلام، فإن الغرض الأساسي منها، كما هو مطبق على مركز الاتصال، هو تحسين تجربة العملاء في ثلاثة مجالات منفصلة:
- تحليلات ما بعد المكالمة، والتي هي في الأساس المعالجة الدفعية لتسجيلات المكالمات بعد المكالمة.
- تحليلات في الوقت الفعلي ، وهي معالجة إشارة صوتية لاستخراج رؤى مختلفة أثناء إجراء المكالمة (مع المشاعر كحالة استخدام بارزة).
- المساعدون الصوتيون (الروبوتات) ، الذين إما يقودون الحوار بين العملاء والروبوت في محاولة لحل مشكلاتهم ، دون مشاركة الوكيل ، أو تطبيق بروتوكولات الذكاء الاصطناعي لمساعدة الوكيل.
فيما يلي رسم تخطيطي للبنية يعرض تطبيقا نموذجيا لسيناريو دفعة: 
مكونات تقنية تحليل الكلام
سواء كان المجال بعد المكالمة أو في الوقت الفعلي، يقدم Azure مجموعة من التقنيات الناضجة والناشئة للمساعدة في تحسين تجربة العملاء.
تحويل الكلام إلى نص
تحويل الكلام إلى نص هو الميزة الأكثر رواجا في أي حل لمركز الاتصال. نظرا لأن العديد من عمليات التحليلات النهائية تعتمد على النص المنسوخ ، فإن مقياس معدل خطأ الكلمة (WER) له أهمية قصوى. أحد التحديات الرئيسية في نسخ مركز الاتصال هو الضوضاء السائدة في مركز الاتصال (على سبيل المثال ، وكلاء آخرون يتحدثون في الخلفية) ، والتنوع الغني في اللغات واللهجات ، والجودة المنخفضة لإشارة الهاتف الفعلية.
يرتبط WER ارتباطا وثيقا بمدى تدريب النماذج الصوتية واللغوية للغة معينة. لذلك، من المهم أن تكون قادرا على تخصيص النموذج للغة الخاصة بك. أحدث طرازاتنا الموحدة 4.x هي الحل لكل من دقة النسخ والكمون. نظرا لأنهم مدربون على عشرات الآلاف من الساعات من البيانات الصوتية ومليارات البتات من المعلومات المعجمية ، فإن النماذج الموحدة هي الأكثر دقة في السوق لنسخ بيانات مركز الاتصال.
التوجه
في مساحة مركز الاتصال ، تعد القدرة على قياس ما إذا كان العملاء قد حصلوا على تجربة جيدة واحدة من أهم مجالات تحليلات الكلام. توفر واجهة برمجة تطبيقات النسخ الدفعي من Microsoft تحليلا للمشاعر لكل نطق. يمكنك تجميع مجموعة القيم التي يتم الحصول عليها كجزء من نص المكالمة لتحديد مشاعر المكالمة لكل من وكلائك والعميل.
الصمت (عدم الكلام)
ليس من غير المألوف أن يكون ما يصل إلى 35 في المائة من مكالمة الدعم ما يسمى بوقت عدم التحدث. قد تتضمن بعض السيناريوهات التي يحدث خلالها عدم التحدث ما يلي:
- الوكلاء الذين يأخذون الوقت الكافي للبحث عن سجل الحالات السابقة مع العميل.
- وكلاء يستخدمون الأدوات التي تسمح لهم بالوصول إلى سطح مكتب العميل وأداء وظائف معينة.
- العملاء الذين ينتظرون في الانتظار لتحويل المكالمات.
من المهم قياس وقت حدوث الصمت في المكالمة، لأن حساسيات العملاء الحرجة يمكن أن تنتج عن هذه الأنواع من السيناريوهات ومكان حدوثها في المكالمة.
الترجمة
تقوم بعض الشركات بتجربة توفير نصوص مترجمة من مكالمات الدعم باللغات الأجنبية ، بحيث يمكن لمديري التسليم فهم التجربة العالمية لعملائهم. قدرات الترجمة في خدمة الكلام ممتازة، وتتميز بالترجمة الصوتية إلى الصوتية أو الصوتية إلى نصية لعدد كبير من اللغات.
تحويل النص إلى كلام
يعد تحويل النص إلى كلام تقنية مهمة أخرى حيث تتفاعل الروبوتات مع العملاء. المسار النموذجي هو أن العميل يتحدث ، ويتم نسخ الصوت إلى نص ، ويتم تحليل النص للنوايا ، ويتم توليف الاستجابة بناء على النية المعترف بها ، ثم يتم ظهور أحد الأصول إما للعميل أو يتم إنشاء استجابة صوتية مركبة. نظرا لأن هذه العملية بأكملها يجب أن تحدث بسرعة ، فإن الكمون المنخفض هو عنصر مهم في نجاح هذه الأنظمة.
الكمون من طرف إلى طرف لخدمة الكلام منخفض إلى حد كبير بالنسبة لمختلف التقنيات المعنية، مثل تحويل الكلام إلى نص، وفهم اللغة (LUIS)،وإطار عمل الروبوت، وتحويل النص إلى كلام.
كما أن أصواتنا المركبة الجديدة لا يمكن تمييزها تقريبا عن الأصوات البشرية. يمكنك استخدامها لإعطاء الروبوت الخاص بك شخصيته الفريدة.
بحث
عنصر أساسي آخر في التحليلات هو تحديد التفاعلات التي حدث فيها حدث أو تجربة معينة. عادة ما تفعل ذلك باستخدام أي من النهجين:
- بحث مخصص ، حيث يقوم المستخدمون ببساطة بكتابة عبارة ويستجيب النظام.
- استعلام أكثر تنظيما حيث يمكن للمحلل إنشاء مجموعة من العبارات المنطقية التي تحدد سيناريو في مكالمة، ثم يمكن فهرسة كل مكالمة مقابل هذه المجموعة من الاستعلامات.
مثال جيد على البحث هو بيان الامتثال في كل مكان ، "سيتم تسجيل هذه المكالمة لأغراض الجودة". ترغب العديد من الشركات في التأكد من أن وكلاءها يقدمون إخلاء المسؤولية هذا للعملاء قبل تسجيل المكالمة بالفعل. تتمتع معظم أنظمة التحليلات بالقدرة على توجيه السلوكيات التي يتم العثور عليها بواسطة خوارزميات الاستعلام أو البحث ، وهذا الإبلاغ عن الاتجاهات هو في النهاية أحد أهم وظائف نظام التحليلات. من خلال دليل الخدمات المعرفية، يمكن تحسين الحل الشامل الخاص بك بشكل كبير من خلال إمكانات الفهرسة والبحث.
استخراج العبارات الرئيسية
هذا المجال هو واحد من تطبيقات التحليلات الأكثر تحديا ، وهو واحد يستفيد من تطبيق الذكاء الاصطناعي والتعلم الآلي. السيناريو الأساسي في هذه الحالة هو استنتاج نية العميل. لماذا يتصل العميل؟ ما هي مشكلة العميل؟ لماذا مر العميل بتجربة سلبية؟ توفر الخدمة المعرفية للغة مجموعة من التحليلات خارج الصندوق لترقية الحل الشامل بسرعة لاستخراج تلك الكلمات الرئيسية أو العبارات المهمة.
تغطي الأقسام التالية معالجة الدفعات وخطوط الأنابيب في الوقت الفعلي للتعرف على الكلام بمزيد من التفصيل.
النسخ الدفعي لبيانات مركز الاتصال
لنسخ الصوت بكميات كبيرة ، طورت Microsoft واجهة برمجة تطبيقات النسخ الدفعي ، والتي تنسخ كميات كبيرة من البيانات الصوتية بشكل غير متزامن. لنسخ بيانات مركز الاتصال على وجه التحديد ، يعتمد هذا الحل على ثلاث ركائز:
- الدقة: من خلال تطبيق الجيل الرابع من النماذج الموحدة، نقدم نسخا عالي الجودة.
- زمن الاستجابة: يجب إجراء النسخ المجمع بسرعة. يتم وضع مهام النسخ التي يتم بدؤها عبر واجهة برمجة تطبيقات النسخ الدفعي في قائمة الانتظار على الفور، وعندما تبدأ المهمة في التشغيل، يتم تنفيذها بشكل أسرع من النسخ في الوقت الفعلي.
- الأمان: نحن ندرك أن المكالمات قد تحتوي على بيانات حساسة، لذا فإن الأمان هو أولويتنا القصوى. تحقيقا لهذه الغاية ، حصلت خدمتنا على شهادات (ISO) و SOC و HIPAA و PCI.
تقوم مراكز الاتصال بإنشاء كميات كبيرة من البيانات الصوتية على أساس يومي. إذا كان نشاطك التجاري يخزن البيانات الهاتفية في موقع مركزي، مثل حساب تخزين Azure، فيمكنك استخدام واجهة برمجة تطبيقات النسخ الدفعي لطلب النسخ وتلقيها بشكل غير متزامن.
يستخدم الحل النموذجي هذه المنتجات والخدمات:
- خدمة الكلام: لنسخ الكلام إلى نص. يلزم وجود اشتراك قياسي لخدمة "الكلام" لاستخدام واجهة برمجة تطبيقات النسخ الدفعي. الاشتراكات المجانية لن تعمل.
- حساب تخزين Azure: لتخزين بيانات الاتصالات الهاتفية والنصوص التي يتم إرجاعها بواسطة واجهة برمجة تطبيقات النسخ الدفعي. يجب أن يستخدم حساب التخزين هذا الإشعارات، خاصة عند إضافة ملفات جديدة. يتم استخدام هذه الإشعارات لتشغيل عملية النسخ.
- وظائف Azure: لإنشاء عنوان URI لتوقيع الوصول المشترك (SAS) لكل تسجيل، وتشغيل طلب HTTP POST لبدء النسخ. بالإضافة إلى ذلك، يمكنك استخدام وظائف Azure لإنشاء طلبات لاسترداد وحذف النسخ باستخدام واجهة برمجة تطبيقات النسخ الدفعي.
داخليا، تستخدم Microsoft هذه التقنيات لدعم مكالمات عملاء Microsoft في وضع الدفعات، كما هو موضح في الرسم التخطيطي التالي:
النسخ في الوقت الفعلي لبيانات مركز الاتصال
يطلب من بعض الشركات نسخ المحادثات في الوقت الفعلي. يمكنك استخدام النسخ في الوقت الفعلي لتحديد الكلمات الرئيسية وتشغيل عمليات البحث عن المحتوى والموارد ذات الصلة بالمحادثة، أو لمراقبة المشاعر، أو لتحسين إمكانية الوصول، أو لتوفير ترجمات للعملاء والوكلاء الذين ليسوا متحدثين أصليين.
بالنسبة للسيناريوهات التي تتطلب نسخا في الوقت الفعلي، نوصي باستخدام Speech SDK. حاليا ، يتوفر تحويل الكلام إلى نص بأكثر من 20 لغة ، وتتوفر SDK في C ++ و C # و Java و Python و JavaScript و Objective-C و Go. تتوفر العينات بكل لغة على GitHub. للحصول على آخر الأخبار والتحديثات، راجع ملاحظات الإصدار.
داخليا، تستخدم Microsoft التقنيات المذكورة سابقا لتحليل مكالمات عملاء Microsoft في الوقت الفعلي، كما هو موضح في الرسم البياني التالي:

حول الاستجابات الصوتية التفاعلية
يمكنك بسهولة دمج خدمة Speech في أي حل باستخدام إما Speech SDK أو REST API. ومع ذلك، قد يتطلب نسخ مركز الاتصال تقنيات إضافية. عادة ما يكون الاتصال بين نظام الرد الصوتي التفاعلي وAzure مطلوبا. على الرغم من أننا لا نقدم مثل هذه المكونات ، إلا أن الفقرة التالية تصف ما يستلزمه الاتصال بالرد الصوتي التفاعلي.
توفر العديد من منتجات خدمة الرد الصوتي التفاعلي أو الاتصالات الهاتفية (مثل Genesys أو AudioCodes) إمكانات تكامل يمكن تطبيقها لتمكين تمرير الصوت الوارد والصادر إلى خدمة Azure. بشكل أساسي، قد توفر خدمة Azure المخصصة واجهة محددة لتحديد جلسات المكالمات الهاتفية (مثل بدء المكالمة أو انتهاء المكالمة) وتعرض واجهة برمجة تطبيقات WebSocket لتلقي صوت دفق وارد يستخدم مع خدمة الكلام. يمكن توليف الاستجابات الصادرة، مثل نسخ المحادثة أو الاتصالات مع إطار عمل Bot، باستخدام خدمة تحويل النص إلى كلام من Microsoft وإعادتها إلى الرد الصوتي التفاعلي للتشغيل.
سيناريو آخر هو التكامل المباشر مع بروتوكول بدء الجلسة (SIP). تتصل خدمة Azure بخادم SIP للحصول على دفق وارد وصادر، والذي يستخدم لمرحلتي تحويل الكلام إلى نص وتحويل النص إلى كلام. للاتصال بخادم SIP ، هناك عروض برامج تجارية ، مثل Ozeki SDK ، أو Microsoft Graph Communications API ، مصممة لدعم هذا النوع من السيناريو للمكالمات الصوتية.
تخصيص التجارب الحالية
تعمل خدمة Speech بشكل جيد مع الطرز المدمجة. ومع ذلك ، قد ترغب في تخصيص التجربة وضبطها بشكل أكبر لمنتجك أو بيئتك. تتراوح خيارات التخصيص من ضبط النماذج الصوتية إلى الخطوط الصوتية الفريدة للعلامة التجارية. بعد إنشاء نموذج مخصص، يمكنك استخدامه مع أي من ميزات خدمة الكلام في الوقت الفعلي أو وضع الدفعات.
| خدمة الكلام | النموذج | الوصف |
|---|---|---|
| تحويل الكلام إلى نص | نموذج صوتي | قم بإنشاء نموذج صوتي مخصص للتطبيقات أو الأدوات أو الأجهزة المستخدمة في بيئات معينة، مثل السيارة أو على أرضية المصنع، ولكل منها شروط تسجيل خاصة بها. تتضمن الأمثلة الكلام البارز أو ضوضاء الخلفية أو استخدام ميكروفون معين للتسجيل. |
| نموذج اللغة | إنشاء نموذج لغة مخصص لتحسين نسخ المفردات والقواعد الخاصة بالصناعة، مثل المصطلحات الطبية أو مصطلحات تكنولوجيا المعلومات. | |
| نموذج النطق | باستخدام نموذج نطق مخصص، يمكنك تحديد الشكل الصوتي وعرضه لكلمة أو مصطلح. إنه مفيد للتعامل مع المصطلحات المخصصة ، مثل أسماء المنتجات أو الاختصارات. كل ما تحتاجه للبدء هو ملف النطق ، وهو ملف .txt بسيط. | |
| تحويل النص إلى كلام | خط الصوت | باستخدام خطوط الصوت المخصصة ، يمكنك إنشاء صوت فريد من نوعه يمكن التعرف عليه لعلامتك التجارية. لا يتطلب الأمر سوى كمية صغيرة من البيانات للبدء. كلما زاد عدد البيانات التي تقدمها ، كلما كان خط صوتك أكثر طبيعية وشبيها بالإنسان. |
عينة التعليمات البرمجية
يتوفر نموذج التعليمات البرمجية على GitHub لكل ميزة من ميزات خدمة الكلام. تغطي هذه العينات السيناريوهات الشائعة، مثل قراءة الصوت من ملف أو دفق، والتعرف المستمر ولقطة واحدة، والعمل مع النماذج المخصصة. لعرض نماذج SDK وREST، راجع:
- نماذج تحويل الكلام إلى نص وترجمة الكلام (SDK)
- نماذج النسخ الدفعي (REST)
- نماذج تحويل النص إلى كلام (REST)
وثائق مرجعية
- Speech SDK
- واجهة برمجة تطبيق REST: تحويل الكلام إلى نص
- واجهة برمجة تطبيق REST: لتحويل النص إلى كلام
- واجهة برمجة تطبيق REST: كتابة الحديث والتخصيص الدفعي