ما المقصود بخدمة الكلام؟

مقالة
01/21/2024

توفر خدمة الكلام قدرات تحويل الكلام إلى نص ونص إلى كلام مع مورد الكلام. يمكنك نسخ الكلام إلى نص بدقة عالية، وإنتاج نص طبيعي إلى أصوات الكلام، وترجمة الصوت المنطوق، واستخدام التعرف على السماعات أثناء المحادثات.

Image of tiles that highlight some Speech service features.

إنشاء أصوات مخصصة أو إضافة كلمات محددة إلى المفردات الأساسية أو إنشاء نماذجك الخاصة. تشغيل الكلام في أي مكان أو في السحابة أو على الحافة في حاويات. من السهل تمكين الكلام من تطبيقاتك وأدواتك وأجهزتك باستخدام Speech CLI أو Speech SDK أو Speech Studio أو واجهات برمجة تطبيقات REST.

يتوفر الكلام للعديد من اللغات والمناطق ونقاط الأسعار.

سيناريوهات الكلام

تتضمن السيناريوهات الشائعة للكلام ما يلي:

التسميات التوضيحية: تعرف على كيفية مزامنة التسميات التوضيحية مع صوت الإدخال، وتطبيق عوامل تصفية الألفاظ النابية، والحصول على نتائج جزئية، وتطبيق التخصيصات، وتحديد اللغات المنطوقة للسيناريوهات متعددة اللغات.
إنشاء محتوى صوتي: يمكنك استخدام الأصوات العصبية لجعل التفاعلات مع روبوتات الدردشة والمساعدين الصوتيين طبيعية وجذابة أكثر، وتحويل النصوص الرقمية مثل الكتب الإلكترونية إلى كتب صوتية وتحسين أنظمة التنقل داخل السيارة.
مركز الاتصال: نسخ المكالمات في الوقت الحقيقي أو معالجة مجموعة من المكالمات، ونقيد معلومات التعريف الشخصية، واستخراج رؤى مثل التوجه للمساعدة في حالة استخدام مركز الاتصال.
تعلم اللغة: تقديم ملاحظات تقييم النطق لمتعلمي اللغة، ودعم النسخ في الوقت الحقيقي لمحادثات التعلم عن بعد، وقراءة المواد التعليمية بصوت عال مع الأصوات العصبية.
المساعدون الصوتيون: إنشاء واجهات طبيعية وبشرية مثل واجهات المحادثة لتطبيقاتهم وتجاربهم. توفر ميزة المساعد الصوتي تفاعلاً سريعاً وموثوقاً بين الجهاز وتنفيذ المساعد.

تستخدم Microsoft Speech للعديد من السيناريوهات، مثل التسمية التوضيحية في Teams والإملاء في Office 365 والقراءة بصوت عال في مستعرض Microsoft Edge.

Image showing logos of Microsoft products where Speech service is used.

إمكانات الكلام

تلخص هذه الأقسام ميزات الكلام مع ارتباطات للحصول على مزيد من المعلومات.

الكلام إلى النص

استخدم الكلام إلى نص لنسخ الصوت إلى نص، إما في الوقت الحقيقي أو بشكل غير متزامن مع النسخ الدفعي.

تلميح

يمكنك تجربة الكلام في الوقت الحقيقي إلى نص في Speech Studio دون الاشتراك أو كتابة أي تعليمة برمجية.

تحويل الصوت إلى نص من مجموعة من المصادر، بما في ذلك الميكروفونات وملفات الصوت وتخزين الكائنات الثنائية كبيرة الحجم. استخدم يوميات المتحدث لتحديد من قال ماذا ومتى. احصل على نسخ قابلة للقراءة مع التنسيق التلقائي وعلامات الترقيم.

قد لا يكون النموذج الأساسي كافيا إذا كان الصوت يحتوي على ضوضاء محيطة أو يتضمن العديد من المصطلحات الخاصة بالصناعة والمجال. في هذه الحالات، يمكنك إنشاء نماذج كلام مخصصة وتدريبها ببيانات صوتية ولغة ونطق. نماذج الكلام المخصصة خاصة ويمكن أن توفر ميزة تنافسية.

تحويل الكلام إلى نص في الوقت الحقيقي

مع تحويل الكلام إلى نص في الوقت الحقيقي، يتم نسخ الصوت حيث يتم التعرف على الكلام من ميكروفون أو ملف. استخدم الكلام في الوقت الحقيقي إلى نص للتطبيقات التي تحتاج إلى نسخ الصوت في الوقت الفعلي مثل:

النسخ أو التسميات التوضيحية أو الترجمة للاجتماعات المباشرة
يوميات
تقييم النطق
مساعدة وكلاء مركز الاتصال
الإملاء
وكلاء الصوت

كتابة حديث دُفعة

يتم استخدام النسخ الدفعي لنسخ كمية كبيرة من الصوت في التخزين. يمكنك الإشارة إلى ملفات الصوت مع URI توقيع الوصول المشترك (SAS) وتلقي نتائج الكتابة بشكل غير متزامن. استخدم النسخ الدفعي للتطبيقات التي تحتاج إلى نسخ الصوت بشكل مجمع مثل:

النسخ أو التسميات التوضيحية أو الترجمة للصوت المسجل مسبقا
تحليلات ما بعد المكالمة في مركز الاتصال
يوميات

نص إلى كلام

مع تحويل النص إلى كلام، يمكنك تحويل نص الإدخال إلى نص بشري مثل الكلام المركب. استخدم الأصوات العصبية، وهي أصوات بشرية مثل الأصوات التي تعمل بالشبكات العصبية العميقة. استخدام لغة تمييز تركيب الكلام (SSML) لضبط طبقة الصوت والنطق ومعدل التحدث ومستوى الصوت والمزيد.

الصوت العصبي الذي تم إنشاؤه مسبقاً: أصوات طبيعية للغاية خارج الصندوق. تحقق من عينات الصوت العصبية التي تم إنشاؤها مسبقا في معرض الصوت وحدد الصوت المناسب لاحتياجات عملك.
الصوت العصبي المخصص: إلى جانب الأصوات العصبية التي تم إنشاؤها مسبقا والتي تخرج من الصندوق، يمكنك أيضا إنشاء صوت عصبي مخصص يمكن التعرف عليه وفريد من نوعه للعلامة التجارية أو المنتج الخاص بك. الأصوات العصبية المخصصة خاصة ويمكن أن توفر ميزة تنافسية. تحقق من عينات الصوت العصبية المخصصة هنا.

ترجمة الكلام

تتيح ترجمة الكلام إمكانية ترجمة الكلام في الوقت الفعلي ومن اللغات المتعددة إلى التطبيقات والأدوات والأجهزة. استخدم هذه الميزة لترجمة الكلام إلى الكلام والكلام إلى نص.

تعريف اللغة

يتم استخدام تعريف اللغة لتحديد اللغات المنطوقة في الصوت عند مقارنتها بقائمة اللغات المدعومة. استخدم تعريف اللغة في حد ذاته، مع التعرف على الكلام إلى النص، أو مع ترجمة الكلام.

التعرف على المتحدث

توفر خدمة التعرف على المتحدث خوارزميات من شأنها التحقق وتحديد هوية المتحدثين من خلال خصائصهم الصوتية الفريدة. يستخدم التعرف على المتحدث للإجابة عن سؤال "من المتحدث؟".

تقييم النطق

تقييم النطق يقيّم نطق الكلام ويعطي المتحدثين ملاحظات حول دقة وطلاقة الصوت المنطوق. مع تقييم النطق، يمكن لمتعلمي اللغة الممارسة، والحصول على ردود فعل فورية، وتحسين النطق بحيث يمكنهم التحدث والتواجد بثقة.

التعرف على الهدف

التعرف على الهدف: استخدم الكلام إلى نص مع فهم لغة المحادثة لاشتقاق أهداف المستخدم من الكلام المنسوخ والعمل على الأوامر الصوتية.

التسليم والحضور

يمكنك نشر ميزات Azure الذكاء الاصطناعي Speech في السحابة أو في الموقع.

باستخدام الحاويات، يمكنك تقريب الخدمة من بياناتك لأسباب تتعلق بالامتثال أو الأمان أو لأسباب تشغيلية أخرى.

يتوفر نشر خدمة الكلام في السحب ذات السيادة لبعض الكيانات الحكومية وشركائها. تتوفر سحابة Azure Government لعملاء الحكومة الأمريكية وشركائهم. يتوفر Microsoft Azure الذي تديره سحابة 21Vianet للمؤسسات ذات التواجد التجاري في الصين. لمزيد من المعلومات، راجع السحب ذات السيادة.

Diagram showing where Speech service can be deployed and accessed.

استخدام الكلام في تطبيقك

يعد Speech Studio مجموعة من الأدوات المستندة إلى واجهة المستخدم لإنشاء الميزات ودمجها من خدمة Azure الذكاء الاصطناعي Speech في تطبيقاتك. يمكنك إنشاء مشاريع في Speech Studio باستعمال نهج بدون تعليمات برمجية، ثم الرجوع إلى هذه الأصول في تطبيقاتك باستعمال Speech SDK أو Speech CLI أو واجهات برمجة تطبيقات REST.

Speech CLI هو أداة سطر الأوامر لاستخدام خدمة Speech دون كتابة أية تعليمات برمجية. تتوفر معظم الميزات في Speech SDK في Speech CLI ثم يتم تبسيط بعض الميزات المتقدمة والتخصيصات في Speech CLI.

يعرض Speech SDK العديد من إمكانات خدمة الكلام التي يمكنك استخدامها لتطوير التطبيقات الممكّنة للكلام. يتوفر Speech SDK في العديد من لغات البرمجة وعلى كل الأنظمة الأساسية.

في بعض الحالات، لا يمكنك أو لا يجب عليك استخدام Speech SDK. في هذه الحالات، يمكنك استخدام واجهات برمجة تطبيقات REST للوصول إلى خدمة الكلام. على سبيل المثال، استخدم واجهات برمجة تطبيقات REST للنسخ الدفعي وواجهات برمجة تطبيقات REST للتعرف على المتحدث.

الشروع في العمل

نحن نقدم التشغيل السريع في العديد من لغات الكمبيوتر الشائعة. تم تصميم كل التشغيل السريع ليعلمك أنماط التصميم الأساسية ويمكنك تشغيل التعليمة البرمجية في أقل من 10 دقائق. راجع القائمة التالية لبدء التشغيل السريع لكل ميزة:

نماذج التعليمات البرمجية

يتوفر نموذج التعليمات البرمجية على GitHub لخدمة الكلام. تغطي هذه العينات السيناريوهات الشائعة مثل قراءة الصوت من ملف أو دفق، والتعرف المستمر والأحادي اللقطة، والعمل مع النماذج المخصصة. استخدم هذه الارتباطات لعرض نماذج SDK وREST:

الذكاء الاصطناعي المسؤول

لا يتضمن نظام الذكاء الاصطناعي التكنولوجيا فحسب، بل يشمل أيضا الأشخاص الذين يستخدمونها، والأشخاص المتأثرين بها، والبيئة التي يتم نشرها فيها. اقرأ ملاحظات الشفافية للتعرف على الذكاء الاصطناعي المسؤولة واستخدامها ونشرها في أنظمتك.

ما المقصود بخدمة الكلام؟

سيناريوهات الكلام

إمكانات الكلام

الكلام إلى النص

تحويل الكلام إلى نص في الوقت الحقيقي

كتابة حديث دُفعة

نص إلى كلام

ترجمة الكلام

تعريف اللغة

التعرف على المتحدث

تقييم النطق

التعرف على الهدف

التسليم والحضور

استخدام الكلام في تطبيقك

الشروع في العمل

نماذج التعليمات البرمجية

الذكاء الاصطناعي المسؤول

الكلام إلى النص

تقييم النطق

الصوت العصبي المخصص

Speaker Recognition

الخطوات التالية

الموارد الإضافية