ما هو الكلام إلى النص؟

مقالة
01/22/2024

في هذه النظرة العامة، يمكنك التعرف على مزايا وقدرات ميزة الكلام إلى النص لخدمة Speech، والتي تعد جزءا من خدمات Azure الذكاء الاصطناعي. يمكن استخدام تحويل الكلام إلى نص في الوقت الحقيقي أو النسخ الدفعي للتدفقات الصوتية في النص.

إشعار

لمقارنة تسعير الوقت الحقيقي بالنسخ الدفعي، راجع تسعير خدمة الكلام.

للحصول على قائمة كاملة بلغات الكلام المتوفرة للغات النصية، راجع دعم اللغة والصوت.

تحويل الكلام إلى نص في الوقت الحقيقي

مع تحويل الكلام إلى نص في الوقت الحقيقي، يتم نسخ الصوت حيث يتم التعرف على الكلام من ميكروفون أو ملف. استخدم الكلام في الوقت الحقيقي إلى نص للتطبيقات التي تحتاج إلى نسخ الصوت في الوقت الفعلي مثل:

النسخ أو التسميات التوضيحية أو الترجمة للاجتماعات المباشرة
يوميات
تقييم النطق
مساعدة وكلاء مركز الاتصال
الإملاء
وكلاء الصوت

يتوفر الكلام إلى النص في الوقت الحقيقي عبر Speech SDK و Speech CLI.

كتابة حديث دُفعة

يتم استخدام النسخ الدفعي لنسخ كمية كبيرة من الصوت في التخزين. يمكنك الإشارة إلى ملفات الصوت مع URI توقيع الوصول المشترك (SAS) وتلقي نتائج الكتابة بشكل غير متزامن. استخدم النسخ الدفعي للتطبيقات التي تحتاج إلى نسخ الصوت بشكل مجمع مثل:

النسخ أو التسميات التوضيحية أو الترجمة للصوت المسجل مسبقا
تحليلات ما بعد المكالمة في مركز الاتصال
يوميات

يتوفر النسخ الدفعي عبر:

Speech to text REST API: للبدء، راجع كيفية استخدام النسخ الدفعي ونماذج النسخ الدفعي (REST).
يدعم Speech CLI كلا من النسخ في الوقت الحقيقي والنسخ الدفعي. للحصول على تعليمات Speech CLI مع النسخ الدفعية، قم بتشغيل الأمر التالي:
```
spx help batch transcription
```

الكلام المخصص

باستخدام الكلام المخصص، يمكنك تقييم وتحسين دقة التعرف على الكلام لتطبيقاتك ومنتجاتك. يمكن استخدام نموذج كلام مخصص لتحويل الكلام في الوقت الحقيقي إلى نص وترجمة الكلام والنسخ الدفعي.

تلميح

لا يلزم وجود نقطة نهاية نشر مستضافة لاستخدام الكلام المخصص مع واجهة برمجة تطبيقات النسخ الدفعي. يمكنك الحفاظ على الموارد إذا تم استخدام نموذج الكلام المخصص فقط للنسخ الدفعي. لمزيد من المعلومات، راجع أسعار خدمة Speech.

يستخدم التعرف على الكلام نموذج اللغة العالمي كنموذج أساسي يتم تدريبه باستخدام البيانات المملوكة ل Microsoft ويعكس اللغة المنطوقة شائعة الاستخدام. يتم تدريب النموذج الأساسي مسبقا مع اللهجات والهاتفية التي تمثل مختلف المجالات الشائعة. عند تقديم طلب التعرف على الكلام، يتم استخدام أحدث نموذج أساسي لكل لغة مدعومة بشكل افتراضي. يعمل النموذج الأساسي بشكل جيد في معظم سيناريوهات التعرف على الكلام.

يمكن استخدام نموذج مخصص لزيادة النموذج الأساسي لتحسين التعرف على المفردات الخاصة بالمجال الخاصة بالتطبيق من خلال توفير بيانات نصية لتدريب النموذج. يمكن استخدامه أيضاً لتحسين التعرف استناداً إلى الظروف الصوتية المحددة للتطبيق من خلال توفير بيانات صوتية مع نسخ مكتوبة مرجعية. لمزيد من المعلومات، راجع الكلام المخصص والكلام إلى نص REST API.

تختلف خيارات التخصيص حسب اللغة أو اللهجة المحلية. للتحقق من الدعم، راجع دعم اللغة والصوت لخدمة الكلام.

الذكاء الاصطناعي المسؤول

لا يتضمن نظام الذكاء الاصطناعي التكنولوجيا فحسب، بل يشمل أيضا الأشخاص الذين يستخدمونها، والأشخاص المتأثرين بها، والبيئة التي يتم نشرها فيها. اقرأ ملاحظات الشفافية للتعرف على الذكاء الاصطناعي المسؤولة واستخدامها ونشرها في أنظمتك.

ما هو الكلام إلى النص؟

تحويل الكلام إلى نص في الوقت الحقيقي

كتابة حديث دُفعة

الكلام المخصص

الذكاء الاصطناعي المسؤول

الخطوات التالية

الموارد الإضافية