ما هو النص إلى كلام؟

في هذه النظرة العامة، ستتعرف على مزايا وقدرات ميزة تحويل النص إلى كلام لخدمة الكلام، والتي تعد جزءا من خدمات Azure الذكاء الاصطناعي.

يتيح النص إلى كلام للتطبيقات أو الأدوات أو الأجهزة تحويل النص إلى كلام بشري مثل الكلام المركب. يعرف النص إلى قدرة الكلام أيضا باسم تركيب الكلام. استخدم الإنسان مثل الأصوات العصبية التي تم إنشاؤها مسبقا خارج الصندوق، أو أنشئ صوتا عصبيا مخصصا فريدا لمنتجك أو علامتك التجارية. للحصول على قائمة كاملة بالأصوات واللغات واللهجات المدعومة، راجع دعم اللغة والصوت لخدمة الكلام.

الميزات الأساسية

يتضمن النص إلى كلام الميزات التالية:

ميزة الملخص العرض التوضيحي
صوت عصبي مُنشأ مسبقاً (يحمل اسم عصبي في صفحة الأسعار) أصوات طبيعية للغاية خارج الصندوق. أنشئ حساب Azure واشتراكاً في خدمة الكلام، ثم استخدم عدة تطوير برامج الكلام أو تفضّل بزيارة مدخل Speech Studio وحدد ما تريده من الأصوات العصبية المُنشأة مسبقاً للبدء. تحقق من تفاصيل الأسعار. تحقق من معرض الصوت وحدد الصوت المناسب لاحتياجات عملك.
صوت عصبي مخصص (يحمل اسم عصبي مخصص في صفحة الأسعار) خدمة ذاتية سهلة الاستخدام لإنشاء صوت طبيعي للعلامة التجارية، مع وصول محدود لضمان الاستخدام المسؤول. أنشئ حساب Azure واشتراكاً في خدمة الكلام (مع طبقة S0)، ثم طبّق لاستخدام الميزة العصبية المخصصة. بعد منحك حق الوصول، قم بزيارة مدخل Speech Studio وحدد Custom voice للبدء. تحقق من تفاصيل الأسعار. تحقق من عينات الصوت.

المزيد حول النص العصبي إلى ميزات الكلام

يستخدم النص إلى كلام الشبكات العصبية العميقة لجعل أصوات أجهزة الكمبيوتر لا يمكن تمييزها تقريبا عن تسجيلات الأشخاص. مع التعبير الواضح عن الكلمات، يقلل النص العصبي للكلام بشكل كبير من تعب الاستماع عندما يتفاعل المستخدمون مع أنظمة الذكاء الاصطناعي.

تُسمى أنماط الضغط والتنغيم في اللغة المنطوقة العَروض. النص التقليدي لأنظمة الكلام يقسم prosody إلى تحليل لغوي منفصل وخطوات تنبؤ صوتي تحكمها نماذج مستقلة. ويمكن أن يؤدي ذلك إلى تركيب صوت مكتوم مليء بالطنين.

فيما يلي مزيد من المعلومات حول النص العصبي لميزات الكلام في خدمة الكلام، وكيفية التغلب على حدود النص التقليدي لأنظمة الكلام:

  • تركيب الكلام في الوقت الحقيقي: استخدم Speech SDK أو REST API لتحويل النص إلى كلام باستخدام أصوات عصبية تم إنشاؤها مسبقا أو أصوات عصبية مخصصة.

  • التركيب غير المتزامن للصوت الطويل: استخدم واجهة برمجة تطبيقات تجميع الدفعات (معاينة) لتركيب النص بشكل غير متزامن إلى ملفات الكلام التي تزيد عن 10 دقائق (على سبيل المثال، الكتب الصوتية أو المحاضرات). على عكس التركيب الذي يتم إجراؤه عبر Speech SDK أو Speech to text REST API، لا يتم إرجاع الاستجابات في الوقت الفعلي. المُتوقع أن تُرسل الطلبات بشكل غير متزامن، ويُستقصى عن الاستجابات، ثم يُنزَّل الصوت المركب عندما تتيح الخدمة ذلك.

  • الأصوات العصبية التي تم إنشاؤها مسبقا: يستخدم النص العصبي من Microsoft القدرة على الكلام الشبكات العصبية العميقة للتغلب على حدود تركيب الكلام التقليدي فيما يتعلق بالإجهاد والرجم في اللغة المنطوقة. يحدث توقّع العَروض وتركيب الصوت بشكل متزامن، مما يؤدي إلى إخراجات أكثر سلاسة ووقعها أكثر طبيعيةً على الأذن. يتوفر كل نموذج صوتي عصبي تم إنشاؤه مسبقا بسرعة 24 كيلوهرتز ودقة عالية 48 كيلوهرتز. يمكنك استخدام الأصوات العصبية للأغراض التالية:

    • جَعل التفاعلات مع روبوتات الدردشة والمساعدين الصوتيين أكثر طبيعيةً وجاذبية.
    • تحويل النصوص الرقمية مثل الكتب الإلكترونية إلى كتب صوتية.
    • تحسين أنظمة الملاحة داخل السيارات.

    للحصول على قائمة كاملة بالأصوات العصبية للنظام الأساسي، راجع دعم اللغة والصوت لخدمة الكلام.

  • ضبط النص إلى إخراج الكلام باستخدام SSML: لغة ترميز تركيب الكلام (SSML) هي لغة ترميز مستندة إلى XML تستخدم لتخصيص النص إلى مخرجات الكلام. باستخدام لغة ترميز تركيب الكلام، يمكنك ضبط نبرة الصوت، وإضافة مواضع للتوقف المؤقت، وتحسين النطق، وتغيير معدل التحدث، وضبط مستوى الصوت، وربط أصوات متعددة بمستند واحد.

    يمكنك استخدام لغة ترميز تركيب الكلام لتعريف معاجمك الخاصة أو التبديل إلى أنماط مختلفة للتحدث. باستخدام الأصوات متعددة اللغات، يمكنك أيضاً ضبط لغات التحدث عبر لغة ترميز تركيب الكلام. لضبط إخراج الصوت للسيناريو الخاص بك، راجع تحسين التركيب باستخدام لغة ترميز تركيب الكلام وتركيب الكلام باستخدام أداة إنشاء محتوى الصوت.

  • Visemes: Visemes هي الوضع الرئيس في الكلام الملحوظ، بما في ذلك موضع الشفاه والفك واللسان في إنتاج صوت معين. ترتبط صور الفم ارتباطاً قوياً بالأصوات والأصوات الكلامية.

    باستخدام أحداث صورة الفم في عدة تطوير برامج الكلام، يمكنك إنشاء بيانات حركة الوجه. يمكن استخدام هذه البيانات لتحريك الوجوه في الاتصالات والأغراض التعليمية والترفيهية وخدمة العملاء المستندة إلى قراءة الشفاه. في الوقت الحالي، صور الفم مدعومة للأصوات العصبية بـ en-US (الإنجليزية الأمريكية) فحسب.

إشعار

نخطط لوقف الأصوات التقليدية/القياسية والصوت غير العصبي المخصص في عام 2024. بعد ذلك التاريخ، لن ندعم هذه الأصوات.

إذا كانت تطبيقاتك أو أدواتك أو منتجاتك تستخدم أياً من الأصوات القياسية والأصوات المخصصة، فعليك الترحيل إلى الإصدار العصبي. لمزيد من المعلومات، راجع الترحيل إلى الأصوات العصبية.

الشروع في العمل

لبدء استخدام النص إلى كلام، راجع التشغيل السريع. يتوفر النص إلى كلام عبر Speech SDK وواجهة برمجة تطبيقات REST و Speech CLI.

تلميح

لتحويل النص إلى كلام باستخدام نهج بدون تعليمات برمجية، جرب أداة إنشاء محتوى صوتي في Speech Studio.

التعليمة البرمجية العينة

يتوفر نموذج التعليمات البرمجية لتحويل النص إلى كلام على GitHub. تغطي هذه العينات النص لتحويل الكلام بلغات البرمجة الأكثر شيوعا:

الصوت العصبي المخصص

بالإضافة إلى الأصوات العصبية المُنشأة مسبقاً، يمكنك إنشاء وضبط الأصوات العصبية المخصصة الفريدة لمنتجك أو علامتك التجارية. كل ما تحتاجه للبدء هو عدد قليل من الملفات الصوتية والنسخ المكتوبة المرتبطة بها. لمزيد من المعلومات، راجع بدء استخدام الصوت العصبي المخصص.

ملاحظة التسعير

الأحرف القابلة للفوترة

عند استخدام ميزة تحويل النص إلى كلام، تتم محاسبتك على كل حرف يتم تحويله إلى كلام، بما في ذلك علامات الترقيم. على الرغم من أن مستند SSML نفسه غير قابل للفوترة، يتم حساب العناصر الاختيارية التي يتم استخدامها لضبط كيفية تحويل النص إلى كلام، مثل الرسائل الصوتية والنص الترويجي، كأحرف قابلة للفوترة. فيما يلي قائمة بالعناصر القابلة للفوترة:

  • النص الذي تم تمريره إلى ميزة النص إلى الكلام في نص SSML للطلب
  • جميع الرموز الموجودة داخل الحقل النصي لنص الطلب بتنسيق SSML، باستثناء العلامتين <speak> و<voice>
  • الأحرف وعلامات الترقيم والمسافات وعلامات التبويب والرموز وجميع أحرف المسافات الفارغة
  • كل نقطة تعليمة برمجية محددة في Unicode

للاطلاع على معلومات تفصيلية، راجع أسعار خدمة الكلام.

هام

يُحسب كل حرف صيني عند الفوترة باعتباره حرفين، بما يشمل حروف كانجي المُستخدمة في اللغة اليابانية، أو حروف هانجا المُستخدمة في الكورية، أو هانزي المُستخدمة في لغات أخرى.

تدريب النموذج ووقت الاستضافة للصوت العصبي المخصص

يتم حساب التدريب الصوتي المخصص والاستضافة على حد سواء بالساعة وفوترة في الثانية. للحصول على سعر وحدة الفوترة، راجع أسعار خدمة الكلام.

يتم قياس وقت تدريب الصوت العصبي المخصص (CNV) ب "ساعة الحساب" (وحدة لقياس وقت تشغيل الجهاز). عادة، عند تدريب نموذج صوتي، يتم تشغيل مهمتين للحوسبة بالتوازي. لذلك، ساعات الحوسبة المحسوبة أطول من وقت التدريب الفعلي. في المتوسط، يستغرق الأمر أقل من ساعة حساب لتدريب صوت CNV Lite؛ بينما بالنسبة إلى CNV Pro، عادة ما يستغرق الأمر من 20 إلى 40 ساعة حساب لتدريب صوت من نمط واحد، وحوالي 90 ساعة حساب لتدريب صوت متعدد الأنماط. يتم فوترة وقت تدريب CNV بحد أقصى 96 ساعة حساب. لذلك في حالة تدريب نموذج صوت في 98 ساعة حساب، سيتم محاسبتك فقط على 96 ساعة حساب.

يتم قياس استضافة نقطة نهاية الصوت العصبي المخصص (CNV) بالوقت الفعلي (الساعة). يتم حساب وقت الاستضافة (الساعات) لكل نقطة نهاية في الساعة 00:00 بالتوقيت العالمي المتفق عليه كل يوم للساعات ال 24 السابقة. على سبيل المثال، إذا كانت نقطة النهاية نشطة لمدة 24 ساعة في اليوم الأول، تتم فوترتها لمدة 24 ساعة الساعة 00:00 بالتوقيت العالمي المتفق عليه في اليوم الثاني. إذا تم إنشاء نقطة النهاية حديثا أو تعليقها أثناء اليوم، يتم فوترتها لوقت التشغيل المتراكم حتى الساعة 00:00 بالتوقيت العالمي المتفق عليه في اليوم الثاني. إذا لم تكن نقطة النهاية مستضافة حاليا، فلن تتم فوترتها. بالإضافة إلى الحساب اليومي في الساعة 00:00 بالتوقيت العالمي المتفق عليه كل يوم، يتم أيضا تشغيل الفوترة على الفور عند حذف نقطة نهاية أو إيقافها مؤقتا. على سبيل المثال، بالنسبة لنقطة نهاية تم إنشاؤها في الساعة 08:00 بالتوقيت العالمي المتفق عليه في 1 ديسمبر، سيتم حساب ساعة الاستضافة إلى 16 ساعة في الساعة 00:00 بالتوقيت العالمي المتفق عليه في 2 ديسمبر و24 ساعة في الساعة 00:00 بالتوقيت العالمي المتفق عليه في 3 ديسمبر. إذا توقف المستخدم عن استضافة نقطة النهاية في الساعة 16:30 بالتوقيت العالمي المتفق عليه في 3 ديسمبر، فسيتم حساب المدة (16.5 ساعة) من 00:00 إلى 16:30 بالتوقيت العالمي المتفق عليه في 3 ديسمبر للفوترة.

وثائق مرجعية

الذكاء الاصطناعي المسؤول

لا يتضمن نظام الذكاء الاصطناعي التكنولوجيا فحسب، بل يشمل أيضا الأشخاص الذين يستخدمونها، والأشخاص المتأثرين بها، والبيئة التي يتم نشرها فيها. اقرأ ملاحظات الشفافية للتعرف على الذكاء الاصطناعي المسؤولة واستخدامها ونشرها في أنظمتك.

الخطوات التالية