ما هو النص إلى كلام؟

مقالة
01/22/2024

في هذه النظرة العامة، ستتعرف على مزايا وقدرات ميزة تحويل النص إلى كلام لخدمة الكلام، والتي تعد جزءا من خدمات Azure الذكاء الاصطناعي.

يتيح النص إلى كلام للتطبيقات أو الأدوات أو الأجهزة تحويل النص إلى كلام بشري مثل الكلام المركب. يعرف النص إلى قدرة الكلام أيضا باسم تركيب الكلام. استخدم الإنسان مثل الأصوات العصبية التي تم إنشاؤها مسبقا خارج الصندوق، أو أنشئ صوتا عصبيا مخصصا فريدا لمنتجك أو علامتك التجارية. للحصول على قائمة كاملة بالأصوات واللغات واللهجات المدعومة، راجع دعم اللغة والصوت لخدمة الكلام.

الميزات الأساسية

يتضمن النص إلى كلام الميزات التالية:

ميزة	الملخص	العرض التوضيحي
صوت عصبي مُنشأ مسبقاً (يحمل اسم عصبي في صفحة الأسعار)	أصوات طبيعية للغاية خارج الصندوق. أنشئ حساب Azure واشتراكاً في خدمة الكلام، ثم استخدم عدة تطوير برامج الكلام أو تفضّل بزيارة مدخل Speech Studio وحدد ما تريده من الأصوات العصبية المُنشأة مسبقاً للبدء. تحقق من تفاصيل الأسعار.	تحقق من معرض الصوت وحدد الصوت المناسب لاحتياجات عملك.
صوت عصبي مخصص (يحمل اسم عصبي مخصص في صفحة الأسعار)	خدمة ذاتية سهلة الاستخدام لإنشاء صوت طبيعي للعلامة التجارية، مع وصول محدود لضمان الاستخدام المسؤول. أنشئ حساب Azure واشتراكاً في خدمة الكلام (مع طبقة S0)، ثم طبّق لاستخدام الميزة العصبية المخصصة. بعد منحك حق الوصول، قم بزيارة مدخل Speech Studio وحدد Custom voice للبدء. تحقق من تفاصيل الأسعار.	تحقق من عينات الصوت.

الشروع في العمل

لبدء استخدام النص إلى كلام، راجع التشغيل السريع. يتوفر النص إلى كلام عبر Speech SDK وواجهة برمجة تطبيقات REST و Speech CLI.

تلميح

لتحويل النص إلى كلام باستخدام نهج بدون تعليمات برمجية، جرب أداة إنشاء محتوى صوتي في Speech Studio.

التعليمة البرمجية العينة

يتوفر نموذج التعليمات البرمجية لتحويل النص إلى كلام على GitHub. تغطي هذه العينات النص لتحويل الكلام بلغات البرمجة الأكثر شيوعا:

الصوت العصبي المخصص

بالإضافة إلى الأصوات العصبية المُنشأة مسبقاً، يمكنك إنشاء وضبط الأصوات العصبية المخصصة الفريدة لمنتجك أو علامتك التجارية. كل ما تحتاجه للبدء هو عدد قليل من الملفات الصوتية والنسخ المكتوبة المرتبطة بها. لمزيد من المعلومات، راجع بدء استخدام الصوت العصبي المخصص.

ملاحظة التسعير

الأحرف القابلة للفوترة

عند استخدام ميزة تحويل النص إلى كلام، تتم محاسبتك على كل حرف يتم تحويله إلى كلام، بما في ذلك علامات الترقيم. على الرغم من أن مستند SSML نفسه غير قابل للفوترة، يتم حساب العناصر الاختيارية التي يتم استخدامها لضبط كيفية تحويل النص إلى كلام، مثل الرسائل الصوتية والنص الترويجي، كأحرف قابلة للفوترة. فيما يلي قائمة بالعناصر القابلة للفوترة:

النص الذي تم تمريره إلى ميزة النص إلى الكلام في نص SSML للطلب
جميع الرموز الموجودة داخل الحقل النصي لنص الطلب بتنسيق SSML، باستثناء العلامتين <speak> و<voice>
الأحرف وعلامات الترقيم والمسافات وعلامات التبويب والرموز وجميع أحرف المسافات الفارغة
كل نقطة تعليمة برمجية محددة في Unicode

للاطلاع على معلومات تفصيلية، راجع أسعار خدمة الكلام.

هام

يُحسب كل حرف صيني عند الفوترة باعتباره حرفين، بما يشمل حروف كانجي المُستخدمة في اللغة اليابانية، أو حروف هانجا المُستخدمة في الكورية، أو هانزي المُستخدمة في لغات أخرى.

تدريب النموذج ووقت الاستضافة للصوت العصبي المخصص

يتم حساب التدريب الصوتي المخصص والاستضافة على حد سواء بالساعة وفوترة في الثانية. للحصول على سعر وحدة الفوترة، راجع أسعار خدمة الكلام.

يتم قياس وقت تدريب الصوت العصبي المخصص (CNV) ب "ساعة الحساب" (وحدة لقياس وقت تشغيل الجهاز). عادة، عند تدريب نموذج صوتي، يتم تشغيل مهمتين للحوسبة بالتوازي. لذلك، ساعات الحوسبة المحسوبة أطول من وقت التدريب الفعلي. في المتوسط، يستغرق الأمر أقل من ساعة حساب لتدريب صوت CNV Lite؛ بينما بالنسبة إلى CNV Pro، عادة ما يستغرق الأمر من 20 إلى 40 ساعة حساب لتدريب صوت من نمط واحد، وحوالي 90 ساعة حساب لتدريب صوت متعدد الأنماط. يتم فوترة وقت تدريب CNV بحد أقصى 96 ساعة حساب. لذلك في حالة تدريب نموذج صوت في 98 ساعة حساب، سيتم محاسبتك فقط على 96 ساعة حساب.

يتم قياس استضافة نقطة نهاية الصوت العصبي المخصص (CNV) بالوقت الفعلي (الساعة). يتم حساب وقت الاستضافة (الساعات) لكل نقطة نهاية في الساعة 00:00 بالتوقيت العالمي المتفق عليه كل يوم للساعات ال 24 السابقة. على سبيل المثال، إذا كانت نقطة النهاية نشطة لمدة 24 ساعة في اليوم الأول، تتم فوترتها لمدة 24 ساعة الساعة 00:00 بالتوقيت العالمي المتفق عليه في اليوم الثاني. إذا تم إنشاء نقطة النهاية حديثا أو تعليقها أثناء اليوم، يتم فوترتها لوقت التشغيل المتراكم حتى الساعة 00:00 بالتوقيت العالمي المتفق عليه في اليوم الثاني. إذا لم تكن نقطة النهاية مستضافة حاليا، فلن تتم فوترتها. بالإضافة إلى الحساب اليومي في الساعة 00:00 بالتوقيت العالمي المتفق عليه كل يوم، يتم أيضا تشغيل الفوترة على الفور عند حذف نقطة نهاية أو إيقافها مؤقتا. على سبيل المثال، بالنسبة لنقطة نهاية تم إنشاؤها في الساعة 08:00 بالتوقيت العالمي المتفق عليه في 1 ديسمبر، سيتم حساب ساعة الاستضافة إلى 16 ساعة في الساعة 00:00 بالتوقيت العالمي المتفق عليه في 2 ديسمبر و24 ساعة في الساعة 00:00 بالتوقيت العالمي المتفق عليه في 3 ديسمبر. إذا توقف المستخدم عن استضافة نقطة النهاية في الساعة 16:30 بالتوقيت العالمي المتفق عليه في 3 ديسمبر، فسيتم حساب المدة (16.5 ساعة) من 00:00 إلى 16:30 بالتوقيت العالمي المتفق عليه في 3 ديسمبر للفوترة.

وثائق مرجعية

الذكاء الاصطناعي المسؤول

لا يتضمن نظام الذكاء الاصطناعي التكنولوجيا فحسب، بل يشمل أيضا الأشخاص الذين يستخدمونها، والأشخاص المتأثرين بها، والبيئة التي يتم نشرها فيها. اقرأ ملاحظات الشفافية للتعرف على الذكاء الاصطناعي المسؤولة واستخدامها ونشرها في أنظمتك.

Share via