ما هو نص OpenAI لأصوات الكلام؟

مثل Azure الذكاء الاصطناعي أصوات الكلام، يقدم نص OpenAI إلى أصوات الكلام تركيب كلام عالي الجودة لتحويل النص المكتوب إلى صوت منطوق طبيعي سبر. وهذا يفتح مجموعة واسعة من الاحتمالات لتجارب المستخدم الشاملة والتفاعلية.

يتوفر نص OpenAI لأصوات الكلام عبر متغيرين نموذجيين: Neural و NeuralHD.

  • Neural: محسن لحالات الاستخدام في الوقت الحقيقي مع أقل زمن انتقال، ولكن جودة أقل من NeuralHD.
  • NeuralHD: محسن للجودة.

للحصول على عرض توضيحي لأصوات OpenAI في Azure OpenAI Studio وS speech Studio، اعرض هذا الفيديو التمهيدي.

النص المتوفر لأصوات الكلام في خدمات Azure الذكاء الاصطناعي

قد تسأل: إذا كنت أرغب في استخدام نص OpenAI لصوت الكلام، فهل يجب استخدامه عبر خدمة Azure OpenAI أو عبر Azure الذكاء الاصطناعي Speech؟ ما هي السيناريوهات التي ترشدني إلى استخدام واحد أو آخر؟

يوفر كل نموذج صوتي ميزات وقدرات مميزة، ما يسمح لك باختيار النموذج الذي يناسب احتياجاتك المحددة. تريد فهم الخيارات والاختلافات بين النص المتوفر لأصوات الكلام في خدمات Azure الذكاء الاصطناعي.

يمكنك الاختيار من النص التالي إلى أصوات الكلام في خدمات Azure الذكاء الاصطناعي:

نص OpenAI إلى أصوات الكلام عبر خدمة Azure OpenAI أو عبر Azure الذكاء الاصطناعي Speech؟

إذا كنت ترغب في استخدام نص OpenAI لأصوات الكلام، يمكنك اختيار ما إذا كنت تريد استخدامها عبر Azure OpenAI أو عبر Azure الذكاء الاصطناعي Speech. في كلتا الحالتين، تكون نتيجة تركيب الكلام هي نفسها.

فيما يلي مقارنة بين الميزات بين نص OpenAI وأصوات الكلام في خدمة Azure OpenAI ونص OpenAI إلى أصوات الكلام في Azure الذكاء الاصطناعي Speech.

ميزة خدمة Azure OpenAI (أصوات OpenAI) Azure الذكاء الاصطناعي Speech (أصوات OpenAI) أصوات Azure الذكاء الاصطناعي Speech
المنطقة شمال وسط الولايات المتحدة، السويد الوسطى شمال وسط الولايات المتحدة، السويد الوسطى متوفر في عشرات المناطق. راجع قائمة المنطقة.
تنوع الصوت 6 6 أكثر من 400
رقم صوت متعدد اللغات 6 6 14
الحد الأقصى لتغطية اللغات متعددة اللغات 57 57 77
دعم لغة ترميز تركيب الكلام (SSML) غير مدعوم دعم مجموعة فرعية من عناصر SSML. دعم المجموعة الكاملة من SSML في Azure الذكاء الاصطناعي Speech.
خيارات التطوير واجهة برمجة تطبيقات REST Speech SDK، Speech CLI، REST API Speech SDK، Speech CLI، REST API
خيار التوزيع السحابة فقط السحابة فقط السحابة والمضمنة والمختلطة والحاويات.
تخليق الدفعة أو في الوقت الحقيقي الوقت الحقيقي تخليق الدفعة في الوقت الحقيقي تخليق الدفعة في الوقت الحقيقي
الكمون أكبر من 500 مللي ثانية أكبر من 500 مللي ثانية أقل من 300 مللي ثانية
عينة معدل الصوت المركب 24 كيلوهرتز 8 و16 و24 و48 كيلوهرتز 8 و16 و24 و48 كيلوهرتز
تنسيق صوت إخراج الكلام opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

هناك ميزات وقدرات إضافية متوفرة في Azure الذكاء الاصطناعي Speech غير متوفرة مع أصوات OpenAI. على سبيل المثال:

عناصر SSML المدعومة من نص OpenAI لأصوات الكلام في Azure الذكاء الاصطناعي Speech

تحدد لغة ترميز تجميع الكلام (SSML) مع نص الإدخال بنية النص إلى إخراج الكلام ومحتواه وخصائصه الأخرى. على سبيل المثال، يمكنك استخدام SSML لتعريف فقرة أو جملة أو فاصل أو إيقاف مؤقت أو صمت. يمكنك التفاف النص مع علامات الحدث مثل الإشارة المرجعية أو viseme التي يمكن معالجتها لاحقا بواسطة التطبيق الخاص بك.

يوضح الجدول التالي عناصر لغة ترميز تركيب الكلام (SSML) التي يدعمها نص OpenAI لأصوات الكلام في الكلام الذكاء الاصطناعي Azure. يتم دعم المجموعة الفرعية التالية فقط من علامات SSML لأصوات OpenAI. راجع بنية مستند SSML وأحداثه لمزيد من المعلومات.

اسم عنصر SSML ‏‏الوصف
<speak> إحاطة المحتوى بأكمله ليتم التحدث به. إنه العنصر الجذر لمستند SSML.
<voice> تحديد صوت يستخدم لإخراج النص إلى الكلام.
<sub> يشير إلى أنه يجب نطق القيمة النصية لسمة الاسم المستعار بدلا من النص المضمن للعنصر.
<say-as> يشير إلى نوع المحتوى، مثل رقم نص العنصر أو تاريخه.

يتم اعتماد كافة قيم الخاصية interpret-as لهذا العنصر باستثناء interpret-as="name". على سبيل المثال، <say-as interpret-as="date" format="dmy">10-12-2016</say-as> معتمد، ولكنه <say-as interpret-as="name">ED</say-as> غير مدعوم. لمزيد من المعلومات، راجع النطق باستخدام SSML.
<s> يشير إلى الجمل.
<lang> يشير إلى الإعدادات المحلية الافتراضية للغة التي تريد أن يتحدثها الصوت العصبي.
<break> يستخدم لتجاوز السلوك الافتراضي للفواصل أو الإيقاف المؤقت بين الكلمات.

الخطوات التالية