ما هو الصوت العصبي المخصص؟

مقالة
01/18/2024

الصوت العصبي المخصص (CNV) هو ميزة تحويل النص إلى كلام تتيح لك إنشاء صوت واحد من نوعه ومخصص ومصطنع لتطبيقاتك. باستخدام الصوت العصبي المخصص، يمكنك إنشاء صوت طبيعي للغاية للعلامة التجارية أو الشخصيات الخاصة بك من خلال توفير عينات كلام بشرية كبيانات تدريب.

هام

الوصول الصوتي العصبي المخصص محدود استنادا إلى معايير الأهلية والاستخدام. اطلب الوصول عبر نموذج الاستيعاب.

يتوفر الوصول إلى الصوت العصبي المخصص (CNV) Lite لأي شخص لعرض وتقييم CNV قبل الاستثمار في التسجيلات المهنية لإنشاء صوت عالي الجودة.

خارج الصندوق، يمكن استخدام النص إلى كلام مع الأصوات العصبية التي تم إنشاؤها مسبقا لكل لغة مدعومة. تعمل الأصوات العصبية التي تم إنشاؤها مسبقا بشكل جيد في معظم سيناريوهات النص إلى الكلام إذا لم يكن هناك حاجة إلى صوت فريد.

يعتمد الصوت العصبي المخصص على النص العصبي لتقنية الكلام والنموذج العالمي متعدد اللغات والمتحدثين المتعددين. يمكنك إنشاء أصوات اصطناعية غنية بأنماط التحدث أو اللغات المتقاطعة القابلة للتكيف. يمكن أن يمثل الصوت الواقعي والطبيعي للصوت العصبي المخصص العلامات التجارية، وتجسيد الآلات، والسماح للمستخدمين بالتفاعل مع التطبيقات محادثة. راجع اللغات المدعومة للصوت العصبي المخصص.

كيف تعمل هذه الوظيفة؟

لإنشاء صوت عصبي مخصص، استخدم Speech Studio لتحميل الصوت المسجل والنصوص المقابلة، وتدريب النموذج، وتوزيع الصوت إلى نقطة نهاية مخصصة.

تلميح

جرب الصوت العصبي المخصص (CNV) Lite لعرض وتقييم CNV قبل الاستثمار في التسجيلات الاحترافية لإنشاء صوت عالي الجودة.

يتطلب إنشاء صوت عصبي مخصص رائع مراقبة دقيقة للجودة في كل خطوة، من تصميم الصوت وإعداد البيانات، إلى توزيع النموذج الصوتي إلى نظامك.

قبل البدء في Speech Studio، إليك بعض الاعتبارات:

صمم شخصية للصوت تمثل علامتك التجارية باستخدام مستند مختصر للشخصية. يعرف هذا المستند عناصر مثل ميزات الصوت والشخصية خلف الصوت. يساعد هذا في توجيه عملية إنشاء نموذج صوتي عصبي مخصص، بما في ذلك تحديد البرامج النصية، وتحديد موهبتك الصوتية، والتدريب، وضبط الصوت.
حدد البرنامج النصي للتسجيل لتمثيل سيناريوهات المستخدم لصوتك. على سبيل المثال، يمكنك استخدام العبارات من محادثات الروبوت كبرنامج نصي للتسجيل إذا كنت تقوم بإنشاء روبوت خدمة العملاء. بادر بتضمين أنواع جمل مختلفة في البرامج النصية، بما في ذلك العبارات والأسئلة والتعجبات.

فيما يلي نظرة عامة على خطوات إنشاء صوت عصبي مخصص في Speech Studio:

إنشاء مشروع لاحتواء البيانات والنماذج الصوتية والاختبارات ونقاط النهاية. كل مشروع خاص ببلد/منطقة ولغة. إذا كنت ستنشئ أصواتا متعددة، فمن المستحسن إنشاء مشروع لكل صوت.
إعداد المواهب الصوتية. قبل أن تتمكن من تدريب صوت عصبي، يجب عليك إرسال تسجيل لبيان موافقة المواهب الصوتية. بيان المواهب الصوتية هو تسجيل للموهبة الصوتية التي تقرأ عبارة أنها توافق على استخدام بيانات الكلام الخاصة بهم لتدريب نموذج صوت مخصص.
إعداد بيانات التدريب بالتنسيق الصحيح. من الجيد تسجيل التسجيلات الصوتية في استوديو تسجيل عالي الجودة لتحقيق نسبة عالية من الإشارة إلى الضجيج. تعتمد جودة النموذج الصوتي بشكل كبير على بيانات التدريب الخاصة بك. مطلوب الحجم المتناسق، ومعدل التحدث، والنبرة، والاتساق في الآداب التعبيرية للكلام.
تدريب نموذج الصوت الخاص بك. لإنشاء صوت عصبي مخصص، حدد 300 كلمة منطوقة على الأقل. يتم إجراء سلسلة من عمليات التحقق من جودة البيانات تلقائيًا عند تحميلها. لإنشاء نماذج صوتية عالية الجودة، يجب إصلاح أي أخطاء وإرسالها مرة أخرى.
اختبر صوتك. أعد البرامج النصية للاختبار لنموذج الصوت الذي يغطي حالات الاستخدام المختلفة لتطبيقاتك. من الجيد استخدام البرامج النصية داخل وخارج مجموعة بيانات التدريب، حتى تتمكن من اختبار الجودة بشكل أوسع للمحتوى المختلف.
نشر نموذج الصوت واستخدامه في تطبيقاتك.

يمكنك ضبط صوتك المخصص وضبطه واستخدامه، وبالمثل يمكنك استخدام صوت عصبي تم إنشاؤه مسبقا. يمكنك تحويل النص إلى كلام في الوقت الفعلي، أو إنشاء محتوى صوتي دون اتصال مع إدخال النص. يمكنك استخدام واجهة برمجة تطبيقات REST أو Speech SDK أو Speech Studio.

تلميح

يمكنك أيضا استخدام Speech SDK وواجهة برمجة تطبيقات REST الصوتية المخصصة لتدريب صوت عصبي مخصص.

تحقق من نماذج التعليمات البرمجية في مستودع Speech SDK على GitHub لمعرفة كيفية استخدام الصوت العصبي المخصص في التطبيق الخاص بك.

يعتمد نمط وخصائص النموذج الصوتي المدرب على نمط وجودة التسجيلات من المواهب الصوتية المستخدمة للتدريب. ومع ذلك، يمكنك إجراء العديد من التعديلات باستخدام SSML (لغة ترميز تجميع Speech) عند إجراء استدعاءات واجهة برمجة التطبيقات لنموذجك الصوتي لإنشاء كلام اصطناعي. SSML هي لغة العلامات المستخدمة للاتصال بخدمة النص إلى كلام لتحويل النص إلى صوت. تتضمن التعديلات التي يمكنك إجراؤها تغيير درجة الصوت والمعدل وطبقات الصوت وتصحيح النطق. إذا تم إنشاء النموذج الصوتي بأنماط متعددة، يمكنك أيضًا استخدام SSML لتبديل الأنماط.

تسلسل المكونات

يتكون الصوت العصبي المخصص من ثلاثة مكونات رئيسية: محلل النص، والنموذج الصوتي العصبي، والصوت العصبي. لإنشاء كلام اصطناعي طبيعي من النص، يتم إدخال النص أولاً في محلل النص، والذي يوفر مخرجات في شكل تسلسل صوتي. الصوت هو وحدة أساسية للصوت تميز كلمة عن أخرى في لغة معينة. يحدد تسلسل الصوتيات نطق الكلمات الواردة في النص.

بعد ذلك، ينتقل تسلسل الصوت إلى النموذج الصوتي العصبي للتنبؤ بالميزات الصوتية التي تحدد إشارات الكلام. تشمل الميزات الصوتية الجرس وأسلوب التحدث والسرعة والنغمات وأنماط الضغط. أخيراً، يقوم المشفر الصوتي العصبي بتحويل الميزات الصوتية إلى موجات مسموعة، بحيث يتم إنشاء الكلام الاصطناعي.

مخطط انسيابي يوضح مكونات الصوت العصبي المخصص.

يتم تدريب النص العصبي إلى نماذج صوت الكلام باستخدام الشبكات العصبية العميقة استنادا إلى عينات تسجيل الأصوات البشرية. لمزيد من المعلومات، راجع منشور مدونة Microsoft هذه. لمعرفة المزيد حول كيفية تدريب المشفر الصوتي العصبي، راجع منشور مدونة Microsoft هذه.

الترحيل إلى الصوت العصبي المخصص

إذا كنت تستخدم الإصدار القديم من الصوت المخصص (الذي من المقرر إيقافه في فبراير 2024)، فشاهد كيفية الترحيل إلى الصوت العصبي المخصص.

الذكاء الاصطناعي المسؤول

لا يتضمن نظام الذكاء الاصطناعي التكنولوجيا فحسب، بل يشمل أيضا الأشخاص الذين يستخدمونها، والأشخاص المتأثرين بها، والبيئة التي يتم نشرها فيها. اقرأ ملاحظات الشفافية للتعرف على الذكاء الاصطناعي المسؤولة واستخدامها ونشرها في أنظمتك.

Share via

ما هو الصوت العصبي المخصص؟

كيف تعمل هذه الوظيفة؟

تسلسل المكونات

الترحيل إلى الصوت العصبي المخصص

الذكاء الاصطناعي المسؤول

الخطوات التالية

الموارد الإضافية