إعداد بيانات التدريب
عندما تكون مستعدا لإنشاء صوت مخصص لتحويل النص إلى كلام لتطبيقك، فإن الخطوة الأولى هي جمع التسجيلات الصوتية والبرامج النصية المقترنة لبدء تدريب النموذج الصوتي. تستخدم خدمة Speech هذه البيانات لإنشاء صوت فريد مضبوط لمطابقة الصوت في التسجيلات. بعد تدريب الصوت، يمكنك البدء في تركيب الكلام في تطبيقاتك.
ملاحظة
راجع أنواع مشاريع الصوت العصبي المخصص للحصول على معلومات حول القدرات والمتطلبات والاختلافات بين Pro الصوت العصبي المخصص ومشاريع Custom Neural Voice Lite. تركز هذه المقالة على إنشاء صوت عصبي مخصص احترافي باستخدام مشروع Pro.
بيان شفهي للمواهب الصوتية
قبل أن تتمكن من تدريب نموذج الصوت تحويل النص إلى كلام الخاص بك، ستحتاج إلى تسجيلات صوتية ونسخ النص المقترن بها. في هذه الصفحة، سنراجع أنواع البيانات وكيفية استخدامها وكيفية إدارة كل منها.
هام
لتدريب صوت عصبي، يجب عليك إنشاء ملف تعريف المواهب الصوتية مع ملف صوتي مسجل من قبل المواهب الصوتية الموافقة على استخدام بيانات الكلام الخاصة بهم لتدريب نموذج صوت مخصص. عند إعداد البرنامج النصي للتسجيل، تأكد من تضمين جملة العبارة. يمكنك العثور على العبارة بلغات متعددة هنا. يجب أن تكون لغة البيان اللفظي هي نفس لغة التسجيل. تحتاج إلى تحميل هذا الملف الصوتي إلى Speech Studio كما هو موضح أدناه لإنشاء ملف تعريف المواهب الصوتية، والذي يستخدم للتحقق مقابل بيانات التدريب الخاصة بك عند إنشاء نموذج صوتي. اقرأ المزيد حول التحقق من المواهب الصوتية هنا.
يتوفر الصوت العصبي المخصص مع وصول محدود. تأكد من فهم متطلبات الذكاء الاصطناعي المسؤولةوتطبيق الوصول هنا.
أنواع بيانات التدريب
تتضمن مجموعة بيانات التدريب الصوتي تسجيلات صوتية وملفا نصيا مع النسخ المقترنة. يجب أن يحتوي كل ملف صوتي على تعبير واحد (جملة واحدة أو دور واحد لنظام حوار)، وأن يكون أقل من 15 ثانية.
في بعض الحالات، قد لا يكون لديك مجموعة البيانات الصحيحة جاهزة وسترغب في اختبار التدريب الصوتي العصبي المخصص مع الملفات الصوتية المتوفرة، قصيرة أو طويلة، مع أو بدون نصوص. نحن نقدم أدوات (بيتا) لمساعدتك على تقسيم الصوت الخاص بك إلى تعبيرات وإعداد النسخ باستخدام واجهة برمجة تطبيقات النسخ الدفعي.
يسرد هذا الجدول أنواع البيانات وكيفية استخدام كل منها لإنشاء نموذج صوت مخصص لتحويل النص إلى كلام.
| نوع البيانات | الوصف | متى تستخدم | مطلوب معالجة إضافية |
|---|---|---|---|
| تعبيرات فردية + نسخة مطابقة | مجموعة (.zip) من الملفات الصوتية (wav.) ككلمات فردية. يجب أن يكون طول كل ملف صوتي 15 ثانية أو أقل، مقترنا بنسخة منسقة (.txt). | تسجيلات احترافية مع نصوص مطابقة | جاهز للتدريب. |
| صوت طويل + نسخة (بيتا) | مجموعة (.zip) من ملفات صوتية طويلة وغير مسموعة (wav أو .mp3، أطول من 20 ثانية)، مقترنة بمجموعة (.zip) من النصوص التي تحتوي على جميع الكلمات المنطوقة. | لديك ملفات صوتية ونسخ مطابقة، ولكن لا يتم تقسيمها إلى تعبيرات. | التجزئة (باستخدام النسخ الدفعي). تحويل تنسيق الصوت عند الحاجة. |
| الصوت فقط (بيتا) | مجموعة (.zip) من الملفات الصوتية (wav.أو .mp3) دون نسخة. | لديك ملفات صوتية متوفرة فقط، دون نسخ. | التجزئة + إنشاء النسخة (باستخدام النسخ الدفعي). تحويل تنسيق الصوت عند الحاجة. |
يجب تجميع الملفات حسب النوع في مجموعة بيانات وتحميلها كملف مضغوط. يمكن أن تحتوي كل مجموعة بيانات على نوع بيانات واحد فقط.
ملاحظة
الحد الأقصى لعدد مجموعات البيانات المسموح باستيرادها لكل اشتراك هو 500 ملف مضغوط لمستخدمي الاشتراك القياسي (S0).
بالنسبة للخيارين التجريبيين، يتم دعم هذه اللغات فقط: الصينية (الماندارين، المبسطة)، الإنجليزية (الهند)، الإنجليزية (المملكة المتحدة)، الإنجليزية (الولايات المتحدة)، الفرنسية (فرنسا)، الألمانية (ألمانيا)، الإيطالية (إيطاليا)، اليابانية (اليابان)، البرتغالية (البرازيل)، والإسبانية (المكسيك).
تعبيرات فردية + نسخة مطابقة
يمكنك إعداد تسجيلات التعبيرات الفردية والنسخة المطابقة بطريقتين. إما كتابة برنامج نصي وقراءته بواسطة موهبة صوتية أو استخدام الصوت المتاح للجمهور ونسخه إلى نص. إذا قمت بهذا الأخير، فقم بتحرير عدم التطابق من الملفات الصوتية، مثل "um" وأصوات الحشو الأخرى أو التأتأة أو الكلمات المغمورة أو النطق الخاطئ.
لإنتاج نموذج صوت جيد، قم بإنشاء التسجيلات في غرفة هادئة باستخدام ميكروفون عالي الجودة. إن الحجم المتسق، ومعدل التحدث، والتحدث، والأسلوب التعبيري للكلام هي أمور أساسية.
تلميح
لإنشاء صوت لاستخدام الإنتاج، نوصي باستخدام استوديو تسجيل احترافي وموهبة صوتية. لمزيد من المعلومات، راجع تسجيل عينات الصوت لإنشاء صوت عصبي مخصص.
الملفات الصوتية
يجب أن يحتوي كل ملف صوتي على تعبير واحد (جملة واحدة أو دوران واحد لنظام حوار)، أقل من 15 ثانية. يجب أن تكون جميع الملفات بنفس اللغة المنطوقة. لا يتم دعم أصوات تحويل النص إلى كلام المخصصة متعددة اللغات، باستثناء Chinese-English ثنائي اللغة. يجب أن يكون لكل ملف صوتي اسم ملف فريد مع ملحق اسم الملف .wav.
اتبع هذه الإرشادات عند إعداد الصوت.
| الخاصية | القيمة |
|---|---|
| تنسيق الملف | RIFF (.wav)، مجمع في ملف .zip |
| اسم الملف | أحرف اسم الملف المدعومة من قبل نظام التشغيل Windows، مع ملحق .wav. الأحرف \ / : * ؟ " <> | غير مسموح به. لا يمكن أن يبدأ بمسافة أو ينتهي بها، ولا يمكن أن يبدأ بنقطة. لا يسمح بأسماء ملفات مكررة. |
| معدل أخذ العينات | لإنشاء صوت عصبي مخصص، يلزم وجود 24000 هرتز. |
| تنسيق العينة | PCM، 16 بت على الأقل |
| طول الصوت | أقصر من 15 ثانية |
| تنسيق الأرشيف | .zip |
| الحد الأقصى لحجم الأرشيف | 2048 ميغابايت |
ملاحظة
معدل أخذ العينات الافتراضي للصوت العصبي المخصص هو 24000 هرتز. سيتم رفض الملفات الصوتية ذات معدل أخذ العينات الأقل من 16000 هرتز. إذا كان ملف .zip يحتوي على ملفات .wav بمعدلات عينة مختلفة، فسيتم استيراد فقط تلك التي تساوي أو تزيد عن 16000 هرتز. سيتم رفع عينات ملفاتك الصوتية بمعدل أخذ العينات أعلى من 16000 هرتز وأقل من 24000 هرتز إلى 24000 هرتز لتدريب صوت عصبي. يوصى باستخدام معدل عينة يبلغ 24000 هرتز لبيانات التدريب الخاصة بك.
النصوص
ملف النسخ هو ملف نص عادي. استخدم هذه الإرشادات لإعداد نسخك المكتوبة.
| الخاصية | القيمة |
|---|---|
| تنسيق الملف | نص عادي (.txt) |
| تنسيق الترميز | ANSI أو ASCII أو UTF-8 أو UTF-8-BOM أو UTF-16-LE أو UTF-16-BE. بالنسبة إلى ترميز zh-CN، لا يتم دعم ترميز ANSI وASCII. |
| # من التعبيرات لكل سطر | واحد - يجب أن يحتوي كل سطر من ملف النسخ على اسم أحد الملفات الصوتية، متبوعا بالنسخ المطابق. يجب فصل اسم الملف وكتابته بعلامة تبويب (\t). |
| الحد الأقصى لحجم الملف | 2048 ميغابايت |
وفيما يلي مثال على كيفية تنظيم النصوص التعبير عن طريق التعبير في ملف واحد .txt:
0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.
من المهم أن تكون النسخ المكتوبة دقيقة بنسبة 100٪ من الصوت المقابل. ستؤدي الأخطاء في النسخ إلى فقدان الجودة أثناء التدريب.
الصوت الطويل + النسخة المكتوبة (بيتا)
في بعض الحالات، قد لا تكون قد قمت بتقسيم الصوت المتوفر. نحن نقدم خدمة (بيتا) من خلال Speech Studio لمساعدتك على تقسيم الملفات الصوتية الطويلة وإنشاء نسخ. ضع في اعتبارك أن هذه الخدمة سيتم تحصيل رسومها من استخدام اشتراك تحويل الكلام إلى نص.
ملاحظة
ستستفيد خدمة تجزئة الصوت الطويل من ميزة النسخ الدفعي لتحويل الكلام إلى نص، والتي تدعم فقط مستخدمي الاشتراك القياسي (S0). أثناء معالجة التجزئة، سيتم أيضا إرسال الملفات الصوتية والنسخ المكتوبة إلى خدمة Custom Speech لتحسين نموذج التعرف حتى يمكن تحسين الدقة لبياناتك. لن يتم الاحتفاظ بأي بيانات أثناء هذه العملية. بعد الانتهاء من التجزئة، سيتم تخزين الألفاظ المجزأة فقط ونسخ التعيين الخاصة بها للتنزيل والتدريب.
ملفات صوتية
اتبع هذه الإرشادات عند إعداد الصوت للتجزئة.
| الخاصية | القيمة |
|---|---|
| تنسيق الملف | RIFF (.wav) أو .mp3، مجمعة في ملف .zip |
| اسم الملف | أحرف اسم الملف المعتمدة من قبل نظام التشغيل Windows، مع ملحق .wav. الأحرف \ / : * ؟ " <> | غير مسموح به. لا يمكن أن يبدأ أو ينتهي بمسافة، ولا يمكن أن يبدأ بنقطة. لا يسمح بأسماء ملفات مكررة. |
| معدل أخذ العينات | لإنشاء صوت عصبي مخصص، يلزم وجود 24000 هرتز. |
| تنسيق العينة | RIFF(.wav): PCM، 16 بت على الأقل mp3: معدل بت 256 كيلوبت في الثانية على الأقل |
| طول الصوت | أطول من 20 ثانية |
| تنسيق الأرشيف | .zip |
| الحد الأقصى لحجم الأرشيف | 2048 ميغابايت |
ملاحظة
معدل أخذ العينات الافتراضي للصوت العصبي المخصص هو 24000 هرتز. سيتم رفض الملفات الصوتية ذات معدل أخذ العينات الأقل من 16,000 هرتز. سيتم رفع عينات ملفاتك الصوتية ذات معدل أخذ العينات أعلى من 16,000 هرتز وأقل من 24,000 هرتز إلى 24,000 هرتز لتدريب صوت عصبي. يوصى باستخدام معدل عينة يبلغ 24000 هرتز لبيانات التدريب الخاصة بك.
يجب تجميع جميع الملفات الصوتية في ملف مضغوط. لا بأس من وضع ملفات .wav وملفات .mp3 في مضغوط صوتي واحد. على سبيل المثال، يمكنك تحميل ملف مضغوط يحتوي على ملف صوتي يسمى "kingstory.wav"، طوله 45 ثانية، وصوت آخر يسمى "queenstory.mp3"، طوله 200 ثانية. سيتم تحويل جميع ملفات .mp3 إلى تنسيق .wav بعد المعالجة.
النصوص
يجب إعداد النسخ المكتوبة للمواصفات المذكورة في هذا الجدول. يجب مطابقة كل ملف صوتي مع نسخة.
| الخاصية | القيمة |
|---|---|
| تنسيق الملف | نص عادي (.txt)، مجمع في .zip |
| اسم الملف | استخدام نفس اسم ملف الصوت المطابق |
| تنسيق الترميز | ANSI أو ASCII أو UTF-8 أو UTF-8-BOM أو UTF-16-LE أو UTF-16-BE. بالنسبة إلى ترميز zh-CN، لا يتم دعم ترميز ANSI وASCII. |
| # من التعبيرات لكل سطر | انعدام الحدود |
| الحد الأقصى لحجم الملف | 2048 ميغابايت |
يجب تجميع جميع ملفات النسخ المكتوبة في نوع البيانات هذا في ملف مضغوط. على سبيل المثال، قمت بتحميل ملف مضغوط يحتوي على ملف صوتي يسمى "kingstory.wav"، طوله 45 ثانية، وملف آخر يسمى "queenstory.mp3"، طوله 200 ثانية. ستحتاج إلى تحميل ملف مضغوط آخر يحتوي على نسختين، أحدهما يسمى "kingstory.txt"، والآخر "queenstory.txt". ضمن كل ملف نصي عادي، ستوفر النسخ الصحيح الكامل للصوت المطابق.
بعد تحميل مجموعة البيانات بنجاح، سنساعدك على تقسيم الملف الصوتي إلى تعبيرات استنادا إلى النسخة المكتوبة المقدمة. يمكنك التحقق من الألفاظ المقسمة والنسخ المتطابقة عن طريق تنزيل مجموعة البيانات. سيتم تعيين معرفات فريدة للألفاظ المجزأة تلقائيا. من المهم أن تتأكد من أن النسخ المكتوبة التي تقدمها دقيقة بنسبة 100٪. يمكن أن تقلل الأخطاء في النصوص من الدقة أثناء تجزئة الصوت وتطرح المزيد من فقدان الجودة في مرحلة التدريب التي تأتي لاحقا.
الصوت فقط (بيتا)
إذا لم يكن لديك نسخ لتسجيلات الصوت، فاستخدم الخيار الصوت فقط لتحميل بياناتك. يمكن أن يساعدك نظامنا في تقسيم ملفاتك الصوتية ونسخها. ضع في اعتبارك أن هذه الخدمة سيتم تحصيل رسومها من استخدام اشتراك تحويل الكلام إلى نص.
اتبع هذه الإرشادات عند إعداد الصوت.
ملاحظة
ستستفيد خدمة تجزئة الصوت الطويل من ميزة النسخ الدفعي لتحويل الكلام إلى نص، والتي تدعم فقط مستخدمي الاشتراك القياسي (S0).
| الخاصية | القيمة |
|---|---|
| تنسيق الملف | RIFF (.wav) أو .mp3، مجمعة في ملف .zip |
| اسم الملف | أحرف اسم الملف المعتمدة من قبل نظام التشغيل Windows، مع ملحق .wav. الأحرف \ / : * ؟ " <> | غير مسموح به. لا يمكن أن يبدأ أو ينتهي بمسافة، ولا يمكن أن يبدأ بنقطة. لا يسمح بأسماء ملفات مكررة. |
| معدل أخذ العينات | لإنشاء صوت عصبي مخصص، يلزم وجود 24000 هرتز. |
| تنسيق العينة | RIFF(.wav): PCM، 16 بت على الأقل mp3: معدل بت 256 كيلوبت في الثانية على الأقل |
| طول الصوت | انعدام الحدود |
| تنسيق الأرشيف | .zip |
| الحد الأقصى لحجم الأرشيف | 2048 ميغابايت |
ملاحظة
معدل أخذ العينات الافتراضي للصوت العصبي المخصص هو 24000 هرتز. سيتم رفع عينات ملفاتك الصوتية بمعدل أخذ العينات أعلى من 16000 هرتز وأقل من 24000 هرتز إلى 24000 هرتز لتدريب صوت عصبي. يوصى باستخدام معدل عينة يبلغ 24000 هرتز لبيانات التدريب الخاصة بك.
يجب تجميع جميع الملفات الصوتية في ملف مضغوط. بمجرد تحميل مجموعة البيانات الخاصة بك بنجاح، سنساعدك على تقسيم الملف الصوتي إلى تعبيرات استنادا إلى خدمة النسخ الدفعي للكلام. سيتم تعيين معرفات فريدة إلى التعبيرات المجزأة تلقائيا. سيتم إنشاء نصوص مطابقة من خلال التعرف على الكلام. سيتم تحويل جميع ملفات .mp3 إلى تنسيق .wav بعد المعالجة. يمكنك التحقق من التعبيرات المجزأة والنسخ المطابقة عن طريق تنزيل مجموعة البيانات.