ترحيل التعليمات البرمجية من Long Audio API إلى واجهة برمجة تطبيقات تجميع الدفعات

توفر واجهة برمجة تطبيقات تجميع الدفعات تركيبا غير متزامن لنص طويل النموذج إلى كلام. توضح هذه المقالة فوائد الترقية من Long Audio API إلى واجهة برمجة تطبيقات تجميع الدفعات، وتفاصيل حول كيفية القيام بذلك.

هام

تتوفر واجهة برمجة تطبيقات تجميع الدفعات بشكل عام. سيتم إيقاف Long Audio API في 1 أبريل 2027.

المسار الأساسي والإصدار

قم بتحديث نقطة النهاية من https://YourSpeechRegion.customvoice.api.speech.microsoft.com إلى https://YourSpeechRegion.api.cognitive.microsoft.com أو يمكنك استخدام مجال مخصص بدلا من ذلك: https://{customDomainName}.cognitiveservices.azure.com/.

تحديث المسار الأساسي في التعليمات البرمجية الخاصة بك من /texttospeech/v3.0/longaudiosynthesis إلى /texttospeech/batchsyntheses.

تحديث الإصدار من المسار الأساسي إلى سلسلة /texttospeech/v3.0/longaudiosynthesis الاستعلام إلى ?api-version=2024-04-01.

على سبيل المثال، لسرد مهام التركيب لمورد الكلام في eastus المنطقة، استخدم https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 بدلا من https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

المناطق ونقاط النهاية

تتوفر واجهة برمجة تطبيقات تجميع الدفعات في المزيد من مناطق الكلام.

تقتصر واجهة برمجة تطبيقات Long Audio على المناطق التالية:

المنطقة نقطة النهاية
شرق أستراليا https://australiaeast.customvoice.api.speech.microsoft.com
شرق الولايات المتحدة https://eastus.customvoice.api.speech.microsoft.com
وسط الهند https://centralindia.customvoice.api.speech.microsoft.com
South Central US https://southcentralus.customvoice.api.speech.microsoft.com
جنوب شرق آسيا https://southeastasia.customvoice.api.speech.microsoft.com
جنوب المملكة المتحدة https://uksouth.customvoice.api.speech.microsoft.com
أوروبا الغربية https://westeurope.customvoice.api.speech.microsoft.com

قائمة الأصوات

تدعم واجهة برمجة تطبيقات تجميع الدفعات جميع أصوات وأنماط النص إلى كلام.

تقتصر واجهة برمجة تطبيقات Long Audio على مجموعة الأصوات التي تم إرجاعها بواسطة طلب GET إلى https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

إدخالات النص

يتم إرسال مدخلات نص تجميع الدفعات في حمولة JSON تصل إلى 2 ميغابايت.

يتم تحميل إدخالات نص API الصوتية الطويلة من ملف يلبي المتطلبات التالية:

  • نص عادي واحد (.txt) أو ملف نص SSML (.txt) مشفر ك UTF-8 مع علامة ترتيب البايت (BOM). لا تستخدم الملفات المضغوطة مثل ZIP. إذا كان لديك أكثر من ملف إدخال واحد، يجب إرسال طلبات متعددة.
  • يحتوي على أكثر من 400 حرف للنص العادي أو 400 حرف قابل للفوترة لنص SSML وأقل من 10000 فقرة. بالنسبة للنص العادي، يتم فصل كل فقرة بسطر جديد. بالنسبة لنص SSML، تعتبر كل قطعة SSML فقرة. افصل أجزاء SSML بفقرات مختلفة.

باستخدام Batch synthesis API، يمكنك استخدام أي من عناصر SSML المدعومة، بما في audiomstts:backgroundaudioذلك العناصر و وlexicon. لا تدعم واجهة برمجة تطبيقات الصوت الطويلة audiomstts:backgroundaudioالعناصر و وlexicon.

تنسيقات إخراج الصوت

تدعم واجهة برمجة تطبيقات تجميع الدفعات جميع تنسيقات إخراج صوت النص إلى الكلام.

تقتصر Long Audio API على المجموعة التالية من تنسيقات إخراج الصوت. معدل العينة لأصوات الصوت الطويلة هو 24 كيلوهرتز، وليس 48 كيلوهرتز. يمكن الحصول على معدلات عينة أخرى من خلال التصغير أو تقليل الطابع عند التركيب.

  • riff-8khz-16bit-mono-pcm
  • riff-16khz-16bit-mono-pcm
  • riff-24khz-16bit-mono-pcm
  • riff-48khz-16bit-mono-pcm
  • audio-16khz-32kbitrate-mono-mp3
  • audio-16khz-64kbitrate-mono-mp3
  • audio-16khz-128kbitrate-mono-mp3
  • audio-24khz-48kbitrate-mono-mp3
  • audio-24khz-96kbitrate-mono-mp3
  • audio-24khz-160kbitrate-mono-mp3

الحصول على النتائج

مع واجهة برمجة تطبيقات تجميع الدفعات، استخدم عنوان URL من outputs.result خاصية استجابة تركيب دفعة HTTP GET. تكون النتائج في ملف ZIP يحتوي على الصوت (مثل 0001.wav)، والملخص، وتفاصيل تتبع الأخطاء.

يتم إرجاع إدخالات النص الطويل لواجهة برمجة تطبيقات الصوت والنتائج عبر عنواني URL منفصلين للمحتوى كما هو موضح في المثال التالي. واحد مع "kind": "LongAudioSynthesisScript" هو نص الإدخال الذي تم إرساله. الآخر مع "kind": "LongAudioSynthesisResult" هو نتيجة هذا الطلب. يمكن تنزيل ملفي ZIP من عنوان URL في الخاصية الخاصة بهما links.contentUrl .

تنظيف الموارد

تدعم واجهة برمجة تطبيقات تجميع الدفعات ما يصل إلى 300 وظيفة تجميع دفعية لا تحتوي على حالة "ناجحة" أو "فاشلة". تحتفظ خدمة Speech بكل محفوظات تركيب لمدة تصل إلى 31 يوما، أو مدة خاصية الطلب timeToLiveInHours ، أيهما يأتي عاجلا. تاريخ ووقت الحذف التلقائي (لمهام التركيب بحالة "ناجح" أو "فشل") يساوي الخصائص lastActionDateTime + timeToLiveInHours .

تقتصر Long Audio API على 20000 طلب لكل حساب اشتراك Azure. لا تقوم خدمة الكلام بإزالة سجل المهام تلقائيا. يجب إزالة محفوظات تشغيل المهمة السابقة قبل إجراء طلبات جديدة قد تتجاوز الحد.

الخطوات التالية