إنشاء مشروع كلام مخصص

مقالة
04/15/2024

تحتوي مشاريع الكلام المخصصة على نماذج وتدريب واختبار مجموعات البيانات ونقاط نهاية النشر. كل مشروع خاص بـ الإعدادات المحلية. على سبيل المثال، يمكنك إنشاء مشروع للغة الإنجليزية في الولايات المتحدة.

إنشاء مشروع

لإنشاء مشروع كلام مخصص، اتبع الخطوات التالية:

سجّل الدخول إلـى Speech Studio.
حدد الاشتراك ومورد الكلام للعمل معه.

هام

إذا كنت ستدرب نموذجاً مخصصاً باستخدام البيانات الصوتية، فاختر منطقة مورد الكلام مع أجهزة مخصصة لتدريب البيانات الصوتية. راجع الحواشي السفلية في جدول المناطق للحصول على مزيد من المعلومات.
حدد Custom speech>Create a new project.
اتبع التعليمات التي قدمها المعالج لإنشاء مشروعك.

حدد المشروع الجديد بالاسم أو حدد Go to project. سترى عناصر القائمة هذه في اللوحة اليمنى: مجموعات بيانات الكلام، وتدريب النماذج المخصصة، واختبار النماذج، ونشر النماذج.

لإنشاء مشروع، استخدم الأمر spx csr project create. أنشئ عمليات الطلب وفقاً للتعليمات التالية:

يوصى بتعيين المعلمة language المطلوبة. يجب أن تكون لغة المشروع هي نفسها مجموعات البيانات المتضمنة. لا يمكن تغيير الإعدادات المحلية لاحقًا. المعلمة Speech CLIlanguageمتوافقة مع الخاصيةlocaleفي طلب JSON والاستجابة.
يوصى بتعيين المعلمة name المطلوبة. هذا هو الاسم الذي يتم عرضه في Speech Studio. المعلمة Speech CLInameمتوافقة مع الخاصيةdisplayNameفي طلب JSON والاستجابة.

في ما يلي مثال على أمر Speech CLI الذي ينشئ مشروعًا:

spx csr project create --api-version v3.1 --name "My Project" --description "My Project Description" --language "en-US"

يجب أن تتلقى نص الاستجابة بالتنسيق التالي:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

خاصية المستوى الأعلى self في نص الاستجابة هي URI للمشروع. استخدم هذا الـ URI للحصول على تفاصيل حول تقييمات المشروع ومجموعات البيانات والنماذج ونقاط النهاية والكتابات. يمكنك أيضًا استخدام URI هذا لتحديث أو حذف مشروع.

للحصول على تعليمات Speech CLI في المشاريع، قم بتشغيل الأمر التالي:

spx help csr project

لإنشاء مشروع، استخدم عملية Projects_Create من Speech to text REST API. إنشاء نص الطلب وفقًا للإرشادات التالية:

عيّن الخاصية locale المطلوبة. يجب أن تكون هذه هي الإعدادات المحلية لمجموعات البيانات المضمنة. لا يمكن تغيير الإعدادات المحلية لاحقًا.
عيّن الخاصية displayName المطلوبة. هذا هو اسم المشروع الذي يتم عرضه في Speech Studio.

قم بإجراء طلب HTTP POST باستخدام URI كما هو موضح في المثال Projects_Create التالي. استبدل YourSubscriptionKey بمفتاح مورد الكلام لديك، واستبدل YourServiceRegion بمنطقة مورد الكلام، وعيّن خصائص نص الطلب كما هو موضح سابقاً.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/projects"

يجب أن تتلقى نص الاستجابة بالتنسيق التالي:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

خاصية المستوى الأعلى self في نص الاستجابة هي URI للمشروع. استخدم معرف الموارد المنتظم هذا للحصول على تفاصيل حول تقييمات المشروع ومجموعات البيانات والنماذج ونقاط النهاية والكتابات. يمكنك أيضًا استخدام URI هذا لتحديث أو حذف مشروع.

اختر الموديل الخاص بك

هناك بعض الأساليب لاستخدام نماذج الكلام المخصصة:

يوفر النموذج الأساسي التعرف الدقيق على الكلام خارج الصندوق لمجموعة من السيناريوهات. يتم تحديث النماذج الأساسية بشكل دوري لتحسين الدقة والجودة. نوصي إذا كنت تستخدم الطرز الأساسية، فاستخدم أحدث النماذج الأساسية الافتراضية. إذا كانت إمكانية التخصيص المطلوبة متوفرة فقط مع نموذج أقدم، فيمكنك اختيار نموذج أساسي أقدم.
يعمل النموذج المخصص على تعزيز النموذج الأساسي ليشمل مفردات خاصة بالمجال يتم مشاركتها عبر جميع مناطق المجال المخصص.
يمكن استخدام نماذج مخصصة متعددة عندما يكون للمجال المخصص مناطق متعددة، ولكل منها مفردات محددة.

إحدى الطرق الموصى بها لمعرفة ما إذا كان النموذج الأساسي كافيا هي تحليل النسخ الذي تم إنتاجه من النموذج الأساسي ومقارنتها مع نسخة من صنع الإنسان لنفس الصوت. يمكنك مقارنة النصوص والحصول على درجة معدل خطأ الكلمات (WER). إذا كانت درجة معدل خطأ الكلمات عالية، يوصى بتدريب نموذج مخصص للتعرف على الكلمات التي تم تحديدها بشكل غير صحيح.

يوصى باستخدام نماذج متعددة إذا اختلفت المفردات عبر مناطق المجال. على سبيل المثال، يقدم المعلقون الأولمبيون تقارير عن أحداث مختلفة، يرتبط كل منها باللغة العامية الخاصة به. نظراً لأن كل مفردات حدث أوليمبي تختلف اختلافاً كبيراً عن غيرها، فإن بناء نموذج مخصص خاص بحدث ما يزيد الدقة عن طريق الحد من بيانات الكلام المتعلقة بهذا الحدث المعين. نتيجة لذلك، لا يحتاج النموذج إلى التدقيق في البيانات غير ذات الصلة لعمل تطابق. بغض النظر، لا يزال التدريب يتطلب مجموعة متنوعة من بيانات التدريب. قم بتضمين الصوت من المعلقين المختلفين الذين لديهم لهجات مختلفة، والجنس، والعمر، وما إلى ذلك.

استقرار النموذج ودورة الحياة

يتم إصلاح نموذج أساسي أو نموذج مخصص تم نشره إلى نقطة نهاية باستخدام الكلام المخصص حتى تقرر تحديثه. تظل دقة التعرف على الكلام وجودته متسقين، حتى عند إصدار نموذج أساسي جديد. يسمح لك هذا بتثبيت سلوك نموذج معين حتى تقرر استخدام نموذج أحدث.

سواء كنت تدرب النموذج الخاص بك أو تستخدم لقطة من نموذج أساسي، يمكنك استخدام النموذج لفترة محدودة. لمزيد من المعلومات، راجع دورة حياة النموذج ونقطة النهاية.

Share via

إنشاء مشروع كلام مخصص