ما هي حزمة تطوير البرامج (SDK) الخاصة بالخطاب؟

تعرض مجموعة تطوير برامج الكلام (SDK) العديد من إمكانات خدمة الكلام التي يمكنك استخدامها لتطوير التطبيقات التي تدعم الكلام. يتوفر Speech SDK في العديد من لغات البرمجة وعلى كل الأنظمة الأساسية.

لغة البرمجة النظام الأساسي مرجع SDK
ج# 1 Windows، لينكس، ماك، مونو، Xamarin.iOS، Xamarin.Mac، Xamarin.Android، UWP، الوحدة .NET SDK
C++‎ Windows, Linux, macOS C ++ SDK
انتقال Linux Go SDK
Java أندرويد، Windows، لينكس، ماك أو إس Java SDK
JavaScript متصفح, Node.js JavaScript SDK
Objective-C / Swift iOS, macOS Objective-C SDK
Python Windows, Linux, macOS Python SDK

1 تستند .NET Speech SDK إلى .NET Standard 2.0 ، لذلك فهي تدعم العديد من الأنظمة الأساسية. لمزيد من المعلومات، راجع دعم تنفيذ .NET.

هام

C ليست لغة برمجة معتمدة ل Speech SDK. تتضمن العديد من لغات البرمجة المدعومة، على سبيل المثال، C++، رؤوس C التي تعد جزءا من طبقة واجهة ثنائية للتطبيق (ABI) شائعة. رؤوس ABI هذه غير مخصصة للاستخدام المباشر وهي عرضة للتغيير عبر الإصدارات.

قدرات السيناريو

يعرض Speech SDK يعرض العديد من الميزات من خدمة الكلام لكن ليس كل منهم. غالبا ما ترتبط قدرات Speech SDK مع وحدات السيناريو. تعد Speech SDK مثالية لكل من السيناريوهات في الوقت الفعلي وغير الفعلي، باستخدام الأجهزة والملفات المحلية وتخزين Azure Blob وحتى تدفقات الإدخال والإخراج. عندما يتعذر تحقيق سيناريو باستخدام Speech SDK، ابحث عن بديل لواجهة برمجة تطبيقات REST.

تحويل الكلام إلى نص

يقوم تحويل الكلام إلى نص بنسخ تدفقات الصوت إلى نص يمكن أن تستهلكه تطبيقاتك أو أدواتك أو أجهزتك أو تعرضه. يعرف تحويل الكلام إلى نص أيضا باسم التعرف على الكلام. استخدم تحويل الكلام إلى النص مع فهم اللغة (LUIS) لاشتقاق نوايا المستخدم من الكلام المنسوخ والعمل على الأوامر الصوتية. استخدم ترجمة الكلام لترجمة إدخال الكلام إلى لغة مختلفة بمكالمة واحدة. لمزيد من المعلومات، راجع أساسيات تحويل الكلام إلى نص.

تتوفر ميزة التعرف على الكلام وقائمة العبارات والنية والترجمة والحاويات المحلية على الأنظمة الأساسية التالية:

  • C++/Windows ولينكس وماك أو إس
  • C # (إطار العمل و .NET Core) / Windows و UWP و Unity و Xamarin و Linux و macOS
  • جافا (Jre وأندرويد)
  • جافا سكريبت (المتصفح و NodeJS)
  • Python
  • Swift
  • Objective-C
  • Go (التعرف على الكلام فقط)

تحويل النص إلى كلام

تحويل النص إلى كلام يحول النص إلى كلام مركب يشبه الإنسان. يعرف تحويل النص إلى كلام أيضا باسم توليف الكلام. نص الإدخال إما حرفي سلسلة أو يستخدم لغة ترميز توليف الكلام (SSML). لمزيد من المعلومات حول الأصوات القياسية أو العصبية، راجع لغة تحويل النص إلى كلام ودعم الصوت.

النص إلى كلام متاح على الأنظمة الأساسية التالية:

  • C++/Windows ولينكس وماك أو إس
  • C # (إطار العمل و .NET Core) / Windows و UWP و Unity و Xamarin و Linux و macOS
  • جافا (Jre وأندرويد)
  • جافا سكريبت (المتصفح و NodeJS)
  • Python
  • Swift
  • Objective-C
  • انتقال
  • يمكن استخدام واجهة برمجة تطبيقات REST لتحويل النص إلى كلام في كل موقف آخر

المساعدون الصوتيون

يمكنك المساعدون الصوتيون الذين يستخدمون Speech SDK من إنشاء واجهات محادثة طبيعية تشبه الإنسان لتطبيقاتك وتجاربك. توفر حزمة تطوير البرامج (SDK) الخاصة بالكلام تفاعلا سريعا وموثوقا به يتضمن تحويل الكلام إلى نص، وتحويل النص إلى كلام، وبيانات المحادثة على اتصال واحد. يمكن أن يستخدم التنفيذ الخاص بك قناة الكلام المباشر في Bot Framework أو خدمة الأوامر المخصصة المدمجة لإكمال المهمة. أيضا، يمكن للمساعدين الصوتيين استخدام الأصوات المخصصة التي تم إنشاؤها في مدخل الصوت المخصص لإضافة تجربة إخراج صوت فريدة.

يتوفر دعم المساعد الصوتي على الأنظمة الأساسية التالية:

  • C++/Windows ولينكس وماك أو إس
  • C # / Windows
  • جافا / Windows ولينكس وماك أو إس وأندرويد (حزمة تطوير البرامج الخاصة بأجهزة الكلام)
  • انتقال

التعرف على الكلمات الرئيسية

يتم دعم مفهوم التعرف على الكلمات الرئيسية في Speech SDK. التعرف على الكلمات الرئيسية هو فعل تحديد كلمة رئيسية في الكلام ، يليه إجراء عند سماع الكلمة الرئيسية. على سبيل المثال ، سيؤدي "يا Cortana" إلى تنشيط مساعد Cortana.

يتوفر التعرف على الكلمات الرئيسية على الأنظمة الأساسية التالية:

  • C++/Windows ولينكس
  • C # / Windows ولينكس
  • بايثون / Windows ولينكس
  • جافا / Windows ولينكس والروبوت

سيناريوهات الاجتماع

تعد Speech SDK مثالية لنسخ سيناريوهات الاجتماعات، سواء من جهاز واحد أو محادثة متعددة الأجهزة.

كتابة المحادثة

يتيح نسخ المحادثة التعرف على الكلام وتحديد المتحدث وإسناد الجملة إلى كل متحدث في الوقت الفعلي وغير المتزامن. تعرف هذه العملية أيضا باسم diarization. إنها مثالية لإسناد الاجتماعات الشخصية مع القدرة على تمييز المتحدثين.

يتوفر نسخ المحادثة على الأنظمة الأساسية التالية:

  • C++/Windows ولينكس
  • C # (الإطار و .NET Core) / Windows و UWP و Linux
  • جافا / Windows ولينكس والروبوت

محادثة متعددة الأجهزة

باستخدام المحادثة متعددة الأجهزة، يمكنك توصيل أجهزة أو عملاء متعددين في محادثة لإرسال رسائل مستندة إلى الكلام أو نصية، مع دعم سهل للنسخ والترجمة.

تتوفر المحادثة متعددة الأجهزة على الأنظمة الأساسية التالية:

  • سي++/Windows
  • C # (الإطار و .NET Core)/Windows

سيناريوهات المخصص/الوكيل

يمكن استخدام Speech SDK لنسخ سيناريوهات مركز الاتصال، حيث يتم إنشاء بيانات الاتصال الهاتفي.

نسخ مركز الاتصال

يعد نسخ مركز الاتصال سيناريو شائعا لتحويل الكلام إلى نص لنسخ كميات كبيرة من البيانات الهاتفية التي قد تأتي من أنظمة مختلفة ، مثل الاستجابة الصوتية التفاعلية. تتفوق أحدث نماذج التعرف على الكلام من خدمة Speech في نسخ بيانات الهاتف هذه ، حتى في الحالات التي يصعب فيها على الإنسان فهم البيانات.

يتوفر نسخ مركز الاتصال من خلال خدمة الكلام الدفعي عبر واجهة برمجة تطبيقات REST الخاصة به ويمكن استخدامه في أي موقف.

إدخال الصوت المضغوط بواسطة برنامج الترميز

تدعم العديد من لغات برمجة Speech SDK تدفقات إدخال الصوت المضغوطة بواسطة برنامج الترميز. لمزيد من المعلومات، راجع استخدام تنسيقات إدخال الصوت المضغوط.

يتوفر إدخال الصوت المضغوط بواسطة برنامج الترميز على الأنظمة الأساسية التالية:

  • C++/لينكس
  • C # / لينكس
  • جافا / لينكس ، أندرويد ، و iOS

REST API

تغطي حزمة SDK للكلام العديد من إمكانات ميزات خدمة الكلام، ولكن بالنسبة لبعض السيناريوهات، قد ترغب في استخدام واجهة برمجة تطبيقات REST.

كتابة حديث دُفعة

يتيح النسخ الدفعي النسخ غير المتزامن للكلام إلى نص لكميات كبيرة من البيانات. النسخ الدفعي ممكن فقط من واجهة برمجة تطبيقات REST. بالإضافة إلى تحويل صوت الكلام إلى نص ، يسمح الكلام الدفعي إلى نص أيضا بالتحويل وتحليل المشاعر.

التخصيص

توفر خدمة Speech وظائف رائعة من خلال نماذجها الافتراضية عبر تحويل الكلام إلى نص وتحويل النص إلى كلام وترجمة الكلام. في بعض الأحيان قد ترغب في زيادة الأداء الأساسي للعمل بشكل أفضل مع حالة الاستخدام الفريدة الخاصة بك. تحتوي خدمة Speech على العديد من أدوات التخصيص بدون تعليمات برمجية تجعل الأمر سهلا. يمكنك استخدامها لإنشاء ميزة تنافسية مع نماذج مخصصة تستند إلى بياناتك الخاصة. ستكون هذه النماذج متاحة لك ولمؤسستك فقط.

مخصص تحويل الكلام إلى نص

عند استخدام تحويل الكلام إلى نص للتعرف عليه ونسخه في بيئة فريدة، يمكنك إنشاء نماذج صوتية ولغوية ونطقية مخصصة وتدريبها لمعالجة الضوضاء المحيطة أو المفردات الخاصة بالصناعة. يتوفر إنشاء نماذج الكلام المخصص بدون تعليمات برمجية وإدارتها من خلال مدخل الكلام المخصص. بعد نشر نموذج "الكلام المخصص"، يمكن استهلاكه بواسطة "حزمة SDK للكلام".

تحويل النص إلى كلام مخصص

تحويل النص إلى كلام مخصص ، والمعروف أيضا باسم الصوت المخصص ، هو مجموعة من الأدوات عبر الإنترنت التي تسمح لك بإنشاء صوت فريد من نوعه يمكن التعرف عليه لعلامتك التجارية. يتوفر إنشاء وإدارة نماذج Custom Voice بدون تعليمات برمجية من خلال بوابة Custom Voice. بعد نشر نموذج الصوت المخصص، يمكن استهلاكه بواسطة حزمة SDK للكلام.

الحصول على حزمة تطوير البرامج (SDK) الخاصة بالكلام

تدعم حزمة SDK للكلام Windows 10 و Windows Server 2016 أو الإصدارات الأحدث. الإصدارات السابقة غير مدعومة رسميا. من الممكن استخدام أجزاء من Speech SDK مع الإصدارات السابقة من Windows، على الرغم من أنه لا ينصح بذلك.


Windows

متطلبات النظام

تتطلب حزمة تطوير البرامج (SDK) الخاصة بالكلام على Windows Microsoft Visual C++ القابلة لإعادة التوزيع Visual Studio عام 2019 على النظام.

C#‎

يتوفر .NET Speech SDK كحزمة NuGet ويقوم بتنفيذ .NET Standard 2.0. لمزيد من المعلومات، راجع Microsoft.CognitiveServices.Speech.


C#

C # حزمة NuGet

يمكن تثبيت .NET Speech SDK من .NET Core CLI باستخدام الأمر التالي dotnet add :

dotnet add package Microsoft.CognitiveServices.Speech

يمكن تثبيت .NET Speech SDK من مدير الحِزَم باستخدام الأمر التاليInstall-Package:

Install-Package Microsoft.CognitiveServices.Speech

C++‎

تتوفر حزمة تطوير البرامج (SDK) للكلام (C++) كحزمة NuGet على Windows وLinux وmacOS. لمزيد من المعلومات، راجع Microsoft.CognitiveServices.Speech. تتوفر أيضا حزمة تطوير البرامج (SDK) للكلام C ++ كحزمة قطران من https://aka.ms/csspeech/linuxbinary.


C++

حزمة C++ NuGet

يمكن تثبيت C++ Speech SDK من مدير الحِزَم باستخدام الأمر التاليInstall-Package:

Install-Package Microsoft.CognitiveServices.Speech

الموارد الإضافية

Windows و Linux و macOS التعليمات البرمجية المصدرية للتشغيل السريع C ++

Python

تتوفر حزمة SDK للكلام Python كوحدة نمطية لفهرس حزمة Python (PyPI). لمزيد من المعلومات، راجع azure-cognitiveservices-speech . تتوافق حزمة تطوير البرامج Python Speech SDK مع Windows وLinux وmacOS. قم بتثبيت إصدار من Python من 3.7 إلى 3.10.

قبل تثبيت Python Speech SDK، تأكد من تلبية متطلبات النظام والمتطلبات الأساسية.

لتثبيت حزمة SDK للكلام، قم بتشغيل هذا الأمر في محطة طرفية.

pip install azure-cognitiveservices-speech

إذا كنت تعمل على macOS وواجهت مشكلات في التثبيت، فقد تحتاج إلى تشغيل هذا الأمر أولاً.

python3 -m pip install --upgrade pip

يمكنك الآن استيراد Speech SDK إلى مشروع Python الخاص بك.

import azure.cognitiveservices.speech as speechsdk

Java

يتم حزم Java SDK لنظام Android كمكتبة AAR (مكتبة Android) ، والتي تتضمن المكتبات الضرورية وأذونات Android المطلوبة. يتم استضافته في مستودع Maven في https://azureai.azureedge.net/maven/ كحزمة com.microsoft.cognitiveservices.speech:client-sdk:1.19.0. تأكد من أن الإصدار 1.19.0 هو أحدث إصدار من خلال البحث في GitHub الريبو.


Java

لاستهلاك الحزمة من مشروع Android Studio، قم بإجراء التغييرات التالية:

  1. في الملف build.gradle على مستوى المشروع، أضف ما يلي إلى المقطع repositories :

    maven { url 'https://azureai.azureedge.net/maven/' }
    
  2. في الملف build.gradle على مستوى الوحدة النمطية، أضف ما يلي إلى القسم dependencies :

    implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.21.0'
    

الموارد الإضافية

هام

عن طريق تنزيل أي من حزم SDK الخاصة Azure Cognitive Services Speech، فإنك تقر بترخيصها. لمزيد من المعلومات، راجع:

نموذج التعليمات البرمجية المصدر

يحتفظ فريق Speech SDK بنشاط بمجموعة كبيرة من الأمثلة في مستودع مفتوح المصدر. للحصول على نموذج مستودع التعليمات البرمجية المصدرية، راجع Microsoft Cognitive Services Speech SDK على GitHub . هناك عينات ل C # و C ++ و Java و Python و Objective-C و Swift و JavaScript و UWP و Unity و Xamarin.


GitHub

الخطوات التالية