التشغيل السريع: التعرف على الكلام وتحويله إلى نص

الوثائق | المرجعية الحزمة (NuGet) | عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

يتوفر Speech SDK كحزمة NuGet وينفذ .NET Standard 2.0. يمكنك تثبيت Speech SDK في القسم التالي من هذه المقالة، ولكن أولا تحقق من إرشادات التثبيت الخاصة بالنظام الأساسي لمزيد من المتطلبات.

التعرف على الكلام من ميكروفون

اتبع هذه الخطوات لإنشاء تطبيق وحدة تحكم جديد وتثبيت Speech SDK.

  1. افتح موجه الأوامر حيث تريد المشروع الجديد، وأنشئ تطبيق وحدة تحكم باستخدام .NET CLI.

    dotnet new console
    
  2. قم بتثبيت Speech SDK في مشروعك الجديد باستخدام .NET CLI.

    dotnet add package Microsoft.CognitiveServices.Speech
    
  3. استبدل محتويات بالتعليمات Program.cs البرمجية التالية.

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        static string YourSubscriptionKey = "YourSubscriptionKey";
        static string YourServiceRegion = "YourServiceRegion";
    
        static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
        {
            switch (speechRecognitionResult.Reason)
            {
                case ResultReason.RecognizedSpeech:
                    Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                    break;
                case ResultReason.NoMatch:
                    Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                    break;
                case ResultReason.Canceled:
                    var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(YourSubscriptionKey, YourServiceRegion);        
            speechConfig.SpeechRecognitionLanguage = "en-US";
    
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            Console.WriteLine("Speak into your microphone.");
            var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
            OutputSpeechRecognitionResult(speechRecognitionResult);
        }
    }
    
  4. في Program.cs، استبدل YourSubscriptionKey بمفتاح مورد Speech، واستبدل YourServiceRegion بمنطقة مورد Speech.

  5. لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى معتمدة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة. للحصول على تفاصيل حول كيفية تحديد إحدى اللغات المتعددة التي قد يتم التحدث بها، راجع تعريف اللغة.

قم بتشغيل تطبيق وحدة التحكم الجديد لبدء التعرف على الكلام من ميكروفون:

dotnet run

تحدث إلى الميكروفون عند مطالبتك. يجب أن يكون ما تتحدث عنه ناتجا كنص:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

فيما يلي بعض الاعتبارات الإضافية:

  • يستخدم RecognizeOnceAsync هذا المثال العملية لنسخ الألفاظ التي تصل إلى 30 ثانية، أو حتى يتم الكشف عن الصمت. للحصول على معلومات حول التعرف المستمر على الصوت الأطول، بما في ذلك المحادثات متعددة اللغات، راجع كيفية التعرف على الكلام.
  • للتعرف على الكلام من ملف صوتي، استخدم FromWavFileInput بدلا من FromDefaultMicrophoneInput:
    using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
    
  • بالنسبة للملفات الصوتية المضغوطة مثل MP4، قم بتثبيت GStreamer واستخدم PullAudioInputStream أو PushAudioInputStream. لمزيد من المعلومات، راجع كيفية استخدام صوت الإدخال المضغوط.

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الوثائق | المرجعية الحزمة (NuGet) | عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

يتوفر Speech SDK كحزمة NuGet وينفذ .NET Standard 2.0. يمكنك تثبيت Speech SDK في القسم التالي من هذه المقالة، ولكن أولا تحقق من إرشادات التثبيت الخاصة بالنظام الأساسي لمزيد من المتطلبات.

التعرف على الكلام من ميكروفون

اتبع هذه الخطوات لإنشاء تطبيق وحدة تحكم جديد وتثبيت Speech SDK.

  1. إنشاء مشروع وحدة تحكم C++ جديد في Visual Studio.

  2. قم بتثبيت Speech SDK في مشروعك الجديد باستخدام مدير حزمة NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  3. استبدل محتويات بالتعليمات main.cpp البرمجية التالية:

    #include <iostream> 
    #include <speechapi_cxx.h>
    
    using namespace Microsoft::CognitiveServices::Speech;
    using namespace Microsoft::CognitiveServices::Speech::Audio;
    
    auto YourSubscriptionKey = "YourSubscriptionKey";
    auto YourServiceRegion = "YourServiceRegion";
    
    int main()
    {
        auto speechConfig = SpeechConfig::FromSubscription(YourSubscriptionKey, YourServiceRegion);
        speechConfig->SetSpeechRecognitionLanguage("en-US");
    
        // To recognize speech from an audio file, use `FromWavFileInput` instead of `FromDefaultMicrophoneInput`:
        // auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
        auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
        auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);
    
        std::cout << "Speak into your microphone.\n";
        auto result = recognizer->RecognizeOnceAsync().get();
    
        if (result->Reason == ResultReason::RecognizedSpeech)
        {
            std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        }
        else if (result->Reason == ResultReason::NoMatch)
        {
            std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
        }
        else if (result->Reason == ResultReason::Canceled)
        {
            auto cancellation = CancellationDetails::FromResult(result);
            std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;
    
            if (cancellation->Reason == CancellationReason::Error)
            {
                std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
                std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
                std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
            }
        }
    }
    
  4. في main.cpp، استبدل YourSubscriptionKey بمفتاح مورد Speech، واستبدل YourServiceRegion بمنطقة مورد Speech.

  5. لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى معتمدة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة. للحصول على تفاصيل حول كيفية تحديد إحدى اللغات المتعددة التي قد يتم التحدث بها، راجع تعريف اللغة.

قم بإنشاء وتشغيل تطبيق وحدة التحكم الجديد لبدء التعرف على الكلام من ميكروفون.

تحدث إلى الميكروفون عند مطالبتك. يجب أن يكون ما تتحدث عنه ناتجا كنص:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

فيما يلي بعض الاعتبارات الإضافية:

  • يستخدم RecognizeOnceAsync هذا المثال العملية لنسخ الألفاظ التي تصل إلى 30 ثانية، أو حتى يتم الكشف عن الصمت. للحصول على معلومات حول التعرف المستمر على الصوت الأطول، بما في ذلك المحادثات متعددة اللغات، راجع كيفية التعرف على الكلام.
  • للتعرف على الكلام من ملف صوتي، استخدم FromWavFileInput بدلا من FromDefaultMicrophoneInput:
    auto audioInput = AudioConfig::FromWavFileInput("YourAudioFile.wav");
    
  • بالنسبة للملفات الصوتية المضغوطة مثل MP4، قم بتثبيت GStreamer واستخدم PullAudioInputStream أو PushAudioInputStream. لمزيد من المعلومات، راجع كيفية استخدام صوت الإدخال المضغوط.

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الوثائق | المرجعية الحزمة (Go) | عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

تثبيت Speech SDK ل Go. تحقق من إرشادات التثبيت الخاصة بالنظام الأساسي لمزيد من المتطلبات.

التعرف على الكلام من ميكروفون

اتبع هذه الخطوات لإنشاء وحدة نمطية GO جديدة.

  1. افتح موجه الأوامر حيث تريد الوحدة النمطية الجديدة، وأنشئ ملفا جديدا باسم speech-recognition.go.

  2. انسخ التعليمات البرمجية التالية في speech-recognition.go:

    package main
    
    import (
    	"bufio"
    	"fmt"
    	"os"
    
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    	"github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
    )
    
    func sessionStartedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Started (ID=", event.SessionID, ")")
    }
    
    func sessionStoppedHandler(event speech.SessionEventArgs) {
    	defer event.Close()
    	fmt.Println("Session Stopped (ID=", event.SessionID, ")")
    }
    
    func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognizing:", event.Result.Text)
    }
    
    func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
    	defer event.Close()
    	fmt.Println("Recognized:", event.Result.Text)
    }
    
    func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
    	defer event.Close()
    	fmt.Println("Received a cancellation: ", event.ErrorDetails)
        fmt.Println("Did you set the speech resource key and region values?")
    }
    
    func main() {
        key :=  "YourSubscriptionKey"
        region := "YourServiceRegion"
    
    	audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer audioConfig.Close()
    	speechConfig, err := speech.NewSpeechConfigFromSubscription(key, region)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechConfig.Close()
    	speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    	if err != nil {
    		fmt.Println("Got an error: ", err)
    		return
    	}
    	defer speechRecognizer.Close()
    	speechRecognizer.SessionStarted(sessionStartedHandler)
    	speechRecognizer.SessionStopped(sessionStoppedHandler)
    	speechRecognizer.Recognizing(recognizingHandler)
    	speechRecognizer.Recognized(recognizedHandler)
    	speechRecognizer.Canceled(cancelledHandler)
    	speechRecognizer.StartContinuousRecognitionAsync()
    	defer speechRecognizer.StopContinuousRecognitionAsync()
    	bufio.NewReader(os.Stdin).ReadBytes('\n')
    }
    
  3. في speech-recognition.go، استبدل YourSubscriptionKey بمفتاح مورد Speech، واستبدل YourServiceRegion بمنطقة مورد Speech.

قم بتشغيل الأوامر التالية لإنشاء go.mod ملف يرتبط بالمكونات المستضافة على GitHub:

go mod init speech-recognition
go get github.com/Microsoft/cognitive-services-speech-sdk-go

الآن قم بإنشاء التعليمات البرمجية وتشغيلها:

go build
go run speech-recognition

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الوثائق | المرجعية عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

قبل أن تتمكن من القيام بأي شيء، تحتاج إلى تثبيت Speech SDK. تعمل العينة في هذا التشغيل السريع مع وقت تشغيل Java.

التعرف على الكلام من ميكروفون

اتبع هذه الخطوات لإنشاء تطبيق وحدة تحكم جديد للتعرف على الكلام.

  1. افتح موجه الأوامر حيث تريد المشروع الجديد، وأنشئ ملفا جديدا باسم SpeechRecognition.java.

  2. انسخ التعليمات البرمجية التالية في SpeechRecognition.java:

    import com.microsoft.cognitiveservices.speech.*;
    import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
    
    import java.util.concurrent.ExecutionException;
    import java.util.concurrent.Future;
    
    public class SpeechRecognition {
        private static String YourSubscriptionKey = "YourSubscriptionKey";
        private static String YourServiceRegion = "YourServiceRegion";
    
        public static void main(String[] args) throws InterruptedException, ExecutionException {
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(YourSubscriptionKey, YourServiceRegion);
            speechConfig.setSpeechRecognitionLanguage("en-US");
            recognizeFromMicrophone(speechConfig);
        }
    
        public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
            SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            System.out.println("Speak into your microphone.");
            Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
            SpeechRecognitionResult speechRecognitionResult = task.get();
    
            if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
                System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
            }
            else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
                System.out.println("NOMATCH: Speech could not be recognized.");
            }
            else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
                CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
                System.out.println("CANCELED: Reason=" + cancellation.getReason());
    
                if (cancellation.getReason() == CancellationReason.Error) {
                    System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                    System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                    System.out.println("CANCELED: Did you set the speech resource key and region values?");
                }
            }
    
            System.exit(0);
        }
    }
    
  3. في SpeechRecognition.java، استبدل YourSubscriptionKey بمفتاح مورد Speech، واستبدل YourServiceRegion بمنطقة مورد Speech.

  4. لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى معتمدة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة. للحصول على تفاصيل حول كيفية تحديد إحدى اللغات المتعددة التي قد يتم التحدث بها، راجع تعريف اللغة.

قم بتشغيل تطبيق وحدة التحكم الجديد لبدء التعرف على الكلام من ميكروفون:

java SpeechRecognition

تحدث إلى الميكروفون عند مطالبتك. يجب أن يكون ما تتحدث عنه ناتجا كنص:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

فيما يلي بعض الاعتبارات الإضافية:

  • يستخدم RecognizeOnceAsync هذا المثال العملية لنسخ الألفاظ التي تصل إلى 30 ثانية، أو حتى يتم الكشف عن الصمت. للحصول على معلومات حول التعرف المستمر على الصوت الأطول، بما في ذلك المحادثات متعددة اللغات، راجع كيفية التعرف على الكلام.
  • للتعرف على الكلام من ملف صوتي، استخدم fromWavFileInput بدلا من fromDefaultMicrophoneInput:
    AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
    
  • بالنسبة للملفات الصوتية المضغوطة مثل MP4، قم بتثبيت GStreamer واستخدم PullAudioInputStream أو PushAudioInputStream. لمزيد من المعلومات، راجع كيفية استخدام صوت الإدخال المضغوط.

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الوثائق | المرجعية الحزمة (npm) | عينات إضافية على التعليمات البرمجية المصدر GitHub | Library

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

قبل أن تتمكن من القيام بأي شيء، تحتاج إلى تثبيت Speech SDK ل JavaScript. إذا كنت تريد فقط تثبيت اسم الحزمة، فقم بتشغيل npm install microsoft-cognitiveservices-speech-sdk . للحصول على إرشادات التثبيت الإرشادية، راجع إعداد بيئة التطوير.

التعرف على الكلام من ملف

اتبع هذه الخطوات لإنشاء تطبيق وحدة تحكم جديد للتعرف على الكلام.

  1. افتح موجه الأوامر حيث تريد المشروع الجديد، وأنشئ ملفا جديدا باسم SpeechRecognition.js.

  2. تثبيت Speech SDK ل JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  3. انسخ التعليمات البرمجية التالية في SpeechRecognition.js:

    const fs = require("fs");
    const sdk = require("microsoft-cognitiveservices-speech-sdk");
    const speechConfig = sdk.SpeechConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");
    speechConfig.speechRecognitionLanguage = "en-US";
    
    function fromFile() {
        let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
        let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);
    
        speechRecognizer.recognizeOnceAsync(result => {
            switch (result.reason) {
                case sdk.ResultReason.RecognizedSpeech:
                    console.log(`RECOGNIZED: Text=${result.text}`);
                    break;
                case sdk.ResultReason.NoMatch:
                    console.log("NOMATCH: Speech could not be recognized.");
                    break;
                case sdk.ResultReason.Canceled:
                    const cancellation = sdk.CancellationDetails.fromResult(result);
                    console.log(`CANCELED: Reason=${cancellation.reason}`);
    
                    if (cancellation.reason == sdk.CancellationReason.Error) {
                        console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                        console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                        console.log("CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
            speechRecognizer.close();
        });
    }
    fromFile();
    
  4. في SpeechRecognition.js، استبدل YourSubscriptionKey بمفتاح مورد Speech، واستبدل YourServiceRegion بمنطقة مورد Speech.

  5. في SpeechRecognition.js، استبدل YourAudioFile.wav بملف WAV الخاص بك. يتعرف هذا المثال فقط على الكلام من ملف WAV. للحصول على معلومات حول تنسيقات الصوت الأخرى، راجع كيفية استخدام صوت الإدخال المضغوط. يدعم هذا المثال ما يصل إلى 30 ثانية من الصوت.

  6. لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى معتمدة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة. للحصول على تفاصيل حول كيفية تحديد إحدى اللغات المتعددة التي قد يتم التحدث بها، راجع تعريف اللغة.

قم بتشغيل تطبيق وحدة التحكم الجديد لبدء التعرف على الكلام من ملف:

node.exe SpeechRecognition.js

يجب أن يكون الكلام من ملف الصوت ناتجا كنص:

RECOGNIZED: Text=I'm excited to try speech to text.

يستخدم recognizeOnceAsync هذا المثال العملية لنسخ الألفاظ التي تصل إلى 30 ثانية، أو حتى يتم الكشف عن الصمت. للحصول على معلومات حول التعرف المستمر على الصوت الأطول، بما في ذلك المحادثات متعددة اللغات، راجع كيفية التعرف على الكلام.

ملاحظة

التعرف على الكلام من ميكروفون غير معتمد في Node.js. وهو مدعوم فقط في بيئة JavaScript المستندة إلى المستعرض. لمزيد من المعلومات، راجع نموذج Reactوتنفيذ تحويل الكلام إلى نص من ميكروفون على GitHub. تعرض عينة React أنماط التصميم لتبادل وإدارة رموز المصادقة المميزة. كما يعرض التقاط الصوت من ميكروفون أو ملف لتحويل الكلام إلى نص.

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الوثائق | المرجعية الحزمة (تنزيل) | عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

يتم توزيع Speech SDK ل Objective-C كحزمة إطار عمل. يدعم إطار العمل كلا من Objective-C وSwift على كل من iOS وmacOS.

يمكن استخدام Speech SDK في مشاريع Xcode ك CocoaPod، أو تنزيله مباشرة هنا وربطه يدويا. يستخدم هذا الدليل CocoaPod. قم بتثبيت مدير تبعية CocoaPod كما هو موضح في إرشادات التثبيت الخاصة به.

التعرف على الكلام من ميكروفون

اتبع هذه الخطوات للتعرف على الكلام في تطبيق macOS.

  1. استنساخ مستودع Azure-Samples/cognitive-services-speech-sdk للحصول على التعرف على الكلام من ميكروفون في مشروع نموذج Objective-C على macOS . يحتوي المستودع أيضا على عينات iOS.

  2. انتقل إلى دليل نموذج التطبيق (helloworld) الذي تم تنزيله في محطة طرفية.

  3. شغَّل الأمر pod install. سيؤدي ذلك إلى إنشاء helloworld.xcworkspace مساحة عمل Xcode تحتوي على كل من نموذج التطبيق وSDK الكلام كتبعية.

  4. helloworld.xcworkspace افتح مساحة العمل في Xcode.

  5. افتح الملف المسمى AppDelegate.m وحدد موقع buttonPressed الأسلوب كما هو موضح هنا.

    - (void)buttonPressed:(NSButton *)button {
        // Creates an instance of a speech config with specified subscription key and service region.
        // Replace with your own subscription key // and service region (e.g., "westus").
        NSString *speechKey = @"YourSubscriptionKey";
        NSString *serviceRegion = @"YourServiceRegion";
    
        SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithMicrophone:nil];
        SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
        SPXSpeechRecognizer *speechRecognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig language:@"en-US" audioConfiguration:audioConfig];
    
        NSLog(@"Speak into your microphone.");
    
        SPXSpeechRecognitionResult *speechResult = [speechRecognizer recognizeOnce];
    
        // Checks result.
        if (SPXResultReason_Canceled == speechResult.reason) {
            SPXCancellationDetails *details = [[SPXCancellationDetails alloc] initFromCanceledRecognitionResult:speechResult];
            NSLog(@"Speech recognition was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
            [self.label setStringValue:([NSString stringWithFormat:@"Canceled: %@", details.errorDetails])];
        } else if (SPXResultReason_RecognizedSpeech == speechResult.reason) {
            NSLog(@"Speech recognition result received: %@", speechResult.text);
            [self.label setStringValue:(speechResult.text)];
        } else {
            NSLog(@"There was an error.");
            [self.label setStringValue:(@"Speech Recognition Error")];
        }
    }
    
  6. في AppDelegate.m، استبدل YourSubscriptionKey بمفتاح مورد الكلام، واستبدل YourServiceRegion بمنطقة مورد الكلام.

  7. لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى مدعومة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة. للحصول على تفاصيل حول كيفية تحديد إحدى اللغات المتعددة التي يمكن التحدث بها، راجع تعريف اللغة.

  8. اجعل إخراج تصحيح الأخطاء مرئيا (ViewDebug>AreaActivate> Console).

  9. قم بإنشاء التعليمات البرمجية المثال وتشغيلها عن طريق تحديد Product ->Run من القائمة أو تحديد الزر Play .

بعد تحديد الزر في التطبيق ونطق بضع كلمات، يجب أن ترى النص الذي تحدثت به في الجزء السفلي من الشاشة. عند تشغيل التطبيق للمرة الأولى، يجب أن تتم مطالبتك بمنح التطبيق حق الوصول إلى ميكروفون الكمبيوتر.

فيما يلي بعض الاعتبارات الإضافية:

  • يستخدم recognizeOnce هذا المثال العملية لنسخ الألفاظ التي تصل إلى 30 ثانية، أو حتى يتم الكشف عن الصمت. للحصول على معلومات حول التعرف المستمر على الصوت الأطول، بما في ذلك المحادثات متعددة اللغات، راجع كيفية التعرف على الكلام.
  • للتعرف على الكلام من ملف صوتي، استخدم initWithWavFileInput بدلا من initWithMicrophone:
    SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithWavFileInput:YourAudioFile];
    

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الوثائق | المرجعية الحزمة (تنزيل) | عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

يتم توزيع Speech SDK ل Swift كحزمة إطار عمل. يدعم إطار العمل كلا من Objective-C وSwift على كل من iOS وmacOS.

يمكن استخدام Speech SDK في مشاريع Xcode ك CocoaPod، أو تنزيله مباشرة هنا وربطه يدويا. يستخدم هذا الدليل CocoaPod. قم بتثبيت مدير تبعية CocoaPod كما هو موضح في إرشادات التثبيت الخاصة به.

التعرف على الكلام من ميكروفون

اتبع هذه الخطوات للتعرف على الكلام في تطبيق macOS.

  1. استنساخ مستودع Azure-Samples/cognitive-services-speech-sdk للحصول على التعرف على الكلام من ميكروفون في مشروع نموذج Swift على macOS . يحتوي المستودع أيضا على عينات iOS.

  2. انتقل إلى دليل نموذج التطبيق (helloworld) الذي تم تنزيله في محطة طرفية.

  3. شغَّل الأمر pod install. سيؤدي ذلك إلى إنشاء helloworld.xcworkspace مساحة عمل Xcode تحتوي على كل من نموذج التطبيق وSDK الكلام كتبعية.

  4. helloworld.xcworkspace افتح مساحة العمل في Xcode.

  5. افتح الملف المسمى AppDelegate.swift وحدد موقع الأسلوبين applicationDidFinishLaunching و recognizeFromMic كما هو موضح هنا.

    import Cocoa
    
    @NSApplicationMain
    class AppDelegate: NSObject, NSApplicationDelegate {
        var label: NSTextField!
        var fromMicButton: NSButton!
    
        var sub: String!
        var region: String!
    
        @IBOutlet weak var window: NSWindow!
    
        func applicationDidFinishLaunching(_ aNotification: Notification) {
            print("loading")
            // load subscription information
            sub = "YourSubscriptionKey"
            region = "YourServiceRegion"
    
            label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
            label.textColor = NSColor.black
            label.lineBreakMode = .byWordWrapping
    
            label.stringValue = "Recognition Result"
            label.isEditable = false
    
            self.window.contentView?.addSubview(label)
    
            fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
            fromMicButton.title = "Recognize"
            fromMicButton.target = self
            fromMicButton.action = #selector(fromMicButtonClicked)
            self.window.contentView?.addSubview(fromMicButton)
        }
    
        @objc func fromMicButtonClicked() {
            DispatchQueue.global(qos: .userInitiated).async {
                self.recognizeFromMic()
            }
        }
    
        func recognizeFromMic() {
            var speechConfig: SPXSpeechConfiguration?
            do {
                try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
            } catch {
                print("error \(error) happened")
                speechConfig = nil
            }
            speechConfig?.speechRecognitionLanguage = "en-US"
    
            let audioConfig = SPXAudioConfiguration()
    
            let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)
    
            reco.addRecognizingEventHandler() {reco, evt in
                print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
                self.updateLabel(text: evt.result.text, color: .gray)
            }
    
            updateLabel(text: "Listening ...", color: .gray)
            print("Listening...")
    
            let result = try! reco.recognizeOnce()
            print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
            updateLabel(text: result.text, color: .black)
    
            if result.reason != SPXResultReason.recognizedSpeech {
                let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
                print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
                print("Did you set the speech resource key and region values?")
                updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
            }
        }
    
        func updateLabel(text: String?, color: NSColor) {
            DispatchQueue.main.async {
                self.label.stringValue = text!
                self.label.textColor = color
            }
        }
    }
    
  6. في AppDelegate.m، استبدل YourSubscriptionKey بمفتاح مورد الكلام، واستبدل YourServiceRegion بمنطقة مورد الكلام.

  7. لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى مدعومة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة. للحصول على تفاصيل حول كيفية تحديد إحدى اللغات المتعددة التي يمكن التحدث بها، راجع تعريف اللغة.

  8. اجعل إخراج التصحيح مرئيا عن طريق تحديد ViewDebug>AreaActivate> Console.

  9. قم بإنشاء التعليمات البرمجية المثال وتشغيلها عن طريق تحديد Product ->Run من القائمة أو تحديد الزر Play .

بعد تحديد الزر في التطبيق ونطق بضع كلمات، يجب أن ترى النص الذي تحدثت به في الجزء السفلي من الشاشة. عند تشغيل التطبيق للمرة الأولى، يجب أن تتم مطالبتك بمنح التطبيق حق الوصول إلى ميكروفون الكمبيوتر.

يستخدم recognizeOnce هذا المثال العملية لنسخ الألفاظ التي تصل إلى 30 ثانية، أو حتى يتم الكشف عن الصمت. للحصول على معلومات حول التعرف المستمر على الصوت الأطول، بما في ذلك المحادثات متعددة اللغات، راجع كيفية التعرف على الكلام.

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الوثائق | المرجعية الحزمة (PyPi) | عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

يتوفر Speech SDK ل Python كوحدة نمطية ل Python Package Index (PyPI). يتوافق Speech SDK ل Python مع Windows وLinux وmacOS.

تثبيت إصدار Python من 3.7 إلى 3.10. تحقق أولا من إرشادات التثبيت الخاصة بالنظام الأساسي لمزيد من المتطلبات.

التعرف على الكلام من ميكروفون

اتبع هذه الخطوات لإنشاء تطبيق وحدة تحكم جديد.

  1. افتح موجه الأوامر حيث تريد المشروع الجديد، وأنشئ ملفا جديدا باسم speech-recognition.py.

  2. قم بتشغيل هذا الأمر لتثبيت Speech SDK:

    pip install azure-cognitiveservices-speech
    
  3. انسخ التعليمات البرمجية التالية في speech_recognition.py:

    import azure.cognitiveservices.speech as speechsdk
    
    def recognize_from_microphone():
        speech_config = speechsdk.SpeechConfig(subscription="YourSubscriptionKey", region="YourServiceRegion")
        speech_config.speech_recognition_language="en-US"
    
        audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
    
        print("Speak into your microphone.")
        speech_recognition_result = speech_recognizer.recognize_once_async().get()
    
        if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
            print("Recognized: {}".format(speech_recognition_result.text))
        elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
            print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
        elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = speech_recognition_result.cancellation_details
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you set the speech resource key and region values?")
    
    recognize_from_microphone()
    
  4. في speech_recognition.py، استبدل YourSubscriptionKey بمفتاح مورد الكلام، واستبدل YourServiceRegion بمنطقة مورد الكلام.

  5. لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى مدعومة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة. للحصول على تفاصيل حول كيفية تحديد إحدى اللغات المتعددة التي يمكن التحدث بها، راجع تعريف اللغة.

قم بتشغيل تطبيق وحدة التحكم الجديد لبدء التعرف على الكلام من ميكروفون:

python speech_recognition.py

تحدث إلى الميكروفون عند مطالبتك بذلك. يجب أن يكون ما تتحدث عنه ناتجا كنص:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

فيما يلي بعض الاعتبارات الإضافية:

  • يستخدم recognize_once_async هذا المثال العملية لنسخ الألفاظ التي تصل إلى 30 ثانية، أو حتى يتم الكشف عن الصمت. للحصول على معلومات حول التعرف المستمر على الصوت الأطول، بما في ذلك المحادثات متعددة اللغات، راجع كيفية التعرف على الكلام.
  • للتعرف على الكلام من ملف صوتي، استخدم filename بدلا من use_default_microphone:
    audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
    
  • بالنسبة للملفات الصوتية المضغوطة مثل MP4، قم بتثبيت GStreamer واستخدم PullAudioInputStream أو PushAudioInputStream. لمزيد من المعلومات، راجع كيفية استخدام صوت الإدخال المضغوط.

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

مرجع | واجهة برمجة تطبيقات REST V3.0 لتحويل الكلام إلى نصواجهة برمجة تطبيقات REST لتحويل الكلام إلى نص لمرجع | صوتي قصير عينات إضافية على GitHub

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

التعرف على الكلام من ملف

في موجه الأوامر، قم بتشغيل الأمر cURL التالي. إدراج القيم التالية في الأمر . استبدل YourSubscriptionKey بمفتاح مورد الكلام، واستبدل YourServiceRegion بمنطقة مورد الكلام، واستبدل YourAudioFile.wav بمسار واسم ملف الصوت.

key="YourSubscriptionKey"
region="YourServiceRegion"
audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://$region.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US" \
--header "Ocp-Apim-Subscription-Key: $key" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

يجب أن تتلقى استجابة مشابهة لما هو موضح هنا. DisplayText يجب أن يكون النص الذي تم التعرف عليه من ملف الصوت.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

لمزيد من المعلومات، راجع واجهة برمجة تطبيقات REST لتحويل الكلام إلى نص للحصول على صوت قصير.

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

في هذا التشغيل السريع، يمكنك تشغيل تطبيق للتعرف على الكلام البشري ونسخه (غالبا ما يسمى الكلام إلى نص).

تلميح

لتجربة خدمة Speech دون كتابة أي تعليمة برمجية، قم بإنشاء مشروع في Speech Studio.

المتطلبات الأساسية

  • اشتراك Azure - إنشاء اشتراك مجانًا
  • إنشاء مورد Speech في مدخل Microsoft Azure للحصول على المفتاح ونقطة النهاية. يمكنك استخدام مستوى التسعير الحر (F0) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.
  • احصل على مفتاح الاشتراك ونقطة النهاية الإقليمية. بعد نشر مورد Speech، حدد Go to resource لعرض المفاتيح وإدارتها. لمزيد من المعلومات حول مفاتيح الاشتراك وموارد الخدمات المعرفية الأخرى، راجع الحصول على مفاتيح المورد الخاص بك.

إعداد البيئة

اتبع هذه الخطوات وشاهد التشغيل السريع ل Speech CLI للحصول على متطلبات إضافية للنظام الأساسي الخاص بك.

  1. قم بتثبيت Speech CLI عبر .NET CLI عن طريق إدخال هذا الأمر:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. قم بتكوين مفتاح مورد الكلام والمنطقة، عن طريق تشغيل الأوامر التالية. استبدل SUBSCRIPTION-KEY بمفتاح مورد الكلام، واستبدل REGION بمنطقة مورد الكلام:

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

التعرف على الكلام من ميكروفون

قم بتشغيل الأمر التالي لبدء التعرف على الكلام من ميكروفون:

spx recognize --microphone --source en-US

تحدث إلى الميكروفون، وترى كتابة كلماتك في نص في الوقت الفعلي. يتوقف Speech CLI بعد فترة من الصمت أو 30 ثانية أو عند الضغط على Ctrl+C.

Connection CONNECTED...
RECOGNIZED: I'm excited to try speech to text.

الآن بعد أن قمت بنسخ الكلام إلى نص، إليك بعض التعديلات المقترحة لتجربتها:

  • للتعرف على الكلام من ملف صوتي، استخدم --file بدلا من --microphone. بالنسبة للملفات الصوتية المضغوطة مثل MP4، قم بتثبيت GStreamer واستخدم --format. لمزيد من المعلومات، راجع كيفية استخدام صوت الإدخال المضغوط.
    spx recognize --file YourAudioFile.wav
    spx recognize --file YourAudioFile.mp4 --format any
    
  • لتحسين دقة التعرف على كلمات أو تعبيرات معينة، استخدم قائمة عبارات. يمكنك تضمين قائمة عبارات في سطر أو مع ملف نصي مع أمر التعرف:
    spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
    spx recognize --microphone --phrases @phrases.txt
    
  • لتغيير لغة التعرف على الكلام، استبدل en-USبلغة أخرى مدعومة. على سبيل المثال، es-ES للإسبانية (أسبانيا). اللغة الافتراضية هي en-us إذا لم تحدد لغة.
    spx recognize --microphone --source es-ES
    
  • للتعرف المستمر على الصوت لمدة أطول من 30 ثانية، قم بإلحاق --continuous:
    spx recognize --microphone --source es-ES --continuous
    

تنظيف الموارد

يمكنك استخدام مدخل Microsoft Azure أو واجهة سطر الأوامر Azure (CLI) لإزالة مورد الكلام الذي أنشأته.

الخطوات التالية