Mulai cepat: Mengenali dan mengonversi ucapan menjadi teks

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti di panduan ini. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Jalankan perintah ini untuk membuat aplikasi konsol dengan .NET CLI.

    dotnet new console
    

    Perintah ini membuat file Program.cs di direktori proyek Anda.

  2. Pasang Speech SDK di proyek baru Anda dengan .NET CLI.

    dotnet add package Microsoft.CognitiveServices.Speech
    
  3. Ganti konten Program.cs dengan kode berikut:

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
        {
            switch (speechRecognitionResult.Reason)
            {
                case ResultReason.RecognizedSpeech:
                    Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                    break;
                case ResultReason.NoMatch:
                    Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                    break;
                case ResultReason.Canceled:
                    var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);        
            speechConfig.SpeechRecognitionLanguage = "en-US";
    
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            Console.WriteLine("Speak into your microphone.");
            var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
            OutputSpeechRecognitionResult(speechRecognitionResult);
        }
    }
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  5. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

    dotnet run
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:

    using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti di panduan ini. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

  1. Buat proyek konsol C++ baru di Komunitas Visual Studio bernama SpeechRecognition.

  2. Pilih Alat>Konsol Manajer Paket Manajer>Paket Nuget. Di Konsol Manajer Paket, jalankan perintah ini:

    Install-Package Microsoft.CognitiveServices.Speech
    
  3. Ganti isi SpeechRecognition.cpp dengan kode berikut:

    #include <iostream> 
    #include <stdlib.h>
    #include <speechapi_cxx.h>
    
    using namespace Microsoft::CognitiveServices::Speech;
    using namespace Microsoft::CognitiveServices::Speech::Audio;
    
    std::string GetEnvironmentVariable(const char* name);
    
    int main()
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
        auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");
    
        if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
            std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
            return -1;
        }
    
        auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);
    
        speechConfig->SetSpeechRecognitionLanguage("en-US");
    
        auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
        auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);
    
        std::cout << "Speak into your microphone.\n";
        auto result = speechRecognizer->RecognizeOnceAsync().get();
    
        if (result->Reason == ResultReason::RecognizedSpeech)
        {
            std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
        }
        else if (result->Reason == ResultReason::NoMatch)
        {
            std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
        }
        else if (result->Reason == ResultReason::Canceled)
        {
            auto cancellation = CancellationDetails::FromResult(result);
            std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;
    
            if (cancellation->Reason == CancellationReason::Error)
            {
                std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
                std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
                std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
            }
        }
    }
    
    std::string GetEnvironmentVariable(const char* name)
    {
    #if defined(_MSC_VER)
        size_t requiredSize = 0;
        (void)getenv_s(&requiredSize, nullptr, 0, name);
        if (requiredSize == 0)
        {
            return "";
        }
        auto buffer = std::make_unique<char[]>(requiredSize);
        (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
        return buffer.get();
    #else
        auto value = getenv(name);
        return value ? value : "";
    #endif
    }
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  5. Bangun dan jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon.

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:

    auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Pasang Speech SDK untuk Go. Untuk persyaratan dan instruksi, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat modul GO.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file baru bernama speech-recognition.go.

  2. Salin kode berikut ke dalam speech-recognition.go:

    package main
    
    import (
        "bufio"
        "fmt"
        "os"
    
        "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
        "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
    )
    
    func sessionStartedHandler(event speech.SessionEventArgs) {
        defer event.Close()
        fmt.Println("Session Started (ID=", event.SessionID, ")")
    }
    
    func sessionStoppedHandler(event speech.SessionEventArgs) {
        defer event.Close()
        fmt.Println("Session Stopped (ID=", event.SessionID, ")")
    }
    
    func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
        defer event.Close()
        fmt.Println("Recognizing:", event.Result.Text)
    }
    
    func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
        defer event.Close()
        fmt.Println("Recognized:", event.Result.Text)
    }
    
    func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
        defer event.Close()
        fmt.Println("Received a cancellation: ", event.ErrorDetails)
        fmt.Println("Did you set the speech resource key and region values?")
    }
    
    func main() {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        speechKey :=  os.Getenv("SPEECH_KEY")
        speechRegion := os.Getenv("SPEECH_REGION")
    
        audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer audioConfig.Close()
        speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer speechConfig.Close()
        speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer speechRecognizer.Close()
        speechRecognizer.SessionStarted(sessionStartedHandler)
        speechRecognizer.SessionStopped(sessionStoppedHandler)
        speechRecognizer.Recognizing(recognizingHandler)
        speechRecognizer.Recognized(recognizedHandler)
        speechRecognizer.Canceled(cancelledHandler)
        speechRecognizer.StartContinuousRecognitionAsync()
        defer speechRecognizer.StopContinuousRecognitionAsync()
        bufio.NewReader(os.Stdin).ReadBytes('\n')
    }
    
  3. Jalankan perintah berikut untuk membuat file go.mod yang menautkan ke komponen yang dihosting di GitHub:

    go mod init speech-recognition
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  4. Bangun dan jalankan kode:

    go build
    go run speech-recognition
    

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK. Contoh dalam mulai cepat ini berfungsi dengan Runtime Java.

  1. Menginstal Apache Maven. Kemudian jalankan mvn -v untuk mengonfirmasi keberhasilan penginstalan.

  2. Buat file baru pom.xml di akar proyek Anda, dan salin kode berikut ke dalamnya:

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.37.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instal SDK Ucapan dan dependensi.

    mvn clean dependency:copy-dependencies
    

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol untuk pengenalan ucapan.

  1. Buat file baru bernama SpeechRecognition.java di direktori akar proyek yang sama.

  2. Salin kode berikut ke dalam SpeechRecognition.java:

    import com.microsoft.cognitiveservices.speech.*;
    import com.microsoft.cognitiveservices.speech.audio.AudioConfig;
    
    import java.util.concurrent.ExecutionException;
    import java.util.concurrent.Future;
    
    public class SpeechRecognition {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        private static String speechKey = System.getenv("SPEECH_KEY");
        private static String speechRegion = System.getenv("SPEECH_REGION");
    
        public static void main(String[] args) throws InterruptedException, ExecutionException {
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);
            speechConfig.setSpeechRecognitionLanguage("en-US");
            recognizeFromMicrophone(speechConfig);
        }
    
        public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
            AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
            SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);
    
            System.out.println("Speak into your microphone.");
            Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
            SpeechRecognitionResult speechRecognitionResult = task.get();
    
            if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
                System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
            }
            else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
                System.out.println("NOMATCH: Speech could not be recognized.");
            }
            else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
                CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
                System.out.println("CANCELED: Reason=" + cancellation.getReason());
    
                if (cancellation.getReason() == CancellationReason.Error) {
                    System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                    System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                    System.out.println("CANCELED: Did you set the speech resource key and region values?");
                }
            }
    
            System.exit(0);
        }
    }
    
  3. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  4. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

    javac SpeechRecognition.java -cp ".;target\dependency\*"
    java -cp ".;target\dependency\*" SpeechRecognition
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  5. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan fromWavFileInput sebagai pengganti fromDefaultMicrophoneInput:

    AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Anda juga memerlukan file audio .wav di komputer lokal Anda. Anda dapat menggunakan file .wav Anda sendiri (hingga 30 detik) atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK untuk JavaScript. Jalankan perintah ini: npm install microsoft-cognitiveservices-speech-sdk. Untuk petunjuk penginstalan terpandu, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari file

Ikuti langkah-langkah ini untuk membuat aplikasi konsol Node.js untuk pengenalan ucapan.

  1. Buka jendela prompt perintah tempat Anda menginginkan proyek baru, dan buat file baru bernama SpeechRecognition.js.

  2. Instal SDK Ucapan untuk JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  3. Salin kode berikut ke SpeechRecognition.js:

    const fs = require("fs");
    const sdk = require("microsoft-cognitiveservices-speech-sdk");
    
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
    speechConfig.speechRecognitionLanguage = "en-US";
    
    function fromFile() {
        let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
        let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);
    
        speechRecognizer.recognizeOnceAsync(result => {
            switch (result.reason) {
                case sdk.ResultReason.RecognizedSpeech:
                    console.log(`RECOGNIZED: Text=${result.text}`);
                    break;
                case sdk.ResultReason.NoMatch:
                    console.log("NOMATCH: Speech could not be recognized.");
                    break;
                case sdk.ResultReason.Canceled:
                    const cancellation = sdk.CancellationDetails.fromResult(result);
                    console.log(`CANCELED: Reason=${cancellation.reason}`);
    
                    if (cancellation.reason == sdk.CancellationReason.Error) {
                        console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                        console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                        console.log("CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
            }
            speechRecognizer.close();
        });
    }
    fromFile();
    
  4. Di SpeechRecognition.js, ganti YourAudioFile.wav dengan file .wav Anda sendiri. Contoh ini hanya mengenali ucapan dari file .wav . Untuk informasi tentang format audio lainnya, lihat Cara menggunakan audio input terkompresi. Contoh ini mendukung audio hingga 30 detik.

  5. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  6. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari file:

    node.exe SpeechRecognition.js
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

    Ucapan dari file audio harus dikeluarkan sebagai teks:

    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Contoh ini menggunakan operasi recognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Catatan

Mengenali ucapan dari mikrofon tidak didukung di Node.js. Ini hanya didukung di lingkungan JavaScript berbasis browser. Untuk informasi selengkapnya, lihat sampel React dan implementasi ucapan ke teks dari mikrofon di GitHub.

Sampel React menunjukkan pola desain untuk pertukaran dan pengelolaan token autentikasi. Ini juga menunjukkan pengambilan audio dari mikrofon atau file untuk konversi ucapan ke teks.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Objective-C didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh secara langsung dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk mengenali ucapan di aplikasi macOS.

  1. Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan ucapan Kenali dari mikrofon di Objective-C pada proyek sampel macOS. Repositori juga memiliki sampel iOS.

  2. Di jendela konsol, navigasikan ke direktori aplikasi sampel yang diunduh, helloworld.

  3. Jalankan perintah pod install. Perintah ini menghasilkan helloworld.xcworkspace ruang kerja Xcode yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.

  4. Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

  5. Buka file bernama AppDelegate.m dan temukan metode seperti yang ditunjukkan buttonPressed di sini.

    - (void)buttonPressed:(NSButton *)button {
        // Creates an instance of a speech config with specified subscription key and service region.
        NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
        NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
        SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithMicrophone:nil];
        SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
        SPXSpeechRecognizer *speechRecognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig language:@"en-US" audioConfiguration:audioConfig];
    
        NSLog(@"Speak into your microphone.");
    
        SPXSpeechRecognitionResult *speechResult = [speechRecognizer recognizeOnce];
    
        // Checks result.
        if (SPXResultReason_Canceled == speechResult.reason) {
            SPXCancellationDetails *details = [[SPXCancellationDetails alloc] initFromCanceledRecognitionResult:speechResult];
            NSLog(@"Speech recognition was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
            [self.label setStringValue:([NSString stringWithFormat:@"Canceled: %@", details.errorDetails])];
        } else if (SPXResultReason_RecognizedSpeech == speechResult.reason) {
            NSLog(@"Speech recognition result received: %@", speechResult.text);
            [self.label setStringValue:(speechResult.text)];
        } else {
            NSLog(@"There was an error.");
            [self.label setStringValue:(@"Speech Recognition Error")];
        }
    }
    
  6. Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

    NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
    NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
  7. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  8. Untuk membuat output debug terlihat, pilih Lihat>Area>Debug Aktifkan Konsol.

  9. Untuk membuat dan menjalankan kode contoh, pilih Eksekusi Produk>dari menu atau pilih tombol Putar.

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Setelah memilih tombol di aplikasi dan mengucapkan beberapa kata, Anda akan melihat teks yang Anda ucapkan di bagian bawah layar. Saat Anda menjalankan aplikasi untuk pertama kalinya, aplikasi akan meminta Anda untuk memberi aplikasi akses ke mikrofon komputer Anda.

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi recognizeOnce untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan initWithWavFileInput sebagai pengganti initWithMicrophone:

    SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithWavFileInput:YourAudioFile];
    

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Swift didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh secara langsung dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk mengenali ucapan di aplikasi macOS.

  1. Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan ucapan Kenali dari mikrofon di Swift pada proyek sampel macOS. Repositori juga memiliki sampel iOS.

  2. Navigasikan ke direktori aplikasi sampel yang diunduh (helloworld) di terminal.

  3. Jalankan perintah pod install. Perintah ini menghasilkan helloworld.xcworkspace ruang kerja Xcode yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.

  4. Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

  5. Buka file bernama AppDelegate.swift dan temukan metode dan recognizeFromMic seperti yang ditunjukkan applicationDidFinishLaunching di sini.

    import Cocoa
    
    @NSApplicationMain
    class AppDelegate: NSObject, NSApplicationDelegate {
        var label: NSTextField!
        var fromMicButton: NSButton!
    
        var sub: String!
        var region: String!
    
        @IBOutlet weak var window: NSWindow!
    
        func applicationDidFinishLaunching(_ aNotification: Notification) {
            print("loading")
            // load subscription information
            sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
            region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
            label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
            label.textColor = NSColor.black
            label.lineBreakMode = .byWordWrapping
    
            label.stringValue = "Recognition Result"
            label.isEditable = false
    
            self.window.contentView?.addSubview(label)
    
            fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
            fromMicButton.title = "Recognize"
            fromMicButton.target = self
            fromMicButton.action = #selector(fromMicButtonClicked)
            self.window.contentView?.addSubview(fromMicButton)
        }
    
        @objc func fromMicButtonClicked() {
            DispatchQueue.global(qos: .userInitiated).async {
                self.recognizeFromMic()
            }
        }
    
        func recognizeFromMic() {
            var speechConfig: SPXSpeechConfiguration?
            do {
                try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
            } catch {
                print("error \(error) happened")
                speechConfig = nil
            }
            speechConfig?.speechRecognitionLanguage = "en-US"
    
            let audioConfig = SPXAudioConfiguration()
    
            let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)
    
            reco.addRecognizingEventHandler() {reco, evt in
                print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
                self.updateLabel(text: evt.result.text, color: .gray)
            }
    
            updateLabel(text: "Listening ...", color: .gray)
            print("Listening...")
    
            let result = try! reco.recognizeOnce()
            print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
            updateLabel(text: result.text, color: .black)
    
            if result.reason != SPXResultReason.recognizedSpeech {
                let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
                print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
                print("Did you set the speech resource key and region values?")
                updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
            }
        }
    
        func updateLabel(text: String?, color: NSColor) {
            DispatchQueue.main.async {
                self.label.stringValue = text!
                self.label.textColor = color
            }
        }
    }
    
  6. Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

    sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
    region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
  7. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.

  8. Untuk membuat output debug terlihat, pilih Lihat>Area>Debug Aktifkan Konsol.

  9. Buat dan jalankan kode contoh dengan memilih Eksekusi Produk>dari menu atau pilih tombol Putar.

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Setelah memilih tombol di aplikasi dan mengucapkan beberapa kata, Anda akan melihat teks yang Anda ucapkan di bagian bawah layar. Saat Anda menjalankan aplikasi untuk pertama kalinya, aplikasi akan meminta Anda untuk memberi aplikasi akses ke mikrofon komputer Anda.

Keterangan

Contoh ini menggunakan operasi recognizeOnce untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Python tersedia sebagai modul Indeks Paket Python (PyPI). Speech SDK untuk Python kompatibel dengan Windows, Linux, dan macOS.

Instal versi Python dari 3.7 atau yang lebih baru. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file baru bernama speech_recognition.py.

  2. Jalankan perintah ini untuk menginstal SDK Ucapan:

    pip install azure-cognitiveservices-speech
    
  3. Salin kode berikut ke speech_recognition.py:

    import os
    import azure.cognitiveservices.speech as speechsdk
    
    def recognize_from_microphone():
        # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
        speech_config.speech_recognition_language="en-US"
    
        audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
    
        print("Speak into your microphone.")
        speech_recognition_result = speech_recognizer.recognize_once_async().get()
    
        if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
            print("Recognized: {}".format(speech_recognition_result.text))
        elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
            print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
        elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = speech_recognition_result.cancellation_details
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you set the speech resource key and region values?")
    
    recognize_from_microphone()
    
  4. Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.

  5. Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:

    python speech_recognition.py
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

    Speak into your microphone.
    RECOGNIZED: Text=I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Contoh ini menggunakan operasi recognize_once_async untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

  • Untuk mengenali ucapan dari file audio, gunakan filename sebagai pengganti use_default_microphone:

    audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
    
  • Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Ucapan ke teks REST API referensi | Ucapan ke teks REST API untuk referensi | audio singkat Sampel Tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Anda juga memerlukan file audio .wav di komputer lokal Anda. Anda dapat menggunakan file .wav Anda sendiri hingga 60 detik atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mengenali ucapan dari file

Buka jendela konsol dan jalankan perintah cURL berikut. Ganti YourAudioFile.wav dengan jalur dan nama file audio Anda.

curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Anda harus menerima tanggapan yang serupa dengan apa yang ditunjukkan di sini. DisplayText haruslah teks yang dikenali dari file audio Anda. Perintah mengenali hingga 60 detik audio dan mengonversinya menjadi teks.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Untuk informasi selengkapnya, lihat REST API Ucapan ke teks untuk audio pendek.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Ikuti langkah-langkah ini dan lihat mulai cepat Speech CLI untuk persyaratan lain untuk platform Anda.

  1. Jalankan perintah .NET CLI berikut untuk menginstal Speech CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Jalankan perintah berikut untuk mengonfigurasi kunci dan wilayah sumber daya Ucapan Anda. Ganti SUBSCRIPTION-KEY dengan kunci sumber daya Ucapan Anda dan ganti REGION dengan wilayah sumber daya Ucapan Anda.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Mengenali ucapan dari mikrofon

  1. Jalankan perintah berikut untuk memulai pengenalan ucapan dari mikrofon:

    spx recognize --microphone --source en-US
    
  2. Bicaralah ke mikrofon, dan Anda melihat transkripsi kata-kata Anda ke dalam teks secara real time. Speech CLI berhenti setelah periode keheningan, 30 detik, atau saat Anda memilih Ctrl+C.

    Connection CONNECTED...
    RECOGNIZED: I'm excited to try speech to text.
    

Keterangan

Berikut adalah beberapa pertimbangan lain:

  • Untuk mengenali ucapan dari file audio, gunakan --file sebagai pengganti --microphone. Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan --format. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

    spx recognize --file YourAudioFile.wav
    spx recognize --file YourAudioFile.mp4 --format any
    
  • Untuk meningkatkan akurasi pengenalan kata atau ucapan tertentu, gunakan daftar frase. Anda menyertakan daftar frasa sebaris atau dengan file teks bersama dengan recognize perintah :

    spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
    spx recognize --microphone --phrases @phrases.txt
    
  • Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US.

    spx recognize --microphone --source es-ES
    
  • Untuk terus melakukan pengenalan audio yang lebih dari 30 detik, tambahkan --continuous:

    spx recognize --microphone --source es-ES --continuous
    
  • Jalankan perintah ini untuk informasi tentang opsi pengenalan ucapan lainnya seperti input dan output file:

    spx help recognize
    

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Langkah selanjutnya