Mulai cepat: Mengenali dan mengonversi ucapan menjadi teks

Artikel
01/30/2024

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti di panduan ini. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Jalankan perintah ini untuk membuat aplikasi konsol dengan .NET CLI.
```
dotnet new console
```
Perintah ini membuat file Program.cs di direktori proyek Anda.

Pasang Speech SDK di proyek baru Anda dengan .NET CLI.

dotnet add package Microsoft.CognitiveServices.Speech

Ganti konten Program.cs dengan kode berikut:

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
    {
        switch (speechRecognitionResult.Reason)
        {
            case ResultReason.RecognizedSpeech:
                Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);        
        speechConfig.SpeechRecognitionLanguage = "en-US";

        using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
        using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
        OutputSpeechRecognitionResult(speechRecognitionResult);
    }
}

Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.
Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:
```
dotnet run
```
Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Berikut adalah beberapa pertimbangan lain:

Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:
```
using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
```
Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet dan menerapkan .NET Standar 2.0. Anda menginstal Speech SDK nanti di panduan ini. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

Buat proyek konsol C++ baru di Komunitas Visual Studio bernama SpeechRecognition.
Pilih Alat>Konsol Manajer Paket Manajer>Paket Nuget. Di Konsol Manajer Paket, jalankan perintah ini:
```
Install-Package Microsoft.CognitiveServices.Speech
```

Ganti isi SpeechRecognition.cpp dengan kode berikut:

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");

    if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
        std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
        return -1;
    }

    auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);

    speechConfig->SetSpeechRecognitionLanguage("en-US");

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);

    std::cout << "Speak into your microphone.\n";
    auto result = speechRecognizer->RecognizeOnceAsync().get();

    if (result->Reason == ResultReason::RecognizedSpeech)
    {
        std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
    }
    else if (result->Reason == ResultReason::NoMatch)
    {
        std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = CancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
        }
    }
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.
Bangun dan jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon.

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Berikut adalah beberapa pertimbangan lain:

Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
Untuk mengenali ucapan dari file audio, gunakan FromWavFileInput sebagai pengganti FromDefaultMicrophoneInput:
```
auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
```
Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Pasang Speech SDK untuk Go. Untuk persyaratan dan instruksi, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat modul GO.

Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file baru bernama speech-recognition.go.

Salin kode berikut ke dalam speech-recognition.go:

package main

import (
    "bufio"
    "fmt"
    "os"

    "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
)

func sessionStartedHandler(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Started (ID=", event.SessionID, ")")
}

func sessionStoppedHandler(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Stopped (ID=", event.SessionID, ")")
}

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
}

func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognized:", event.Result.Text)
}

func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
    defer event.Close()
    fmt.Println("Received a cancellation: ", event.ErrorDetails)
    fmt.Println("Did you set the speech resource key and region values?")
}

func main() {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speechKey :=  os.Getenv("SPEECH_KEY")
    speechRegion := os.Getenv("SPEECH_REGION")

    audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer audioConfig.Close()
    speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechConfig.Close()
    speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechRecognizer.Close()
    speechRecognizer.SessionStarted(sessionStartedHandler)
    speechRecognizer.SessionStopped(sessionStoppedHandler)
    speechRecognizer.Recognizing(recognizingHandler)
    speechRecognizer.Recognized(recognizedHandler)
    speechRecognizer.Canceled(cancelledHandler)
    speechRecognizer.StartContinuousRecognitionAsync()
    defer speechRecognizer.StopContinuousRecognitionAsync()
    bufio.NewReader(os.Stdin).ReadBytes('\n')
}

Jalankan perintah berikut untuk membuat file go.mod yang menautkan ke komponen yang dihosting di GitHub:
```
go mod init speech-recognition
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.
Bangun dan jalankan kode:
```
go build
go run speech-recognition
```

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK. Contoh dalam mulai cepat ini berfungsi dengan Runtime Java.

Menginstal Apache Maven. Kemudian jalankan mvn -v untuk mengonfirmasi keberhasilan penginstalan.

Buat file baru pom.xml di akar proyek Anda, dan salin kode berikut ke dalamnya:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.37.0</version>
        </dependency>
    </dependencies>
</project>

Instal SDK Ucapan dan dependensi.
```
mvn clean dependency:copy-dependencies
```

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol untuk pengenalan ucapan.

Buat file baru bernama SpeechRecognition.java di direktori akar proyek yang sama.

Salin kode berikut ke dalam SpeechRecognition.java:

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;

import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;

public class SpeechRecognition {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String speechRegion = System.getenv("SPEECH_REGION");

    public static void main(String[] args) throws InterruptedException, ExecutionException {
        SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);
        speechConfig.setSpeechRecognitionLanguage("en-US");
        recognizeFromMicrophone(speechConfig);
    }

    public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
        AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
        SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        System.out.println("Speak into your microphone.");
        Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
        SpeechRecognitionResult speechRecognitionResult = task.get();

        if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
            System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
        }
        else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
            System.out.println("NOMATCH: Speech could not be recognized.");
        }
        else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
            CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and region values?");
            }
        }

        System.exit(0);
    }
}

Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.
Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:
```
javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition
```
Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Berikut adalah beberapa pertimbangan lain:

Contoh ini menggunakan operasi RecognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
Untuk mengenali ucapan dari file audio, gunakan fromWavFileInput sebagai pengganti fromDefaultMicrophoneInput:
```
AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
```
Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Anda juga memerlukan file audio .wav di komputer lokal Anda. Anda dapat menggunakan file .wav Anda sendiri (hingga 30 detik) atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK untuk JavaScript. Jalankan perintah ini: npm install microsoft-cognitiveservices-speech-sdk. Untuk petunjuk penginstalan terpandu, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari file

Ikuti langkah-langkah ini untuk membuat aplikasi konsol Node.js untuk pengenalan ucapan.

Buka jendela prompt perintah tempat Anda menginginkan proyek baru, dan buat file baru bernama SpeechRecognition.js.

Instal SDK Ucapan untuk JavaScript:

npm install microsoft-cognitiveservices-speech-sdk

Salin kode berikut ke SpeechRecognition.js:

const fs = require("fs");
const sdk = require("microsoft-cognitiveservices-speech-sdk");

// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
speechConfig.speechRecognitionLanguage = "en-US";

function fromFile() {
    let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
    let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);

    speechRecognizer.recognizeOnceAsync(result => {
        switch (result.reason) {
            case sdk.ResultReason.RecognizedSpeech:
                console.log(`RECOGNIZED: Text=${result.text}`);
                break;
            case sdk.ResultReason.NoMatch:
                console.log("NOMATCH: Speech could not be recognized.");
                break;
            case sdk.ResultReason.Canceled:
                const cancellation = sdk.CancellationDetails.fromResult(result);
                console.log(`CANCELED: Reason=${cancellation.reason}`);

                if (cancellation.reason == sdk.CancellationReason.Error) {
                    console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                    console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                    console.log("CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
        speechRecognizer.close();
    });
}
fromFile();

Di SpeechRecognition.js, ganti YourAudioFile.wav dengan file .wav Anda sendiri. Contoh ini hanya mengenali ucapan dari file .wav . Untuk informasi tentang format audio lainnya, lihat Cara menggunakan audio input terkompresi. Contoh ini mendukung audio hingga 30 detik.
Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.
Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari file:
```
node.exe SpeechRecognition.js
```
Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Ucapan dari file audio harus dikeluarkan sebagai teks:
```
RECOGNIZED: Text=I'm excited to try speech to text.
```

Keterangan

Contoh ini menggunakan operasi recognizeOnceAsync untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Catatan

Mengenali ucapan dari mikrofon tidak didukung di Node.js. Ini hanya didukung di lingkungan JavaScript berbasis browser. Untuk informasi selengkapnya, lihat sampel React dan implementasi ucapan ke teks dari mikrofon di GitHub.

Sampel React menunjukkan pola desain untuk pertukaran dan pengelolaan token autentikasi. Ini juga menunjukkan pengambilan audio dari mikrofon atau file untuk konversi ucapan ke teks.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Objective-C didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh secara langsung dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk mengenali ucapan di aplikasi macOS.

Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan ucapan Kenali dari mikrofon di Objective-C pada proyek sampel macOS. Repositori juga memiliki sampel iOS.
Di jendela konsol, navigasikan ke direktori aplikasi sampel yang diunduh, helloworld.
Jalankan perintah pod install. Perintah ini menghasilkan helloworld.xcworkspace ruang kerja Xcode yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.
Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

Buka file bernama AppDelegate.m dan temukan metode seperti yang ditunjukkan buttonPressed di sini.

- (void)buttonPressed:(NSButton *)button {
    // Creates an instance of a speech config with specified subscription key and service region.
    NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
    NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];

    SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithMicrophone:nil];
    SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
    SPXSpeechRecognizer *speechRecognizer = [[SPXSpeechRecognizer alloc] initWithSpeechConfiguration:speechConfig language:@"en-US" audioConfiguration:audioConfig];

    NSLog(@"Speak into your microphone.");

    SPXSpeechRecognitionResult *speechResult = [speechRecognizer recognizeOnce];

    // Checks result.
    if (SPXResultReason_Canceled == speechResult.reason) {
        SPXCancellationDetails *details = [[SPXCancellationDetails alloc] initFromCanceledRecognitionResult:speechResult];
        NSLog(@"Speech recognition was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
        [self.label setStringValue:([NSString stringWithFormat:@"Canceled: %@", details.errorDetails])];
    } else if (SPXResultReason_RecognizedSpeech == speechResult.reason) {
        NSLog(@"Speech recognition result received: %@", speechResult.text);
        [self.label setStringValue:(speechResult.text)];
    } else {
        NSLog(@"There was an error.");
        [self.label setStringValue:(@"Speech Recognition Error")];
    }
}

Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];

Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.
Untuk membuat output debug terlihat, pilih Lihat>Area>Debug Aktifkan Konsol.
Untuk membuat dan menjalankan kode contoh, pilih Eksekusi Produk>dari menu atau pilih tombol Putar.

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Setelah memilih tombol di aplikasi dan mengucapkan beberapa kata, Anda akan melihat teks yang Anda ucapkan di bagian bawah layar. Saat Anda menjalankan aplikasi untuk pertama kalinya, aplikasi akan meminta Anda untuk memberi aplikasi akses ke mikrofon komputer Anda.

Keterangan

Berikut adalah beberapa pertimbangan lain:

Contoh ini menggunakan operasi recognizeOnce untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Untuk mengenali ucapan dari file audio, gunakan initWithWavFileInput sebagai pengganti initWithMicrophone:

SPXAudioConfiguration *audioConfig = [[SPXAudioConfiguration alloc] initWithWavFileInput:YourAudioFile];

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Swift didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk mengenali ucapan di aplikasi macOS.

Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan ucapan Kenali dari mikrofon di Swift pada proyek sampel macOS. Repositori juga memiliki sampel iOS.
Navigasikan ke direktori aplikasi sampel yang diunduh (helloworld) di terminal.
Jalankan perintah pod install. Perintah ini menghasilkan helloworld.xcworkspace ruang kerja Xcode yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.
Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

Buka file bernama AppDelegate.swift dan temukan metode dan recognizeFromMic seperti yang ditunjukkan applicationDidFinishLaunching di sini.

import Cocoa

@NSApplicationMain
class AppDelegate: NSObject, NSApplicationDelegate {
    var label: NSTextField!
    var fromMicButton: NSButton!

    var sub: String!
    var region: String!

    @IBOutlet weak var window: NSWindow!

    func applicationDidFinishLaunching(_ aNotification: Notification) {
        print("loading")
        // load subscription information
        sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
        region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

        label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
        label.textColor = NSColor.black
        label.lineBreakMode = .byWordWrapping

        label.stringValue = "Recognition Result"
        label.isEditable = false

        self.window.contentView?.addSubview(label)

        fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
        fromMicButton.title = "Recognize"
        fromMicButton.target = self
        fromMicButton.action = #selector(fromMicButtonClicked)
        self.window.contentView?.addSubview(fromMicButton)
    }

    @objc func fromMicButtonClicked() {
        DispatchQueue.global(qos: .userInitiated).async {
            self.recognizeFromMic()
        }
    }

    func recognizeFromMic() {
        var speechConfig: SPXSpeechConfiguration?
        do {
            try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
        } catch {
            print("error \(error) happened")
            speechConfig = nil
        }
        speechConfig?.speechRecognitionLanguage = "en-US"

        let audioConfig = SPXAudioConfiguration()

        let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)

        reco.addRecognizingEventHandler() {reco, evt in
            print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
            self.updateLabel(text: evt.result.text, color: .gray)
        }

        updateLabel(text: "Listening ...", color: .gray)
        print("Listening...")

        let result = try! reco.recognizeOnce()
        print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
        updateLabel(text: result.text, color: .black)

        if result.reason != SPXResultReason.recognizedSpeech {
            let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
            print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
            print("Did you set the speech resource key and region values?")
            updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
        }
    }

    func updateLabel(text: String?, color: NSColor) {
        DispatchQueue.main.async {
            self.label.stringValue = text!
            self.label.textColor = color
        }
    }
}

Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.
```
sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
```
Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat Identifikasi bahasa.
Untuk membuat output debug terlihat, pilih Lihat>Area>Debug Aktifkan Konsol.
Buat dan jalankan kode contoh dengan memilih Eksekusi Produk>dari menu atau pilih tombol Putar.

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Keterangan

Contoh ini menggunakan operasi recognizeOnce untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Python tersedia sebagai modul Indeks Paket Python (PyPI). Speech SDK untuk Python kompatibel dengan Windows, Linux, dan macOS.

Untuk Windows, instal Microsoft Visual C++ Redistributable untuk Visual Studio 2015, 2017, 2019, dan 2022 untuk platform Anda. Memasang paket ini untuk pertama kalinya mungkin memerlukan menghidupkan ulang.
Di Linux, Anda harus menggunakan arsitektur target x64.

Instal versi Python dari 3.7 atau yang lebih baru. Untuk persyaratan lain, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari mikrofon

Ikuti langkah-langkah ini untuk membuat aplikasi konsol.

Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file baru bernama speech_recognition.py.
Jalankan perintah ini untuk menginstal SDK Ucapan:
```
pip install azure-cognitiveservices-speech
```

Salin kode berikut ke speech_recognition.py:

import os
import azure.cognitiveservices.speech as speechsdk

def recognize_from_microphone():
    # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
    speech_config.speech_recognition_language="en-US"

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    print("Speak into your microphone.")
    speech_recognition_result = speech_recognizer.recognize_once_async().get()

    if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
        print("Recognized: {}".format(speech_recognition_result.text))
    elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
        print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
    elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = speech_recognition_result.cancellation_details
        print("Speech Recognition canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and region values?")

recognize_from_microphone()

Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US. Untuk detail tentang cara mengidentifikasi salah satu dari beberapa bahasa yang mungkin diucapkan, lihat identifikasi bahasa.
Jalankan aplikasi konsol baru Anda untuk memulai pengenalan ucapan dari mikrofon:
```
python speech_recognition.py
```
Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Bicaralah ke mikrofon Saat diminta. Ucapan Anda akan muncul sebagai teks:

Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.

Keterangan

Berikut adalah beberapa pertimbangan lain:

Contoh ini menggunakan operasi recognize_once_async untuk mentranskripsikan ucapan hingga 30 detik, atau sampai keheningan terdeteksi. Untuk informasi tentang pengenalan berkelanjutan untuk audio yang lebih lama, termasuk percakapan multibahasa, lihat Cara mengenali ucapan.
Untuk mengenali ucapan dari file audio, gunakan filename sebagai pengganti use_default_microphone:
```
audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
```
Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan PullAudioInputStream atau PushAudioInputStream. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Ucapan ke teks REST API referensi | Ucapan ke teks REST API untuk referensi | audio singkat Sampel Tambahan di GitHub

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Anda juga memerlukan file audio .wav di komputer lokal Anda. Anda dapat menggunakan file .wav Anda sendiri hingga 60 detik atau mengunduh https://crbn.us/whatstheweatherlike.wav file sampel.

Atur variabel lingkungan

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Bash

Edit file .bashrc Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bashrc dari jendela konsol Anda untuk membuat perubahan efektif.

Bash

Edit file .bash_profile Anda, dan tambahkan variabel lingkungan:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Setelah Anda menambahkan variabel lingkungan, jalankan source ~/.bash_profile dari jendela konsol Anda untuk membuat perubahan efektif.

Xcode

Untuk pengembangan iOS dan macOS, Anda mengatur variabel lingkungan di Xcode. Misalnya, ikuti langkah-langkah ini untuk mengatur variabel lingkungan di Xcode 13.4.1.

Pilih Skema Edit Skema> Produk.>
Pilih Argumen pada halaman Jalankan (Eksekusi Debug).
Di bawah Variabel Lingkungan pilih tanda plus (+) untuk menambahkan variabel lingkungan baru.
Masukkan SPEECH_KEY untuk Nama dan masukkan kunci sumber daya Ucapan Anda untuk Nilai.

Untuk mengatur variabel lingkungan untuk wilayah sumber daya Ucapan Anda, ikuti langkah-langkah yang sama. Atur SPEECH_REGION ke wilayah sumber daya Anda. Contohnya,westus.

Untuk opsi konfigurasi lainnya, lihat dokumentasi Xcode.

Mengenali ucapan dari file

Buka jendela konsol dan jalankan perintah cURL berikut. Ganti YourAudioFile.wav dengan jalur dan nama file audio Anda.

curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Anda harus menerima tanggapan yang serupa dengan apa yang ditunjukkan di sini. DisplayText haruslah teks yang dikenali dari file audio Anda. Perintah mengenali hingga 60 detik audio dan mengonversinya menjadi teks.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

Untuk informasi selengkapnya, lihat REST API Ucapan ke teks untuk audio pendek.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dalam mulai cepat ini, Anda membuat dan menjalankan aplikasi untuk mengenali dan mentranskripsikan ucapan ke teks secara real time.

Tip

Anda dapat mencoba ucapan real time ke teks di Speech Studio tanpa mendaftar atau menulis kode apa pun.

Untuk mentranskripsikan file audio secara asinkron, lihat Apa itu transkripsi batch. Jika Anda tidak yakin ucapan ke solusi teks mana yang tepat untuk Anda, lihat Apa itu ucapan ke teks?

Prasyarat

Langganan Azure - Buat langganan gratis.
Buat sumber daya Ucapan di portal Azure.
Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Ikuti langkah-langkah ini dan lihat mulai cepat Speech CLI untuk persyaratan lain untuk platform Anda.

Jalankan perintah .NET CLI berikut untuk menginstal Speech CLI:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Jalankan perintah berikut untuk mengonfigurasi kunci dan wilayah sumber daya Ucapan Anda. Ganti SUBSCRIPTION-KEY dengan kunci sumber daya Ucapan Anda dan ganti REGION dengan wilayah sumber daya Ucapan Anda.
- Terminal
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

Mengenali ucapan dari mikrofon

Jalankan perintah berikut untuk memulai pengenalan ucapan dari mikrofon:
```
spx recognize --microphone --source en-US
```
Bicaralah ke mikrofon, dan Anda melihat transkripsi kata-kata Anda ke dalam teks secara real time. Speech CLI berhenti setelah periode keheningan, 30 detik, atau saat Anda memilih Ctrl+C.
```
Connection CONNECTED...
RECOGNIZED: I'm excited to try speech to text.
```

Keterangan

Berikut adalah beberapa pertimbangan lain:

Untuk mengenali ucapan dari file audio, gunakan --file sebagai pengganti --microphone. Untuk file audio terkompresi seperti MP4, instal GStreamer dan gunakan --format. Untuk informasi selengkapnya, lihat Cara menggunakan audio input yang terkompresi.
- Terminal
- PowerShell
```
spx recognize --file YourAudioFile.wav
spx recognize --file YourAudioFile.mp4 --format any
```
```
spx recognize --file YourAudioFile.wav
spx --% recognize --file YourAudioFile.mp4 --format any
```

Untuk meningkatkan akurasi pengenalan kata atau ucapan tertentu, gunakan daftar frase. Anda menyertakan daftar frasa sebaris atau dengan file teks bersama dengan recognize perintah :

Terminal
PowerShell

spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
spx recognize --microphone --phrases @phrases.txt

spx --% recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
spx --% recognize --microphone --phrases @phrases.txt

Untuk mengubah bahasa pengenalan ucapan, ganti en-US dengan bahasa lain yang didukung. Misalnya, gunakan es-ES untuk bahasa Spanyol (Spanyol). Jika Anda tidak menentukan bahasa, defaultnya adalah en-US.
```
spx recognize --microphone --source es-ES
```
Untuk terus melakukan pengenalan audio yang lebih dari 30 detik, tambahkan --continuous:
```
spx recognize --microphone --source es-ES --continuous
```
Jalankan perintah ini untuk informasi tentang opsi pengenalan ucapan lainnya seperti input dan output file:
```
spx help recognize
```

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Langkah selanjutnya

Pelajari lebih lanjut tentang pengenalan ucapan

Mulai cepat: Mengenali dan mengonversi ucapan menjadi teks

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari mikrofon

Keterangan

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari mikrofon

Keterangan

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari mikrofon

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari mikrofon

Keterangan

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari file

Keterangan

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari mikrofon

Keterangan

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari mikrofon

Keterangan

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Atur variabel lingkungan

Mengenali ucapan dari mikrofon

Keterangan

Membersihkan sumber daya

Prasyarat

Atur variabel lingkungan

Mengenali ucapan dari file

Membersihkan sumber daya

Prasyarat

Menyiapkan lingkungan

Mengenali ucapan dari mikrofon

Keterangan

Membersihkan sumber daya

Langkah selanjutnya

Sumber Daya Tambahan: