Mulai cepat: Mengonversi teks ke ucapan

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet yang mengimplementasikan .NET Standard 2.0. Instal Speech SDK nanti di panduan ini. Untuk persyaratan apa pun, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mensintesis ke output speaker

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Jalankan perintah ini untuk membuat aplikasi konsol dengan .NET CLI.

    dotnet new console
    

    Perintah membuat file Program.cs di direktori proyek.

  2. Pasang Speech SDK di proyek baru Anda dengan .NET CLI.

    dotnet add package Microsoft.CognitiveServices.Speech
    
  3. Ganti konten Program.cs dengan kode berikut.

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using Microsoft.CognitiveServices.Speech;
    using Microsoft.CognitiveServices.Speech.Audio;
    
    class Program 
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
        static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");
    
        static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
        {
            switch (speechSynthesisResult.Reason)
            {
                case ResultReason.SynthesizingAudioCompleted:
                    Console.WriteLine($"Speech synthesized for text: [{text}]");
                    break;
                case ResultReason.Canceled:
                    var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                    Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");
    
                    if (cancellation.Reason == CancellationReason.Error)
                    {
                        Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                        Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                        Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                    }
                    break;
                default:
                    break;
            }
        }
    
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      
    
            // The neural multilingual voice can speak different languages based on the input text.
            speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
            using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
            {
                // Get text from the console and synthesize to the default speaker.
                Console.WriteLine("Enter some text that you want to speak >");
                string text = Console.ReadLine();
    
                var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
                OutputSpeechSynthesisResult(speechSynthesisResult, text);
            }
    
            Console.WriteLine("Press any key to exit...");
            Console.ReadKey();
        }
    }
    
  4. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  5. Jalankan aplikasi konsol baru Anda untuk memulai sintesis ucapan ke speaker default.

    dotnet run
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Masukkan beberapa teks yang ingin Anda ucapkan. Misalnya, ketik saya bersemangat untuk mencoba teks ke ucapan. Pilih tombol Enter untuk mendengar ucapan yang disintesis.

    Enter some text that you want to speak >
    I'm excited to try text to speech
    

Keterangan

Opsi sintesis ucapan lainnya

Mulai cepat ini menggunakan operasi SpeakTextAsync untuk mensintesis blok pendek teks yang Anda masukkan. Anda juga dapat menggunakan teks bentuk panjang dari file dan mendapatkan kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya.

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (NuGet) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK tersedia sebagai paket NuGet yang mengimplementasikan .NET Standard 2.0. Instal Speech SDK nanti di panduan ini. Untuk persyaratan apa pun, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mensintesis ke output speaker

Ikuti langkah-langkah ini untuk membuat aplikasi konsol dan menginstal Speech SDK.

  1. Buat proyek konsol C++ di Komunitas Visual Studio bernama SpeechSynthesis.

  2. Ganti konten SpeechSynthesis.cpp dengan kode berikut:

    #include <iostream> 
    #include <stdlib.h>
    #include <speechapi_cxx.h>
    
    using namespace Microsoft::CognitiveServices::Speech;
    using namespace Microsoft::CognitiveServices::Speech::Audio;
    
    std::string GetEnvironmentVariable(const char* name);
    
    int main()
    {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
        auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");
    
        if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
            std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
            return -1;
        }
    
        auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);
    
        // The neural multilingual voice can speak different languages based on the input text.
        speechConfig->SetSpeechSynthesisVoiceName("en-US-AvaMultilingualNeural");
    
        auto speechSynthesizer = SpeechSynthesizer::FromConfig(speechConfig);
    
        // Get text from the console and synthesize to the default speaker.
        std::cout << "Enter some text that you want to speak >" << std::endl;
        std::string text;
        getline(std::cin, text);
    
        auto result = speechSynthesizer->SpeakTextAsync(text).get();
    
        // Checks result.
        if (result->Reason == ResultReason::SynthesizingAudioCompleted)
        {
            std::cout << "Speech synthesized to speaker for text [" << text << "]" << std::endl;
        }
        else if (result->Reason == ResultReason::Canceled)
        {
            auto cancellation = SpeechSynthesisCancellationDetails::FromResult(result);
            std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;
    
            if (cancellation->Reason == CancellationReason::Error)
            {
                std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
                std::cout << "CANCELED: ErrorDetails=[" << cancellation->ErrorDetails << "]" << std::endl;
                std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
            }
        }
    
        std::cout << "Press enter to exit..." << std::endl;
        std::cin.get();
    }
    
    std::string GetEnvironmentVariable(const char* name)
    {
    #if defined(_MSC_VER)
        size_t requiredSize = 0;
        (void)getenv_s(&requiredSize, nullptr, 0, name);
        if (requiredSize == 0)
        {
            return "";
        }
        auto buffer = std::make_unique<char[]>(requiredSize);
        (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
        return buffer.get();
    #else
        auto value = getenv(name);
        return value ? value : "";
    #endif
    }  
    
  3. Pilih Alat>Konsol Manajer Paket Manajer>Paket Nuget. Di Konsol Manajer Paket, jalankan perintah ini:

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  5. Bangun dan jalankan aplikasi konsol baru Anda untuk memulai sintesis ucapan ke speaker default.

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Masukkan beberapa teks yang ingin Anda ucapkan. Misalnya, ketik saya bersemangat untuk mencoba teks ke ucapan. Pilih tombol Enter untuk mendengar ucapan yang disintesis.

    Enter some text that you want to speak >
    I'm excited to try text to speech
    

Keterangan

Opsi sintesis ucapan lainnya

Mulai cepat ini menggunakan operasi SpeakTextAsync untuk mensintesis blok pendek teks yang Anda masukkan. Anda juga dapat menggunakan teks bentuk panjang dari file dan mendapatkan kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya.

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Go) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Pasang Speech SDK untuk Go. Untuk persyaratan dan instruksi, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mensintesis ke output speaker

Ikuti langkah-langkah ini untuk membuat modul Go.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file baru bernama speech-synthesis.go.

  2. Salin kode berikut ke speech-synthesis.go:

    package main
    
    import (
        "bufio"
        "fmt"
        "os"
        "strings"
        "time"
    
        "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
        "github.com/Microsoft/cognitive-services-speech-sdk-go/common"
        "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
    )
    
    func synthesizeStartedHandler(event speech.SpeechSynthesisEventArgs) {
        defer event.Close()
        fmt.Println("Synthesis started.")
    }
    
    func synthesizingHandler(event speech.SpeechSynthesisEventArgs) {
        defer event.Close()
        fmt.Printf("Synthesizing, audio chunk size %d.\n", len(event.Result.AudioData))
    }
    
    func synthesizedHandler(event speech.SpeechSynthesisEventArgs) {
        defer event.Close()
        fmt.Printf("Synthesized, audio length %d.\n", len(event.Result.AudioData))
    }
    
    func cancelledHandler(event speech.SpeechSynthesisEventArgs) {
        defer event.Close()
        fmt.Println("Received a cancellation.")
    }
    
    func main() {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        speechKey :=  os.Getenv("SPEECH_KEY")
        speechRegion := os.Getenv("SPEECH_REGION")
    
        audioConfig, err := audio.NewAudioConfigFromDefaultSpeakerOutput()
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer audioConfig.Close()
        speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer speechConfig.Close()
    
        speechConfig.SetSpeechSynthesisVoiceName("en-US-AvaMultilingualNeural")
    
        speechSynthesizer, err := speech.NewSpeechSynthesizerFromConfig(speechConfig, audioConfig)
        if err != nil {
            fmt.Println("Got an error: ", err)
            return
        }
        defer speechSynthesizer.Close()
    
        speechSynthesizer.SynthesisStarted(synthesizeStartedHandler)
        speechSynthesizer.Synthesizing(synthesizingHandler)
        speechSynthesizer.SynthesisCompleted(synthesizedHandler)
        speechSynthesizer.SynthesisCanceled(cancelledHandler)
    
        for {
            fmt.Printf("Enter some text that you want to speak, or enter empty text to exit.\n> ")
            text, _ := bufio.NewReader(os.Stdin).ReadString('\n')
            text = strings.TrimSuffix(text, "\n")
            if len(text) == 0 {
                break
            }
    
            task := speechSynthesizer.SpeakTextAsync(text)
            var outcome speech.SpeechSynthesisOutcome
            select {
            case outcome = <-task:
            case <-time.After(60 * time.Second):
                fmt.Println("Timed out")
                return
            }
            defer outcome.Close()
            if outcome.Error != nil {
                fmt.Println("Got an error: ", outcome.Error)
                return
            }
    
            if outcome.Result.Reason == common.SynthesizingAudioCompleted {
                fmt.Printf("Speech synthesized to speaker for text [%s].\n", text)
            } else {
                cancellation, _ := speech.NewCancellationDetailsFromSpeechSynthesisResult(outcome.Result)
                fmt.Printf("CANCELED: Reason=%d.\n", cancellation.Reason)
    
                if cancellation.Reason == common.Error {
                    fmt.Printf("CANCELED: ErrorCode=%d\nCANCELED: ErrorDetails=[%s]\nCANCELED: Did you set the speech resource key and region values?\n",
                        cancellation.ErrorCode,
                        cancellation.ErrorDetails)
                }
            }
        }
    }
    
  3. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  4. Jalankan perintah berikut untuk membuat file go.mod yang menautkan ke komponen yang dihosting di GitHub:

    go mod init speech-synthesis
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  5. Sekarang, bangun dan jalankan kode:

    go build
    go run speech-synthesis
    

Keterangan

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK. Contoh dalam mulai cepat ini berfungsi dengan Runtime Java.

  1. Menginstal Apache Maven. Kemudian jalankan mvn -v untuk mengonfirmasi keberhasilan penginstalan.

  2. Buat file pom.xml di akar proyek Anda, dan salin kode berikut ke dalamnya:

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.37.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instal SDK Ucapan dan dependensi.

    mvn clean dependency:copy-dependencies
    

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mensintesis ke output speaker

Ikuti langkah-langkah ini untuk membuat aplikasi konsol untuk pengenalan ucapan.

  1. Buat file bernama SpeechSynthesis.java di direktori akar proyek yang sama.

  2. Salin kode berikut ke SpeechSynthesis.java:

    import com.microsoft.cognitiveservices.speech.*;
    import com.microsoft.cognitiveservices.speech.audio.*;
    
    import java.util.Scanner;
    import java.util.concurrent.ExecutionException;
    
    public class SpeechSynthesis {
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        private static String speechKey = System.getenv("SPEECH_KEY");
        private static String speechRegion = System.getenv("SPEECH_REGION");
    
        public static void main(String[] args) throws InterruptedException, ExecutionException {
            SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);
    
            speechConfig.setSpeechSynthesisVoiceName("en-US-AvaMultilingualNeural"); 
    
            SpeechSynthesizer speechSynthesizer = new SpeechSynthesizer(speechConfig);
    
            // Get text from the console and synthesize to the default speaker.
            System.out.println("Enter some text that you want to speak >");
            String text = new Scanner(System.in).nextLine();
            if (text.isEmpty())
            {
                return;
            }
    
            SpeechSynthesisResult speechSynthesisResult = speechSynthesizer.SpeakTextAsync(text).get();
    
            if (speechSynthesisResult.getReason() == ResultReason.SynthesizingAudioCompleted) {
                System.out.println("Speech synthesized to speaker for text [" + text + "]");
            }
            else if (speechSynthesisResult.getReason() == ResultReason.Canceled) {
                SpeechSynthesisCancellationDetails cancellation = SpeechSynthesisCancellationDetails.fromResult(speechSynthesisResult);
                System.out.println("CANCELED: Reason=" + cancellation.getReason());
    
                if (cancellation.getReason() == CancellationReason.Error) {
                    System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                    System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                    System.out.println("CANCELED: Did you set the speech resource key and region values?");
                }
            }
    
            System.exit(0);
        }
    }
    
  3. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  4. Jalankan aplikasi konsol Anda untuk memulai sintesis ucapan ke speaker default.

    javac SpeechSynthesis.java -cp ".;target\dependency\*"
    java -cp ".;target\dependency\*" SpeechSynthesis
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  5. Masukkan beberapa teks yang ingin Anda ucapkan. Misalnya, ketik saya bersemangat untuk mencoba teks ke ucapan. Pilih tombol Enter untuk mendengar ucapan yang disintesis.

    Enter some text that you want to speak >
    I'm excited to try text to speech
    

Keterangan

Opsi sintesis ucapan lainnya

Mulai cepat ini menggunakan operasi SpeakTextAsync untuk mensintesis blok pendek teks yang Anda masukkan. Anda juga dapat menggunakan teks bentuk panjang dari file dan mendapatkan kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya.

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (npm) | Sampel Tambahan pada kode sumber GitHub | Library

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Untuk menyiapkan lingkungan Anda, instal Speech SDK untuk JavaScript. Jika Anda hanya ingin menginstal nama paket, jalankan npm install microsoft-cognitiveservices-speech-sdk. Untuk petunjuk penginstalan terpandu, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Sintesis ke output file

Ikuti langkah-langkah ini untuk membuat aplikasi konsol Node.js untuk sintesis ucapan.

  1. Buka jendela konsol tempat Anda menginginkan proyek baru, dan buat file bernama SpeechSynthesis.js.

  2. Instal SDK Ucapan untuk JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  3. Salin kode berikut ke SpeechSynthesis.js:

    (function() {
    
        "use strict";
    
        var sdk = require("microsoft-cognitiveservices-speech-sdk");
        var readline = require("readline");
    
        var audioFile = "YourAudioFile.wav";
        // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
        const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
        const audioConfig = sdk.AudioConfig.fromAudioFileOutput(audioFile);
    
        // The language of the voice that speaks.
        speechConfig.speechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 
    
        // Create the speech synthesizer.
        var synthesizer = new sdk.SpeechSynthesizer(speechConfig, audioConfig);
    
        var rl = readline.createInterface({
          input: process.stdin,
          output: process.stdout
        });
    
        rl.question("Enter some text that you want to speak >\n> ", function (text) {
          rl.close();
          // Start the synthesizer and wait for a result.
          synthesizer.speakTextAsync(text,
              function (result) {
            if (result.reason === sdk.ResultReason.SynthesizingAudioCompleted) {
              console.log("synthesis finished.");
            } else {
              console.error("Speech synthesis canceled, " + result.errorDetails +
                  "\nDid you set the speech resource key and region values?");
            }
            synthesizer.close();
            synthesizer = null;
          },
              function (err) {
            console.trace("err - " + err);
            synthesizer.close();
            synthesizer = null;
          });
          console.log("Now synthesizing to: " + audioFile);
        });
    }());
    
  4. Dalam SpeechSynthesis.js, secara opsional Anda dapat mengganti nama YourAudioFile.wav ke nama file output lain.

  5. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  6. Jalankan aplikasi konsol Anda untuk memulai sintesis ucapan ke file:

    node SpeechSynthesis.js
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  7. Teks yang disediakan harus dalam file audio:

    Enter some text that you want to speak >
    > I'm excited to try text to speech
    Now synthesizing to: YourAudioFile.wav
    synthesis finished.
    

Keterangan

Opsi sintesis ucapan lainnya

Mulai cepat ini menggunakan operasi SpeakTextAsync untuk mensintesis blok pendek teks yang Anda masukkan. Anda juga dapat menggunakan teks bentuk panjang dari file dan mendapatkan kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya.

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Objective-C didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh secara langsung dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mensintesis ke output speaker

Ikuti langkah-langkah ini untuk mensintesis ucapan dalam aplikasi macOS.

  1. Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan audio Synthesize di Objective-C di macOS menggunakan proyek sampel Speech SDK. Repositori juga memiliki sampel iOS.

  2. Buka direktori aplikasi sampel yang diunduh (helloworld) di terminal.

  3. Jalankan perintah pod install. Perintah ini menghasilkan helloworld.xcworkspace ruang kerja Xcode yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.

  4. Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

  5. Buka file bernama AppDelegate.m dan temukan metode seperti yang ditunjukkan buttonPressed di sini.

    - (void)buttonPressed:(NSButton *)button {
        // Creates an instance of a speech config with specified subscription key and service region.
        NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
        NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
        SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
        speechConfig.speechSynthesisVoiceName = @"en-US-AvaMultilingualNeural";
        SPXSpeechSynthesizer *speechSynthesizer = [[SPXSpeechSynthesizer alloc] init:speechConfig];
    
        NSLog(@"Start synthesizing...");
    
        SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:[self.textField stringValue]];
    
        // Checks result.
        if (SPXResultReason_Canceled == speechResult.reason) {
            SPXSpeechSynthesisCancellationDetails *details = [[SPXSpeechSynthesisCancellationDetails alloc] initFromCanceledSynthesisResult:speechResult];
            NSLog(@"Speech synthesis was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
        } else if (SPXResultReason_SynthesizingAudioCompleted == speechResult.reason) {
            NSLog(@"Speech synthesis was completed");
        } else {
            NSLog(@"There was an error.");
        }
    }
    
  6. Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

    NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
    NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];
    
  7. Secara opsional di AppDelegate.m, sertakan nama suara sintesis ucapan seperti yang ditunjukkan di sini:

    speechConfig.speechSynthesisVoiceName = @"en-US-AvaMultilingualNeural";
    
  8. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  9. Untuk membuat output debug terlihat, pilih Lihat>Area>Debug Aktifkan Konsol.

  10. Untuk membuat dan menjalankan kode contoh, pilih Eksekusi Produk>dari menu atau pilih tombol Putar.

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Setelah Anda memasukkan beberapa teks dan memilih tombol di aplikasi, Anda akan mendengar audio yang disintesis diputar.

Keterangan

Opsi sintesis ucapan lainnya

Mulai cepat ini menggunakan operasi SpeakText untuk mensintesis blok pendek teks yang Anda masukkan. Anda juga dapat menggunakan teks bentuk panjang dari file dan mendapatkan kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya.

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (Unduh) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Swift didistribusikan sebagai bundel kerangka kerja. Kerangka kerja ini mendukung Objective-C dan Swift di iOS dan macOS.

Speech SDK dapat digunakan dalam proyek Xcode sebagai CocoaPod, atau diunduh secara langsung dan ditautkan secara manual. Panduan ini menggunakan CocoaPod. Pasang manajer dependensi CocoaPod seperti yang dijelaskan dalam instruksi penginstalannya.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mensintesis ke output speaker

Ikuti langkah-langkah ini untuk mensintesis ucapan dalam aplikasi macOS.

  1. Kloning repositori Azure-Samples/cognitive-services-speech-sdk untuk mendapatkan audio Synthesize di Swift di macOS menggunakan proyek sampel Speech SDK. Repositori juga memiliki sampel iOS.

  2. Navigasikan ke direktori aplikasi sampel yang diunduh (helloworld) di terminal.

  3. Jalankan perintah pod install. Perintah ini menghasilkan helloworld.xcworkspace ruang kerja Xcode yang berisi aplikasi sampel dan Speech SDK sebagai dependensi.

  4. Buka contoh ruang kerja helloworld.xcworkspace di Xcode.

  5. Buka file bernama AppDelegate.swift dan temukan metode dan synthesize seperti yang ditunjukkan applicationDidFinishLaunching di sini.

    import Cocoa
    
    @NSApplicationMain
    class AppDelegate: NSObject, NSApplicationDelegate, NSTextFieldDelegate {
        var textField: NSTextField!
        var synthesisButton: NSButton!
    
        var inputText: String!
    
        var sub: String!
        var region: String!
    
        @IBOutlet weak var window: NSWindow!
    
        func applicationDidFinishLaunching(_ aNotification: Notification) {
            print("loading")
            // load subscription information
            sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
            region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
            inputText = ""
    
            textField = NSTextField(frame: NSRect(x: 100, y: 200, width: 200, height: 50))
            textField.textColor = NSColor.black
            textField.lineBreakMode = .byWordWrapping
    
            textField.placeholderString = "Type something to synthesize."
            textField.delegate = self
    
            self.window.contentView?.addSubview(textField)
    
            synthesisButton = NSButton(frame: NSRect(x: 100, y: 100, width: 200, height: 30))
            synthesisButton.title = "Synthesize"
            synthesisButton.target = self
            synthesisButton.action = #selector(synthesisButtonClicked)
            self.window.contentView?.addSubview(synthesisButton)
        }
    
        @objc func synthesisButtonClicked() {
            DispatchQueue.global(qos: .userInitiated).async {
                self.synthesize()
            }
        }
    
        func synthesize() {
            var speechConfig: SPXSpeechConfiguration?
            do {
                try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
            } catch {
                print("error \(error) happened")
                speechConfig = nil
            }
    
            speechConfig?.speechSynthesisVoiceName = "en-US-AvaMultilingualNeural";
    
            let synthesizer = try! SPXSpeechSynthesizer(speechConfig!)
            let result = try! synthesizer.speakText(inputText)
            if result.reason == SPXResultReason.canceled
            {
                let cancellationDetails = try! SPXSpeechSynthesisCancellationDetails(fromCanceledSynthesisResult: result)
                print("cancelled, error code: \(cancellationDetails.errorCode) detail: \(cancellationDetails.errorDetails!) ")
                print("Did you set the speech resource key and region values?");
                return
            }
        }
    
        func controlTextDidChange(_ obj: Notification) {
            let textFiled = obj.object as! NSTextField
            inputText = textFiled.stringValue
        }
    }
    
  6. Di AppDelegate.m, gunakan variabel lingkungan yang sebelumnya Anda tetapkan untuk kunci dan wilayah sumber daya Ucapan Anda.

    sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
    region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
    
  7. Secara opsional di AppDelegate.m, sertakan nama suara sintesis ucapan seperti yang ditunjukkan di sini:

    speechConfig?.speechSynthesisVoiceName = "en-US-AvaMultilingualNeural";
    
  8. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  9. Untuk membuat output debug terlihat, pilih Lihat>Area>Debug Aktifkan Konsol.

  10. Untuk membuat dan menjalankan kode contoh, pilih Eksekusi Produk>dari menu atau pilih tombol Putar.

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Setelah Anda memasukkan beberapa teks dan memilih tombol di aplikasi, Anda akan mendengar audio yang disintesis diputar.

Keterangan

Opsi sintesis ucapan lainnya

Mulai cepat ini menggunakan operasi SpeakText untuk mensintesis blok pendek teks yang Anda masukkan. Anda juga dapat menggunakan teks bentuk panjang dari file dan mendapatkan kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya.

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dokumentasi referensi | Paket (PyPi) | Sampel Tambahan pada GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Speech SDK untuk Python tersedia sebagai modul Indeks Paket Python (PyPI). Speech SDK untuk Python kompatibel dengan Windows, Linux, dan macOS.

Instal versi Python dari 3.7 atau yang lebih baru. Untuk persyaratan apa pun, lihat Menginstal Speech SDK.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Mensintesis ke output speaker

Ikuti langkah-langkah ini untuk membuat aplikasi konsol.

  1. Buka jendela prompt perintah di folder tempat Anda menginginkan proyek baru. Buat file bernama speech_synthesis.py.

  2. Jalankan perintah ini untuk menginstal SDK Ucapan:

    pip install azure-cognitiveservices-speech
    
  3. Salin kode berikut ke dalam speech_synthesis.py:

    import os
    import azure.cognitiveservices.speech as speechsdk
    
    # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
    audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
    
    # The neural multilingual voice can speak different languages based on the input text.
    speech_config.speech_synthesis_voice_name='en-US-AvaMultilingualNeural'
    
    speech_synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)
    
    # Get text from the console and synthesize to the default speaker.
    print("Enter some text that you want to speak >")
    text = input()
    
    speech_synthesis_result = speech_synthesizer.speak_text_async(text).get()
    
    if speech_synthesis_result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
        print("Speech synthesized for text [{}]".format(text))
    elif speech_synthesis_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = speech_synthesis_result.cancellation_details
        print("Speech synthesis canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            if cancellation_details.error_details:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you set the speech resource key and region values?")
    
  4. Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

    Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

  5. Jalankan aplikasi konsol baru Anda untuk memulai sintesis ucapan ke speaker default.

    python speech_synthesis.py
    

    Penting

    Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

  6. Masukkan beberapa teks yang ingin Anda ucapkan. Misalnya, ketik saya bersemangat untuk mencoba teks ke ucapan. Pilih tombol Enter untuk mendengar ucapan yang disintesis.

    Enter some text that you want to speak > 
    I'm excited to try text to speech
    

Keterangan

Opsi sintesis ucapan lainnya

Mulai cepat ini menggunakan operasi speak_text_async untuk mensintesis blok pendek teks yang Anda masukkan. Anda juga dapat menggunakan teks bentuk panjang dari file dan mendapatkan kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya.

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Ucapan ke teks REST API referensi | Ucapan ke teks REST API untuk referensi | audio singkat Sampel Tambahan di GitHub

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Atur variabel lingkungan

Aplikasi Anda harus diautentikasi untuk mengakses sumber daya layanan Azure AI. Untuk produksi, gunakan cara yang aman dalam menyimpan dan mengakses info masuk Anda. Misalnya, setelah Anda mendapatkan kunci untuk sumber daya Ucapan Anda, tulis ke variabel lingkungan baru di komputer lokal yang menjalankan aplikasi.

Tip

Jangan sertakan kunci langsung dalam kode Anda, dan jangan pernah mempostingnya secara publik. Lihat Keamanan layanan Azure AI untuk opsi autentikasi lainnya seperti Azure Key Vault.

Untuk mengatur variabel lingkungan untuk kunci sumber daya Ucapan Anda, buka jendela konsol, dan ikuti instruksi untuk sistem operasi dan lingkungan pengembangan Anda.

  • Untuk mengatur SPEECH_KEY variabel lingkungan, ganti kunci Anda dengan salah satu kunci untuk sumber daya Anda.
  • Untuk mengatur SPEECH_REGION variabel lingkungan, ganti wilayah Anda dengan salah satu wilayah untuk sumber daya Anda.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Catatan

Jika Anda hanya perlu mengakses variabel lingkungan di konsol saat ini, Anda dapat mengatur variabel lingkungan dengan set alih-alih setx.

Setelah menambahkan variabel lingkungan, Anda mungkin perlu memulai ulang program apa pun yang perlu membaca variabel lingkungan, termasuk jendela konsol. Misalnya, jika Anda menggunakan Visual Studio sebagai editor, mulai ulang Visual Studio sebelum Menjalankan contoh.

Sinstesis ke file

Pada perintah, jalankan perintah cURL berikut ini. Secara opsional, Anda dapat mengganti nama output.mp3 ke nama file output lain.

curl --location --request POST "https://%SPEECH_REGION%.tts.speech.microsoft.com/cognitiveservices/v1" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: application/ssml+xml" ^
--header "X-Microsoft-OutputFormat: audio-16khz-128kbitrate-mono-mp3" ^
--header "User-Agent: curl" ^
--data-raw "<speak version='1.0' xml:lang='en-US'><voice xml:lang='en-US' xml:gender='Female' name='en-US-AvaMultilingualNeural'>my voice is my passport verify me</voice></speak>" --output output.mp3

Penting

Pastikan Anda mengatur SPEECH_KEY variabel lingkungan dan SPEECH_REGION. Jika Anda tidak mengatur variabel ini, sampel gagal dengan pesan kesalahan.

Teks yang disediakan harus keluaran ke file audio bernama output.mp3.

Untuk mengubah bahasa sintesis ucapan, ganti en-US-AvaMultilingualNeural dengan suara lain yang didukung.

Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur es-ES-ElviraNeural, teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

Untuk informasi selengkapnya, lihat REST API teks ke ucapan.

Keterangan

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Dalam mulai cepat ini, Anda menjalankan aplikasi yang melakukan sintesis teks ke ucapan.

Tip

Anda dapat mencoba teks untuk ucapan di Galeri Suara Speech Studio tanpa mendaftar atau menulis kode apa pun.

Prasyarat

  • Langganan Azure - Buat langganan gratis.
  • Buat sumber daya Ucapan di portal Azure.
  • Kunci dan wilayah sumber daya Ucapan Anda. Setelah sumber daya Azure Cognitive Service untuk Ucapan Anda disebarkan, pilih Buka sumber daya untuk melihat dan mengelola kunci. Untuk informasi selengkapnya tentang sumber daya layanan Azure AI, lihat Mendapatkan kunci untuk sumber daya Anda.

Menyiapkan lingkungan

Ikuti langkah-langkah ini dan lihat mulai cepat Speech CLI untuk persyaratan lain untuk platform Anda.

  1. Jalankan perintah .NET CLI berikut untuk menginstal Speech CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Jalankan perintah berikut untuk mengonfigurasi kunci dan wilayah sumber daya Ucapan Anda. Ganti SUBSCRIPTION-KEY dengan kunci sumber daya Ucapan Anda dan ganti REGION dengan wilayah sumber daya Ucapan Anda.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Mensintesis ke output speaker

Jalankan perintah berikut untuk sintesis ucapan ke output speaker default. Anda dapat memodifikasi suara dan teks yang akan disintesis.

spx synthesize --text "I'm excited to try text to speech" --voice "en-US-AvaMultilingualNeural"

Jika Anda tidak mengatur nama suara, suara default untuk en-US berbicara.

Semua suara saraf multibahasa dan fasih dalam bahasa dan bahasa Inggris mereka sendiri. Misalnya, jika teks input dalam bahasa Inggris adalah "Saya bersemangat untuk mencoba teks ke ucapan" dan Anda mengatur --voice "es-ES-ElviraNeural", teks diucapkan dalam bahasa Inggris dengan aksen Spanyol. Jika suara tidak berbicara bahasa teks input, layanan Ucapan tidak menghasilkan audio yang disintesis.

Jalankan perintah ini untuk informasi tentang opsi sintesis ucapan lainnya seperti input dan output file:

spx help synthesize

Keterangan

Dukungan SSML

Anda dapat memiliki kontrol yang lebih baik atas gaya suara, prosody, dan pengaturan lainnya dengan menggunakan Speech Synthesis Markup Language (SSML).

Teks OpenAI ke suara ucapan di Azure AI Speech

Teks OpenAI ke suara ucapan juga didukung. Lihat Teks OpenAI ke suara ucapan di Azure AI Speech dan suara multibahasa. Anda dapat mengganti en-US-AvaMultilingualNeural dengan nama suara OpenAI yang didukung seperti en-US-FableMultilingualNeural.

Membersihkan sumber daya

Anda dapat menggunakan portal Azure atau Azure Command Line Interface (CLI) untuk menghapus sumber daya Ucapan yang Anda buat.

Langkah selanjutnya