Przewodnik Szybki start dotyczący zamiany tekstu na mowę — usługa rozpoznawania mowy - Azure AI services

Dokumentacja referencyjna | Package (NuGet) | Dodatkowe przykłady w usłudze GitHub

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Zestaw SPEECH SDK jest dostępny jako pakiet NuGet, który implementuje platformę .NET Standard 2.0. Zainstaluj zestaw SPEECH SDK w dalszej części tego przewodnika. Aby uzyskać informacje o wszelkich wymaganiach, zobacz Instalowanie zestawu SPEECH SDK.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych osoby mówiącej

Wykonaj następujące kroki, aby utworzyć aplikację konsolową i zainstalować zestaw SPEECH SDK.

Otwórz okno wiersza polecenia w folderze, w którym chcesz utworzyć nowy projekt. Uruchom to polecenie, aby utworzyć aplikację konsolową przy użyciu interfejsu wiersza polecenia platformy .NET.
```
dotnet new console
```
Polecenie tworzy plik Program.cs w katalogu projektu.
Zainstaluj zestaw SPEECH SDK w nowym projekcie przy użyciu interfejsu wiersza polecenia platformy .NET.
```
dotnet add package Microsoft.CognitiveServices.Speech
```

Zastąp zawartość pliku Program.cs poniższym kodem.

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    static void OutputSpeechSynthesisResult(SpeechSynthesisResult speechSynthesisResult, string text)
    {
        switch (speechSynthesisResult.Reason)
        {
            case ResultReason.SynthesizingAudioCompleted:
                Console.WriteLine($"Speech synthesized for text: [{text}]");
                break;
            case ResultReason.Canceled:
                var cancellation = SpeechSynthesisCancellationDetails.FromResult(speechSynthesisResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails=[{cancellation.ErrorDetails}]");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                }
                break;
            default:
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);      

        // The neural multilingual voice can speak different languages based on the input text.
        speechConfig.SpeechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 

        using (var speechSynthesizer = new SpeechSynthesizer(speechConfig))
        {
            // Get text from the console and synthesize to the default speaker.
            Console.WriteLine("Enter some text that you want to speak >");
            string text = Console.ReadLine();

            var speechSynthesisResult = await speechSynthesizer.SpeakTextAsync(text);
            OutputSpeechSynthesisResult(speechSynthesisResult, text);
        }

        Console.WriteLine("Press any key to exit...");
        Console.ReadKey();
    }
}

Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Uruchom nową aplikację konsolową, aby rozpocząć syntezę mowy do domyślnego głośnika.
```
dotnet run
```
Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.
Wprowadź tekst, który chcesz mówić. Na przykład wpisz I'm podekscytowany, aby spróbować zamiany tekstu na mowę. Wybierz klawisz Enter, aby usłyszeć syntetyzowany mowę.
```
Enter some text that you want to speak >
I'm excited to try text to speech
```

Uwagi

Więcej opcji syntezy mowy

W tym przewodniku Szybki start użyto SpeakTextAsync operacji , aby zsyntetyzować krótki blok wprowadzonego tekstu. Możesz również użyć tekstu długiego z pliku i uzyskać dokładnszą kontrolę nad stylami głosu, prosodią i innymi ustawieniami.

Zobacz , jak syntetyzować mowę i język znaczników syntezy mowy (SSML) — omówienie , aby uzyskać informacje na temat syntezy mowy z pliku i bardziej precyzyjnej kontroli nad stylami głosu, prosodią i innymi ustawieniami.
Zobacz interfejs API syntezy wsadowej dla zamiany tekstu na mowę , aby uzyskać informacje o synchronizowaniu tekstu długiego na mowę.

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Dokumentacja referencyjna | Package (NuGet) | Dodatkowe przykłady w usłudze GitHub

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Zestaw SPEECH SDK jest dostępny jako pakiet NuGet, który implementuje platformę .NET Standard 2.0. Zainstaluj zestaw SPEECH SDK w dalszej części tego przewodnika. Aby uzyskać informacje o wszelkich wymaganiach, zobacz Instalowanie zestawu SPEECH SDK.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych osoby mówiącej

Wykonaj następujące kroki, aby utworzyć aplikację konsolową i zainstalować zestaw SPEECH SDK.

Utwórz projekt konsoli języka C++ w programie Visual Studio Community o nazwie SpeechSynthesis.

Zastąp zawartość SpeechSynthesis.cpp następującym kodem:

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");

    if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
        std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
        return -1;
    }

    auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);

    // The neural multilingual voice can speak different languages based on the input text.
    speechConfig->SetSpeechSynthesisVoiceName("en-US-AvaMultilingualNeural");

    auto speechSynthesizer = SpeechSynthesizer::FromConfig(speechConfig);

    // Get text from the console and synthesize to the default speaker.
    std::cout << "Enter some text that you want to speak >" << std::endl;
    std::string text;
    getline(std::cin, text);

    auto result = speechSynthesizer->SpeakTextAsync(text).get();

    // Checks result.
    if (result->Reason == ResultReason::SynthesizingAudioCompleted)
    {
        std::cout << "Speech synthesized to speaker for text [" << text << "]" << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = SpeechSynthesisCancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=[" << cancellation->ErrorDetails << "]" << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
        }
    }

    std::cout << "Press enter to exit..." << std::endl;
    std::cin.get();
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

Wybierz pozycję Narzędzia Nuget>Menedżer pakietów> Menedżer pakietów Konsola. W konsoli Menedżer pakietów uruchom następujące polecenie:
```
Install-Package Microsoft.CognitiveServices.Speech
```
Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Skompiluj i uruchom nową aplikację konsolową, aby rozpocząć syntezę mowy do domyślnego głośnika.

Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.
Wprowadź tekst, który chcesz mówić. Na przykład wpisz I'm podekscytowany, aby spróbować zamiany tekstu na mowę. Wybierz klawisz Enter, aby usłyszeć syntetyzowany mowę.
```
Enter some text that you want to speak >
I'm excited to try text to speech
```

Uwagi

Więcej opcji syntezy mowy

W tym przewodniku Szybki start użyto SpeakTextAsync operacji , aby zsyntetyzować krótki blok wprowadzonego tekstu. Możesz również użyć tekstu długiego z pliku i uzyskać dokładnszą kontrolę nad stylami głosu, prosodią i innymi ustawieniami.

Zobacz , jak syntetyzować mowę i język znaczników syntezy mowy (SSML) — omówienie , aby uzyskać informacje na temat syntezy mowy z pliku i bardziej precyzyjnej kontroli nad stylami głosu, prosodią i innymi ustawieniami.
Zobacz interfejs API syntezy wsadowej dla zamiany tekstu na mowę , aby uzyskać informacje o synchronizowaniu tekstu długiego na mowę.

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Dokumentacja referencyjna Package (Go)Additional Samples on GitHub (Dodatkowe przykłady w witrynie GitHub) | |

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Zainstaluj zestaw SPEECH SDK dla języka Go. Aby uzyskać wymagania i instrukcje, zobacz Instalowanie zestawu SPEECH SDK.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych osoby mówiącej

Wykonaj następujące kroki, aby utworzyć moduł Języka Go.

Otwórz okno wiersza polecenia w folderze, w którym chcesz utworzyć nowy projekt. Utwórz nowy plik o nazwie speech-synthesis.go.

Skopiuj następujący kod do pliku speech-synthesis.go:

package main

import (
    "bufio"
    "fmt"
    "os"
    "strings"
    "time"

    "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    "github.com/Microsoft/cognitive-services-speech-sdk-go/common"
    "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
)

func synthesizeStartedHandler(event speech.SpeechSynthesisEventArgs) {
    defer event.Close()
    fmt.Println("Synthesis started.")
}

func synthesizingHandler(event speech.SpeechSynthesisEventArgs) {
    defer event.Close()
    fmt.Printf("Synthesizing, audio chunk size %d.\n", len(event.Result.AudioData))
}

func synthesizedHandler(event speech.SpeechSynthesisEventArgs) {
    defer event.Close()
    fmt.Printf("Synthesized, audio length %d.\n", len(event.Result.AudioData))
}

func cancelledHandler(event speech.SpeechSynthesisEventArgs) {
    defer event.Close()
    fmt.Println("Received a cancellation.")
}

func main() {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speechKey :=  os.Getenv("SPEECH_KEY")
    speechRegion := os.Getenv("SPEECH_REGION")

    audioConfig, err := audio.NewAudioConfigFromDefaultSpeakerOutput()
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer audioConfig.Close()
    speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechConfig.Close()

    speechConfig.SetSpeechSynthesisVoiceName("en-US-AvaMultilingualNeural")

    speechSynthesizer, err := speech.NewSpeechSynthesizerFromConfig(speechConfig, audioConfig)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechSynthesizer.Close()

    speechSynthesizer.SynthesisStarted(synthesizeStartedHandler)
    speechSynthesizer.Synthesizing(synthesizingHandler)
    speechSynthesizer.SynthesisCompleted(synthesizedHandler)
    speechSynthesizer.SynthesisCanceled(cancelledHandler)

    for {
        fmt.Printf("Enter some text that you want to speak, or enter empty text to exit.\n> ")
        text, _ := bufio.NewReader(os.Stdin).ReadString('\n')
        text = strings.TrimSuffix(text, "\n")
        if len(text) == 0 {
            break
        }

        task := speechSynthesizer.SpeakTextAsync(text)
        var outcome speech.SpeechSynthesisOutcome
        select {
        case outcome = <-task:
        case <-time.After(60 * time.Second):
            fmt.Println("Timed out")
            return
        }
        defer outcome.Close()
        if outcome.Error != nil {
            fmt.Println("Got an error: ", outcome.Error)
            return
        }

        if outcome.Result.Reason == common.SynthesizingAudioCompleted {
            fmt.Printf("Speech synthesized to speaker for text [%s].\n", text)
        } else {
            cancellation, _ := speech.NewCancellationDetailsFromSpeechSynthesisResult(outcome.Result)
            fmt.Printf("CANCELED: Reason=%d.\n", cancellation.Reason)

            if cancellation.Reason == common.Error {
                fmt.Printf("CANCELED: ErrorCode=%d\nCANCELED: ErrorDetails=[%s]\nCANCELED: Did you set the speech resource key and region values?\n",
                    cancellation.ErrorCode,
                    cancellation.ErrorDetails)
            }
        }
    }
}

Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Uruchom następujące polecenia, aby utworzyć plik go.mod , który łączy się ze składnikami hostowanymi w usłudze GitHub:
```
go mod init speech-synthesis
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.
Teraz skompiluj i uruchom kod:
```
go build
go run speech-synthesis
```

Uwagi

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

| Dokumentacja referencyjna — dodatkowe przykłady w usłudze GitHub

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Aby skonfigurować środowisko, zainstaluj zestaw SPEECH SDK. Przykład w tym przewodniku Szybki start współpracuje ze środowiskiem uruchomieniowym Języka Java.

Zainstaluj narzędzie Apache Maven. Następnie uruchom polecenie mvn -v , aby potwierdzić pomyślną instalację.

Utwórz plik pom.xml w katalogu głównym projektu i skopiuj do niego następujący kod:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.37.0</version>
        </dependency>
    </dependencies>
</project>

Zainstaluj zestaw SPEECH SDK i zależności.
```
mvn clean dependency:copy-dependencies
```

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych osoby mówiącej

Wykonaj następujące kroki, aby utworzyć aplikację konsolową do rozpoznawania mowy.

Utwórz plik o nazwie SpeechSynthesis.java w tym samym katalogu głównym projektu.

Skopiuj następujący kod do SpeechSynthesis.java:

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.*;

import java.util.Scanner;
import java.util.concurrent.ExecutionException;

public class SpeechSynthesis {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String speechRegion = System.getenv("SPEECH_REGION");

    public static void main(String[] args) throws InterruptedException, ExecutionException {
        SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);

        speechConfig.setSpeechSynthesisVoiceName("en-US-AvaMultilingualNeural"); 

        SpeechSynthesizer speechSynthesizer = new SpeechSynthesizer(speechConfig);

        // Get text from the console and synthesize to the default speaker.
        System.out.println("Enter some text that you want to speak >");
        String text = new Scanner(System.in).nextLine();
        if (text.isEmpty())
        {
            return;
        }

        SpeechSynthesisResult speechSynthesisResult = speechSynthesizer.SpeakTextAsync(text).get();

        if (speechSynthesisResult.getReason() == ResultReason.SynthesizingAudioCompleted) {
            System.out.println("Speech synthesized to speaker for text [" + text + "]");
        }
        else if (speechSynthesisResult.getReason() == ResultReason.Canceled) {
            SpeechSynthesisCancellationDetails cancellation = SpeechSynthesisCancellationDetails.fromResult(speechSynthesisResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and region values?");
            }
        }

        System.exit(0);
    }
}

Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Uruchom aplikację konsolową, aby rozpocząć syntezę mowy do domyślnego głośnika.
```
javac SpeechSynthesis.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechSynthesis
```
Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.
Wprowadź tekst, który chcesz mówić. Na przykład wpisz I'm podekscytowany, aby spróbować zamiany tekstu na mowę. Wybierz klawisz Enter, aby usłyszeć syntetyzowany mowę.
```
Enter some text that you want to speak >
I'm excited to try text to speech
```

Uwagi

Więcej opcji syntezy mowy

W tym przewodniku Szybki start użyto SpeakTextAsync operacji , aby zsyntetyzować krótki blok wprowadzonego tekstu. Możesz również użyć tekstu długiego z pliku i uzyskać dokładnszą kontrolę nad stylami głosu, prosodią i innymi ustawieniami.

Zobacz , jak syntetyzować mowę i język znaczników syntezy mowy (SSML) — omówienie , aby uzyskać informacje na temat syntezy mowy z pliku i bardziej precyzyjnej kontroli nad stylami głosu, prosodią i innymi ustawieniami.
Zobacz interfejs API syntezy wsadowej dla zamiany tekstu na mowę , aby uzyskać informacje o synchronizowaniu tekstu długiego na mowę.

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Dokumentacja referencyjna | Package (npm)Additional Samples on GitHub Library source code (Dodatkowe przykłady w kodzie źródłowym biblioteki GitHub) | |

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Aby skonfigurować środowisko, zainstaluj zestaw SPEECH SDK dla języka JavaScript. Jeśli chcesz tylko, aby nazwa pakietu została zainstalowana, uruchom polecenie npm install microsoft-cognitiveservices-speech-sdk. Aby uzyskać instrukcje instalacji z przewodnikiem, zobacz Instalowanie zestawu SPEECH SDK.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych pliku

Wykonaj następujące kroki, aby utworzyć aplikację konsolową Node.js na potrzeby syntezy mowy.

Otwórz okno konsoli, w którym chcesz utworzyć nowy projekt, i utwórz plik o nazwie SpeechSynthesis.js.

Zainstaluj zestaw SPEECH SDK dla języka JavaScript:

npm install microsoft-cognitiveservices-speech-sdk

Skopiuj następujący kod do SpeechSynthesis.js:

(function() {

    "use strict";

    var sdk = require("microsoft-cognitiveservices-speech-sdk");
    var readline = require("readline");

    var audioFile = "YourAudioFile.wav";
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
    const audioConfig = sdk.AudioConfig.fromAudioFileOutput(audioFile);

    // The language of the voice that speaks.
    speechConfig.speechSynthesisVoiceName = "en-US-AvaMultilingualNeural"; 

    // Create the speech synthesizer.
    var synthesizer = new sdk.SpeechSynthesizer(speechConfig, audioConfig);

    var rl = readline.createInterface({
      input: process.stdin,
      output: process.stdout
    });

    rl.question("Enter some text that you want to speak >\n> ", function (text) {
      rl.close();
      // Start the synthesizer and wait for a result.
      synthesizer.speakTextAsync(text,
          function (result) {
        if (result.reason === sdk.ResultReason.SynthesizingAudioCompleted) {
          console.log("synthesis finished.");
        } else {
          console.error("Speech synthesis canceled, " + result.errorDetails +
              "\nDid you set the speech resource key and region values?");
        }
        synthesizer.close();
        synthesizer = null;
      },
          function (err) {
        console.trace("err - " + err);
        synthesizer.close();
        synthesizer = null;
      });
      console.log("Now synthesizing to: " + audioFile);
    });
}());

W SpeechSynthesis.js opcjonalnie możesz zmienić nazwę YourAudioFile.wav na inną nazwę pliku wyjściowego.
Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Uruchom aplikację konsolową, aby rozpocząć syntezę mowy w pliku:
```
node SpeechSynthesis.js
```
Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.

Podany tekst powinien znajdować się w pliku audio:

Enter some text that you want to speak >
> I'm excited to try text to speech
Now synthesizing to: YourAudioFile.wav
synthesis finished.

Uwagi

Więcej opcji syntezy mowy

W tym przewodniku Szybki start użyto SpeakTextAsync operacji , aby zsyntetyzować krótki blok wprowadzonego tekstu. Możesz również użyć tekstu długiego z pliku i uzyskać dokładnszą kontrolę nad stylami głosu, prosodią i innymi ustawieniami.

Zobacz , jak syntetyzować mowę i język znaczników syntezy mowy (SSML) — omówienie , aby uzyskać informacje na temat syntezy mowy z pliku i bardziej precyzyjnej kontroli nad stylami głosu, prosodią i innymi ustawieniami.
Zobacz interfejs API syntezy wsadowej dla zamiany tekstu na mowę , aby uzyskać informacje o synchronizowaniu tekstu długiego na mowę.

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Dokumentacja referencyjna Pakietu (Pobierz) | Dodatkowe przykłady w usłudze GitHub |

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Zestaw SPEECH SDK dla języka Objective-C jest dystrybuowany jako pakiet platformy. Platforma obsługuje język Objective-C i Swift zarówno w systemach iOS, jak i macOS.

Zestaw SPEECH SDK może być używany w projektach Xcode jako cocoaPod lub pobierany bezpośrednio i połączony ręcznie. W tym przewodniku jest używany program CocoaPod. Zainstaluj menedżera zależności CocoaPod zgodnie z opisem w instrukcjach instalacji.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych osoby mówiącej

Wykonaj następujące kroki, aby zsyntetyzować mowę w aplikacji systemu macOS.

Sklonuj repozytorium Azure-Samples/cognitive-services-speech-sdk , aby uzyskać przykładowy projekt Syntetyzowanie dźwięku w języku Objective-C w systemie macOS przy użyciu przykładowego projektu zestawu Speech SDK . Repozytorium zawiera również przykłady dla systemu iOS.
Otwórz katalog pobranej przykładowej aplikacji (helloworld) w terminalu.
Uruchom polecenie pod install. To polecenie generuje helloworld.xcworkspace obszar roboczy Xcode, który zawiera zarówno przykładową aplikację, jak i zestaw SPEECH SDK jako zależność.
Otwórz obszar roboczy w programie helloworld.xcworkspace Xcode.

Otwórz plik o nazwie AppDelegate.m i znajdź metodę buttonPressed , jak pokazano tutaj.

- (void)buttonPressed:(NSButton *)button {
    // Creates an instance of a speech config with specified subscription key and service region.
    NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
    NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];

    SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:speechKey region:serviceRegion];
    speechConfig.speechSynthesisVoiceName = @"en-US-AvaMultilingualNeural";
    SPXSpeechSynthesizer *speechSynthesizer = [[SPXSpeechSynthesizer alloc] init:speechConfig];

    NSLog(@"Start synthesizing...");

    SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:[self.textField stringValue]];

    // Checks result.
    if (SPXResultReason_Canceled == speechResult.reason) {
        SPXSpeechSynthesisCancellationDetails *details = [[SPXSpeechSynthesisCancellationDetails alloc] initFromCanceledSynthesisResult:speechResult];
        NSLog(@"Speech synthesis was canceled: %@. Did you set the speech resource key and region values?", details.errorDetails);
    } else if (SPXResultReason_SynthesizingAudioCompleted == speechResult.reason) {
        NSLog(@"Speech synthesis was completed");
    } else {
        NSLog(@"There was an error.");
    }
}

W pliku AppDelegate.m użyj zmiennych środowiskowych ustawionych wcześniej dla klucza zasobu usługi Mowa i regionu.

NSString *speechKey = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_KEY"];
NSString *serviceRegion = [[[NSProcessInfo processInfo] environment] objectForKey:@"SPEECH_REGION"];

Opcjonalnie w pliku AppDelegate.m dołącz nazwę głosu syntezy mowy, jak pokazano poniżej:
```
speechConfig.speechSynthesisVoiceName = @"en-US-AvaMultilingualNeural";
```
Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Aby wyświetlić dane wyjściowe debugowania, wybierz pozycję Wyświetl>obszar>debugowania Aktywuj konsolę.
Aby skompilować i uruchomić przykładowy kod, wybierz pozycję Product Run (Uruchom produkt>) z menu lub wybierz przycisk Play (Odtwórz).

Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.

Po wprowadzeniu tekstu i wybraniu przycisku w aplikacji powinien zostać wyświetlony syntetyzowany dźwięk.

Uwagi

Więcej opcji syntezy mowy

W tym przewodniku Szybki start użyto SpeakText operacji , aby zsyntetyzować krótki blok wprowadzonego tekstu. Możesz również użyć tekstu długiego z pliku i uzyskać dokładnszą kontrolę nad stylami głosu, prosodią i innymi ustawieniami.

Zobacz , jak syntetyzować mowę i język znaczników syntezy mowy (SSML) — omówienie , aby uzyskać informacje na temat syntezy mowy z pliku i bardziej precyzyjnej kontroli nad stylami głosu, prosodią i innymi ustawieniami.
Zobacz interfejs API syntezy wsadowej dla zamiany tekstu na mowę , aby uzyskać informacje o synchronizowaniu tekstu długiego na mowę.

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Dokumentacja referencyjna Pakietu (Pobierz) | Dodatkowe przykłady w usłudze GitHub |

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Zestaw SPEECH SDK dla języka Swift jest dystrybuowany jako pakiet platformy. Platforma obsługuje język Objective-C i Swift zarówno w systemach iOS, jak i macOS.

Zestaw SPEECH SDK może być używany w projektach Xcode jako cocoaPod lub pobierany bezpośrednio i połączony ręcznie. W tym przewodniku jest używany program CocoaPod. Zainstaluj menedżera zależności CocoaPod zgodnie z opisem w instrukcjach instalacji.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych osoby mówiącej

Wykonaj następujące kroki, aby zsyntetyzować mowę w aplikacji systemu macOS.

Sklonuj repozytorium Azure-Samples/cognitive-services-speech-sdk , aby uzyskać przykładowy projekt Syntetyzowanie dźwięku w języku Swift w systemie macOS przy użyciu przykładowego projektu zestawu Speech SDK . Repozytorium zawiera również przykłady dla systemu iOS.
Przejdź do katalogu pobranej przykładowej aplikacji (helloworld) w terminalu.
Uruchom polecenie pod install. To polecenie generuje helloworld.xcworkspace obszar roboczy Xcode, który zawiera zarówno przykładową aplikację, jak i zestaw SPEECH SDK jako zależność.
Otwórz obszar roboczy w programie helloworld.xcworkspace Xcode.

Otwórz plik o nazwie AppDelegate.swift i znajdź applicationDidFinishLaunching metody i synthesize , jak pokazano tutaj.

import Cocoa

@NSApplicationMain
class AppDelegate: NSObject, NSApplicationDelegate, NSTextFieldDelegate {
    var textField: NSTextField!
    var synthesisButton: NSButton!

    var inputText: String!

    var sub: String!
    var region: String!

    @IBOutlet weak var window: NSWindow!

    func applicationDidFinishLaunching(_ aNotification: Notification) {
        print("loading")
        // load subscription information
        sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
        region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

        inputText = ""

        textField = NSTextField(frame: NSRect(x: 100, y: 200, width: 200, height: 50))
        textField.textColor = NSColor.black
        textField.lineBreakMode = .byWordWrapping

        textField.placeholderString = "Type something to synthesize."
        textField.delegate = self

        self.window.contentView?.addSubview(textField)

        synthesisButton = NSButton(frame: NSRect(x: 100, y: 100, width: 200, height: 30))
        synthesisButton.title = "Synthesize"
        synthesisButton.target = self
        synthesisButton.action = #selector(synthesisButtonClicked)
        self.window.contentView?.addSubview(synthesisButton)
    }

    @objc func synthesisButtonClicked() {
        DispatchQueue.global(qos: .userInitiated).async {
            self.synthesize()
        }
    }

    func synthesize() {
        var speechConfig: SPXSpeechConfiguration?
        do {
            try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
        } catch {
            print("error \(error) happened")
            speechConfig = nil
        }

        speechConfig?.speechSynthesisVoiceName = "en-US-AvaMultilingualNeural";

        let synthesizer = try! SPXSpeechSynthesizer(speechConfig!)
        let result = try! synthesizer.speakText(inputText)
        if result.reason == SPXResultReason.canceled
        {
            let cancellationDetails = try! SPXSpeechSynthesisCancellationDetails(fromCanceledSynthesisResult: result)
            print("cancelled, error code: \(cancellationDetails.errorCode) detail: \(cancellationDetails.errorDetails!) ")
            print("Did you set the speech resource key and region values?");
            return
        }
    }

    func controlTextDidChange(_ obj: Notification) {
        let textFiled = obj.object as! NSTextField
        inputText = textFiled.stringValue
    }
}

W pliku AppDelegate.m użyj zmiennych środowiskowych ustawionych wcześniej dla klucza zasobu usługi Mowa i regionu.

sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

Opcjonalnie w pliku AppDelegate.m dołącz nazwę głosu syntezy mowy, jak pokazano poniżej:
```
speechConfig?.speechSynthesisVoiceName = "en-US-AvaMultilingualNeural";
```
Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Aby wyświetlić dane wyjściowe debugowania, wybierz pozycję Wyświetl>obszar>debugowania Aktywuj konsolę.
Aby skompilować i uruchomić przykładowy kod, wybierz pozycję Product Run (Uruchom produkt>) z menu lub wybierz przycisk Play (Odtwórz).

Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.

Po wprowadzeniu tekstu i wybraniu przycisku w aplikacji powinien zostać wyświetlony syntetyzowany dźwięk.

Uwagi

Więcej opcji syntezy mowy

W tym przewodniku Szybki start użyto SpeakText operacji , aby zsyntetyzować krótki blok wprowadzonego tekstu. Możesz również użyć tekstu długiego z pliku i uzyskać dokładnszą kontrolę nad stylami głosu, prosodią i innymi ustawieniami.

Zobacz , jak syntetyzować mowę i język znaczników syntezy mowy (SSML) — omówienie , aby uzyskać informacje na temat syntezy mowy z pliku i bardziej precyzyjnej kontroli nad stylami głosu, prosodią i innymi ustawieniami.
Zobacz interfejs API syntezy wsadowej dla zamiany tekstu na mowę , aby uzyskać informacje o synchronizowaniu tekstu długiego na mowę.

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Dokumentacja referencyjna | Package (PyPi) | Dodatkowe przykłady w witrynie GitHub

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Zestaw SPEECH SDK dla języka Python jest dostępny jako moduł PyPI (Python Package Index). Zestaw SPEECH SDK dla języka Python jest zgodny z systemami Windows, Linux i macOS.

W systemie Windows zainstaluj platformę Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017, 2019 i 2022. Zainstalowanie tego pakietu może wymagać ponownego uruchomienia.
W systemie Linux należy użyć architektury docelowej x64.

Zainstaluj wersję języka Python z wersji 3.7 lub nowszej. Aby uzyskać informacje o wszelkich wymaganiach, zobacz Instalowanie zestawu SPEECH SDK.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do danych wyjściowych osoby mówiącej

Wykonaj następujące kroki, aby utworzyć aplikację konsolową.

Otwórz okno wiersza polecenia w folderze, w którym chcesz utworzyć nowy projekt. Utwórz plik o nazwie speech_synthesis.py.
Uruchom to polecenie, aby zainstalować zestaw SPEECH SDK:
```
pip install azure-cognitiveservices-speech
```

Skopiuj następujący kod do speech_synthesis.py:

import os
import azure.cognitiveservices.speech as speechsdk

# This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)

# The neural multilingual voice can speak different languages based on the input text.
speech_config.speech_synthesis_voice_name='en-US-AvaMultilingualNeural'

speech_synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)

# Get text from the console and synthesize to the default speaker.
print("Enter some text that you want to speak >")
text = input()

speech_synthesis_result = speech_synthesizer.speak_text_async(text).get()

if speech_synthesis_result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
    print("Speech synthesized for text [{}]".format(text))
elif speech_synthesis_result.reason == speechsdk.ResultReason.Canceled:
    cancellation_details = speech_synthesis_result.cancellation_details
    print("Speech synthesis canceled: {}".format(cancellation_details.reason))
    if cancellation_details.reason == speechsdk.CancellationReason.Error:
        if cancellation_details.error_details:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and region values?")

Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.
Uruchom nową aplikację konsolową, aby rozpocząć syntezę mowy do domyślnego głośnika.
```
python speech_synthesis.py
```
Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.
Wprowadź tekst, który chcesz mówić. Na przykład wpisz I'm podekscytowany, aby spróbować zamiany tekstu na mowę. Wybierz klawisz Enter, aby usłyszeć syntetyzowany mowę.
```
Enter some text that you want to speak > 
I'm excited to try text to speech
```

Uwagi

Więcej opcji syntezy mowy

W tym przewodniku Szybki start użyto speak_text_async operacji , aby zsyntetyzować krótki blok wprowadzonego tekstu. Możesz również użyć tekstu długiego z pliku i uzyskać dokładnszą kontrolę nad stylami głosu, prosodią i innymi ustawieniami.

Zobacz , jak syntetyzować mowę i język znaczników syntezy mowy (SSML) — omówienie , aby uzyskać informacje na temat syntezy mowy z pliku i bardziej precyzyjnej kontroli nad stylami głosu, prosodią i innymi ustawieniami.
Zobacz interfejs API syntezy wsadowej dla zamiany tekstu na mowę , aby uzyskać informacje o synchronizowaniu tekstu długiego na mowę.

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Interfejs API REST zamiany mowy na tekst — dokumentacja | interfejsu API REST zamiany mowy na tekst w celu uzyskania krótkiej dokumentacji | audio — dodatkowe przykłady w usłudze GitHub

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Ustawianie zmiennych środowiskowych

Aby uzyskać dostęp do zasobów usług Azure AI, aplikacja musi być uwierzytelniona. W środowisku produkcyjnym należy użyć bezpiecznego sposobu przechowywania poświadczeń i uzyskiwania do nich dostępu. Na przykład po otrzymaniu klucza zasobu usługi Mowa zapisz go w nowej zmiennej środowiskowej na komputerze lokalnym, na którym jest uruchamiana aplikacja.

Napiwek

Nie dołączaj klucza bezpośrednio do kodu i nigdy nie publikuj go publicznie. Aby uzyskać więcej opcji uwierzytelniania, takich jak usługa Azure Key Vault, zobacz Zabezpieczenia usług Azure AI.

Aby ustawić zmienną środowiskową dla klucza zasobu usługi Mowa, otwórz okno konsoli i postępuj zgodnie z instrukcjami dotyczącymi systemu operacyjnego i środowiska programistycznego.

Aby ustawić zmienną SPEECH_KEY środowiskową, zastąp klucz jednym z kluczy zasobu.
Aby ustawić zmienną SPEECH_REGION środowiskową, zastąp region jednym z regionów zasobu.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Uwaga

Jeśli musisz uzyskać dostęp tylko do zmiennych środowiskowych w bieżącej konsoli, możesz ustawić zmienną środowiskową z wartością setsetxzamiast .

Po dodaniu zmiennych środowiskowych może być konieczne ponowne uruchomienie wszystkich programów, które muszą odczytać zmienną środowiskową, w tym okno konsoli. Jeśli na przykład używasz programu Visual Studio jako edytora, uruchom ponownie program Visual Studio przed uruchomieniem przykładu.

Bash

Edytuj plik bashrc i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bashrc w oknie konsoli, aby wprowadzić zmiany w życie.

Bash

Edytuj plik .bash_profile i dodaj zmienne środowiskowe:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Po dodaniu zmiennych środowiskowych uruchom polecenie source ~/.bash_profile w oknie konsoli, aby wprowadzić zmiany w życie.

Xcode

W przypadku programowania dla systemów iOS i macOS należy ustawić zmienne środowiskowe w środowisku Xcode. Na przykład wykonaj następujące kroki, aby ustawić zmienną środowiskową w programie Xcode 13.4.1.

Wybierz pozycję Schemat>produktu>Edytuj schemat.
Wybierz pozycję Argumenty na stronie Uruchom (przebieg debugowania).
W obszarze Zmienne środowiskowe wybierz znak plus (+), aby dodać nową zmienną środowiskową.
Wprowadź SPEECH_KEY wartość w polu Nazwa i wprowadź klucz zasobu usługi Mowa dla wartości.

Aby ustawić zmienną środowiskową dla regionu zasobu usługi Mowa, wykonaj te same kroki. Ustaw SPEECH_REGION na region zasobu. Na przykład westus.

Aby uzyskać więcej opcji konfiguracji, zobacz dokumentację programu Xcode.

Syntetyzowanie do pliku

W wierszu polecenia uruchom następujące polecenie cURL. Opcjonalnie możesz zmienić nazwę output.mp3 na inną nazwę pliku wyjściowego.

curl --location --request POST "https://%SPEECH_REGION%.tts.speech.microsoft.com/cognitiveservices/v1" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: application/ssml+xml" ^
--header "X-Microsoft-OutputFormat: audio-16khz-128kbitrate-mono-mp3" ^
--header "User-Agent: curl" ^
--data-raw "<speak version='1.0' xml:lang='en-US'><voice xml:lang='en-US' xml:gender='Female' name='en-US-AvaMultilingualNeural'>my voice is my passport verify me</voice></speak>" --output output.mp3

curl --location --request POST "https://${SPEECH_REGION}.tts.speech.microsoft.com/cognitiveservices/v1" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header 'Content-Type: application/ssml+xml' \
--header 'X-Microsoft-OutputFormat: audio-16khz-128kbitrate-mono-mp3' \
--header 'User-Agent: curl' \
--data-raw '<speak version='\''1.0'\'' xml:lang='\''en-US'\''>
    <voice xml:lang='\''en-US'\'' xml:gender='\''Female'\'' name='\''en-US-AvaMultilingualNeural'\''>
        my voice is my passport verify me
    </voice>
</speak>' > output.mp3

curl --location --request POST "https://${SPEECH_REGION}.tts.speech.microsoft.com/cognitiveservices/v1" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header 'Content-Type: application/ssml+xml' \
--header 'X-Microsoft-OutputFormat: audio-16khz-128kbitrate-mono-mp3' \
--header 'User-Agent: curl' \
--data-raw '<speak version='\''1.0'\'' xml:lang='\''en-US'\''>
    <voice xml:lang='\''en-US'\'' xml:gender='\''Female'\'' name='\''en-US-AvaMultilingualNeural'\''>
        my voice is my passport verify me
    </voice>
</speak>' > output.mp3

Ważne

Upewnij się, że ustawiono SPEECH_KEY zmienne środowiskowe i SPEECH_REGION. Jeśli nie ustawisz tych zmiennych, przykład zakończy się niepowodzeniem z komunikatem o błędzie.

Podany tekst powinien być wyjściowy do pliku audio o nazwie output.mp3.

Aby zmienić język syntezy mowy, zastąp en-US-AvaMultilingualNeural element innym obsługiwanym głosem.

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono es-ES-ElviraNeuraltekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.

Aby uzyskać więcej informacji, zobacz Interfejs API REST zamiany tekstu na mowę.

Uwagi

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

W tym przewodniku Szybki start uruchomisz aplikację, która wykonuje tekst syntezy mowy.

Napiwek

Możesz spróbować zamiany tekstu na mowę w galerii głosowej usługi Speech Studio bez rejestracji ani pisania jakiegokolwiek kodu.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz jedną bezpłatnie.
Utwórz zasób usługi Mowa w witrynie Azure Portal.
Klucz zasobu usługi Mowa i region. Po wdrożeniu zasobu usługi Mowa wybierz pozycję Przejdź do zasobu , aby wyświetlić klucze i zarządzać nimi. Aby uzyskać więcej informacji na temat zasobów usług Azure AI, zobacz Pobieranie kluczy dla zasobu.

Konfigurowanie środowiska

Wykonaj następujące kroki i zapoznaj się z przewodnikiem Szybki start interfejsu wiersza polecenia usługi Mowa, aby uzyskać inne wymagania dotyczące platformy.

Uruchom następujące polecenie interfejsu wiersza polecenia platformy .NET, aby zainstalować interfejs wiersza polecenia usługi Mowa:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Uruchom następujące polecenia, aby skonfigurować klucz zasobu usługi Mowa i region. Zastąp SUBSCRIPTION-KEY ciąg kluczem zasobu usługi Mowa i zastąp REGION element regionem zasobu usługi Mowa.
- Terminal
- Program PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uruchom następujące polecenie, aby uzyskać syntezę mowy do domyślnych danych wyjściowych osoby mówiącej. Możesz zmodyfikować głos i tekst, który ma zostać zsyntetyzowany.

spx synthesize --text "I'm excited to try text to speech" --voice "en-US-AvaMultilingualNeural"

Jeśli nie ustawisz nazwy głosu, domyślny głos mówi en-US .

Wszystkie neuronowe głosy są wielojęzyczne i płynne we własnym języku i języku angielskim. Jeśli na przykład tekst wejściowy w języku angielskim to "Jestem podekscytowany, aby spróbować zamiany tekstu na mowę" i ustawiono --voice "es-ES-ElviraNeural"tekst w języku angielskim z hiszpańskim akcentem. Jeśli głos nie mówi w języku tekstu wejściowego, usługa rozpoznawania mowy nie generuje syntetyzowanego dźwięku.

Uruchom to polecenie, aby uzyskać więcej informacji na temat opcji syntezy mowy, takich jak dane wejściowe i wyjściowe pliku:

spx help synthesize

Uwagi

Obsługa języka SSML

Możesz mieć dokładną kontrolę nad stylami głosu, prosodią i innymi ustawieniami przy użyciu języka SSML (Speech Synthesis Markup Language).

OpenAI text to speech voices in Azure AI Speech

Obsługiwane są również głosy zamiany tekstu openAI na mowę. Zobacz tekst OpenAI na głosy mowy w usłudze Azure AI Speech i wielojęzyczne głosy. Możesz zastąpić en-US-AvaMultilingualNeural obsługiwaną nazwą głosową openAI, taką jak en-US-FableMultilingualNeural.

Czyszczenie zasobów

Aby usunąć utworzony zasób usługi Mowa, możesz użyć witryny Azure Portal lub interfejsu wiersza polecenia platformy Azure.

Szybki start: konwertowanie tekstu na mowę

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

Więcej opcji syntezy mowy

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

Więcej opcji syntezy mowy

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

Więcej opcji syntezy mowy

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych pliku

Uwagi

Więcej opcji syntezy mowy

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

Więcej opcji syntezy mowy

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

Więcej opcji syntezy mowy

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Ustawianie zmiennych środowiskowych

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

Więcej opcji syntezy mowy

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Ustawianie zmiennych środowiskowych

Syntetyzowanie do pliku

Uwagi

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Wymagania wstępne

Konfigurowanie środowiska

Syntetyzowanie do danych wyjściowych osoby mówiącej

Uwagi

Obsługa języka SSML

OpenAI text to speech voices in Azure AI Speech

Czyszczenie zasobów

Następny krok

Dodatkowe zasoby