Snabbstart: Kom igång med Azure AI Speech CLI

I den här artikeln får du lära dig hur du använder Azure AI Speech CLI (även kallat SPX) för att få åtkomst till Speech-tjänster som tal till text, text till tal och talöversättning, utan att behöva skriva någon kod. Speech CLI är produktionsklart och du kan använda det för att automatisera enkla arbetsflöden i Speech-tjänsten med hjälp .bat av eller gränssnittsskript.

Den här artikeln förutsätter att du har arbetskunskaper om kommandotolkens fönster, terminal eller PowerShell.

Kommentar

I PowerShell ska stoppparsningstoken (--%) följa spx. Kör till exempel spx --% config @region för att visa det aktuella regionkonfigurationsvärdet.

Ladda ned och installera

Följ de här stegen för att installera Speech CLI i Windows:

  1. Installera Microsoft Visual C++ Redistributable för Visual Studio 2019 för din plattform. Installationen för första gången kan kräva en omstart.

  2. Installera .NET 6.

  3. Installera Speech CLI via .NET CLI genom att ange följande kommando:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Om du vill uppdatera Speech CLI anger du följande kommando:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Ange spx eller spx help om du vill se hjälpen för Speech CLI.

Teckensnittsbegränsningar

I Windows kan Speech CLI endast visa teckensnitt som är tillgängliga för kommandotolken på den lokala datorn. Windows-terminal stöder alla teckensnitt som Speech CLI skapar interaktivt.

Om du matar ut till en fil kan en textredigerare som Anteckningar eller en webbläsare som Microsoft Edge också visa alla teckensnitt.

Skapa en resurskonfiguration

För att komma igång behöver du en Speech-resursnyckel och regionidentifierare (till exempel eastus, westus). Skapa en Speech-resurs på Azure-portalen. Mer information finns i Skapa en resurs med flera tjänster.

Kör följande kommandon för att konfigurera resursnyckeln och regionidentifieraren:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Nyckeln och regionen lagras för framtida Speech CLI-kommandon. Om du vill visa den aktuella konfigurationen kör du följande kommandon:

spx config @key
spx config @region

Ta med clear alternativet för att ta bort ett lagrat värde efter behov:

spx config @key --clear
spx config @region --clear

Grundläggande användning

Viktigt!

När du använder Speech CLI i en container inkluderar du alternativet --host . Du måste också ange --key none för att säkerställa att CLI inte försöker använda en Talnyckel för autentisering. Kör till exempel spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav för att identifiera tal från en ljudfil i en tal till text-container.

Det här avsnittet visar några grundläggande SPX-kommandon som ofta är användbara för testning och experimentering första gången. Kör följande kommando för att visa hjälpen i verktyget:

spx

Du kan söka i hjälpavsnitt efter nyckelord. Om du till exempel vill se en lista över användningsexempel för Speech CLI kör du följande kommando:

spx help find --topics "examples"

Om du vill se alternativ för recognize kommandot kör du följande kommando:

spx help recognize

Fler hjälpkommandon visas i konsolens utdata. Du kan ange dessa kommandon för att få detaljerad hjälp om underkommandon.

Tal till text (taligenkänning)

Kommentar

Du kan inte använda datorns mikrofon när du kör Speech CLI i en Docker-container. Du kan dock läsa från och spara ljudfiler i din lokala monterade katalog.

Om du vill konvertera tal till text (taligenkänning) med hjälp av systemets standardmikrofon kör du följande kommando:

spx recognize --microphone

När du har kört kommandot börjar SPX lyssna efter ljud på den aktuella aktiva indataenheten. Den slutar lyssna när du väljer Retur. Det talade ljudet identifieras och konverteras sedan till text i konsolens utdata.

Med Speech CLI kan du också känna igen tal från en ljudfil. Kör följande kommando:

spx recognize --file /path/to/file.wav

Dricks

Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help recognize.

Text till tal (talsyntes)

Följande kommando tar text som indata och matar sedan ut det syntetiserade talet till den aktuella aktiva utdataenheten (till exempel datorhögtalarna).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Du kan också spara de syntetiserade utdata i en fil. I det här exemplet ska vi skapa en fil med namnet my-sample.wav i katalogen där du kör kommandot.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Dessa exempel förutsätter att du testar på engelska. Speech Service stöder dock talsyntes på många språk. Du kan hämta en fullständig lista med röster antingen genom att köra följande kommando eller genom att gå till språksupportsidan.

spx synthesize --voices

Här är ett kommando för att använda en av de röster som du upptäckte.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Dricks

Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help synthesize.

Tal till textöversättning

Med Speech CLI kan du även göra tal till textöversättning. Kör följande kommando för att spela in ljud från standardmikrofonen och mata ut översättningen som text. Tänk på att du måste ange source språket och target med translate kommandot .

spx translate --microphone --source en-US --target ru-RU

När du översätter till flera språk separerar du språkkoderna med semikolon (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Om du vill spara utdata från översättningen --output använder du flaggan . I det här exemplet läser du också från en fil.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Dricks

Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help translate.

Nästa steg