Snabbstart: Kom igång med Azure AI Speech CLI

Artikel
03/20/2024

I den här artikeln får du lära dig hur du använder Azure AI Speech CLI (även kallat SPX) för att få åtkomst till Speech-tjänster som tal till text, text till tal och talöversättning, utan att behöva skriva någon kod. Speech CLI är produktionsklart och du kan använda det för att automatisera enkla arbetsflöden i Speech-tjänsten med hjälp .bat av eller gränssnittsskript.

Den här artikeln förutsätter att du har arbetskunskaper om kommandotolkens fönster, terminal eller PowerShell.

Kommentar

I PowerShell ska stoppparsningstoken (--%) följa spx. Kör till exempel spx --% config @region för att visa det aktuella regionkonfigurationsvärdet.

Ladda ned och installera

Följ de här stegen för att installera Speech CLI i Windows:

Installera Microsoft Visual C++ Redistributable för Visual Studio 2019 för din plattform. Installationen för första gången kan kräva en omstart.
Installera .NET 6.

Installera Speech CLI via .NET CLI genom att ange följande kommando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Om du vill uppdatera Speech CLI anger du följande kommando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Ange spx eller spx help om du vill se hjälpen för Speech CLI.

Teckensnittsbegränsningar

I Windows kan Speech CLI endast visa teckensnitt som är tillgängliga för kommandotolken på den lokala datorn. Windows-terminal stöder alla teckensnitt som Speech CLI skapar interaktivt.

Om du matar ut till en fil kan en textredigerare som Anteckningar eller en webbläsare som Microsoft Edge också visa alla teckensnitt.

Varning

Den här artikeln refererar till CentOS, en Linux-distribution som närmar sig EOL-status (End Of Life). Överväg att använda och planera i enlighet med detta. Mer information finns i CentOS End Of Life-vägledningen.

Följande Linux-distributioner stöds för x64-arkitekturer som använder Speech CLI:

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Kommentar

Speech SDK (inte Speech CLI) stöder ytterligare arkitekturer. Mer information finns i Om Speech SDK.

Följ dessa steg för att installera Speech CLI på Linux på en x64-PROCESSOR:

Installera .NET 6.

Installera Speech CLI via .NET CLI genom att ange följande kommando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Om du vill uppdatera Speech CLI anger du följande kommando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Konfigurera OpenSSL för Linux i RHEL/CentOS Linux.
Installera GStreamer på Ubuntu 20.04 Linux.

Ange spx för att se hjälpen för Speech CLI.

Följ dessa steg för att installera Speech CLI på macOS 10.14 eller senare:

Installera .NET 6.

Installera Speech CLI via .NET CLI genom att ange följande kommando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Om du vill uppdatera Speech CLI anger du följande kommando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Ange spx eller spx help om du vill se hjälpen för Speech CLI.

I följande exempel hämtas en offentlig containeravbildning från Docker Hub. Vi rekommenderar att du autentiserar med ditt Docker Hub-konto (docker login) först i stället för att göra en anonym pull-begäran. För att förbättra tillförlitligheten när du använder offentligt innehåll importerar och hanterar du avbildningen i ett privat Azure-containerregister. Läs mer om hur du arbetar med offentliga avbildningar.

Följ dessa steg för att installera Speech CLI i en Docker-container:

Installera Docker Desktop för din plattform om den inte redan är installerad.
I en ny kommandotolk eller terminal anger du följande kommando:
```
docker pull msftspeech/spx
```

Ange det här kommandot för att visa hjälpinformation för Speech CLI:

docker run -it --rm msftspeech/spx help

Montera en katalog i containern

Speech CLI-verktyget sparar konfigurationsinställningar som filer. De här filerna läses in när du utför något kommando (förutom hjälpkommandon).

När du använder Speech CLI i en Docker-container måste du montera en lokal katalog från containern, så att verktyget kan:

Lagra eller hitta konfigurationsinställningarna.
Läsa eller skriva filer som kommandot kräver, till exempel ljudfiler för tal.

I Windows anger du det här kommandot för att skapa en lokal katalog som Speech CLI kan använda inifrån containern:

mkdir c:\spx-data

I Linux eller macOS anger du det här kommandot i en terminal för att skapa en katalog och se dess absoluta sökväg:

mkdir ~/spx-data
cd ~/spx-data
pwd

Du använder den absoluta sökvägen när du anropar Speech CLI.

Kör Speech CLI i containern

Den här dokumentationen visar speech CLI-kommandot spx som används i installationer som inte är Docker. När du anropar spx kommandot i en Docker-container måste du montera en katalog i containern i filsystemet där Speech CLI kan lagra och hitta konfigurationsvärden och läsa och skriva filer.

I Windows börjar kommandona så här:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

I Linux eller macOS ser dina kommandon ut som följande exempel. Ersätt ABSOLUTE_PATH med den absoluta sökvägen för den monterade katalogen. Kommandot pwd returnerade den här sökvägen i föregående avsnitt. Om du kör det här kommandot innan du anger din nyckel och region får du ett fel som anger att du ska ange din nyckel och region.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Om du vill använda spx kommandot som är installerat i en container anger du alltid det fullständiga kommandot enligt föregående exempel följt av parametrarna för din begäran. I Windows anger till exempel det här kommandot din nyckel:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Om du vill ha mer utökad interaktion med kommandoradsverktyget kan du starta en container med ett interaktivt Bash-gränssnitt genom att lägga till en entrypoint parameter. I Windows anger du det här kommandot för att starta en container som exponerar ett interaktivt kommandoradsgränssnitt där du kan ange flera spx kommandon:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Du kan kombinera det med AZ Login och låta SPX Init vägleda dig genom att skapa talnycklarna och välja en matchande dataregion utan att behöva använda Azure-portalen. Nycklarna lagras automatiskt för senare användning.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

För att komma igång behöver du en Speech-resursnyckel och regionidentifierare (till exempel eastus, westus). Skapa en Speech-resurs på Azure-portalen. Mer information finns i Skapa en resurs med flera tjänster.

Kör följande kommandon för att konfigurera resursnyckeln och regionidentifieraren:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Nyckeln och regionen lagras för framtida Speech CLI-kommandon. Om du vill visa den aktuella konfigurationen kör du följande kommandon:

spx config @key
spx config @region

Ta med clear alternativet för att ta bort ett lagrat värde efter behov:

spx config @key --clear
spx config @region --clear

Om du vill konfigurera din Speech-resursnyckel och regionidentifierare kör du följande kommandon i PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

Nyckeln och regionen lagras för framtida SPX-kommandon. Om du vill visa den aktuella konfigurationen kör du följande kommandon:

spx --% config @key
spx --% config @region

Ta med clear alternativet för att ta bort ett lagrat värde efter behov:

spx --% config @key --clear
spx --% config @region --clear

Grundläggande användning

Viktigt!

När du använder Speech CLI i en container inkluderar du alternativet --host . Du måste också ange --key none för att säkerställa att CLI inte försöker använda en Talnyckel för autentisering. Kör till exempel spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav för att identifiera tal från en ljudfil i en tal till text-container.

Det här avsnittet visar några grundläggande SPX-kommandon som ofta är användbara för testning och experimentering första gången. Kör följande kommando för att visa hjälpen i verktyget:

spx

Du kan söka i hjälpavsnitt efter nyckelord. Om du till exempel vill se en lista över användningsexempel för Speech CLI kör du följande kommando:

spx help find --topics "examples"

Om du vill se alternativ för recognize kommandot kör du följande kommando:

spx help recognize

Fler hjälpkommandon visas i konsolens utdata. Du kan ange dessa kommandon för att få detaljerad hjälp om underkommandon.

Tal till text (taligenkänning)

Kommentar

Du kan inte använda datorns mikrofon när du kör Speech CLI i en Docker-container. Du kan dock läsa från och spara ljudfiler i din lokala monterade katalog.

Om du vill konvertera tal till text (taligenkänning) med hjälp av systemets standardmikrofon kör du följande kommando:

spx recognize --microphone

När du har kört kommandot börjar SPX lyssna efter ljud på den aktuella aktiva indataenheten. Den slutar lyssna när du väljer Retur. Det talade ljudet identifieras och konverteras sedan till text i konsolens utdata.

Med Speech CLI kan du också känna igen tal från en ljudfil. Kör följande kommando:

spx recognize --file /path/to/file.wav

Dricks

Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help recognize.

Text till tal (talsyntes)

Följande kommando tar text som indata och matar sedan ut det syntetiserade talet till den aktuella aktiva utdataenheten (till exempel datorhögtalarna).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Du kan också spara de syntetiserade utdata i en fil. I det här exemplet ska vi skapa en fil med namnet my-sample.wav i katalogen där du kör kommandot.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Dessa exempel förutsätter att du testar på engelska. Speech Service stöder dock talsyntes på många språk. Du kan hämta en fullständig lista med röster antingen genom att köra följande kommando eller genom att gå till språksupportsidan.

spx synthesize --voices

Här är ett kommando för att använda en av de röster som du upptäckte.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Dricks

Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help synthesize.

Tal till textöversättning

Med Speech CLI kan du även göra tal till textöversättning. Kör följande kommando för att spela in ljud från standardmikrofonen och mata ut översättningen som text. Tänk på att du måste ange source språket och target med translate kommandot .

spx translate --microphone --source en-US --target ru-RU

När du översätter till flera språk separerar du språkkoderna med semikolon (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Om du vill spara utdata från översättningen --output använder du flaggan . I det här exemplet läser du också från en fil.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Dricks

Om du fastnar eller vill lära dig mer om igenkänningsalternativen för Speech CLI kan du köra spx help translate.

Snabbstart: Kom igång med Azure AI Speech CLI

Ladda ned och installera

Teckensnittsbegränsningar

Montera en katalog i containern

Kör Speech CLI i containern

Skapa en resurskonfiguration

Grundläggande användning

Tal till text (taligenkänning)

Text till tal (talsyntes)

Tal till textöversättning

Nästa steg

Ytterligare resurser