Rövid útmutató: Ismerkedés az Azure AI Speech parancssori felületével
Ebből a cikkből megtudhatja, hogyan használhatja az Azure AI Speech CLI-t (más néven SPX-t) a Speech-szolgáltatások, például a szövegfelolvasás, a szövegfelolvasás és a beszédfordítás eléréséhez anélkül, hogy kódokat kellene írnia. A Speech CLI készen áll az éles használatra, és használatával egyszerű munkafolyamatokat automatizálhat a Speech szolgáltatásban szkriptek használatával vagy rendszerhéjak használatával .bat
.
Ez a cikk feltételezi, hogy ismeri a parancssori ablakot, a terminált vagy a PowerShellt.
Feljegyzés
A PowerShellben a stop-parsing tokennek (--%
) kell követnie spx
. Futtatás például spx --% config @region
az aktuális régió konfigurációs értékének megtekintéséhez.
Letöltés és telepítés
A Speech CLI Windows rendszeren való telepítéséhez kövesse az alábbi lépéseket:
Telepítse a Platformhoz készült Visual Studio 2019-hez készült Microsoft Visual C++ terjeszthető verziót. Az első telepítés újraindítást igényelhet.
Telepítse a .NET 6-ot.
Telepítse a Speech CLI-t a .NET CLI-vel a következő paranccsal:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
A Speech CLI frissítéséhez írja be a következő parancsot:
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
Adja meg spx
vagy spx help
tekintse meg a Speech CLI súgóját.
Betűkészlet korlátozásai
Windows rendszeren a Speech CLI csak olyan betűtípusokat jeleníthet meg, amelyek elérhetők a helyi számítógépen a parancssorban. A Windows Terminal támogatja a Speech CLI által interaktívan előállított összes betűtípust.
Ha fájlba kimenetel, egy szövegszerkesztő, például Jegyzettömb vagy a Microsoft Edge-hez hasonló webböngésző is megjelenítheti az összes betűtípust.
Erőforráskonfiguráció létrehozása
Első lépésként szüksége lesz egy Speech erőforráskulcsra és egy régióazonosítóra (például eastus
: , westus
). Speech-erőforrás létrehozása az Azure Portalon. További információ: Többszolgáltatásos erőforrás létrehozása.
Az erőforráskulcs és a régióazonosító konfigurálásához futtassa a következő parancsokat:
spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION
A kulcs és a régió a jövőbeli Speech CLI-parancsokhoz lesz tárolva. Az aktuális konfiguráció megtekintéséhez futtassa a következő parancsokat:
spx config @key
spx config @region
Szükség esetén adja meg a clear
tárolt értékek eltávolításának lehetőségét:
spx config @key --clear
spx config @region --clear
Alapszintű használat
Fontos
Ha a Speech CLI-t egy tárolóban használja, adja meg a --host
lehetőséget. Azt is meg kell adnia --key none
, hogy a parancssori felület ne használjon beszédkulcsot a hitelesítéshez. Futtassa spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav
például a beszédfelismerést egy hangfájlból a szövegtárolóba.
Ez a szakasz néhány alapvető SPX-parancsot mutat be, amelyek gyakran hasznosak az első teszteléshez és kísérletezéshez. Futtassa a következő parancsot az eszközbeli súgó megtekintéséhez:
spx
A súgótémakörökben kulcsszavak szerint kereshet. A Speech CLI használati példáinak listájának megtekintéséhez futtassa például a következő parancsot:
spx help find --topics "examples"
A parancs beállításainak recognize
megtekintéséhez futtassa a következő parancsot:
spx help recognize
További súgóparancsok szerepelnek a konzol kimenetében. Ezeket a parancsokat beírva részletes segítséget kaphat az alparancsokról.
Beszéd a szöveghez (beszédfelismerés)
Feljegyzés
Nem használhatja a számítógép mikrofonját, amikor a Speech CLI-t egy Docker-tárolón belül futtatja. A hangfájlok azonban a helyi csatlakoztatott könyvtárban olvashatók és menthetők.
A beszéd szöveggé alakításához (beszédfelismerés) a rendszer alapértelmezett mikrofonjával futtassa a következő parancsot:
spx recognize --microphone
A parancs futtatása után az SPX megkezdi a hanghallgatást az aktuális aktív bemeneti eszközön. Nem figyel, amikor az Enter lehetőséget választja. Ezután a rendszer felismeri és szöveggé alakítja a beszélt hangot a konzol kimenetében.
A Speech CLI-vel hangfájlból is felismerheti a beszédet. Futtassa az alábbi parancsot:
spx recognize --file /path/to/file.wav
Tipp.
Ha elakad, vagy többet szeretne megtudni a Speech CLI-felismerési lehetőségekről, futtathatja a parancsot spx help recognize
.
Szövegfelolvasás (beszédszintézis)
A következő parancs bemenetként a szöveget veszi fel, majd a szintetizált beszédet az aktuális aktív kimeneti eszközre (például a számítógép hangszóróira) adja ki.
spx synthesize --text "Testing synthesis using the Speech CLI" --speakers
A szintetizált kimenetet fájlba is mentheti. Ebben a példában hozzunk létre egy my-sample.wav nevű fájlt abban a könyvtárban, ahol a parancsot futtatja.
spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav
Ezek a példák feltételezik, hogy angol nyelven tesztel. A Speech service azonban számos nyelven támogatja a beszédszintézist. A hangok teljes listáját lekérheti az alábbi parancs futtatásával vagy a nyelvi támogatási oldal felkeresésével.
spx synthesize --voices
Íme egy parancs a felderített hangok egyikének használatára.
spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers
Tipp.
Ha elakad, vagy többet szeretne megtudni a Speech CLI-felismerési lehetőségekről, futtathatja a parancsot spx help synthesize
.
Beszédszöveg fordítása
A Speech CLI-vel beszédet is végezhet a szövegfordításhoz. Futtassa az alábbi parancsot az alapértelmezett mikrofon hangjának rögzítéséhez, és adja ki a fordítást szövegként. Ne feledje, hogy meg kell adnia a parancsot és target
a source
translate
nyelvet.
spx translate --microphone --source en-US --target ru-RU
Ha több nyelvre fordít, a nyelvi kódokat pontosvesszővel (;
pontosvesszővel) kell elválasztani.
spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES
Ha menteni szeretné a fordítás kimenetét, használja a jelölőt --output
. Ebben a példában egy fájlból is olvashat.
spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt
Tipp.
Ha elakad, vagy többet szeretne megtudni a Speech CLI-felismerési lehetőségekről, futtathatja a parancsot spx help translate
.