快速入門:開始使用 Azure AI 語音 CLI
在本文中,您將瞭解如何使用 Azure AI 語音 CLI(也稱為 SPX)來存取語音服務,例如語音轉換文字、文字到語音轉換和語音翻譯,而不需要撰寫任何程式代碼。 語音 CLI 已準備就緒,您可以使用 或 Shell 腳本,將語音服務 .bat
中的簡單工作流程自動化。
本文假設您具備命令提示字元視窗、終端機或 PowerShell 的工作知識。
注意
在 PowerShell 中 ,停止剖析權杖 (--%
) 應該遵循 spx
。 例如,執行 spx --% config @region
以檢視目前的區域組態值。
下載並安裝
請遵循下列步驟在 Windows 上安裝語音 CLI:
為您的平臺安裝適用於 Visual Studio 2019 的 Microsoft C++ 可轉散發套件。 第一次安裝它可能需要重新啟動。
安裝 .NET 6。
輸入下列命令,透過 .NET CLI 安裝語音 CLI:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
若要更新語音 CLI,請輸入下列命令:
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
輸入 spx
或 spx help
以查看語音 CLI 的說明。
字型限制
在 Windows 上,語音 CLI 只能顯示本機電腦上命令提示字元可用的字型。 Windows 終端機 支援語音 CLI 以互動方式產生的所有字型。
如果您輸出至檔案,記事本 之類的文本編輯器或 Microsoft Edge 之類的網頁瀏覽器也可以顯示所有字型。
建立資源組態
若要開始使用,您需要語音資源金鑰和區域識別碼(例如, eastus
westus
。 在 Azure 入口網站上建立語音資源。 如需詳細資訊,請參閱建立多服務資源。
若要設定您的資源金鑰和區域識別碼,請執行下列命令:
spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION
金鑰和區域會儲存在未來的語音 CLI 命令中。 若要檢視目前的組態,請執行下列命令:
spx config @key
spx config @region
視需要包含 clear
移除任一預存值的選項:
spx config @key --clear
spx config @region --clear
基本使用方式
重要
當您在容器中使用語音 CLI 時,請包含 --host
選項。 您也必須指定 --key none
來確保 CLI 不會嘗試使用語音金鑰進行驗證。 例如,執行 spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav
以從語音轉換文字容器中的音訊檔案辨識語音。
本節說明一些適用於第一次測試和實驗的基本 SPX 命令。 執行下列命令以檢視工具內說明:
spx
您可以依關鍵詞搜尋說明主題。 例如,若要查看語音 CLI 使用範例清單,請執行下列命令:
spx help find --topics "examples"
若要查看命令的選項 recognize
,請執行下列命令:
spx help recognize
主控台輸出中會列出更多說明命令。 您可以輸入這些命令,以取得子命令的詳細說明。
語音轉換文字 (語音辨識)
注意
當您在 Docker 容器內執行語音 CLI 時,無法使用電腦的麥克風。 不過,您可以在本機掛接的目錄中讀取和儲存音訊檔案。
若要使用系統的預設麥克風將語音轉換成文字(語音辨識),請執行下列命令:
spx recognize --microphone
執行命令之後,SPX 會開始接聽目前使用中輸入裝置上的音訊。 當您選取 Enter 時,它會停止接聽。 接著,口語音頻會辨識並轉換成控制台輸出中的文字。
使用語音 CLI,您也可以從音訊檔案辨識語音。 執行以下命令:
spx recognize --file /path/to/file.wav
提示
如果您遇到停滯或想要深入了解語音 CLI 辨識選項,您可以執行 spx help recognize
。
文字到語音轉換(語音合成)
下列命令會接受文字作為輸入,然後將合成的語音輸出到目前的使用中輸出裝置(例如您的電腦喇叭)。
spx synthesize --text "Testing synthesis using the Speech CLI" --speakers
您也可以將合成輸出儲存至檔案。 在此範例中,讓我們在執行命令的目錄中建立名為 my-sample.wav 的檔案。
spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav
這些範例假設您要以英文測試。 不過,語音服務支援多種語言的語音合成。 您可以執行下列命令或瀏覽 語言支援頁面,來提取完整的語音清單。
spx synthesize --voices
以下是使用您探索到的其中一個語音的命令。
spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers
提示
如果您遇到停滯或想要深入了解語音 CLI 辨識選項,您可以執行 spx help synthesize
。
語音轉換文字翻譯
使用語音 CLI,您也可以執行語音轉換文字翻譯。 執行下列命令,從預設麥克風擷取音訊,並將翻譯輸出為文字。 請記住,您需要使用 translate
命令來提供 source
和 target
語言。
spx translate --microphone --source en-US --target ru-RU
當您翻譯成多種語言時,請以分號分隔語言代碼(;
)。
spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'
如果您想要儲存翻譯的輸出,請使用 --output
旗標。 在此範例中,您也會從檔案讀取。
spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt
提示
如果您遇到停滯或想要深入了解語音 CLI 辨識選項,您可以執行 spx help translate
。