快速入門:開始使用 Azure AI 語音 CLI

在本文中,您將瞭解如何使用 Azure AI 語音 CLI(也稱為 SPX)來存取語音服務,例如語音轉換文字、文字到語音轉換和語音翻譯,而不需要撰寫任何程式代碼。 語音 CLI 已準備就緒,您可以使用 或 Shell 腳本,將語音服務 .bat 中的簡單工作流程自動化。

本文假設您具備命令提示字元視窗、終端機或 PowerShell 的工作知識。

注意

在 PowerShell 中 ,停止剖析權杖--%) 應該遵循 spx。 例如,執行 spx --% config @region 以檢視目前的區域組態值。

下載並安裝

請遵循下列步驟在 Windows 上安裝語音 CLI:

  1. 為您的平臺安裝適用於 Visual Studio 2019 的 Microsoft C++ 可轉散發套件。 第一次安裝它可能需要重新啟動。

  2. 安裝 .NET 6

  3. 輸入下列命令,透過 .NET CLI 安裝語音 CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    若要更新語音 CLI,請輸入下列命令:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

輸入 spxspx help 以查看語音 CLI 的說明。

字型限制

在 Windows 上,語音 CLI 只能顯示本機電腦上命令提示字元可用的字型。 Windows 終端機 支援語音 CLI 以互動方式產生的所有字型。

如果您輸出至檔案,記事本 之類的文本編輯器或 Microsoft Edge 之類的網頁瀏覽器也可以顯示所有字型。

建立資源組態

若要開始使用,您需要語音資源金鑰和區域識別碼(例如, eastuswestus。 在 Azure 入口網站上建立語音資源。 如需詳細資訊,請參閱建立多服務資源

若要設定您的資源金鑰和區域識別碼,請執行下列命令:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

金鑰和區域會儲存在未來的語音 CLI 命令中。 若要檢視目前的組態,請執行下列命令:

spx config @key
spx config @region

視需要包含 clear 移除任一預存值的選項:

spx config @key --clear
spx config @region --clear

基本使用方式

重要

當您在容器中使用語音 CLI 時,請包含 --host 選項。 您也必須指定 --key none 來確保 CLI 不會嘗試使用語音金鑰進行驗證。 例如,執行 spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav 以從語音轉換文字容器中的音訊檔案辨識語音。

本節說明一些適用於第一次測試和實驗的基本 SPX 命令。 執行下列命令以檢視工具內說明:

spx

您可以依關鍵詞搜尋說明主題。 例如,若要查看語音 CLI 使用範例清單,請執行下列命令:

spx help find --topics "examples"

若要查看命令的選項 recognize ,請執行下列命令:

spx help recognize

主控台輸出中會列出更多說明命令。 您可以輸入這些命令,以取得子命令的詳細說明。

語音轉換文字 (語音辨識)

注意

當您在 Docker 容器內執行語音 CLI 時,無法使用電腦的麥克風。 不過,您可以在本機掛接的目錄中讀取和儲存音訊檔案。

若要使用系統的預設麥克風將語音轉換成文字(語音辨識),請執行下列命令:

spx recognize --microphone

執行命令之後,SPX 會開始接聽目前使用中輸入裝置上的音訊。 當您選取 Enter 時,它會停止接聽。 接著,口語音頻會辨識並轉換成控制台輸出中的文字。

使用語音 CLI,您也可以從音訊檔案辨識語音。 執行以下命令:

spx recognize --file /path/to/file.wav

提示

如果您遇到停滯或想要深入了解語音 CLI 辨識選項,您可以執行 spx help recognize

文字到語音轉換(語音合成)

下列命令會接受文字作為輸入,然後將合成的語音輸出到目前的使用中輸出裝置(例如您的電腦喇叭)。

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

您也可以將合成輸出儲存至檔案。 在此範例中,讓我們在執行命令的目錄中建立名為 my-sample.wav 的檔案。

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

這些範例假設您要以英文測試。 不過,語音服務支援多種語言的語音合成。 您可以執行下列命令或瀏覽 語言支援頁面,來提取完整的語音清單。

spx synthesize --voices

以下是使用您探索到的其中一個語音的命令。

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

提示

如果您遇到停滯或想要深入了解語音 CLI 辨識選項,您可以執行 spx help synthesize

語音轉換文字翻譯

使用語音 CLI,您也可以執行語音轉換文字翻譯。 執行下列命令,從預設麥克風擷取音訊,並將翻譯輸出為文字。 請記住,您需要使用 translate 命令來提供 sourcetarget 語言。

spx translate --microphone --source en-US --target ru-RU

當您翻譯成多種語言時,請以分號分隔語言代碼(;)。

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

如果您想要儲存翻譯的輸出,請使用 --output 旗標。 在此範例中,您也會從檔案讀取。

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

提示

如果您遇到停滯或想要深入了解語音 CLI 辨識選項,您可以執行 spx help translate

下一步