Início rápido: introdução à CLI de Fala da IA do Azure

Neste artigo, você aprenderá a usar a CLI de Fala da IA do Azure (também chamada de SPX) para acessar serviços de Fala como conversão de fala em texto, conversão de texto em fala e tradução de fala sem escrever nenhum código. A CLI de Fala está pronta para produção, e pode ser usada para automatizar fluxos de trabalho simples no Serviço de Fala, usando scripts de shell ou .bat.

Este artigo pressupõe que você tem conhecimento sobre a janela do prompt de comando, o terminal ou o PowerShell.

Observação

No PowerShell, o token de análise de parada (--%) deve seguir spx. Por exemplo, execute spx --% config @region para exibir o valor de configuração da região atual.

Fazer o download e instalar

Siga estas etapas para instalar a CLI de Fala no Windows:

  1. Instale os Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2019 para a sua plataforma. Quando você os instalar pela primeira vez, poderá ser necessária uma reinicialização.

  2. Instale o .NET 6.

  3. Instale a CLI de Fala usando a CLI do .NET inserindo este comando:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Para atualizar a CLI de Fala, insira este comando:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Digite spx ou spx help para ver a ajuda da CLI de Fala.

Limitações de fontes

No Windows, a CLI de Fala só pode mostrar as fontes disponíveis para o prompt de comando do computador local. O Terminal do Windows dá suporte a todas as fontes que a CLI de Fala produz de maneira interativa.

Se você produzir a saída em um arquivo, um editor de texto como o Bloco de notas ou um navegador da Web como o Microsoft Edge também poderá mostrar todas as fontes.

Criar uma configuração de recurso

Para começar, você precisa de uma chave de recurso de Fala e um identificador de região (por exemplo, eastus, westus). Crie um recurso de Fala no portal do Azure. Para obter mais informações, confira Criar um recurso multisserviço.

Execute os comandos a seguir para configurar a chave de recurso e o identificador de região:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

A chave e a região são armazenadas para comandos futuros da CLI de Fala. Execute os comandos a seguir para exibir a configuração atual:

spx config @key
spx config @region

Conforme necessário, inclua a opção clear para remover qualquer valor armazenado:

spx config @key --clear
spx config @region --clear

Uso básico

Importante

Ao usar a CLI de Fala em um contêiner, inclua a opção--host. Você também deve especificar --key none para garantir que a CLI não tente usar uma chave de Fala para autenticação. Por exemplo, execute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav para reconhecer a fala de um arquivo de áudio em um contêiner de conversão de fala em texto.

Esta seção mostra alguns comandos de SPX básicos que geralmente são úteis para teste e experimentação na primeira vez. Execute o seguinte comando para exibir a ajuda na ferramenta:

spx

Você pode pesquisar os tópicos de ajuda por palavra-chave. Por exemplo, execute o seguinte comando para ver uma lista de exemplos de uso da CLI de Fala:

spx help find --topics "examples"

Para ver as opções do comando recognize, execute o seguinte comando:

spx help recognize

Mais comandos de ajuda são listados na saída do console. Você pode inserir esses comandos para obter ajuda detalhada sobre os subcomandos.

Conversão de fala em texto (reconhecimento de fala)

Observação

Não é possível usar o microfone do computador durante a execução da CLI de Fala em um contêiner do Docker. No entanto, você pode ler e salvar arquivos de áudio em seu diretório montado local.

Execute o comando a seguir para a conversão de fala em texto (reconhecimento de fala) usando o microfone padrão do sistema:

spx recognize --microphone

Depois de executar o comando, o SPX começa a escutar áudio no dispositivo de entrada ativo atual. Ele para de escutar quando você seleciona Enter. Em seguida, o áudio falado é reconhecido e convertido em texto na saída do console.

Com a CLI de Fala, você também pode reconhecer a fala de um arquivo de áudio. Execute o comando a seguir:

spx recognize --file /path/to/file.wav

Dica

Se você tiver dificuldades ou quiser saber mais sobre as opções de reconhecimento da CLI de Fala, poderá executar spx help recognize.

Conversão de texto em fala (síntese de fala)

O comando a seguir usa o texto como entrada e produz a fala sintetizada no dispositivo de saída ativo atual (por exemplo, os alto-falantes do seu computador).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Você também pode salvar a saída sintetizada em um arquivo. Neste exemplo, vamos criar um arquivo chamado my-sample.wav no diretório em que você está executando o comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Esses exemplos presumem que você esteja testando em inglês. No entanto, o serviço de Fala dá suporte à síntese de fala em muitos idiomas. Você pode fazer pull de uma lista completa de vozes executando o comando a seguir ou visitando a página de suporte do idioma.

spx synthesize --voices

Este é um comando para usar uma das vozes que você descobriu.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Dica

Se você tiver dificuldades ou quiser saber mais sobre as opções de reconhecimento da CLI de Fala, poderá executar spx help synthesize.

Tradução de fala em texto

Com a CLI de Fala, você também pode realizar tradução de fala em texto. Execute este comando para capturar áudio do microfone padrão e gerar a tradução como texto. Tenha em mente que você precisa fornecer o idioma source e target com o comando translate.

spx translate --microphone --source en-US --target ru-RU

Quando você estiver traduzindo em vários idiomas, separe os códigos de idioma com um ponto e vírgula (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Se você quiser salvar a saída de sua tradução, use o sinalizador --output. Neste exemplo, você também fará a leitura de um arquivo.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Dica

Se você tiver dificuldades ou quiser saber mais sobre as opções de reconhecimento da CLI de Fala, poderá executar spx help translate.

Próximas etapas