Início rápido: introdução à CLI de Fala da IA do Azure

Artigo
01/22/2024

Neste artigo, você aprenderá a usar a CLI de Fala da IA do Azure (também chamada de SPX) para acessar serviços de Fala como conversão de fala em texto, conversão de texto em fala e tradução de fala sem escrever nenhum código. A CLI de Fala está pronta para produção, e pode ser usada para automatizar fluxos de trabalho simples no Serviço de Fala, usando scripts de shell ou .bat.

Este artigo pressupõe que você tem conhecimento sobre a janela do prompt de comando, o terminal ou o PowerShell.

Observação

No PowerShell, o token de análise de parada (--%) deve seguir spx. Por exemplo, execute spx --% config @region para exibir o valor de configuração da região atual.

Fazer o download e instalar

Siga estas etapas para instalar a CLI de Fala no Windows:

Instale os Pacotes Redistribuíveis do Microsoft Visual C++ para Visual Studio 2019 para a sua plataforma. Quando você os instalar pela primeira vez, poderá ser necessária uma reinicialização.
Instale o .NET 6.

Instale a CLI de Fala usando a CLI do .NET inserindo este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para atualizar a CLI de Fala, insira este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Digite spx ou spx help para ver a ajuda da CLI de Fala.

Limitações de fontes

No Windows, a CLI de Fala só pode mostrar as fontes disponíveis para o prompt de comando do computador local. O Terminal do Windows dá suporte a todas as fontes que a CLI de Fala produz de maneira interativa.

Se você produzir a saída em um arquivo, um editor de texto como o Bloco de notas ou um navegador da Web como o Microsoft Edge também poderá mostrar todas as fontes.

Cuidado

Este artigo faz referência ao CentOS, uma distribuição do Linux que está se aproximando do status de EOL (fim da vida útil). Considere seu uso e planejamento adequadamente. Para obter mais informações, veja a orientação CentOS End Of Life.

As seguintes distribuições do Linux têm suporte para arquiteturas x64 que usam a CLI de Fala:

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Observação

Há suporte para arquiteturas adicionais pelo SDK de Fala (não pela CLI de Fala). Para obter mais informações, confira Sobre o SDK de Fala.

Siga estas etapas para instalar a CLI de Fala no Linux em uma CPU x64:

Instale o .NET 6.

Instale a CLI de Fala usando a CLI do .NET inserindo este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para atualizar a CLI de Fala, insira este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

No Linux RHEL/CentOS, configure o OpenSSL para Linux.
No Linux Ubuntu 20.04, instale o GStreamer.

Digite spx para ver a ajuda da CLI de Fala.

Siga estas etapas para instalar a CLI de Fala no macOS 10.14 ou posterior:

Instale o .NET 6.

Instale a CLI de Fala usando a CLI do .NET inserindo este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para atualizar a CLI de Fala, insira este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Digite spx ou spx help para ver a ajuda da CLI de Fala.

O exemplo a seguir efetua pull de uma imagem de contêiner público do Docker Hub. É recomendável autenticar-se com a conta do Docker Hub (docker login) primeiro, em vez de fazer uma solicitação de pull anônima. Para melhorar a confiabilidade ao usar o conteúdo público, importe e gerencie a imagem em um registro de contêiner privado do Azure. Saiba mais sobre como trabalhar com imagens públicas.

Siga estas etapas para instalar a CLI de Fala em um contêiner do Docker:

Instale o Docker Desktop para sua plataforma, se ainda não estiver instalado.
Em um novo prompt de comando ou terminal, insira este comando:
```
docker pull msftspeech/spx
```

Digite este comando para exibir informações de ajuda para a CLI de Fala:

docker run -it --rm msftspeech/spx help

Montar um diretório no contêiner

A ferramenta CLI de Fala salva as definições de configuração como arquivos. Ela carrega esses arquivos quando você está executando qualquer comando (exceto comandos de ajuda).

Ao usar a CLI de Fala em um contêiner do Docker, você deve montar um diretório local do contêiner para que a ferramenta possa:

Armazenar ou localizar as definições de configuração.
Ler ou gravar todos os arquivos que o comando requer, como arquivos de áudio de fala.

No Windows, digite este comando para criar um diretório local que possa ser usado pela CLI de Fala no contêiner:

mkdir c:\spx-data

No Linux ou no macOS, digite este comando em um terminal para criar um diretório e ver o caminho absoluto dele:

mkdir ~/spx-data
cd ~/spx-data
pwd

Você usará o caminho absoluto ao chamar a CLI de Fala.

Executar a CLI de Fala no contêiner

Esta documentação mostra o comando spx da CLI de Fala usado nas instalações que não são do Docker. Ao chamar o comando spx em um contêiner do Docker, você precisará montar um diretório no contêiner para o sistema de arquivos em que a CLI de Fala possa armazenar e localizar valores de configuração, bem como ler e gravar arquivos.

No Windows, os comandos são iniciados da seguinte maneira:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

No Linux ou no macOS, seus comandos se parecem com o exemplo a seguir. Substitua ABSOLUTE_PATH pelo caminho absoluto do diretório montado. O comando pwd retornou esse caminho na seção anterior. Se você executar esse comando antes de definir sua chave e região, receberá uma mensagem de erro informando que você deve definir sua chave e região.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Para usar o comando spx instalado em um contêiner, sempre insira o comando completo conforme mostrado no exemplo anterior, seguido dos parâmetros da solicitação. Por exemplo, no Windows, este comando define a chave:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Para obter uma interação mais estendida com a ferramenta de linha de comando, inicie um contêiner com um shell do Bash interativo adicionando um parâmetro entrypoint. No Windows, insira este comando para iniciar um contêiner que expõe uma interface de linha de comando interativa, na qual você pode inserir vários comandos spx:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Você pode combinar isso com o Logon do AZ e fazer com que a Inicialização do SPX o guie por meio da criação das chaves de fala e da seleção de uma região de dados correspondente sem precisar usar o portal do Azure. As chaves serão armazenadas automaticamente para uso posterior.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Para começar, você precisa de uma chave de recurso de Fala e um identificador de região (por exemplo, eastus, westus). Crie um recurso de Fala no portal do Azure. Para obter mais informações, confira Criar um recurso multisserviço.

Execute os comandos a seguir para configurar a chave de recurso e o identificador de região:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

A chave e a região são armazenadas para comandos futuros da CLI de Fala. Execute os comandos a seguir para exibir a configuração atual:

spx config @key
spx config @region

Conforme necessário, inclua a opção clear para remover qualquer valor armazenado:

spx config @key --clear
spx config @region --clear

Execute os comandos a seguir no PowerShell para configurar a chave de recurso de Fala e o identificador de região:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

A chave e a região são armazenadas para comandos futuros do SPX. Execute os comandos a seguir para exibir a configuração atual:

spx --% config @key
spx --% config @region

Conforme necessário, inclua a opção clear para remover qualquer valor armazenado:

spx --% config @key --clear
spx --% config @region --clear

Uso básico

Importante

Ao usar a CLI de Fala em um contêiner, inclua a opção--host. Você também deve especificar --key none para garantir que a CLI não tente usar uma chave de Fala para autenticação. Por exemplo, execute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav para reconhecer a fala de um arquivo de áudio em um contêiner de conversão de fala em texto.

Esta seção mostra alguns comandos de SPX básicos que geralmente são úteis para teste e experimentação na primeira vez. Execute o seguinte comando para exibir a ajuda na ferramenta:

spx

Você pode pesquisar os tópicos de ajuda por palavra-chave. Por exemplo, execute o seguinte comando para ver uma lista de exemplos de uso da CLI de Fala:

spx help find --topics "examples"

Para ver as opções do comando recognize, execute o seguinte comando:

spx help recognize

Mais comandos de ajuda são listados na saída do console. Você pode inserir esses comandos para obter ajuda detalhada sobre os subcomandos.

Conversão de fala em texto (reconhecimento de fala)

Observação

Não é possível usar o microfone do computador durante a execução da CLI de Fala em um contêiner do Docker. No entanto, você pode ler e salvar arquivos de áudio em seu diretório montado local.

Execute o comando a seguir para a conversão de fala em texto (reconhecimento de fala) usando o microfone padrão do sistema:

spx recognize --microphone

Depois de executar o comando, o SPX começa a escutar áudio no dispositivo de entrada ativo atual. Ele para de escutar quando você seleciona Enter. Em seguida, o áudio falado é reconhecido e convertido em texto na saída do console.

Com a CLI de Fala, você também pode reconhecer a fala de um arquivo de áudio. Execute o comando a seguir:

spx recognize --file /path/to/file.wav

Dica

Se você tiver dificuldades ou quiser saber mais sobre as opções de reconhecimento da CLI de Fala, poderá executar spx help recognize.

Conversão de texto em fala (síntese de fala)

O comando a seguir usa o texto como entrada e produz a fala sintetizada no dispositivo de saída ativo atual (por exemplo, os alto-falantes do seu computador).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Você também pode salvar a saída sintetizada em um arquivo. Neste exemplo, vamos criar um arquivo chamado my-sample.wav no diretório em que você está executando o comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Esses exemplos presumem que você esteja testando em inglês. No entanto, o serviço de Fala dá suporte à síntese de fala em muitos idiomas. Você pode fazer pull de uma lista completa de vozes executando o comando a seguir ou visitando a página de suporte do idioma.

spx synthesize --voices

Este é um comando para usar uma das vozes que você descobriu.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Dica

Se você tiver dificuldades ou quiser saber mais sobre as opções de reconhecimento da CLI de Fala, poderá executar spx help synthesize.

Tradução de fala em texto

Com a CLI de Fala, você também pode realizar tradução de fala em texto. Execute este comando para capturar áudio do microfone padrão e gerar a tradução como texto. Tenha em mente que você precisa fornecer o idioma source e target com o comando translate.

spx translate --microphone --source en-US --target ru-RU

Quando você estiver traduzindo em vários idiomas, separe os códigos de idioma com um ponto e vírgula (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Se você quiser salvar a saída de sua tradução, use o sinalizador --output. Neste exemplo, você também fará a leitura de um arquivo.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Dica

Se você tiver dificuldades ou quiser saber mais sobre as opções de reconhecimento da CLI de Fala, poderá executar spx help translate.

Início rápido: introdução à CLI de Fala da IA do Azure

Fazer o download e instalar

Limitações de fontes

Montar um diretório no contêiner

Executar a CLI de Fala no contêiner

Criar uma configuração de recurso

Uso básico

Conversão de fala em texto (reconhecimento de fala)

Conversão de texto em fala (síntese de fala)

Tradução de fala em texto

Próximas etapas

Recursos adicionais