Démarrage rapide : Bien démarrer avec l’interface CLI Azure AI Speech

Article
01/22/2024

Dans cet article, vous apprenez à utiliser l’interface CLI Azure AI Speech (également appelée SPX) pour accéder à des services Speech, tels que la reconnaissance vocale, la synthèse vocale et la traduction vocale, sans écrire de code. L’interface CLI Speech est pleinement utilisable en production et peut servir à automatiser des workflows simples dans le service Speech, à l’aide de scripts .bat ou shell.

Cet article suppose que vous avez une bonne connaissance pratique de l’invite de commandes, du terminal ou de PowerShell.

Notes

Dans PowerShell, le jeton d’analyse d’arrêt (--%) doit suivre spx. Par exemple, exécutez spx --% config @region pour afficher la valeur de configuration de la région actuelle.

Télécharger et installer

Procédez ainsi pour installer l’interface CLI Speech sur Windows :

Installez Microsoft Redistributable Visual C++ pour Visual Studio 2019 pour votre plateforme. Son installation pour la première fois peut nécessiter un redémarrage.
Installez .NET 6.
Installez l’interface CLI Speech à l’aide de l’interface CLI .NET en entrant cette commande :
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Pour mettre à jour l’interface CLI Speech, entrez cette commande :
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Entrez spx ou spx help pour afficher l’aide de l’interface CLI Speech.

Limitations des polices

Sur Windows, l’interface CLI de Speech peut afficher uniquement les polices disponibles à l’invite de commandes sur l’ordinateur local. Le Terminal Windows prend en charge toutes les polices produites de manière interactive par l’interface CLI de Speech.

Si la sortie est effectuée dans un fichier, un éditeur de texte tel que le Bloc-notes ou un navigateur web tel que Microsoft Edge peut également afficher toutes les polices.

Attention

Cet article fait référence à CentOS, une distribution Linux proche de l’état EOL (End Of Life). Faites le point sur votre utilisation afin de vous organiser en conséquence. Pour plus d’informations, consultez l’aide sur la fin de vie de CentOS.

Les distributions Linux suivantes sont prises en charge pour les architectures x64 à l’aide de l’interface CLI de Speech :

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Notes

Le Kit SDK Speech (mais pas l’interface CLI de Speech) prend en charge des architectures supplémentaires. Pour plus d’informations, consultez À propos du kit SDK Speech.

Procédez ainsi pour installer l’interface CLI Speech sur Linux, sur un processeur x64 :

Installez .NET 6.
Installez l’interface CLI Speech à l’aide de l’interface CLI .NET en entrant cette commande :
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Pour mettre à jour l’interface CLI Speech, entrez cette commande :
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
Sur RHEL/CentOS Linux, configurez OpenSSL pour Linux.
Sur Ubuntu 20.04 Linux, installez GStreamer.

Entrez spx pour afficher l’aide de l’interface CLI Speech.

Procédez ainsi pour installer l’interface CLI Speech sur MacOS 10.14 ou version ultérieure :

Installez .NET 6.
Installez l’interface CLI Speech à l’aide de l’interface CLI .NET en entrant cette commande :
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Pour mettre à jour l’interface CLI Speech, entrez cette commande :
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Entrez spx ou spx help pour afficher l’aide de l’interface CLI Speech.

L’exemple suivant tire (pull) une image conteneur publique à partir de Docker Hub. Nous vous recommandons de vous authentifier avec votre compte Docker Hub (docker login) au lieu de créer une demande de tirage (pull request) anonyme. Pour une plus grande fiabilité lors de l’utilisation de contenu public, importez et gérez l’image dans un registre de conteneurs Azure privé. En savoir plus sur l’utilisation des images publiques.

Suivez la procédure ci-dessous pour installer l’interface CLI Speech dans un conteneur Docker :

Installez Docker Desktop pour votre plateforme si celui-ci n’est pas déjà installé.
Dans une nouvelle invite de commandes ou un terminal, entrez cette commande :
```
docker pull msftspeech/spx
```

Entrez cette commande pour afficher les informations d’aide de l’interface de commande vocale :

docker run -it --rm msftspeech/spx help

Monter un répertoire dans le conteneur

L’outil CLI Speech enregistre les paramètres de configuration sous forme de fichiers. Il charge ces fichiers lorsque vous exécutez une commande (à l’exception des commandes d’aide).

Lorsque vous utilisez l’interface de commande vocale dans un conteneur Docker, vous devez monter un répertoire local à partir du conteneur, afin que l’outil puisse :

Stocker ou rechercher les paramètres de configuration.
Lire ou écrire tous les fichiers requis par la commande, comme les fichiers audio de parole.

Sur Windows, entrez la commande suivante pour créer un répertoire local que l’interface CLI Speech peut utiliser au sein du conteneur :

mkdir c:\spx-data

Sur Linux ou macOS, entrez cette commande dans un terminal pour créer un répertoire et voir son chemin absolu :

mkdir ~/spx-data
cd ~/spx-data
pwd

Vous utilisez le chemin d’accès absolu lorsque vous appelez l’interface CLI Speech.

Exécuter l’interface CLI Speech dans le conteneur

Cette documentation porte sur la commande spx CLI Speech utilisée dans les installations autres que Docker. Lors de l’appel de la commande spx dans un conteneur Docker, vous devez monter un répertoire du conteneur dans le système de fichiers pour permettre à l’interface CLI Speech de stocker et de rechercher des valeurs de configuration, et de lire et d’écrire des fichiers.

Sur Windows, vos commandes commencent comme suit :

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

Sur Linux ou macOS, vos commandes ressemblent à l’exemple suivant. Remplacez ABSOLUTE_PATH par le chemin absolu de votre répertoire monté. La commande pwd a retourné ce chemin d’accès dans la section précédente. Si vous exécutez cette commande avant de définir votre clé et votre région, vous obtiendrez un message d’erreur vous indiquant que vous devez définir votre clé et votre région.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Pour utiliser la commande spx installée dans un conteneur, entrez toujours la commande complète comme dans l’exemple précédent, suivie des paramètres de votre requête. Par exemple, sur Windows, cette commande définit votre clé :

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Pour obtenir une interaction plus étendue avec l’outil en ligne de commande, vous pouvez démarrer un conteneur avec un interpréteur de commandes Bash interactif en ajoutant un paramètre entrypoint. Dans Windows, entrez cette commande pour démarrer un conteneur qui expose une interface de ligne de commande interactive dans laquelle vous pouvez entrer plusieurs commandes spx :

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Vous pouvez combiner cela avec AZ Login et laisser SPX Init vous guider tout au long de la création des clés vocales et de la sélection d’une région de données correspondante sans avoir à utiliser le Portail Azure. Les clés seront automatiquement stockées pour une utilisation ultérieure.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Pour commencer, vous avez besoin d’une clé de ressource vocale et d’un identificateur de région (par exemple, eastus, westus). Créez une ressource Speech dans le portail Azure. Pour plus d’informations, consultez Créer une ressource multiservices.

Exécutez les commandes suivantes pour configurer votre clé de ressource et l’identificateur de la région :

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

La clé et la région sont stockées pour les futures commandes de l’interface de commande Speech. Exécutez les commandes suivantes pour afficher la configuration actuelle :

spx config @key
spx config @region

Si nécessaire, incluez l’option clear permettant de supprimer une valeur stockée :

spx config @key --clear
spx config @region --clear

Exécutez les commandes suivantes dans PowerShell pour configurer votre clé de ressource vocale et l’identificateur de la région :

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

La clé et la région sont stockées pour les futures commandes de l’interface de commande SPX. Exécutez les commandes suivantes pour afficher la configuration actuelle :

spx --% config @key
spx --% config @region

Si nécessaire, incluez l’option clear permettant de supprimer une valeur stockée :

spx --% config @key --clear
spx --% config @region --clear

Utilisation de base

Important

Lorsque vous utilisez l’interface CLI Speech dans un conteneur, incluez l’option --host. Vous devez également spécifier --key none pour vous assurer que l’interface de ligne de commande n’essaie pas d’utiliser une clé Speech pour l’authentification. Par exemple, exécutez spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav pour reconnaître la voix d’un fichier audio dans un conteneur de reconnaissance vocale.

Cette section présente quelques commandes SPX de base qui sont souvent utiles pour les premiers tests et les premières expérimentations. Exécutez la commande suivante pour voir l’aide dans l’outil :

spx

Vous pouvez rechercher des rubriques d’aide par mot clé. Par exemple, exécutez la commande suivante pour afficher une liste d’exemples d’utilisation de l’interface de commande Speech :

spx help find --topics "examples"

Pour voir les options de la commande recognize, exécutez la commande suivante :

spx help recognize

D’autres commandes d’aide sont listées dans la sortie de la console. Vous pouvez entrer ces commandes pour obtenir une aide détaillée sur les sous-commandes.

Reconnaissance vocale

Notes

Vous ne pouvez pas utiliser le micro de votre ordinateur lorsque vous exécutez l’interface CLI de Speech dans un conteneur Docker. Toutefois, vous pouvez lire et enregistrer des fichiers audio dans votre répertoire monté local.

Exécutez cette commande pour convertir la parole en texte (reconnaissance vocale) à l’aide du microphone par défaut de votre système :

spx recognize --microphone

Après l’exécution de la commande, SPX commence à écouter l’audio sur le périphérique d’entrée actif actuel. Il cesse d’écouter quand vous sélectionnez Entrée. L’audio parlé est alors reconnu et converti en texte dans la sortie de la console.

Avec l’interface CLI Speech, vous pouvez aussi effectuer une reconnaissance vocale à partir d’un fichier audio. Exécutez la commande suivante :

spx recognize --file /path/to/file.wav

Conseil

N’oubliez pas que si vous êtes bloqué ou que vous souhaitez en savoir plus sur les options de reconnaissance de l’interface CLI Speech, vous pouvez exécuter spx help recognize.

Synthèse vocale

La commande suivante prend le texte en entrée et génère la synthèse vocale sur l’appareil de sortie actif (par exemple, les haut-parleurs de votre ordinateur).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Vous pouvez aussi enregistrer la sortie synthétisée dans un fichier. Dans cet exemple, nous allons créer un fichier nommé my-sample.wav dans le répertoire où vous exécutez la commande.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Ces exemples supposent que vous testez en anglais. Toutefois, le service Speech prend en charge la synthèse vocale dans de nombreuses langues. Vous pouvez extraire une liste complète des voix en exécutant la commande suivante ou en visitant la page de prise en charge des langues.

spx synthesize --voices

Voici une commande permettant d’utiliser l’une des voix que vous avez découvertes.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Conseil

N’oubliez pas que si vous êtes bloqué ou que vous souhaitez en savoir plus sur les options de reconnaissance de l’interface CLI Speech, vous pouvez exécuter spx help synthesize.

Traduction par reconnaissance vocale

Avec l’interface CLI Speech, vous pouvez aussi effectuer une traduction par reconnaissance vocale. Exécutez la commande suivante pour capturer le son à partir de votre microphone par défaut et générer la traduction sous forme de texte. Gardez à l’esprit que vous devez indiquer les langues source et target avec la commande translate.

spx translate --microphone --source en-US --target ru-RU

Lorsque vous effectuez une conversion en plusieurs langues, séparez les codes de langue par point-virgule (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Si vous souhaitez enregistrer la sortie de votre traduction, utilisez l’indicateur --output. Dans cet exemple, vous lisez aussi à partir d’un fichier.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Conseil

N’oubliez pas que si vous êtes bloqué ou que vous souhaitez en savoir plus sur les options de reconnaissance de l’interface CLI Speech, vous pouvez exécuter spx help translate.

Démarrage rapide : Bien démarrer avec l’interface CLI Azure AI Speech

Télécharger et installer

Limitations des polices

Monter un répertoire dans le conteneur

Exécuter l’interface CLI Speech dans le conteneur

Créer une configuration de ressource

Utilisation de base

Reconnaissance vocale

Synthèse vocale

Traduction par reconnaissance vocale

Étapes suivantes

Ressources supplémentaires