Share via


Démarrage rapide : créer des sous-titres à l’aide de la reconnaissance vocale

Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.

Conseil

Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.

Prérequis

Configurer l’environnement

Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Ce guide vous invite à installer le SDK Speech plus tard. Consultez d’abord le guide d’installation du SDK pour connaître les éventuelles autres exigences.

Vous devez également installer GStreamer pour compresser l’audio en entrée.

Définir des variables d’environnement

Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.

Conseil

N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.

Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.

  • Pour définir la variable d’environnement SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource.
  • Pour définir la variable d’environnement SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Remarque

Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set au lieu de setx.

Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.

Créer des sous-titres à partir de la parole

Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.

  1. Copiez les exemples de fichiers scenarios/csharp/dotnetcore/captioning/ à partir de GitHub. Si Git est installé, ouvrez une invite de commandes et exécutez la commande git clone pour télécharger le dépôt d’exemples du SDK Speech.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Ouvrez une invite de commandes et accédez au répertoire du projet.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Générez le projet avec l’interface CLI .NET.
    dotnet build
    
  4. Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Important

    Vérifiez que les chemins spécifiés par --input et --output sont valides. Sinon, vous devez modifier les chemins d’accès.

    Vérifiez que vous avez défini les variables d’environnement SPEECH_KEY et SPEECH_REGION comme décrit ci-dessus. Sinon, utilisez les arguments --key et --region.

Vérifier les résultats

Quand vous utilisez l’option realTime dans l’exemple ci-dessus, les résultats partiels des événements Recognizing sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing et Recognized. Pour plus d’informations, consultez Obtenir des résultats partiels.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quand vous utilisez l’option --offline, les résultats sont stables à partir de l’événement Recognized final. Les résultats partiels ne sont pas inclus dans la sortie :

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff. Pour plus d’informations, consultez Format de sortie de sous-titre.

Utilisation et arguments

Utilisation : captioning --input <input file>

Les options de connexion sont les suivantes :

  • --key : clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --key.
  • --region REGION : région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --region. Exemples : westus, northeurope

Les options d’entrée sont les suivantes :

  • --input FILE : audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.
  • --format FORMAT : utiliser le format audio compressé. Valide uniquement avec --file. Les valeurs valides sont alaw, any, flac, mp3, mulaw et ogg_opus. La valeur par défaut est any. Pour utiliser un fichier wav, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.

Les options de langue sont les suivantes :

  • --language LANG : Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut est en-US.

Les options de reconnaissance sont les suivantes :

  • --offline : Génère des résultats hors connexion. Substitue --realTime. Le mode de sortie par défaut est hors connexion.
  • --realTime : Génère des résultats en temps réel.

La sortie en temps réel inclut les résultats des événements Recognizing. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.

Les options de précision sont les suivantes :

Les options de sortie sont les suivantes :

  • --help : afficher cette aide et arrêter
  • --output FILE : générer des sous-titres dans le file spécifié. Cet indicateur est obligatoire.
  • --srt : générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.
  • --maxLineLength LENGTH : Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).
  • --lines LINES : Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.
  • --delay MILLISECONDS : Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --remainTime MILLISECONDS : Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --quiet : supprimer la sortie de la console, à l’exception des erreurs.
  • --profanity OPTION : les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.
  • --threshold NUMBER : définir un seuil de résultat partiel stable. La valeur par défaut est 3. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référence | Package (NuGet) | Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.

Conseil

Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.

Prérequis

Configurer l’environnement

Le kit de développement logiciel (SDK) Speech est disponible en tant que package NuGet et implémente .NET Standard 2.0. Ce guide vous invite à installer le SDK Speech plus tard. Consultez d’abord le guide d’installation du SDK pour connaître les éventuelles autres exigences.

Vous devez également installer GStreamer pour compresser l’audio en entrée.

Définir des variables d’environnement

Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.

Conseil

N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.

Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.

  • Pour définir la variable d’environnement SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource.
  • Pour définir la variable d’environnement SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Remarque

Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set au lieu de setx.

Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.

Créer des sous-titres à partir de la parole

Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage avec Visual Studio Community 2022 sur Windows.

  1. Téléchargez ou copiez les fichiers d’exemple scenarios/cpp/windows/captioning/ de GitHub dans un répertoire local.

  2. Ouvrez le fichier de solution captioning.sln dans Visual Studio Community 2022.

  3. Installez le SDK Speech dans votre projet avec le gestionnaire de package NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Ouvrez Projet>Propriétés>Généralités. Définissez Configuration sur All configurations. Définissez C++ Language Standard sur ISO C++17 Standard (/std:c++17).

  5. Ouvrez Générer>Gestionnaire de configurations.

    • Sur une installation de Windows 64 bits, définissez la plateforme de solution active sur x64.
    • Sur une installation de Windows 32 bits, définissez la plateforme de solution active sur x86.
  6. Ouvrez Projet>Propriétés>Débogage. Entrez vos arguments de ligne de commande préférés à l’adresse Arguments de commande. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Important

    Vérifiez que les chemins spécifiés par --input et --output sont valides. Sinon, vous devez modifier les chemins d’accès.

    Vérifiez que vous avez défini les variables d’environnement SPEECH_KEY et SPEECH_REGION comme décrit ci-dessus. Sinon, utilisez les arguments --key et --region.

  7. Créez et exécutez l’application console.

Vérifier les résultats

Quand vous utilisez l’option realTime dans l’exemple ci-dessus, les résultats partiels des événements Recognizing sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing et Recognized. Pour plus d’informations, consultez Obtenir des résultats partiels.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quand vous utilisez l’option --offline, les résultats sont stables à partir de l’événement Recognized final. Les résultats partiels ne sont pas inclus dans la sortie :

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff. Pour plus d’informations, consultez Format de sortie de sous-titre.

Utilisation et arguments

Utilisation : captioning --input <input file>

Les options de connexion sont les suivantes :

  • --key : clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --key.
  • --region REGION : région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --region. Exemples : westus, northeurope

Les options d’entrée sont les suivantes :

  • --input FILE : audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.
  • --format FORMAT : utiliser le format audio compressé. Valide uniquement avec --file. Les valeurs valides sont alaw, any, flac, mp3, mulaw et ogg_opus. La valeur par défaut est any. Pour utiliser un fichier wav, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.

Les options de langue sont les suivantes :

  • --language LANG : Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut est en-US.

Les options de reconnaissance sont les suivantes :

  • --offline : Génère des résultats hors connexion. Substitue --realTime. Le mode de sortie par défaut est hors connexion.
  • --realTime : Génère des résultats en temps réel.

La sortie en temps réel inclut les résultats des événements Recognizing. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.

Les options de précision sont les suivantes :

Les options de sortie sont les suivantes :

  • --help : afficher cette aide et arrêter
  • --output FILE : générer des sous-titres dans le file spécifié. Cet indicateur est obligatoire.
  • --srt : générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.
  • --maxLineLength LENGTH : Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).
  • --lines LINES : Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.
  • --delay MILLISECONDS : Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --remainTime MILLISECONDS : Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --quiet : supprimer la sortie de la console, à l’exception des erreurs.
  • --profanity OPTION : les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.
  • --threshold NUMBER : définir un seuil de résultat partiel stable. La valeur par défaut est 3. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référence | Package (Go) | Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.

Conseil

Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.

Prérequis

Configurer l’environnement

Vérifiez s’il existe une procédure d’installation spécifique à la plateforme.

Vous devez également installer GStreamer pour compresser l’audio en entrée.

Créer des sous-titres à partir de la parole

Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.

  1. Téléchargez ou copiez les fichiers d’exemple scenarios/go/captioning/ de GitHub dans un répertoire local.

  2. Ouvrez une invite de commandes dans le même répertoire que captioning.go.

  3. Exécutez les commandes suivantes pour créer un fichier go.mod lié aux composants du SDK Speech hébergés sur GitHub :

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Générez le module GO.

    go build
    
  5. Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Remplacez YourSubscriptionKey par la clé de votre ressource Speech et YourServiceRegion par la région de votre ressource Speech, telle que westus ou northeurope. Vérifiez que les chemins spécifiés par --input et --output sont valides. Sinon, vous devez modifier les chemins d’accès.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité d’Azure AI services.

Vérifier les résultats

Le fichier de sortie avec les sous-titres complets est écrit dans caption.output.txt. Des résultats intermédiaires apparaissent dans la console :

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff. Pour plus d’informations, consultez Format de sortie de sous-titre.

Utilisation et arguments

Utilisation : go run captioning.go helper.go --key <key> --region <region> --input <input file>

Les options de connexion sont les suivantes :

  • --key : clé de votre ressource Speech.
  • --region REGION : région de votre ressource Speech. Exemples : westus, northeurope

Les options d’entrée sont les suivantes :

  • --input FILE : audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.
  • --format FORMAT : utiliser le format audio compressé. Valide uniquement avec --file. Les valeurs valides sont alaw, any, flac, mp3, mulaw et ogg_opus. La valeur par défaut est any. Pour utiliser un fichier wav, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.

Les options de langue sont les suivantes :

  • --languages LANG1,LANG2 : activer l’identification de langue pour les langues spécifiées. Par exemple : en-US,ja-JP. Cette option est disponible uniquement avec les exemples de sous-titrage C++, C# et Python. Pour plus d’informations, consultez Identification de la langue.

Les options de reconnaissance sont les suivantes :

  • --recognizing : sortie des résultats d’événement Recognizing. La sortie par défaut correspond aux résultats d’événement Recognized uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.

Les options de précision sont les suivantes :

Les options de sortie sont les suivantes :

  • --help : afficher cette aide et arrêter
  • --output FILE : générer des sous-titres dans le file spécifié. Cet indicateur est obligatoire.
  • --srt : générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.
  • --quiet : supprimer la sortie de la console, à l’exception des erreurs.
  • --profanity OPTION : les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.
  • --threshold NUMBER : définir un seuil de résultat partiel stable. La valeur par défaut est 3. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référence | Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.

Conseil

Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.

Prérequis

Configurer l’environnement

Avant de pouvoir faire quoi que ce soit, vous avez besoin d’installer le SDK Speech. L’exemple donné dans ce guide de démarrage rapide fonctionne avec la build Microsoft d’OpenJDK 17.

  1. Installez Apache Maven. Exécutez ensuite mvn -v pour confirmer la réussite de l’installation.
  2. Créez un fichier pom.xml à la racine de votre projet, puis copiez-y ce qui suit :
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.37.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Installez le SDK Speech et les dépendances.
    mvn clean dependency:copy-dependencies
    
  4. Vous devez également installer GStreamer pour compresser l’audio en entrée.

Définir des variables d’environnement

Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.

Conseil

N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.

Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.

  • Pour définir la variable d’environnement SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource.
  • Pour définir la variable d’environnement SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Remarque

Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set au lieu de setx.

Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.

Créer des sous-titres à partir de la parole

Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.

  1. Copiez les scenarios/java/jre/console/captioning/ de GitHub dans le répertoire de votre projet. Le fichier pom.xml que vous avez créé dans la configuration de l’environnement doit également se trouver dans ce répertoire.
  2. Ouvrez une invite de commandes et exécutez cette commande pour compiler les fichiers du projet.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Important

    Vérifiez que les chemins spécifiés par --input et --output sont valides. Sinon, vous devez modifier les chemins d’accès.

    Vérifiez que vous avez défini les variables d’environnement SPEECH_KEY et SPEECH_REGION comme décrit ci-dessus. Sinon, utilisez les arguments --key et --region.

Vérifier les résultats

Quand vous utilisez l’option realTime dans l’exemple ci-dessus, les résultats partiels des événements Recognizing sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing et Recognized. Pour plus d’informations, consultez Obtenir des résultats partiels.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quand vous utilisez l’option --offline, les résultats sont stables à partir de l’événement Recognized final. Les résultats partiels ne sont pas inclus dans la sortie :

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff. Pour plus d’informations, consultez Format de sortie de sous-titre.

Utilisation et arguments

Utilisation : java -cp ".;target\dependency\*" Captioning --input <input file>

Les options de connexion sont les suivantes :

  • --key : clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --key.
  • --region REGION : région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --region. Exemples : westus, northeurope

Les options d’entrée sont les suivantes :

  • --input FILE : audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.
  • --format FORMAT : utiliser le format audio compressé. Valide uniquement avec --file. Les valeurs valides sont alaw, any, flac, mp3, mulaw et ogg_opus. La valeur par défaut est any. Pour utiliser un fichier wav, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.

Les options de langue sont les suivantes :

  • --language LANG : Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut est en-US.

Les options de reconnaissance sont les suivantes :

  • --offline : Génère des résultats hors connexion. Substitue --realTime. Le mode de sortie par défaut est hors connexion.
  • --realTime : Génère des résultats en temps réel.

La sortie en temps réel inclut les résultats des événements Recognizing. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.

Les options de précision sont les suivantes :

Les options de sortie sont les suivantes :

  • --help : afficher cette aide et arrêter
  • --output FILE : générer des sous-titres dans le file spécifié. Cet indicateur est obligatoire.
  • --srt : générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.
  • --maxLineLength LENGTH : Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).
  • --lines LINES : Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.
  • --delay MILLISECONDS : Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --remainTime MILLISECONDS : Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --quiet : supprimer la sortie de la console, à l’exception des erreurs.
  • --profanity OPTION : les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.
  • --threshold NUMBER : définir un seuil de résultat partiel stable. La valeur par défaut est 3. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référence | Package (npm) | Exemples supplémentaires sur GitHub | Code source de la bibliothèque

Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.

Conseil

Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.

Prérequis

Configurer l’environnement

Avant de pouvoir faire quoi que ce soit, vous devez installer le SDK Speech pour JavaScript. Si vous voulez simplement le nom du package pour effectuer l’installation, exécutez npm install microsoft-cognitiveservices-speech-sdk. Pour obtenir des instructions d’installation, consultez le guide d’installation SDK.

Créer des sous-titres à partir de la parole

Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.

  1. Copiez les scenarios/javascript/node/captioning/ de GitHub dans le répertoire de votre projet.

  2. Ouvrez une invite de commandes dans le même répertoire que Captioning.js.

  3. Installez le SDK Speech pour JavaScript :

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Remplacez YourSubscriptionKey par la clé de votre ressource Speech et YourServiceRegion par la région de votre ressource Speech, telle que westus ou northeurope. Vérifiez que les chemins spécifiés par --input et --output sont valides. Sinon, vous devez modifier les chemins d’accès.

    Remarque

    Le SDK Speech pour JavaScript ne prend pas en charge l’audio d’entrée compressé. Vous devez utiliser un fichier WAV comme montré dans l’exemple.

    Important

    N’oubliez pas de supprimer la clé de votre code une fois que vous avez terminé, et ne la postez jamais publiquement. Pour la production, utilisez un moyen sécurisé de stocker et d’accéder à vos informations d’identification comme Azure Key Vault. Pour plus d’informations, consultez l’article sur la sécurité d’Azure AI services.

Vérifier les résultats

Le fichier de sortie avec les sous-titres complets est écrit dans caption.output.txt. Des résultats intermédiaires apparaissent dans la console :

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff. Pour plus d’informations, consultez Format de sortie de sous-titre.

Utilisation et arguments

Utilisation : node captioning.js --key <key> --region <region> --input <input file>

Les options de connexion sont les suivantes :

  • --key : clé de votre ressource Speech.
  • --region REGION : région de votre ressource Speech. Exemples : westus, northeurope

Les options d’entrée sont les suivantes :

  • --input FILE : audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.
  • --format FORMAT : utiliser le format audio compressé. Valide uniquement avec --file. Les valeurs valides sont alaw, any, flac, mp3, mulaw et ogg_opus. La valeur par défaut est any. Pour utiliser un fichier wav, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.

Les options de langue sont les suivantes :

  • --languages LANG1,LANG2 : activer l’identification de langue pour les langues spécifiées. Par exemple : en-US,ja-JP. Cette option est disponible uniquement avec les exemples de sous-titrage C++, C# et Python. Pour plus d’informations, consultez Identification de la langue.

Les options de reconnaissance sont les suivantes :

  • --recognizing : sortie des résultats d’événement Recognizing. La sortie par défaut correspond aux résultats d’événement Recognized uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.

Les options de précision sont les suivantes :

Les options de sortie sont les suivantes :

  • --help : afficher cette aide et arrêter
  • --output FILE : générer des sous-titres dans le file spécifié. Cet indicateur est obligatoire.
  • --srt : générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.
  • --quiet : supprimer la sortie de la console, à l’exception des erreurs.
  • --profanity OPTION : les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.
  • --threshold NUMBER : définir un seuil de résultat partiel stable. La valeur par défaut est 3. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Documentation de référence | Package (Télécharger) | Exemples supplémentaires sur GitHub

Le SDK Speech pour Objective-C prend en charge les résultats de la reconnaissance vocale pour le sous-titrage, mais nous n’avons pas encore inclus de guide ici. Sélectionnez un autre langage de programmation pour commencer et découvrir les concepts, ou consultez les informations de référence sur Objective-C et les exemples liés au début de cet article.

Documentation de référence | Package (Télécharger) | Exemples supplémentaires sur GitHub

Le SDK Speech pour Swift prend en charge les résultats de la reconnaissance vocale pour le sous-titrage, mais nous n’avons pas encore inclus de guide ici. Sélectionnez un autre langage de programmation pour commencer et découvrir les concepts, ou consultez les informations de référence sur Swift et les exemples liés au début de cet article.

Documentation de référence | Package (PyPi) | Exemples supplémentaires sur GitHub

Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.

Conseil

Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.

Prérequis

Configurer l’environnement

Le kit SDK Speech pour Python est disponible sous forme de module Python Package Index (PyPI). Le Kit de développement logiciel (SDK) Speech pour Python est compatible avec Windows, Linux et macOS.

  1. Installez Python 3.10 ou une version ultérieure. Vérifiez d’abord le guide d’installation SDK pour toute information complémentaire
  2. Vous devez également installer GStreamer pour compresser l’audio en entrée.

Définir des variables d’environnement

Votre application doit être authentifiée pour accéder aux ressources Azure AI services. Pour la production, utilisez une méthode de stockage et d’accès sécurisée pour vos informations d’identification. Par exemple, après avoir obtenu une clé pour votre ressource Speech, écrivez-la dans une nouvelle variable d’environnement sur l’ordinateur local qui exécute l’application.

Conseil

N’incluez pas la clé directement dans votre code et ne la publiez jamais publiquement. Consultez l’article Sécurité d’Azure AI services pour découvrir d’autres options d’authentification telles qu’Azure Key Vault.

Pour définir la variable d’environnement de votre clé de ressource Speech, ouvrez une fenêtre de console et suivez les instructions relatives à votre système d’exploitation et à votre environnement de développement.

  • Pour définir la variable d’environnement SPEECH_KEY, remplacez your-key par l’une des clés de votre ressource.
  • Pour définir la variable d’environnement SPEECH_REGION, remplacez your-region par l’une des régions de votre ressource.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Remarque

Si vous avez uniquement besoin d’accéder aux variables d’environnement dans la console en cours d’exécution, vous pouvez la définir avec set au lieu de setx.

Après avoir ajouté les variables d’environnement, vous devrez peut-être redémarrer tous les programmes qui doivent la lire, y compris la fenêtre de console. Par exemple, si vous utilisez Visual Studio comme éditeur, redémarrez Visual Studio avant d’exécuter l’exemple.

Créer des sous-titres à partir de la parole

Suivez ces étapes pour générer et exécuter l’exemple de code de démarrage rapide du sous-titrage.

  1. Téléchargez ou copiez les fichiers d’exemple scenarios/python/console/captioning/ de GitHub dans un répertoire local.
  2. Ouvrez une invite de commandes dans le même répertoire que captioning.py.
  3. Exécutez cette commande pour installer le SDK Speech :
    pip install azure-cognitiveservices-speech
    
  4. Exécutez l’application avec vos arguments de ligne de commande préférés. Consultez la section Utilisation et arguments pour connaître les options disponibles. Voici un exemple :
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Important

    Vérifiez que les chemins spécifiés par --input et --output sont valides. Sinon, vous devez modifier les chemins d’accès.

    Vérifiez que vous avez défini les variables d’environnement SPEECH_KEY et SPEECH_REGION comme décrit ci-dessus. Sinon, utilisez les arguments --key et --region.

Vérifier les résultats

Quand vous utilisez l’option realTime dans l’exemple ci-dessus, les résultats partiels des événements Recognizing sont inclus dans la sortie. Dans cet exemple, seul l’événement Recognized final inclut les virgules. Les virgules ne constituent pas les seules différences entre les événements Recognizing et Recognized. Pour plus d’informations, consultez Obtenir des résultats partiels.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quand vous utilisez l’option --offline, les résultats sont stables à partir de l’événement Recognized final. Les résultats partiels ne sont pas inclus dans la sortie :

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Le format de sortie d’intervalle de temps SRT (SubRip Text) est hh:mm:ss,fff. Pour plus d’informations, consultez Format de sortie de sous-titre.

Utilisation et arguments

Utilisation : python captioning.py --input <input file>

Les options de connexion sont les suivantes :

  • --key : clé de votre ressource Speech. Remplace la variable d’environnement SPEECH_KEY. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --key.
  • --region REGION : région de votre ressource Speech. Remplace la variable d’environnement SPEECH_REGION. Vous devez définir la variable d’environnement (action recommandée) ou utiliser l’option --region. Exemples : westus, northeurope

Les options d’entrée sont les suivantes :

  • --input FILE : audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut.
  • --format FORMAT : utiliser le format audio compressé. Valide uniquement avec --file. Les valeurs valides sont alaw, any, flac, mp3, mulaw et ogg_opus. La valeur par défaut est any. Pour utiliser un fichier wav, ne spécifiez pas le format. Cette option n’est pas disponible avec l’exemple de sous-titrage JavaScript. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.

Les options de langue sont les suivantes :

  • --language LANG : Spécifiez une langue en utilisant les paramètres régionaux pris en charge correspondants. Ces paramètres sont utilisés pour fractionner les sous-titres en lignes. La valeur par défaut est en-US.

Les options de reconnaissance sont les suivantes :

  • --offline : Génère des résultats hors connexion. Substitue --realTime. Le mode de sortie par défaut est hors connexion.
  • --realTime : Génère des résultats en temps réel.

La sortie en temps réel inclut les résultats des événements Recognizing. La sortie hors connexion par défaut correspond aux résultats d’événements Recognized uniquement. Ceux-ci sont toujours écrits dans la console, jamais dans un fichier de sortie. L’option --quiet remplace cette option. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.

Les options de précision sont les suivantes :

Les options de sortie sont les suivantes :

  • --help : afficher cette aide et arrêter
  • --output FILE : générer des sous-titres dans le file spécifié. Cet indicateur est obligatoire.
  • --srt : générer des sous-titres au format SRT (SubRip Text). Le format WebVTT (Web Video Text Tracks) est utilisé par défaut. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres.
  • --maxLineLength LENGTH : Définissez le nombre maximal de caractères par ligne pour un sous-titre sur LENGTH. La valeur minimale est 20. La valeur par défaut est 37 (30 pour le chinois).
  • --lines LINES : Définissez le nombre de lignes pour un sous-titre sur LINES. Le minimum est 1. La valeur par défaut est 2.
  • --delay MILLISECONDS : Nombre de millisecondes de délai d’affichage de chaque sous-titre, pour imiter une expérience en temps réel. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --remainTime MILLISECONDS : Nombre de millisecondes pendant lesquelles un sous-titre doit rester à l’écran s’il n’est pas remplacé par une autre. La valeur minimale est 0,0. La valeur par défaut est 1000.
  • --quiet : supprimer la sortie de la console, à l’exception des erreurs.
  • --profanity OPTION : les valeurs raw, remove et mask sont valides. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.
  • --threshold NUMBER : définir un seuil de résultat partiel stable. La valeur par défaut est 3. Cette option est uniquement applicable quand vous utiliser l’indicateur realTime. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Dans ce guide de démarrage rapide, vous allez exécuter une application console pour créer des sous-titres à l’aide de la reconnaissance vocale.

Conseil

Essayez Speech Studio et choisissez un exemple de clip vidéo pour afficher les résultats de sous-titrage traités en temps réel ou hors connexion.

Prérequis

Configurer l’environnement

Suivez ces étapes et consultez le guide de démarrage rapide de l’interface CLI Speech pour connaître les autres conditions requises pour votre plateforme.

  1. Exécutez la commande CLI .NET suivante pour installer l’interface CLI Speech :

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Exécutez les commandes suivantes pour configurer la clé et la région de votre ressource Speech. Remplacez SUBSCRIPTION-KEY par la clé de la ressource Speech et remplacez REGION par la région de la ressource Speech.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Vous devez également installer GStreamer pour compresser l’audio en entrée.

Créer des sous-titres à partir de la parole

Avec l’interface CLI Speech, vous pouvez générer des légendes SRT (Texte SubRip) et WebVTT (Web Video Text Tracks) à partir de n’importe quel type de média contenant de l’audio.

Pour reconnaître l’audio à partir d’un fichier et générer des sous-titres WebVTT (vtt) et SRT (srt), procédez comme suit.

  1. Vérifiez qu’un fichier d’entrée nommé caption.this.mp4 figure dans le chemin d’accès.

  2. Exécutez la commande suivante pour générer des sous-titres à partir du fichier vidéo :

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    Les sous-titres SRT et WebVTT sont générés dans la console, comme illustré ici :

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Utilisation et arguments

Voici des détails sur les arguments facultatifs de la commande précédente :

  • --file caption.this.mp4 --format any : audio d’entrée à partir d’un fichier. Le microphone est l’entrée par défaut. Pour les fichiers audio compressés tels que MP4, installez GStreamer et consultez Utilisation de l’audio d’entrée compressée.
  • --output vtt file - et --output srt file - : génère des sous-titres WebVTT et SRT dans une sortie standard. Pour plus d’informations sur les formats de fichier de sous-titres SRT et WebVTT, consultez Format de sortie des sous-titres. Pour plus d’informations sur l’argument --output, consultez les options de sortie de l’interface CLI Speech.
  • @output.each.detailed : génère les résultats de l’événement avec du texte, un décalage et une durée. Pour plus d’informations, consultez Obtenir les résultats de la reconnaissance vocale.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5 : vous pouvez demander que le service Speech retourne moins d’événements Recognizing plus précis. Dans cet exemple, le service Speech doit affirmer la reconnaissance d’un mot au moins cinq fois avant de renvoyer les résultats partiels. Pour plus d’informations, consultez les concepts liés à l’obtention de résultats partiels.
  • --profanity masked : vous pouvez spécifier s’il faut masquer, supprimer ou afficher les grossièretés dans les résultats de la reconnaissance. Pour plus d’informations, consultez les concepts liés au filtre de grossièretés.
  • --phrases "Constoso;Jessie;Rehaan" : vous pouvez spécifier une liste d’expressions à reconnaître, telles que Contoso, Jessie et Rehaan. Pour plus d’informations, consultez Améliorer la reconnaissance avec des listes d’expressions.

Nettoyer les ressources

Vous pouvez utiliser le portail Azure ou l’interface de ligne de commande (CLI) Azure pour supprimer la ressource Speech que vous avez créée.

Étapes suivantes