Jeux de données d’apprentissage et de test

Article
02/03/2024

Dans un projet de reconnaissance vocale personnalisée, vous pouvez charger des jeux de données pour l’apprentissage, l’inspection qualitative et la mesure quantitative. Cet article aborde les types de données d’apprentissage et de test que vous pouvez utiliser pour la reconnaissance vocale personnalisée.

Le texte et l’audio que vous utilisez pour tester un modèle personnalisé et effectuer son apprentissage doivent inclure des échantillons issus d’un ensemble diversifié d’orateurs et de scénarios que vous voulez que votre modèle reconnaisse. Tenez compte des facteurs suivants lorsque vous rassemblez des données pour le test et la formation de modèles personnalisés :

Incluez des données texte et audio pour couvrir les types d’instructions verbales que vos utilisateurs prononcent lorsqu’ils interagissent avec votre modèle. Par exemple, un modèle chargé d’élever et d’abaisser la température nécessite une formation relative aux instructions possibles permettant de demander de tels changements.
Incluez toutes les variations de message que vous voulez que votre modèle reconnaisse. De nombreux facteurs peuvent faire varier l’audio, y compris les accents, les dialectes, le mélange de langues, l’âge, le sexe, la hauteur de la voix, le degré de stress et l’heure de la journée.
Incluez des échantillons provenant de différents environnements (par exemple, en intérieur, en extérieur et avec bruits de route) où votre modèle est utilisé.
Enregistrez l’audio à l’aide de périphériques matériels que le système de production utilise. Si votre modèle doit identifier la parole enregistrée sur des appareils de diverses qualités, les données audio que vous fournissez pour effectuer l’apprentissage de votre modèle doivent également être caractéristiques de ces différents scénarios.
Utilisez un jeu de données diversifié et représentatif des exigences de votre projet. Vous pourrez ajouter plus de données à votre modèle ultérieurement.
Incluez uniquement les données que votre modèle doit transcrire. L’inclusion de données qui ne correspondent pas aux exigences de reconnaissance de votre modèle personnalisé peut nuire à la qualité globale de la reconnaissance.

Types de données

Le tableau suivant répertorie les types de données acceptés, les cas d’usage pour chacun d’eux ainsi que la quantité recommandée. Pour créer un modèle, vous n’avez pas besoin de chaque type de données. Les données nécessaires varient selon que vous créez un test ou entraînez un modèle.

Type de données	Utilisé pour le test	Recommandé pour les tests	Utilisé pour l’entraînement	Recommandé pour l’entraînement
Audio uniquement	Oui (inspection visuelle)	5 fichiers audio et plus	Oui (préversion pour `en-US`)	1 à 20 heures d’audio
Transcriptions audio + étiquetées à la main	Oui (évaluation de l’exactitude)	0,5 - 5 heures d’audio	Oui	1 à 20 heures d’audio
Texte brut	Non	Non applicable	Oui	1 – 200 Mo de texte associé
Texte structuré	Non	Non applicable	Oui	Jusqu’à 10 classes avec un maximum de 4 000 éléments et de 50 000 phrases de formation
Prononcer	Non	Non applicable	Oui	1 ko à 1 Mo de texte de prononciation
Format d'affichage	Non	Non applicable	Oui	Jusqu'à 200 lignes pour ITN, 1 000 lignes pour la réécriture, 1 000 lignes pour le filtre à grossièretés

L’apprentissage avec du texte brut ou de texte structuré se termine généralement en quelques minutes.

Conseil

Commencez par des données de texte brut ou des données de texte structuré. Ces données permettront d’améliorer la reconnaissance de termes et phrases spécifiques. La formation avec du texte est beaucoup plus rapide que la formation avec de l’audio (quelques minutes au lieu de quelques jours).

Commencez avec de petits ensembles d’exemples de données correspondant à la langue, à l’acoustique et au matériel avec lesquels votre modèle sera utilisé. De petits jeux de données représentatives peuvent mettre en évidence les problèmes avant que vous n’investissiez dans la collecte de jeux de données plus volumineux à des fins de formation. Pour obtenir des exemples de données sur la reconnaissance vocale personnalisée, consultez ce référentiel GitHub.

Si vous entraînez un modèle personnalisé avec des données audio, choisissez une région de ressource Speech dotée de matériel dédié à l’entraînement de données audio. Pour plus d’informations, consultez les notes de bas de page du tableau des régions. Dans les régions dotées de matériel dédié à la formation de la reconnaissance vocale personnalisée, le service Speech utilise jusqu’à 20 heures de vos données de formation audio et peut traiter environ 10 heures de données par jour. Dans d’autres régions, le service Speech utilise jusqu’à 8 heures de vos données audio et peut traiter environ 1 heure de données par jour. Une fois l’apprentissage du modèle effectué, vous pouvez copier le modèle dans une autre région si nécessaire avec l’API REST Models_CopyTo.

Envisager des jeux de données selon le scénario

Un modèle formé dans le cadre d’un sous-ensemble de scénarios ne peut être performant que dans ces scénarios. Choisissez soigneusement des données qui représentent toute l’étendue des scénarios que votre modèle personnalisé doit reconnaître. Le tableau suivant présente des jeux de données à prendre en compte pour certains scénarios de reconnaissance vocale :

Scénario	Données de texte brut et données de texte structuré	Transcriptions audio + étiquetées à la main	Nouveaux mots avec prononciation
Centre d’appels	Documents marketing, site web, évaluations de produits relatives à l’activité du centre d’appels	Appels du centre d’appels transcrits à la main	Termes qui ont des prononciations ambiguës (voir l’exemple Xbox dans la section précédente)
Assistant vocal	Listes de phrases qui utilisent différentes combinaisons de commandes et d’entités	Voix enregistrées prononçant des commandes sur l’appareil, transcrites en texte	Noms (films, chansons, produits) qui ont des prononciations uniques
Dictation	Entrée écrite, comme les messages instantanés ou les e-mails	Semblable aux exemples précédents	Semblable aux exemples précédents
Sous-titrage vidéo	scripts de programmes télévisés, films, contenu marketing, résumés vidéo	Transcriptions de vidéos exactes	Semblable aux exemples précédents

Pour déterminer le jeu de données à utiliser pour résoudre vos problèmes, reportez-vous au tableau suivant :

Cas d’utilisation	Type de données
Améliorez la précision de la reconnaissance du vocabulaire ou de la grammaire spécifiques d’un secteur, par exemple, la terminologie médicale ou le jargon informatique.	Données de texte brut ou de texte structuré
Définissez la forme phonétique et affichée d’un mot ou d’un terme dont la prononciation n’est pas standard, par exemple, les noms de produits ou les acronymes.	Données de prononciation ou prononciation phonétique dans du texte structuré
Améliorez la précision de la reconnaissance de styles oraux, d’accents ou de bruits de fond spécifiques.	Transcriptions audio + étiquetées à la main

Données audio + transcription étiquetée à la main pour la formation ou le test

Vous pouvez utiliser des données audio et une transcription étiquetée à la main à des fins d’apprentissage et de test. Vous devez fournir des transcriptions étiquetées à la main (mot par mot) à des fins de comparaison :

Pour améliorer les aspects acoustiques tels que les légers accents, les styles de parole et les bruits de fond.
Pour mesurer l’exactitude de la reconnaissance vocale de Microsoft lors du traitement de vos fichiers audio.

Pour obtenir la liste des modèles de base prenant en charge la formation avec des données audio, consultez Prise en charge des langues. Même si un modèle de base prend en charge la formation avec des données audio, il est possible que le service n’utilise qu’une partie de l’audio. Et il utilise toujours toutes les transcriptions.

Important

Si un modèle de base ne prend pas en charge la personnalisation avec des données audio, seul le texte de transcription est utilisé pour l’apprentissage. Si vous basculez vers un modèle de base qui prend en charge la personnalisation avec des données audio, le temps d’apprentissage peut passer de quelques heures à plusieurs jours. Ce changement de la durée de l’apprentissage est particulièrement notable quand vous basculez vers un modèle de base dans une région sans matériel dédié pour l’apprentissage. Si les données audio ne sont pas requises, vous devez les supprimer pour réduire la durée de l’apprentissage.

L’audio avec des transcriptions étiquetées à la main offre les plus fortes améliorations en termes de précision si l’audio provient du cas d’usage cible. Les exemples doivent couvrir l’intégralité des messages vocaux. Par exemple, la plupart des appels adressés à un centre d’appels pendant les mois d’été concernent les maillots de bain et les lunettes de soleil. Vérifiez que votre exemple comprend l’étendue complète des messages vocaux que vous souhaitez détecter.

Tenez compte des détails suivants :

L’apprentissage de l’audio est plus avantageux si le contenu audio est également difficile à comprendre pour les êtres humains. Dans la plupart des cas, vous devez commencer la formation en utilisant uniquement du texte associé.
Si vous utilisez l’une des langues les plus utilisées, tels que l’anglais des États-Unis, il est peu probable que vous deviez effectuer la formation avec des données audio. Pour ces langues, les modèles de base offrent déjà une bonne reconnaissance pour la plupart des scénarios. Il est probablement suffisant d’effectuer une formation avec du texte associé.
La reconnaissance vocale personnalisée peut uniquement capturer le contexte des mots pour réduire les erreurs de substitution, pas les erreurs d’insertion ou de suppression.
Évitez les exemples comprenant des erreurs de transcription, mais incluez une qualité audio diversifiée.
Évitez les phrases qui ne sont pas liées au domaine de votre problème. Les phrases non liées peuvent endommager votre modèle.
En cas de variation de la qualité des transcriptions, vous pouvez dupliquer des phrases particulièrement bonnes, comme d’excellentes transcriptions qui comprennent des expressions clés, pour augmenter leur pondération.
Le service Speech utilise automatiquement les transcriptions pour améliorer la reconnaissance des mots et des expressions spécifiques à un domaine, comme s’ils avaient été ajoutés en tant que texte associé.
La finalisation d’une opération de formation peut prendre plusieurs jours. Pour améliorer la vitesse de formation, veillez à créer votre abonnement au service vocal dans une région avec un matériel dédié pour l’apprentissage.

Un jeu de données d’apprentissage volumineux est nécessaire pour améliorer la reconnaissance. En règle générale, nous vous recommandons de fournir des transcriptions mot à mot pour 1 à 20 heures d’audio. Toutefois, même 30 minutes peuvent contribuer à améliorer les résultats de la reconnaissance. La création d’une transcription étiquetée à la main prend du temps. Toutefois, les améliorations de la reconnaissance sont proportionnelles à la qualité des données que vous fournissez. Chargez uniquement des transcriptions de haute qualité.

Les fichiers audio peuvent avoir un silence au début et à la fin de l’enregistrement. Si possible, incluez au moins une demi-seconde de silence avant et après Speech dans chaque exemple de fichier. Bien que les données audio présentant un faible volume d’enregistrement ou un bruit de fond perturbateur ne soient pas utiles, celles-ci ne devraient pas limiter ni dégrader votre modèle personnalisé. Envisagez toujours de mettre à niveau vos micro et votre matériel de traitement du signal avant de rassembler les échantillons audio.

Important

Pour plus d’informations sur les bonnes pratiques relatives à la préparation de transcriptions étiquetées à la main, consultez Transcriptions étiquetées à la main avec audio.

Les projets de reconnaissance vocale personnalisée nécessitent des fichiers audio avec les propriétés suivantes :

Important

Il s’agit des conditions requises pour l’entraînement et les tests de transcription audio + étiquetés par l’homme. Elles diffèrent des conditions relatives à l’entraînement et aux tests audio uniquement. Si vous souhaitez utiliser l’entraînement et les tests audio uniquement, consultez cette section.

Propriété	Valeur
Format de fichier	RIFF (WAV)
Échantillonnage	8 000 Hz ou 16 000 Hz
Canaux	1 (mono)
Longueur maximale par fichier audio	Deux heures (test) /60 s (entraînement) La formation avec l’audio a une longueur audio maximale de 60 secondes par fichier. Pour les fichiers audio de plus de 60 secondes, seuls les fichiers de transcription correspondants sont utilisés pour la formation. Si tous les fichiers audio ont plus de 60 secondes, la formation échoue.
Format d’échantillonnage	PCM, 16 bits
Format d’archive	.zip
Taille maximale de zip	2 Go ou 10 000 fichiers

Données de texte brut pour la formation

Vous pouvez ajouter des phrases en texte brut associées pour améliorer la reconnaissance des mots et des expressions spécifiques à un domaine. L’ajout de phrases de texte associées permet de réduire les erreurs de substitution liées à la reconnaissance erronée des mots courants et des mots spécifiques à un domaine en les présentant en contexte. Les mots spécifiques à un domaine peuvent être des mots rares ou inventés, mais leur prononciation doit être facile à reconnaître.

Fournissez des phrases liées au domaine dans un fichier texte unique. Utilisez des données texte qui sont proches des énoncés prononcés attendus. Ces énoncés ne doivent pas nécessairement être des phrases complètes ni être grammaticalement corrects. En revanche, elles doivent refléter précisément l’entrée orale auquel votre modèle doit s’attendre. Dans la mesure du possible, essayez d’avoir une phrase ou un mot clé contrôlé sur une ligne distincte. Pour augmenter la pondération d’un terme, comme des noms de produits, ajoutez plusieurs phrases qui incluent le terme. Toutefois, ne faites pas un trop grand nombre de copies, car cela pourrait impacter le taux de reconnaissance global.

Notes

Évitez les phrases de texte associées qui incluent du bruit, comme des caractères ou des mots non reconnaissables.

Utilisez ce tableau pour vérifier que votre fichier de données en texte brut est mis en forme correctement :

Propriété	Valeur
Encodage de texte	UTF-8 BOM
Nombre d’énoncés par ligne	1
Taille maximale du fichier	200 Mo

Vous devez également respecter les restrictions suivantes :

Évitez de répéter des caractères, des mots ou des groupes de mots plus de trois fois. Par exemple, n’utilisez pas « aaaa », « oui oui oui oui » ou « c’est tout c’est tout c’est tout c’est tout ». Le service Speech peut supprimer des lignes avec un trop grand nombre de répétitions.
N’utilisez pas de caractères spéciaux ou de caractères UTF-8 au-delà de U+00A1.
Les URI sont rejetés.
Pour certaines langues comme le japonais ou le coréen, l’importation de grandes quantités de données texte peut prendre beaucoup de temps ou entraîner l’expiration du délai d’attente. Essayez de fractionner le jeu de données en plusieurs fichiers texte de 20 000 lignes maximum chacun.

Données de texte structuré pour l’apprentissage

Notes

Données de texte structuré pour l’apprentissage en préversion publique.

Utilisez des données de texte structuré quand vos données suivent un modèle particulier dans des énoncés qui diffèrent uniquement par des mots ou des expressions d’une liste. Pour simplifier la création de données d’apprentissage et permettre une meilleure modélisation dans le modèle Custom Language, vous pouvez utiliser un texte structuré de format Markdown pour définir des listes d’éléments et la prononciation phonétique des mots. Vous pouvez ensuite référencer ces listes à l’intérieur de vos énoncés de formation.

Les énoncés attendus suivent souvent un certain modèle. Un modèle courant est que les énoncés diffèrent uniquement par des mots ou des phrases d’une liste. Voici quelques exemples de ce modèle :

« J’ai une question sur product », où product est une liste de produits possibles.
« Colorier object en color », où object est une liste de formes géométriques et color une liste de couleurs.

Pour obtenir la liste des modèles de base et paramètres régionaux pris en charge pour la formation avec du texte structuré, consultez Prise en charge linguistique. Vous devez utiliser le modèle de base le plus récent pour ces paramètres régionaux. Pour les paramètres régionaux qui ne prennent pas en charge la formation avec du texte structuré, le service prend toutes les phrases de formation qui ne font pas référence à des classes dans le cadre de la formation avec des données de texte brut.

Le fichier texte structuré doit avoir une extension .md. La taille maximale du fichier est de 200 Mo et l’encodage de texte doit être UTF-8 BOM. La syntaxe du format Markdown est la même que celle des modèles Language Understanding, en particulier les entités de liste et les exemples d’énoncés. Pour plus d’informations sur la syntaxe complète du format Markdown, consultez Language Understanding Markdown.

Voici des détails clés sur le format Markdown pris en charge :

Propriété	Description	limites
`@list`	Liste d’éléments qui peuvent être référencés dans un exemple de phrase.	20 listes au maximum. 35 000 éléments par liste au maximum.
`speech:phoneticlexicon`	Liste des prononciations phonétiques selon le Jeu de phonèmes universel. La prononciation est ajustée pour chaque instance où le mot apparaît dans une liste ou une phrase d’apprentissage. Par exemple, si vous avez un mot qui ressemble au mot anglais « cat » et que vous souhaitez ajuster la prononciation à « k ae t », vous devez ajouter `- cat/k ae t` à la liste `speech:phoneticlexicon`.	Maximum de 15 000 entrées. Maximum de deux prononciations par mot.
`#ExampleSentences`	Un symbole dièse (`#`) délimite une section d’exemples de phrases. Le titre de section peut contenir uniquement des lettres, des chiffres et des traits de soulignement. Les exemples de phrases doivent refléter le type de discours attendu par votre modèle. Une phrase d’apprentissage peut faire référence à des éléments sous un `@list` en utilisant des accolades gauche et droite (`{@list name}`). Vous pouvez faire référence à plusieurs listes dans la même phrase d’apprentissage, ou à aucune du tout.	Taille de fichier maximale de 200 Mo.
`//`	Les commentaires suivent une double barre oblique (`//`).	Non applicable

Voici un exemple de fichier texte structuré :

// This is a comment because it follows a double slash (`//`).

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog
- fish

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh

// Here are two sections of training sentences. 
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet}

Données de prononciation pour la formation

Des mots spécialisés ou composés peuvent avoir des prononciations uniques. Ces mots peuvent être reconnus s’ils peuvent être décomposés en mots plus petits pour les prononcer. Pour reconnaître « Xbox » par exemple, prononcez « X box ». Cette approche n’augmente pas la précision globale, mais peut améliorer la reconnaissance de ce mot clé et d’autres mots clés.

Vous pouvez fournir un fichier de prononciation personnalisé pour améliorer la reconnaissance. N’utilisez pas des fichiers de prononciation personnalisée pour altérer la prononciation des mots communs. Pour obtenir la liste des langues qui prennent en charge la prononciation personnalisée, consultez la prise en charge linguistique.

Notes

Vous pouvez utiliser un fichier de prononciation avec n’importe quel autre jeu de données d’entraînement, à l’exception des données d’entraînement de texte structuré. Pour utiliser des données de prononciation avec du texte structuré, elles doivent se trouver dans un fichier texte structuré.

La forme orale est la séquence phonétique épelée. Elle peut être composée de lettres, de mots, de syllabes ou d’une combinaison des trois. Ce tableau contient quelques exemples :

Forme affichée reconnue	Forme orale (en anglais)
3CPO	trois c p o
CNTK (Computational Network Toolkit de Microsoft Research)	c n t k
IEEE	i triple e

Vous fournissez des prononciations dans un fichier texte unique. Incluez l’énoncé oral et une prononciation personnalisée pour chacun d’entre eux. Chaque ligne du fichier doit commencer par la forme reconnue, inclure un caractère de tabulation, puis la séquence phonétique délimitée par des espaces.

3CPO    three c p o
CNTK    c n t k
IEEE    i triple e

Reportez-vous au tableau suivant pour vous assurer que vos fichiers de jeu de données de prononciation sont valides et correctement mis en forme.

Propriété	Valeur
Encodage de texte	UTF-8 BOM (ANSI est également pris en charge pour l’anglais)
Nombre de prononciations par ligne	1
Taille maximale du fichier	1 Mo (1 Ko pour le niveau gratuit)

Données audio pour l’apprentissage ou les tests

Les données audio sont optimales pour tester la précision du modèle de reconnaissance vocale de ligne de base de Microsoft ou d’un modèle personnalisé. Gardez à l’esprit que les données audio sont utilisées pour inspecter l’exactitude du message par rapport aux performances d’un modèle spécifique. Si vous souhaitez quantifier la précision d’un modèle, utilisez des transcriptions audio + étiquetées à la main.

Notes

Les données audio uniquement pour l’entraînement sont disponibles en préversion pour les paramètres régionaux en-US. Pour les autres paramètres régionaux, pour effectuer l’apprentissage avec des données audio, vous devez également fournir des transcriptions étiquetées par l’homme.

Les projets de reconnaissance vocale personnalisée nécessitent des fichiers audio avec les propriétés suivantes :

Important

Il s’agit des conditions requises pour l’entraînement et les tests audio uniquement. Elles diffèrent des conditions relatives à l’entraînement et aux tests de transcription audio + étiquetés par l’homme. Si vous souhaitez utiliser l’entraînement et les tests de transcription audio + étiquetés par l’homme, consultez cette section.

Propriété	Valeur
Format de fichier	RIFF (WAV)
Échantillonnage	8 000 Hz ou 16 000 Hz
Canaux	1 (mono)
Longueur maximale par fichier audio	Deux heures
Format d’échantillonnage	PCM, 16 bits
Format d’archive	.zip
Taille d’archive maximale	2 Go ou 10 000 fichiers

Notes

Lorsque vous chargez des données de formation et de test, la taille du fichier .zip ne doit pas dépasser 2 Go. Si vous avez besoin de plus de données pour l’entraînement, divisez-le en plusieurs fichiers .zip et chargez-les séparément. Plus tard, vous pouvez choisir d’effectuer l’entraînement à partir de plusieurs jeux de données. Cependant, vous ne pouvez tester qu’à partir d’un seul jeu de données.

Utilisez SoX pour vérifier les propriétés audio ou pour convertir les données audio existantes aux formats appropriés. Voici quelques exemples de commandes SoX :

Activité	Commande SoX
Vérifiez le format du fichier audio.	`sox --i <filename>`
Convertissez le fichier audio en un canal unique, 16 bits, 16 KHz.	`sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav`

Données de mise en forme de texte d’affichage personnalisées pour l’entraînement

En savoir plus sur la préparation des données de mise en forme de texte d’affichage et l’affichage de la mise en forme du texte avec la reconnaissance vocale.

Le format d’affichage de sortie de reconnaissance vocale automatique est essentiel pour les tâches en aval et la taille unique n’est pas adaptée à tous. L’ajout de règles de format d’affichage personnalisé permet aux utilisateurs de définir leurs propres règles de format lexical-à-afficher pour améliorer la qualité du service de reconnaissance vocale en plus du service de reconnaissance vocale personnalisée Microsoft Azure.

Il vous permet de personnaliser entièrement les sorties d’affichage telles que l’ajout de règles de réécriture pour mettre en majuscule et reformuler certains mots, ajouter des mots de profanité et masquer à partir de la sortie, définir des règles ITN avancées pour certains modèles tels que des nombres, des dates, des adresses e-mail ; ou conservez certaines expressions et conservez-les des processus d’affichage.

Par exemple :

Mise en forme personnalisée	Texte affiché
Aucun	Mon numéro financier de contoso est 8BEV3
Mettre en majuscule « Contoso » (via `#rewrite` règle) Format du numéro financier (via `#itn` règle)	Mon numéro financier de Contoso est 8B-EV-3

Pour obtenir la liste des modèles de base et paramètres régionaux pris en charge pour la formation avec du texte structuré, consultez Prise en charge linguistique. Le fichier Format d’affichage doit avoir une extension .md. La taille maximale du fichier est de 10 Mo et l’encodage de texte doit être UTF-8 BOM. Pour plus d’informations sur la personnalisation des règles de format d’affichage, consultez La meilleure pratique pour afficher les règles de mise en forme.

Propriété	Description	Limites
#ITN	Liste des règles de normalisation de texte inversé pour définir certains modèles d’affichage tels que des nombres, des adresses et des dates.	Maximum de 200 lignes
#rewrite	Liste des paires de réécritures pour remplacer certains mots pour des raisons telles que la mise en majuscule et la correction orthographique.	Maximum de 1 000 lignes
#profanity	Liste de mots indésirables qui seront masqués en tant que `******` à partir de l’affichage et de la sortie masquée, en plus des listes de profanités intégrées de Microsoft.	Maximum de 1 000 lignes
#test	Liste des cas de test unitaire pour vérifier si les règles d’affichage fonctionnent comme prévu, y compris l’entrée de format lexicale et la sortie de format d’affichage attendue.	Taille de fichier maximale de 10 Mo

Voici un exemple de fichier de format d’affichage :

// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase	new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word	Mask the ************* word

Jeux de données d’apprentissage et de test

Types de données

Envisager des jeux de données selon le scénario

Données audio + transcription étiquetée à la main pour la formation ou le test

Données de texte brut pour la formation

Données de texte structuré pour l’apprentissage

Données de prononciation pour la formation

Données audio pour l’apprentissage ou les tests

Données de mise en forme de texte d’affichage personnalisées pour l’entraînement

Étapes suivantes

Ressources supplémentaires