Prise en charge linguistique pour la classification de texte personnalisée

Utilisez cet article pour en savoir plus sur les langues actuellement prises en charge par la fonctionnalité de classification de texte personnalisée.

Option multilingue

Avec la classification de texte personnalisée, vous pouvez effectuer l’apprentissage d’un modèle dans une langue et l’utiliser pour classer des documents dans une autre langue. Cette fonctionnalité est utile car elle permet d’économiser du temps et des efforts. Plutôt que de créer des projets distincts pour chaque langue, vous pouvez gérer des jeux de données multilingues au sein d’un même projet. Il n’est pas nécessaire que tout votre jeu de données soit dans la même langue, mais vous devez activer l’option multilingue lors de la création de votre projet ou plus tard, dans les paramètres du projet. Si vous constatez que votre modèle donne de mauvais résultats dans certaines langues pendant le processus d’évaluation, envisagez d’ajouter des données dans ces langues à votre jeu d’apprentissage.

Vous pouvez effectuer l’apprentissage votre projet avec des documents en anglais, et l’interroger en français, allemand, mandarin, japonais, coréen et d’autres langues. La classification de texte personnalisée vous permet de mettre facilement à l’échelle vos projets en plusieurs langues en utilisant la technologie multilingue pour effectuer l’apprentissage de vos modèles.

Lorsque vous constatez qu’une langue n’est pas aussi performante que les autres, vous pouvez ajouter des documents supplémentaires pour cette langue dans votre projet. Sur la page Étiquetage des données de Language Studio, vous pouvez sélectionner la langue du document que vous ajoutez. Lorsque vous introduisez de nouveaux documents pour cette langue dans le modèle, celui-ci se familiarise avec la syntaxe de cette langue et apprend à mieux la prédire.

Vous ne devez pas nécessairement ajouter le même nombre de documents pour chaque langue. Vous devez créer la majeure partie de votre projet dans une seule langue, et n’ajouter que quelques documents dans les langues les moins performantes. Si vous créez un projet qui est principalement en anglais et que vous commencez à le tester en français, en allemand et en espagnol, vous constaterez peut-être que l’allemand ne fonctionne pas aussi bien que les deux autres langues. Dans ce cas, envisagez d’ajouter 5 % de vos documents anglais d’origine en allemand, effectuez l’apprentissage d’un nouveau modèle et procédez à un nouveau test en allemand. Vous devez normalement obtenir de meilleurs résultats pour les requêtes en allemand. Plus vous ajoutez de documents étiquetés, plus les résultats sont susceptibles d’être améliorés.

Quand vous ajoutez des données dans une autre langue, vous ne devez pas redouter qu’elles aient une incidence négative sur les autres langues.

Langues prises en charge par la classification de texte personnalisée

La classification personnalisée du texte prend en charge les fichiers .txt dans les langues suivantes :

Langage Code de langue
Afrikaans af
Amharique am
Arabe ar
Assamais as
Azéri az
Biélorusse be
Bulgare bg
Bengali bn
Breton br
Bosniaque bs
Catalan ca
Tchèque cs
Gallois cy
Danois da
Allemand de
Grec el
Anglais (US) en-us
Espéranto eo
Espagnol es
Estonien et
Basque eu
Persan fa
Finnois fi
Français fr
Frison occidental fy
Irlandais ga
Gaélique écossais gd
Galicien gl
Goudjrati gu
Hausa ha
Hébreu he
Hindi hi
Croate hr
Hongrois hu
Arménien hy
Indonésien id
Italien it
Japonais ja
Javanais jv
Géorgien ka
Kazakh kk
Khmer km
Kannada kn
Coréen ko
Kurde (Kurmanji) ku
Kirghiz ky
Latin la
Lao lo
Lituanien lt
Letton lv
Malgache mg
Macédonien mk
Malayalam ml
Mongol mn
Marathi mr
Malais ms
Birman my
Népalais ne
Néerlandais nl
Norvégien (bokmål) nb
Odia or
Pendjabi pa
Polonais pl
Pachto ps
Portugais (Brésil) pt-br
Portugais (Portugal) pt-pt
Roumain ro
Russe ru
Sanskrit sa
Sindhi sd
Cingalais si
Slovaque sk
Slovène sl
Somali so
Albanais sq
Serbe sr
Soundanais su
Suédois sv
Swahili sw
Tamoul ta
Télougou te
Thaï th
Filipino tl
Turc tr
Ouïgour ug
Ukrainien uk
Ourdou ur
Ouzbek uz
Vietnamien vi
Xhosa xh
Yiddish yi
Chinois (simplifié) zh-hans
Zoulou zu

Étapes suivantes