Supporto linguistico per la classificazione del testo personalizzata

Articolo
12/19/2023

Usare questo articolo per informazioni sulle lingue attualmente supportate dalla funzionalità di classificazione del testo personalizzata.

Opzione multi linguale

Con la classificazione del testo personalizzata, è possibile eseguire il training di un modello in una lingua e usare per classificare i documenti in un'altra lingua. Questa funzionalità è utile perché consente di risparmiare tempo e sforzo. Anziché creare progetti separati per ogni lingua, è possibile gestire un set di dati multi linguale in un progetto. Il set di dati non deve essere interamente nella stessa lingua, ma è necessario abilitare l'opzione multi linguale per il progetto durante la creazione o una versione successiva nelle impostazioni del progetto. Se si nota che il modello esegue in modo scarsa in determinate lingue durante il processo di valutazione, è consigliabile aggiungere altri dati in queste lingue al set di training.

È possibile eseguire il training del progetto interamente con documenti in inglese e eseguirne una query in: francese, tedesco, mandarino, giapponese, coreano e altri. La classificazione del testo personalizzata semplifica la scalabilità dei progetti in più lingue usando la tecnologia multilingue per eseguire il training dei modelli.

Ogni volta che si identifica che una determinata lingua non esegue e altre lingue, è possibile aggiungere altri documenti per tale lingua nel progetto. Nella pagina dell'etichettatura dei dati in Language Studio è possibile selezionare la lingua del documento che si sta aggiungendo. Quando si introduceno altri documenti per tale linguaggio al modello, viene introdotta una maggiore sintassi di tale linguaggio e si apprenderà per stimarla meglio.

Non è previsto aggiungere lo stesso numero di documenti per ogni lingua. È consigliabile creare la maggior parte del progetto in una lingua e aggiungere solo alcuni documenti nelle lingue che si osservano non funzionano correttamente. Se si crea un progetto che è principalmente in inglese e si inizia a testarlo in francese, tedesco e spagnolo, si potrebbe osservare che il tedesco non esegue oltre alle altre due lingue. In tal caso, è consigliabile aggiungere di nuovo il 5% dei documenti in inglese originali in tedesco, eseguire nuovamente il training di un nuovo modello e testare in tedesco. Verranno visualizzati risultati migliori per le query tedesche. Più documenti etichettati aggiunti, più probabilmente i risultati saranno migliori.

Quando si aggiungono dati in un'altra lingua, non è consigliabile che influisca negativamente su altre lingue.

Lingue supportate dalla classificazione di testo personalizzata

La classificazione del testo personalizzata supporta .txt i file nelle lingue seguenti:

Linguaggio	Codice lingua
Afrikaans	`af`
Amharico	`am`
Arabo	`ar`
Assamese	`as`
Azerbaigiano	`az`
Bielorusso	`be`
Bulgaro	`bg`
Bengalese	`bn`
Bretone	`br`
Bosniaco	`bs`
Catalano	`ca`
Ceco	`cs`
Gallese	`cy`
Danese	`da`
Tedesco	`de`
Greco	`el`
Inglese (Stati Uniti)	`en-us`
Esperanto	`eo`
Spagnolo	`es`
Estone	`et`
Basco	`eu`
Persiano	`fa`
Finlandese	`fi`
Francese	`fr`
Frisiano occidentale	`fy`
Irlandese	`ga`
Scozzese Gaelico	`gd`
Galiziano	`gl`
Gujarati	`gu`
Hausa	`ha`
Ebraico	`he`
Hindi	`hi`
Croato	`hr`
Ungherese	`hu`
Armeno	`hy`
Indonesiano	`id`
Italiano	`it`
Giapponese	`ja`
Giavanese	`jv`
Georgiano	`ka`
Kazako	`kk`
Khmer	`km`
Kannada	`kn`
Coreano	`ko`
Curdo (Kurmanji)	`ku`
kirghiso	`ky`
Latino	`la`
Lao	`lo`
Lituano	`lt`
Lettone	`lv`
Malgascio	`mg`
Macedone	`mk`
Malayalam	`ml`
Mongolo	`mn`
Marathi	`mr`
Malese	`ms`
Birmano	`my`
Nepalese	`ne`
Olandese	`nl`
Norvegese (Bokmål)	`nb`
Odia	`or`
Punjabi	`pa`
Polacco	`pl`
Pashto	`ps`
Portoghese (Brasile)	`pt-br`
Portoghese (Portogallo)	`pt-pt`
Romeno	`ro`
Russo	`ru`
Sanscrito	`sa`
Sindhi	`sd`
Singalese	`si`
Slovacco	`sk`
Sloveno	`sl`
Somalo	`so`
Albanese	`sq`
Serbo	`sr`
Sundanese	`su`
Svedese	`sv`
Swahili	`sw`
Tamil	`ta`
Telugu	`te`
Thai	`th`
Filippino	`tl`
Turco	`tr`
Uiguro	`ug`
Ucraino	`uk`
Urdu	`ur`
Uzbeco	`uz`
Vietnamita	`vi`
Xhosa	`xh`
Yiddish	`yi`
Cinese (semplificato)	`zh-hans`
Zulù	`zu`

Supporto linguistico per la classificazione del testo personalizzata

Opzione multi linguale

Lingue supportate dalla classificazione di testo personalizzata

Passaggi successivi

Risorse aggiuntive