Supporto linguistico per la classificazione del testo personalizzata

Usare questo articolo per informazioni sulle lingue attualmente supportate dalla funzionalità di classificazione del testo personalizzata.

Opzione multi linguale

Con la classificazione del testo personalizzata, è possibile eseguire il training di un modello in una lingua e usare per classificare i documenti in un'altra lingua. Questa funzionalità è utile perché consente di risparmiare tempo e sforzo. Anziché creare progetti separati per ogni lingua, è possibile gestire un set di dati multi linguale in un progetto. Il set di dati non deve essere interamente nella stessa lingua, ma è necessario abilitare l'opzione multi linguale per il progetto durante la creazione o una versione successiva nelle impostazioni del progetto. Se si nota che il modello esegue in modo scarsa in determinate lingue durante il processo di valutazione, è consigliabile aggiungere altri dati in queste lingue al set di training.

È possibile eseguire il training del progetto interamente con documenti in inglese e eseguirne una query in: francese, tedesco, mandarino, giapponese, coreano e altri. La classificazione del testo personalizzata semplifica la scalabilità dei progetti in più lingue usando la tecnologia multilingue per eseguire il training dei modelli.

Ogni volta che si identifica che una determinata lingua non esegue e altre lingue, è possibile aggiungere altri documenti per tale lingua nel progetto. Nella pagina dell'etichettatura dei dati in Language Studio è possibile selezionare la lingua del documento che si sta aggiungendo. Quando si introduceno altri documenti per tale linguaggio al modello, viene introdotta una maggiore sintassi di tale linguaggio e si apprenderà per stimarla meglio.

Non è previsto aggiungere lo stesso numero di documenti per ogni lingua. È consigliabile creare la maggior parte del progetto in una lingua e aggiungere solo alcuni documenti nelle lingue che si osservano non funzionano correttamente. Se si crea un progetto che è principalmente in inglese e si inizia a testarlo in francese, tedesco e spagnolo, si potrebbe osservare che il tedesco non esegue oltre alle altre due lingue. In tal caso, è consigliabile aggiungere di nuovo il 5% dei documenti in inglese originali in tedesco, eseguire nuovamente il training di un nuovo modello e testare in tedesco. Verranno visualizzati risultati migliori per le query tedesche. Più documenti etichettati aggiunti, più probabilmente i risultati saranno migliori.

Quando si aggiungono dati in un'altra lingua, non è consigliabile che influisca negativamente su altre lingue.

Lingue supportate dalla classificazione di testo personalizzata

La classificazione del testo personalizzata supporta .txt i file nelle lingue seguenti:

Linguaggio Codice lingua
Afrikaans af
Amharico am
Arabo ar
Assamese as
Azerbaigiano az
Bielorusso be
Bulgaro bg
Bengalese bn
Bretone br
Bosniaco bs
Catalano ca
Ceco cs
Gallese cy
Danese da
Tedesco de
Greco el
Inglese (Stati Uniti) en-us
Esperanto eo
Spagnolo es
Estone et
Basco eu
Persiano fa
Finlandese fi
Francese fr
Frisiano occidentale fy
Irlandese ga
Scozzese Gaelico gd
Galiziano gl
Gujarati gu
Hausa ha
Ebraico he
Hindi hi
Croato hr
Ungherese hu
Armeno hy
Indonesiano id
Italiano it
Giapponese ja
Giavanese jv
Georgiano ka
Kazako kk
Khmer km
Kannada kn
Coreano ko
Curdo (Kurmanji) ku
kirghiso ky
Latino la
Lao lo
Lituano lt
Lettone lv
Malgascio mg
Macedone mk
Malayalam ml
Mongolo mn
Marathi mr
Malese ms
Birmano my
Nepalese ne
Olandese nl
Norvegese (Bokmål) nb
Odia or
Punjabi pa
Polacco pl
Pashto ps
Portoghese (Brasile) pt-br
Portoghese (Portogallo) pt-pt
Romeno ro
Russo ru
Sanscrito sa
Sindhi sd
Singalese si
Slovacco sk
Sloveno sl
Somalo so
Albanese sq
Serbo sr
Sundanese su
Svedese sv
Swahili sw
Tamil ta
Telugu te
Thai th
Filippino tl
Turco tr
Uiguro ug
Ucraino uk
Urdu ur
Uzbeco uz
Vietnamita vi
Xhosa xh
Yiddish yi
Cinese (semplificato) zh-hans
Zulù zu

Passaggi successivi