Domande frequenti sul riconoscimento di entità denominate personalizzate

Articolo
12/19/2023

Risposte alle domande frequenti sui concetti e sugli scenari correlati al NER personalizzato nel linguaggio di intelligenza artificiale di Azure.

Ricerca per categorie iniziare a usare il servizio?

Vedere la guida introduttiva per creare rapidamente il primo progetto o visualizzare come creare progetti per informazioni più dettagliate.

Quali sono i limiti del servizio?

Per altre informazioni, vedere l'articolo sui limiti del servizio .

Quanti file contrassegnati sono necessari?

In genere, i dati con tag diversi e rappresentativi portano a risultati migliori, dato che l'assegnazione di tag viene eseguita con precisione, in modo coerente e completo. Non esiste un numero impostato di istanze con tag che renderanno ogni modello ottimale. Prestazioni estremamente dipendenti dallo schema e ambiguità dello schema. I tipi di entità ambigui richiedono più tag. Le prestazioni dipendono anche dalla qualità dell'assegnazione di tag. Il numero consigliato di istanze con tag per entità è 50.

La formazione richiede molto tempo, è previsto?

Il processo di training può richiedere molto tempo. Come stima approssimativa, il tempo di training previsto per i file con una lunghezza combinata di 12.800.000 caratteri è di 6 ore.

Ricerca per categorie compilare il modello personalizzato a livello di codice?

Nota

Attualmente è possibile creare un modello solo usando l'API REST o Language Studio.

È possibile usare le API REST per compilare i modelli personalizzati. Seguire questa guida introduttiva per iniziare a creare un progetto e creare un modello tramite API per esempi di come chiamare l'API di creazione.

Quando si è pronti per iniziare a usare il modello per eseguire stime, è possibile usare l'API REST o la libreria client.

Qual è il processo CI/CD consigliato?

È possibile eseguire il training di più modelli nello stesso set di dati nello stesso progetto. Dopo aver eseguito correttamente il training del modello, è possibile visualizzarne le prestazioni. È possibile distribuire e testare il modello in Language Studio. È possibile aggiungere o rimuovere etichette dai dati ed eseguire il training di un nuovo modello e testarlo. Visualizzare i limiti del servizioper informazioni sul numero massimo di modelli sottoposti a training con lo stesso progetto. Quando si esegue il training di un modello, è possibile determinare la modalità di suddivisione del set di dati in set di training e test. È anche possibile suddividere i dati in modo casuale in un set di training e di test in cui non esiste alcuna garanzia che la valutazione del modello riflessa sia relativa allo stesso set di test e che i risultati non siano confrontabili. È consigliabile sviluppare un set di test personalizzato e usarlo per valutare entrambi i modelli in modo da poter misurare il miglioramento.

Un punteggio di modello basso o alto garantisce prestazioni negative o buone nell'ambiente di produzione?

La valutazione del modello potrebbe non essere sempre completa. Questo dipende da:

Se il set di test è troppo piccolo, quindi i punteggi buoni/negativi non sono rappresentativi delle prestazioni effettive del modello. Inoltre, se un tipo di entità specifico è mancante o sottorappresentato nel set di test, influirà sulle prestazioni del modello.
La diversità dei dati se i dati coprono solo alcuni scenari o esempi del testo previsto nell'ambiente di produzione, il modello non verrà esposto a tutti gli scenari possibili e potrebbe non essere eseguito correttamente negli scenari su cui non è stato eseguito il training.
Rappresentazione dei dati se il set di dati usato per eseguire il training del modello non è rappresentativo dei dati che verrebbero introdotti nel modello nell'ambiente di produzione, le prestazioni del modello saranno influenzate notevolmente.

Per altre informazioni, vedere l'articolo relativo alla selezione dei dati e alla progettazione dello schema .

Ricerca per categorie migliorare le prestazioni del modello?

Visualizzare la matrice di confusione del modello. Se si nota che un determinato tipo di entità non viene spesso stimato correttamente, è consigliabile aggiungere altre istanze con tag per questa classe. Se si nota che due tipi di entità vengono spesso stimati tra loro, significa che lo schema è ambiguo ed è consigliabile unirle entrambe in un tipo di entità per ottenere prestazioni migliori.
Esaminare le stime del set di test. Se uno dei tipi di entità ha molte più istanze con tag rispetto alle altre, il modello potrebbe essere distorto verso questo tipo. Aggiungere altri dati agli altri tipi di entità o rimuovere esempi dal tipo dominante.
Altre informazioni sulla selezione dei dati e sulla progettazione dello schema.
Esaminare il set di test per visualizzare le entità stimate e contrassegnate side-by-side in modo da avere un'idea migliore delle prestazioni del modello e decidere se sono necessarie modifiche nello schema o nei tag.

Perché si ottengono risultati diversi quando si ripete il training del modello?

Quando si esegue il training del modello, è possibile determinare se si vuole suddividere i dati in modo casuale in set di training e test. In tal caso, non esiste alcuna garanzia che la valutazione del modello riflessa si trovi nello stesso set di test, quindi i risultati non sono confrontabili.
Se si esegue il training dello stesso modello, il set di test sarà lo stesso, ma è possibile notare una leggera modifica nelle stime effettuate dal modello. Ciò è dovuto al fatto che il modello sottoposto a training non è abbastanza affidabile e questo è un fattore del livello di rappresentatività e di distinzione tra i dati e la qualità dei dati con tag.

Ricerca per categorie ottenere stime in lingue diverse?

Prima di tutto, è necessario abilitare l'opzione multilingue durante la creazione del progetto oppure abilitarla in un secondo momento dalla pagina delle impostazioni del progetto. Dopo aver eseguito il training e la distribuzione del modello, è possibile iniziare a eseguire una query in più lingue. È possibile ottenere risultati diversi per lingue diverse. Per migliorare l'accuratezza di qualsiasi linguaggio, aggiungere altre istanze con tag al progetto in tale linguaggio per introdurre il modello sottoposto a training a una maggiore sintassi di tale linguaggio.

Ho eseguito il training del modello, ma non posso testarlo

È necessario distribuire il modello prima di testarlo.

Ricerca per categorie usare il modello sottoposto a training per le stime?

Dopo aver distribuito il modello, chiamare l'API di stima usando l'API REST o le librerie client.

Sicurezza e privacy dei dati

NER personalizzato è un responsabile del trattamento dei dati ai fini del Regolamento generale sulla protezione dei dati (GDPR). In conformità ai criteri GDPR, gli utenti di NER personalizzati hanno il controllo completo per visualizzare, esportare o eliminare qualsiasi contenuto utente tramite Language Studio o a livello di codice usando le API REST.

I dati vengono archiviati solo nell'account di archiviazione di Azure. Il NER personalizzato ha accesso solo per la lettura da esso durante il training.

Come clonare il progetto?

Per clonare il progetto, è necessario usare l'API di esportazione per esportare gli asset di progetto e quindi importarli in un nuovo progetto. Vedere le informazioni di riferimento sull'API REST per entrambe le operazioni.

Share via