Valutare e migliorare l'accuratezza di Riconoscimento vocale personalizzato

Questo articolo illustra come misurare quantitativamente e migliorare l'accuratezza dei modelli di sintesi vocale di Microsoft o di modelli personalizzati. Per il test dell'accuratezza sono necessari dati di trascrizione audio e con etichetta umana. è necessario fornire da 30 minuti a 5 ore di audio rappresentativo.

Valutare l'accuratezza di Riconoscimento vocale personalizzato

Lo standard di settore per misurare l'accuratezza del modello è la frequenza degli errori di Word (WER). WER conta il numero di parole non corrette identificate durante il riconoscimento, quindi divide in base al numero totale di parole fornite nella trascrizione con etichetta umana (mostrata di seguito come N). Infine, tale numero viene moltiplicato per il 100% per calcolare il WER.

Formula WER

Le parole identificate in modo errato rientrano in tre categorie:

  • Inserimento (I): parole erroneamente aggiunte nella trascrizione di ipotesi
  • Eliminazione (D): parole che non sono state rilevate nella trascrizione dell'ipotesi
  • Sostituzioni: parole sostituite tra i riferimenti e le ipotesi

Ecco un esempio:

Esempio di parole erroneamente identificate

Se si vuole replicare le misurazioni di WER localmente, è possibile usare sclite da SCTK.

Risolvere gli errori e migliorare WER

È possibile usare il WER dai risultati del riconoscimento del computer per valutare la qualità del modello usato con l'app, lo strumento o il prodotto. Un WER del 5%-10% è considerato una qualità ottima ed è pronto per l'uso. Un WER del 20% è accettabile, tuttavia è opportuno prendere in considerazione una formazione aggiuntiva. Un numero di messaggi pari al 30% indica una scarsa qualità e richiede la personalizzazione e la formazione.

Il modo in cui vengono distribuiti gli errori è importante. Quando vengono rilevati molti errori di eliminazione, è in genere dovuto a un livello di attendibilità del segnale audio debole. Per risolvere questo problema, è necessario raccogliere i dati audio più vicino all'origine. Gli errori di inserimento indicano che l'audio è stato registrato in un ambiente rumoroso ed è possibile che sia presente l'area interattiva, causando problemi di riconoscimento. Gli errori di sostituzione vengono spesso rilevati quando un campione insufficiente di termini specifici del dominio è stato fornito come trascrizioni con etichetta umana o testo correlato.

Analizzando i singoli file è possibile determinare il tipo di errore e gli errori che sono univoci per un file specifico. La comprensione dei problemi a livello di file consentirà di individuare i miglioramenti.

Creare un test

Se si vuole testare la qualità del modello di base di sintesi vocale di Microsoft o di un modello personalizzato che è stato sottoposto a training, è possibile confrontare due modelli affiancati per valutare l'accuratezza. Il confronto include i risultati di WER e il riconoscimento. In genere, un modello personalizzato viene confrontato con il modello di base di Microsoft.

Per valutare i modelli side-by-Side:

  1. Accedere al portale di riconoscimento vocale personalizzato.
  2. Passare a riconoscimento vocale > Riconoscimento vocale personalizzato > [nome del progetto] > test.
  3. Fare clic su Aggiungi test.
  4. Selezionare valuta accuratezza. Assegnare al test un nome, una descrizione e selezionare il set di dati di trascrizione audio + con etichetta umana.
  5. Selezionare fino a due modelli che si desidera testare.
  6. Fare clic su Crea.

Una volta creato correttamente il test, è possibile confrontare i risultati affiancati.

Confronto affiancato

Una volta completato il test, indicato dalla modifica dello stato a succeeded, si troverà un numero wer per entrambi i modelli inclusi nel test. Fare clic sul nome del test per visualizzare la pagina dei dettagli del test. Questa pagina di dettaglio elenca tutte le espressioni del set di dati, indicando i risultati del riconoscimento dei due modelli insieme alla trascrizione dal set di dati inviato. Per esaminare il confronto affiancato, è possibile abilitare o disabilitare vari tipi di errore, tra cui inserimento, eliminazione e sostituzione. Ascoltando l'audio e confrontando i risultati del riconoscimento in ogni colonna, che mostra la trascrizione con etichetta umana e i risultati per due modelli di riconoscimento vocale, è possibile decidere quale modello soddisfi le proprie esigenze e dove siano necessari ulteriori training e miglioramenti.

Migliorare l'accuratezza di Riconoscimento vocale personalizzato

Gli scenari di riconoscimento vocale variano in base alla qualità audio e al linguaggio (vocabolario e stile di lingua). Nella tabella seguente vengono esaminati quattro scenari comuni:

Scenario Qualità audio Vocabolario Stile di pronuncia
Call center Con una bassa 8 kHz, potrebbero essere presenti 2 persone su 1 canale audio, che potrebbero essere compressi Narrow, univoco per dominio e prodotti Conversazione, strutturata in maniera debole
Assistente vocale (ad esempio, Cortana o una finestra dell'unità) Alta, 16 kHz Entità Heavy (titoli di canzoni, prodotti, posizioni) Parole e frasi chiaramente dichiarate
Dettatura (messaggio istantaneo, note, ricerca) Alta, 16 kHz Diversi Prendere nota
Sottotitoli video codificati Vario, incluso l'uso di diversi microfoni, aggiunta di musica Vario, da riunioni, sintesi vocale, testi musicali Lettura, preparazione o struttura a regime di controllo libero

Diversi scenari producono risultati qualitativi diversi. Nella tabella seguente viene esaminato il modo in cui il contenuto di questi quattro scenari viene calcolato nella frequenza degli errori di parole. Nella tabella sono indicati i tipi di errore più comuni in ogni scenario.

Scenario Qualità riconoscimento vocale Errori di inserimento Errori di eliminazione Errori di sostituzione
Call center Media (< 30% WER) Bassa, tranne quando altri utenti discutono in background Può essere elevato. I Call Center possono essere rumorosi e gli altoparlanti sovrapposti possono confondere il modello Media. I nomi di prodotti e persone possono causare questi errori
Assistente vocale Alta (può essere < il 10% WER) Bassa Bassa Media, a causa di titoli di canzoni, nomi di prodotti o località
Dettatura Alta (può essere < il 10% WER) Bassa Basso Alto
Sottotitoli video codificati Dipende dal tipo di video (può essere < 50% WER) Basso Può essere elevato a causa di musica, rumori, qualità del microfono Il gergo potrebbe causare questi errori

La determinazione dei componenti di WER (numero di errori di inserimento, eliminazione e sostituzione) consente di determinare il tipo di dati da aggiungere per migliorare il modello. Usare il portale di riconoscimento vocale personalizzato per visualizzare la qualità di un modello di base. Il portale riporta le frequenze degli errori di inserimento, sostituzione ed eliminazione combinate nel tasso di qualità di WER.

Migliorare il riconoscimento del modello

È possibile ridurre gli errori di riconoscimento aggiungendo dati di training nel portale di riconoscimento vocale personalizzato.

Pianificare la gestione del modello personalizzato aggiungendo periodicamente i materiali di origine. Il modello personalizzato necessita di formazione aggiuntiva per tenere conto delle modifiche apportate alle entità. Ad esempio, potrebbe essere necessario aggiornare i nomi dei prodotti, i nomi di canzoni o le nuove posizioni dei servizi.

Le sezioni seguenti descrivono in che modo ogni tipo di dati di training aggiuntivi può ridurre gli errori.

Quando si esegue il training di un nuovo modello personalizzato, iniziare aggiungendo il testo correlato per migliorare il riconoscimento di parole e frasi specifiche di dominio. Le frasi di testo correlate possono ridurre principalmente gli errori di sostituzione correlati a errori di riconoscimento di parole comuni e parole specifiche del dominio visualizzandoli nel contesto. Le parole specifiche del dominio possono essere parole non comuni o composte, ma la loro pronuncia deve essere semplice da riconoscere.

Nota

Evitare le frasi di testo correlate che includono rumori come caratteri o parole non riconoscibili.

Aggiungere audio con trascrizioni con etichetta umana

L'audio con trascrizioni con etichetta umana offre i miglioramenti più accurati se l'audio deriva dal caso d'uso di destinazione. Gli esempi devono coprire l'ambito completo del riconoscimento vocale. Un Call Center per un negozio al dettaglio, ad esempio, può ottenere la maggior parte delle chiamate su swimwear e occhialini durante i mesi estivi. Assicurarsi che l'esempio includa l'ambito completo del riconoscimento vocale che si vuole rilevare.

Considerare i seguenti dettagli:

  • Il training con audio offrirà i maggiori vantaggi se l'audio è anche difficile da comprendere per gli utenti. Nella maggior parte dei casi, è consigliabile avviare il training semplicemente utilizzando il testo correlato.
  • Se si usa uno dei linguaggi usati più di frequente, ad esempio inglese (Stati Uniti), è possibile che non sia necessario eseguire il training con dati audio. Per tali lingue, i modelli di base offrono risultati di riconoscimento già molto validi nella maggior parte degli scenari. è probabilmente sufficiente per eseguire il training con testo correlato.
  • Riconoscimento vocale personalizzato possibile acquisire solo il contesto di Word per ridurre gli errori di sostituzione, non di inserimento o di eliminazione.
  • Evitare esempi che includono errori di trascrizione, ma includere una varietà di qualità audio.
  • Evitare frasi non correlate al dominio del problema. Le frasi non correlate possono danneggiare il modello.
  • Quando la qualità delle trascrizioni varia, è possibile duplicare frasi eccezionalmente valide, come le trascrizioni eccezionali che includono frasi chiave, per aumentarne il peso.
  • Il servizio riconoscimento vocale userà automaticamente le trascrizioni per migliorare il riconoscimento di parole e frasi specifiche del dominio, come se fossero state aggiunte come testo correlato.
  • Il completamento di un'operazione di training può richiedere diversi giorni. Per migliorare la velocità di training, assicurarsi di creare la sottoscrizione al servizio di riconoscimento vocale in un' area con l'hardware dedicato per il training.

Nota

Non tutti i modelli di base supportano il training con audio. Se un modello di base non la supporta, il servizio di riconoscimento vocale utilizzerà solo il testo delle trascrizioni e ignorerà l'audio. Per un elenco dei modelli di base che supportano il training con dati audio, vedere Supporto per le lingue . Anche se un modello di base supporta il training con dati audio, il servizio può usare solo parte dell'audio. Continuerà comunque a usare tutte le trascrizioni.

Nota

Nei casi in cui si modifica il modello di base utilizzato per il training e si dispone di audio nel set di dati di training, verificare sempre se il nuovo modello di base selezionato supporta il training con dati audio. Se il modello di base usato in precedenza non supporta il training con dati audio e il set di dati di training contiene audio, i tempi di training con il nuovo modello di base aumenteranno drasticamente e potranno passare da diverse ore a diversi giorni. Ciò vale soprattutto se la sottoscrizione al servizio vocale non si trova in un' area con l'hardware dedicato per il training.

Se si affronta il problema descritto nel paragrafo precedente, è possibile ridurre rapidamente il tempo di training riducendo la quantità di audio nel set di dati o rimuovendo completamente il testo e lasciando solo il testo. La seconda opzione è consigliata se la sottoscrizione al servizio vocale non si trova in un' area con l'hardware dedicato per il training.

Aggiungi nuove parole con la pronuncia

Le parole che sono composte o altamente specializzate possono avere pronunce univoche. Queste parole possono essere riconosciute se la parola può essere suddivisa in parole più piccole per la relativa dichiarazione. Ad esempio, per riconoscere Xbox, pronunciare come X Box. Questo approccio non aumenterà l'accuratezza complessiva, ma potrà aumentare il riconoscimento delle parole chiave.

Nota

Questa tecnica è disponibile solo per alcune lingue al momento. Per informazioni dettagliate, vedere Personalizzazione per la pronuncia nella tabella speech-to-text .

Origini per scenario

La tabella seguente illustra gli scenari di riconoscimento vocale ed elenca i materiali di origine da considerare nelle tre categorie di contenuto di training elencate in precedenza.

Scenario Frasi testuali correlate Trascrizioni audio + con etichetta umana Nuove parole con pronuncia
Call center documenti di marketing, siti Web, revisioni di prodotti correlati all'attività del Call Center chiamate al Call Center trascritte dagli utenti termini con pronunce ambigue (vedere la versione precedente di Xbox)
Assistente vocale elencare le frasi usando tutte le combinazioni di comandi ed entità registrare i comandi in lingua vocale nel dispositivo e trascriverli in testo nomi (filmati, canzoni, prodotti) con pronunce univoche
Dettatura input scritto, ad esempio messaggi istantanei o messaggi di posta elettronica simile a sopra simile a sopra
Sottotitoli video codificati TV Show scripts, movies, content marketing, video riepiloghi trascrizioni esatte dei video simile a sopra

Passaggi successivi

Risorse aggiuntive