Esaminare i dati di Riconoscimento vocale personalizzato

Nota

Questa pagina presuppone che sia stata effettuata la lettura dei dati di test per riconoscimento vocale personalizzato e che sia stato caricato un set di dati per l'ispezione.

Riconoscimento vocale personalizzato offre strumenti che consentono di esaminare visivamente la qualità del riconoscimento di un modello confrontando i dati audio con il risultato del riconoscimento corrispondente. Da speech studioè possibile riprodurre l'audio caricato e determinare se il risultato del riconoscimento fornito è corretto. Questo strumento consente di controllare la qualità del modello di sintesi vocale di Microsoft, controllare un modello personalizzato sottoposto a training o confrontare la trascrizione con due modelli.

In questo documento si apprenderà come esaminare visivamente la qualità del modello di sintesi vocale di base di Microsoft e/o i modelli personalizzati di cui è stato eseguito il training. Si apprenderà anche come usare l'editor trascrizioni online per creare e perfezionare i set di impostazioni audio con etichetta.

Creare un test

Per creare un test, seguire queste istruzioni:

  1. Accedere a speech studio.
  2. Passare a riconoscimento vocale > Riconoscimento vocale personalizzato > [nome del progetto] > test.
  3. Fare clic su Aggiungi test.
  4. Selezionare Controlla qualità (dati solo audio). Assegnare al test un nome, una descrizione e selezionare il set di dati audio.
  5. Selezionare fino a due modelli che si desidera testare.
  6. Fare clic su Crea.

Al termine della creazione di un test, è possibile visualizzare il modo in cui un modello consente di trascrivere il set di dati audio specificato oppure confrontare i risultati di due modelli side-by-side.

Nota

Quando si esegue il test, il sistema esegue una trascrizione. È importante tenere presente che i prezzi variano in base all'offerta di servizio e al livello di sottoscrizione. Per informazioni aggiornate, fare riferimento sempre al servizio di riconoscimento vocale dei servizi cognitivi di Azure.

Confronto tra modelli affiancati

Quando lo stato del test ha esito positivo, fare clic sul nome dell'elemento del test per visualizzare i dettagli del test. Questa pagina di dettaglio elenca tutte le espressioni del set di dati e Mostra i risultati del riconoscimento dei due modelli da confrontare.

Per esaminare il confronto affiancato, è possibile abilitare o disabilitare vari tipi di errore, tra cui inserimento, eliminazione e sostituzione. Ascoltando l'audio e confrontando i risultati del riconoscimento in ogni colonna (mostrando la trascrizione con etichetta umana e i risultati di due modelli di riconoscimento vocale), è possibile decidere quale modello soddisfi le proprie esigenze e dove siano necessari miglioramenti.

Il testing del modello affiancato è utile per convalidare il modello di riconoscimento vocale migliore per un'applicazione. Per una misura oggettiva di accuratezza, che richiede l'audio trascritto, seguire le istruzioni disponibili in valutare l'accuratezza.

Editor trascrizioni online

L'editor trascrizioni online consente di usare facilmente le trascrizioni audio in Riconoscimento vocale personalizzato. I casi d'uso principali dell'editor sono i seguenti:

  • Sono disponibili solo dati audio, ma si vuole creare set di dati audio e con etichetta umana accurate da zero da usare per il training del modello.
  • Sono già presenti set di impostazioni audio e con etichetta umana, ma si verificano errori o difetti nella trascrizione. L'editor consente di modificare rapidamente le trascrizioni per ottenere una migliore precisione di training.

L'unico requisito per utilizzare l'editor di trascrizione consiste nel caricare dati audio (solo audio o audio + trascrizione).

Importa set di DataSet nell'editor

Per importare dati nell'editor, passare prima di tutto a Riconoscimento vocale personalizzato > [progetto] > editor.

Scheda dell'editor

Usare quindi la procedura seguente per importare i dati.

  1. Fare clic su Importa dati
  2. Creare un nuovo set di dati e assegnargli una descrizione
  3. Selezionare set di impostazioni. Sono supportate più selezioni ed è possibile selezionare solo i dati audio, oltre ai dati audio e con etichetta umana.
  4. Per i dati solo audio, è possibile usare facoltativamente i modelli predefiniti per generare automaticamente la trascrizione del computer dopo l'importazione nell'editor
  5. Fare clic su Importa

Una volta importati correttamente i dati, è possibile fare clic nei set di dati e iniziare la modifica.

Suggerimento

È anche possibile importare i set di impostazioni direttamente nell'editor selezionando set di impostazioni e facendo clic su Esporta nell'editor

Modificare la trascrizione ascoltando l'audio

Una volta completato il caricamento dei dati, fare clic su ogni nome di elemento per visualizzare i dettagli dei dati. È anche possibile usare Previous e Next per spostarsi tra i singoli file.

La pagina dei dettagli elenca tutti i segmenti in ogni file audio ed è possibile fare clic sull'espressione desiderata. Per ogni espressione, è possibile riprodurre l'audio ed esaminare le trascrizioni e modificare le trascrizioni se si riscontrano errori di inserimento, eliminazione o sostituzione. Per ulteriori informazioni sui tipi di errore, vedere la pagina relativa alla valutazione dei dati .

Pagina dell'editor

Dopo aver apportato le modifiche, fare clic sul pulsante Salva .

Esportare i set di impostazioni dall'editor

Per esportare di nuovo i set di dati nella scheda dati, passare alla pagina dei dettagli dei dati e fare clic sul pulsante Esporta per esportare tutti i file come nuovo set di dati. È anche possibile filtrare i file in base all'ora dell'Ultima modifica, alle durate audio e così via per selezionare parzialmente i file desiderati.

Esportazione dei dati

I file esportati nei dati verranno usati come set di dati completamente nuovo e non influiscono sulle entità esistenti di dati, training e test.

Passaggi successivi

Risorse aggiuntive