Comprendere il riconoscimento vocale e la sintesi vocale

Completato

Il riconoscimento vocale accetta la parola pronunciata e lo converte in dati che possono essere elaborati, spesso trascrivandoli in testo. Le parole pronunciate possono essere sotto forma di voce registrata in un file audio o di audio live da un microfono. I modelli vocali vengono analizzati nell'audio per determinare modelli riconoscibili di cui viene eseguito il mapping in parole. A tale scopo, il software usa in genere più modelli, tra cui:

  • Un modello acustico che converte il segnale audio in fonemi (rappresentazioni di suoni specifici).
  • Un modello linguistico che esegue il mapping dei fonemi in parole, in genere usando un algoritmo statistico che prevede la sequenza di parole più probabile in base ai fonemi.

Le parole riconosciute vengono in genere convertite in testo, che è possibile usare per vari scopi, ad esempio:

  • Fornire sottotitoli codificati per video registrati o live
  • Creare una trascrizione di una telefonata o di una riunione
  • Dettare automaticamente appunti
  • Determinare l'input utente previsto per un'ulteriore elaborazione

La sintesi vocale riguarda la voce dei dati, in genere convertendo il testo in voce. Una soluzione di sintesi vocale richiede in genere le informazioni seguenti:

  • Testo da pronunciare
  • La voce da usare per vocalizzare il discorso

Per sintetizzare la voce, il sistema in genere suddivide in token il testo per scomporlo in singole parole e assegna suoni fonetici a ogni parola. Quindi suddivide la trascrizione fonetica in unità prosodiche (ad esempio sintagmi, proposizioni o frasi), per creare fonemi che verranno convertiti nel formato audio. Questi fonemi vengono quindi sintetizzati come audio e possono essere assegnati a una particolare voce, velocità di pronuncia, passo e volume.

È possibile usare l'output della sintesi vocale per molti scopi, tra cui:

  • Generazione di risposte vocali all'input dell'utente
  • Creazione di menu vocali per sistemi telefonici
  • Lettura di messaggi di posta elettronica o sms ad alta voce in scenari senza mani
  • Trasmissione di annunci in luoghi pubblici, ad esempio stazioni ferroviarie o aeroporti