Che cos'è la sintesi vocale?

Importante

Transport Layer Security (TLS) 1.2 viene ora applicato per tutte le richieste HTTP a questo servizio. Per altre informazioni, vedere Sicurezza di Servizi cognitivi di Azure.

Questa panoramica offre informazioni sui vantaggi e le funzionalità del servizio di sintesi vocale, che consente ad applicazioni, strumenti o dispositivi di convertire il testo in sintesi vocale simile a quella umana. Usare voci neurali simili a quella umana o creare una voce personalizzata univoca per il prodotto o il marchio. Per un elenco completo di voci, lingue e impostazioni locali supportate, vedere lingue supportate.

Questa documentazione contiene i tipi di articolo seguenti:

  • Le guide introduttive sono istruzioni introduttive che guidano l'utente nell'esecuzione di richieste al servizio.
  • Le guide alle attività contengono istruzioni per l'uso del servizio in modi più specifici o personalizzati.
  • I concetti forniscono spiegazioni approfondite delle funzionalità e delle funzionalità del servizio.
  • Le esercitazioni sono guide più lunghe che illustrano come usare il servizio come componente in soluzioni aziendali più ampie.

Nota

Riconoscimento vocale Bing stata rimossa il 15 ottobre 2019. Se le applicazioni, gli strumenti o i prodotti usano le API Riconoscimento vocale Bing o Riconoscimento vocale personalizzato, sono state create guide che consentono di eseguire la migrazione al servizio Voce.

Funzionalità di base

  • Sintesi vocale: usare Speech SDK o l'API REST per convertire la sintesi vocale usando voci standard, neurali o personalizzate.

  • Sintesi asincrona dell'audio lungo: usare l'API Audio lungo per sintetizzare in modo asincrono i file di sintesi vocale per più di 10 minuti ,ad esempio audioliti o lezioni. A differenza della sintesi eseguita con Speech SDK o l'API REST di riconoscimento vocale, le risposte non vengono restituite in tempo reale. L'aspettativa è che le richieste vengono inviate in modo asincrono, viene eseguito il polling delle risposte e che l'audio sintetizzato sia scaricato quando viene reso disponibile dal servizio. Sono supportate solo voci neurali personalizzate.

  • Voci neurali: le reti neurali profonde vengono usate per superare i limiti della sintesi vocale tradizionale per quanto riguarda lo stress e l'intonazione nel linguaggio parlato. La stima prosodia e la sintesi vocale vengono eseguite contemporaneamente, con un risultato più fluido e naturale. Le voci neurali possono essere usate per rendere le interazioni con chatbot e assistenti vocali più naturali e coinvolgenti, convertire testi digitali come e-book in audiolibri e migliorare i sistemi di navigazione in auto. Con la prosodia naturale simile a quella umana e l'articazione chiara delle parole, le voci neurali riducono significativamente l'affaticamento dell'ascolto quando si interagisce con i sistemi di intelligenza artificiale. Per un elenco completo delle voci neurali, vedere lingue supportate.

  • Ottimizzare l'output TTS con SSML - Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML usato per personalizzare gli output di sintesi vocale. Con SSML è possibile non solo regolare l'intonazione, aggiungere pause, migliorare la pronuncia, modificare la velocità di pronuncia, regolare il volume e attribuite più voci a un singolo documento, ma anche definire i propri lessico o passare a stili di pronuncia diversi. Con le voci multilingue, è anche possibile regolare le lingue parlanti tramite SSML. Vedere come usare SSML per ottimizzare l'output vocale per lo scenario.

  • Visemes - Visemes sono le posizioni chiave nel parlato osservato, inclusa la posizione della zanza, della mascella e della lingua quando si produce un particolare fonema. I visemi hanno una forte correlazione con voci e fonemi. Usando gli eventi viseme in Speech SDK, è possibile generare dati di animazione facciale, che possono essere usati per animare i visi nella comunicazione con lettura del labbro, nell'istruzione, nell'intrattenimento e nel servizio clienti. Viseme è attualmente supportato solo per le voci en-US neuraliinglese (Stati Uniti).

Introduzione

Vedere la guida introduttiva per iniziare a usare la sintesi vocale. Il servizio di sintesi vocale è disponibile tramite Speech SDK,l'API RESTe l'interfaccia della riga di comando di Voce

Codice di esempio

Il codice di esempio per la sintesi vocale è disponibile in GitHub. Questi esempi trattano la conversione della sintesi vocale nei linguaggi di programmazione più diffusi.

Personalizzazione

Oltre alle voci neurali, è possibile creare e ottimizzare voci personalizzate univoche per il prodotto o il marchio. Per iniziare sono necessari solo alcuni file audio e le trascrizioni associate. Per altre informazioni, vedere Introduzione a Sintesi vocale neurale

Nota sui prezzi

Quando si usa il servizio di sintesi vocale, viene addebitato ogni carattere convertito in voce, inclusa la punteggiatura. Anche se il documento SSML stesso non è fatturabile, gli elementi facoltativi usati per modificare la modalità di conversione del testo in voce, ad esempio fonemi e tono, vengono conteggiati come caratteri fatturabili. Ecco un elenco degli elementi fatturabili:

  • Testo passato al servizio di sintesi vocale nel corpo SSML della richiesta
  • Tutto il markup all'interno del campo di testo del corpo della richiesta nel formato SSML, ad eccezione dei <speak> tag <voice> e
  • Lettere, punteggiatura, spazi, tabulazioni, markup e tutti gli spazi vuoti
  • Ogni elemento di codice definito in Unicode

Per informazioni dettagliate, vedere Prezzi.

Importante

Ogni carattere in lingua cinese, giapponese e coreano viene conteggiato come due caratteri per la fatturazione.

Documentazione di riferimento

Passaggi successivi