Che cos'è la sintesi vocale?

Articolo
04/24/2024

In questa panoramica vengono illustrati i vantaggi e le caratteristiche della funzionalità di sintesi vocale del servizio Voce, che fa parte dei servizi di Intelligenza artificiale di Azure.

La sintesi vocale consente ad applicazioni, strumenti o dispositivi di convertire il testo in una voce sintetizzata simile a quella umana. La funzionalità di sintesi vocale è nota anche come conversione da testo a voce. È possibile usare voci neurali predefinite oppure creare una voce neurale personalizzata univoca per il prodotto o il marchio. Per un elenco completo di voci, lingue e impostazioni locali supportate, vedere Lingue e voci supportate per il servizio Voce.

Funzionalità di base

La sintesi vocale include le funzionalità seguenti:

Funzionalità	Riepilogo	Demo
Voce neurale predefinita (denominata Neurale nella pagina dei prezzi)	Voci predefinite con caratteristiche estremamente naturali. Creare un account di Azure e una sottoscrizione del servizio Voce e quindi usare Speech SDK o visitare il portale di Speech Studio e selezionare le voci neurali predefinite per iniziare. Vedere le informazioni sui prezzi.	Consultare la raccolta di voci e determinare la voce più adatta alle esigenze aziendali.
Voce neurale personalizzata (denominata neurale personalizzata nella pagina dei prezzi)	Funzionalità self-service facile da usare per la creazione di una voce naturale per il marchio, con accesso limitato per l'uso responsabile. Creare un account di Azure e una sottoscrizione del servizio Voce (con il livello S0) e inviare una richiesta per usare la funzionalità neurale personalizzata. Dopo avere ottenuto l'accesso, visitare il portale di Speech Studio e selezionare Voce personalizzata per iniziare. Vedere le informazioni sui prezzi.	Esaminare i campioni vocali.

Altre informazioni sulle funzionalità di sintesi vocale neurale

La sintesi vocale usa reti neurali profonde per rendere le voci dei computer quasi indistinguibili dalle registrazioni delle persone. Grazie all'articolazione chiara delle parole, la sintesi vocale neurale riduce in modo significativo le difficoltà di ascolto quando gli utenti interagiscono con i sistemi di intelligenza artificiale.

I modelli di accento e intonazione nella lingua parlata sono detti prosodia. I sistemi di sintesi vocale tradizionali suddividono la prosodia in passaggi distinti di analisi linguistica e previsione acustica, regolati da modelli indipendenti. Ciò può causare scarsa nitidezza o rumori di fondo nella sintesi vocale.

Di seguito sono illustrate altre informazioni sulle funzionalità di sintesi vocale neurale nel servizio Voce e su come queste consentano di superare i limiti dei sistemi di sintesi vocale tradizionali:

Sintesi vocale in tempo reale: tramite Speech SDK o l'API REST il testo viene convertito in parlato usando voci neurali predefinite o voci neurali personalizzate.
Sintesi asincrona di audio di lunga durata: tramite l'API di sintesi batch (anteprima) viene sintetizzare in modo asincrono il testo in file vocali più lunghi di 10 minuti (ad esempio, audiolibri o conferenze). A differenza della sintesi eseguita tramite Speech SDK o l'API REST di riconoscimento vocale, le risposte non vengono restituite in tempo reale. L'idea è che le richieste vengono inviate in modo asincrono, viene effettuato il polling delle risposte e l'audio sintetizzato viene scaricato quando il servizio lo rende disponibile.
Voci neurali predefinite: la funzionalità di sintesi vocale neurale di Microsoft usa reti neurali profonde per superare i limiti della sintesi vocale tradizionale in relazione all'accento e all'intonazione nella lingua parlata. La previsione della prosodia e la sintesi vocale avvengono simultaneamente, con risultati più fluidi e naturali. Ogni modello di voce neurale predefinito è disponibile a 24kHz e a 48 kHz ad alta fedeltà. È possibile usare le voci neurali per:
- Rendere le interazioni con chatbot e assistenti vocali più naturali e coinvolgenti.
- Convertire testi digitali come gli e-book in audiolibri.
- Migliorare i sistemi di navigazione per le auto.
Per un elenco completo di voci neurali della piattaforma, vedere Lingue e voci supportate per il servizio Voce.
Ottimizzazione dell'output della sintesi vocale con SSML: Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML usato per personalizzare gli output della sintesi vocale. Con SSML è possibile modificare il tono, aggiungere pause, migliorare la pronuncia, modificare la velocità del parlato, regolare il volume e attribuire più voci a un singolo documento.

È possibile usare SSML per definire un lessico personalizzato o passare a modi di parlare diversi. Con le voci multilingue, è anche possibile modificare la lingua parlata tramite SSML. Per ottimizzare l'output vocale per uno scenario specifico, vedere Migliorare la sintesi con Speech Synthesis Markup Language e Sintesi vocale con lo strumento Creazione di contenuto audio.
Visemi: i visemi sono le posizioni chiave quando si osserva una persona che parla, tra cui la posizione delle labbra, della mascella e della lingua nella produzione di un particolare fonema. I visemi hanno una forte correlazione con voci e fonemi.

Usando gli eventi dei visemi in Speech SDK, è possibile generare dati di animazione facciale. Questi dati possono essere usati per animare i visi nelle comunicazioni basate sulla lettura labiale, per l'istruzione, per l'intrattenimento e per l'assistenza clienti. Il visema è attualmente supportato solo per le voci neurali per la lingua en-US (inglese Stati Uniti).

Nota

Nel corso del 2024 è previsto il ritiro delle voci tradizionali/standard e della voce personalizzata non neurale. Successivamente, queste voci non saranno più supportate.

Se le applicazioni, gli strumenti o i prodotti usano una delle voci standard e personalizzate, è necessario eseguire la migrazione alla versione neurale. Per altre informazioni, vedere Eseguire la migrazione alle voci neurali.

Operazioni preliminari

Per iniziare a usare la sintesi vocale, vedere la guida di avvio rapido. La sintesi vocale è disponibile tramite Speech SDK, l'API REST e l'interfaccia della riga di comando del servizio Voce.

Suggerimento

Per eseguire la sintesi vocale con un approccio senza codice, provare lo strumento Creazione di contenuto audio in Speech Studio.

Codice di esempio

Il codice di esempio per la sintesi vocale è disponibile in GitHub. Questi esempi illustrano la sintesi vocale nei linguaggi di programmazione più diffusi:

Sintesi vocale neurale

Oltre alle voci neurali predefinite, è possibile creare e ottimizzare voci neurali personalizzate univoche per il prodotto o il marchio. Per iniziare, sono sufficienti alcuni file audio e le trascrizioni associate. Per altre informazioni, vedere Introduzione a Sintesi vocale neurale.

Nota sui prezzi

Caratteri fatturabili

Quando si usa la funzionalità di sintesi vocale, viene addebitato un costo per ogni carattere convertito in parlato, inclusa la punteggiatura. Anche se il documento SSML stesso non è fatturabile, gli elementi facoltativi usati per definire il modo in cui il testo viene convertito in parlato, ad esempio i fonemi e il tono, vengono conteggiati come caratteri fatturabili. Ecco un elenco degli elementi fatturabili:

Testo passato alla funzionalità di sintesi vocale nel corpo SSML della richiesta
Tutto il markup all'interno del campo di testo del corpo della richiesta nel formato SSML, ad eccezione dei tag <speak> e <voice>
Lettere, punteggiatura, spazi, tabulazioni, markup e tutti gli spazi vuoti
Ogni elemento di codice definito in Unicode

Per informazioni dettagliate, vedere Prezzi del servizio Voce.

Importante

Ogni carattere cinese viene conteggiato come due caratteri ai fini della fatturazione, inclusi i caratteri kanji usati in giapponese, hanja usati in coreano o hanzi usati in altre lingue.

Training del modello e tempo di hosting per la funzionalità Sintesi vocale neurale

Il training e l'hosting di Sintesi vocale neurale vengono calcolati per ora e fatturati al secondo. Per il prezzo unitario di fatturazione, vedere Prezzi del servizio Voce.

Il tempo di training di CNV (Custom Neural Voice, Sintesi vocale neurale) viene misurato in base a un'unità detta "ora di calcolo" (un'unità per misurare il tempo di esecuzione del computer). In genere, quando si esegue il training di un modello vocale, vengono eseguite in parallelo due attività di calcolo. Le ore di calcolo conteggiate sono pertanto maggiori del tempo di training effettivo. In media, è necessaria meno di un'ora di calcolo per eseguire il training di una voce CNV Lite; mentre per CNV Pro sono in genere necessarie da 20 a 40 ore di calcolo per eseguire il training di una voce con uno stile singolo e circa 90 ore di calcolo per eseguire il training di una voce con più stili. Il tempo di training di CNV viene fatturato rispettando un limite di 96 ore di calcolo. Nel caso in cui venga eseguito il training di un modello vocale in 98 ore di calcolo, vengono quindi addebitate solo 96 ore di calcolo.

L'hosting di endpoint CNV (Sintesi vocale neurale) viene misurato in base al tempo effettivo (ore). Il tempo di hosting (ore) per ogni endpoint viene calcolato alle 00:00 UTC ogni giorno per le 24 ore precedenti. Se, ad esempio, l'endpoint è stato attivo per 24 ore il giorno 1, vengono addebitate 24 ore alle 00:00 UTC del secondo giorno. Se l'endpoint è stato appena creato o sospeso durante il giorno, viene addebitato il tempo di esecuzione accumulato fino alle 00:00 UTC del secondo giorno. Se l'endpoint non è attualmente ospitato, non viene fatturato. Oltre al calcolo giornaliero eseguito alle 00:00 UTC di ogni giorno, la fatturazione viene attivata immediatamente quando un endpoint viene eliminato o sospeso. Ad esempio, per un endpoint creato alle 08:00 UTC il 1° dicembre, il tempo di hosting viene calcolato come 16 ore alle 00:00 UTC del 2 dicembre e 24 ore alle 00:00 UTC del 3 dicembre. Se l'utente sospende l'hosting dell'endpoint alle 16:30 UTC del 3 dicembre, per la fatturazione verrà calcolata la durata (16,5 ore) dalle 00:00 alle 16:30 UTC del 3 dicembre.

Documentazione di riferimento

Intelligenza artificiale responsabile

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione di intelligenza artificiale responsabile nei sistemi.