Condividi tramite


Che cos’è la voce neurale personalizzata per la sintesi vocale?

Grazie la voce personale, è possibile ottenere la replica generata da intelligenza artificiale della propria voce (o di quella degli utenti dell'applicazione) in pochi secondi. Si fornisce un campione di parlato della durata di un minuto come richiesta audio e quindi lo si usa per generare il parlato in una delle più di 90 lingue supportate, in oltre 100 impostazioni locali.

Nota

La voce personale è disponibile in queste aree: Europa occidentale, Stati Uniti orientali e Asia sud-orientale. Per le impostazioni locali supportate, consultare supporto linguistico per la voce personale.

La seguente tabella riepiloga le differenze tra la voce personale e la voce neurale personalizzata professionale.

Confronto Voce neurale personalizzata Voce professionale
Scenari di destinazione Clienti aziendali che desiderano creare un'app che consenta agli utenti di creare e usare la propria voce personale nell'app. Scenari professionali, come voci di marchio o di personaggi per chatbot, o lettura di contenuti audio.
Utilizzare casi Riservato a casi d'uso limitati. Consultare la nota sulla trasparenza. I clienti approvati devono avere un piano che possa supportare più di 1.000 voci personali. Riservato a casi d'uso limitati. Consultare la nota sulla trasparenza.
Dati di training Assicurarsi di rispettare il codice di comportamento. Usare i propri dati. È consigliabile registrare in uno studio professionale.
Dimensioni dei dati necessarie Un minuto di parlato umano. 300-2000 espressioni (circa 30 minuti e 3 ore di parlato umano).
Tempo di addestramento Meno di 5 secondi Circa 20-40 ore di calcolo.
Qualità della voce Natural Altamente naturale
Supporto multilingue Sì. La voce è in grado di parlare circa 100 lingue, con il rilevamento automatico della lingua abilitato. Sì. È necessario selezionare la funzionalità "Neurale – più lingue" per eseguire il training di un modello che parli una lingua diversa da quella dei dati di training.
Disponibilità La demo in Speech Studio è disponibile previa registrazione. L'accesso all'API è limitato ai clienti idonei e ai casi d'uso approvati. Richiedere l'accesso tramite il modulo di accettazione. È possibile eseguire il training e distribuire un modello CNV Pro solo dopo che l’accesso è stato approvato. L'accesso a CNV Pro è limitato in base ai criteri di idoneità e utilizzo. Richiedere l'accesso tramite il modulo di accettazione.
Prezzi Controllare i dettagli dei prezzi qui1. Consultare i dettagli dei prezzi qui.
Requisiti di IA responsabili È necessaria una dichiarazione verbale da parte del parlante. Non sono consentiti casi d'uso non approvati. È necessaria una dichiarazione verbale da parte del parlante. Non sono consentiti casi d'uso non approvati.

1 Si noti che i prezzi della voce neurale personalizzata saranno visibili solo per le aree del servizio in cui è disponibile la funzionalità, tra cui Europa occidentale, Stati Uniti orientali e Asia sud-orientale.

Provare la demo

Se si dispone di una risorsa S0, è possibile accedere alla demo della voce neurale personalizzata in Speech Studio. Per usare l'API della voce neurale personalizzata, è possibile richiedere l'accesso qui.

  1. Passare a Speech Studio

  2. Selezionare la scheda Voce personale.

  3. È possibile registrare la propria voce e provare gli esempi di output vocale in diverse lingue. La demo include un subset delle lingue supportate dalla voce personale.

    Screenshot dell'esperienza demo della voce neurale personalizzata in Speech Studio.

Come creare una voce personale

Per iniziare, ecco un riepilogo dei passaggi per creare una voce personale:

  1. Creare un progetto.
  2. Caricare il file di consenso. Per la funzionalità voce personale, è necessario che ogni voce venga creata con il consenso esplicito dell'utente. È necessaria una dichiarazione registrata da parte dell’utente nella quale si dichiari di consapevole che il cliente (proprietario della risorsa Voce di Azure AI) creerà e userà la sua voce.
  3. Ottenere un ID profilo del parlante per la voce personale. Si ottiene un ID profilo del parlante in base alla sua dichiarazione di consenso verbale e a una richiesta audio. Le caratteristiche vocali dell'utente vengono codificate nella proprietà speakerProfileId usata per la sintesi vocale.

Dopo aver creato una voce personale, è possibile usarla per sintetizzare il parlato in una delle 91 lingue supportate in più di 100 impostazioni locali. Non è necessario un tag delle impostazioni locali. La voce personale usa il rilevamento automatico della lingua a livello di frase. Per ulteriori informazioni, consultare Usare la voce personale nell'applicazione.

Suggerimento

Per informazioni su come usare la voce personale nell'applicazione, consultare gli esempi di codice nel repository Speech SDK in GitHub .

Documentazione di riferimento

Intelligenza artificiale responsabile

Abbiamo a cuore gli interessi delle persone che usano l’intelligenza artificiale quanto abbiamo a cuore la tecnologia. Per ulteriori informazioni, consultare le note sulla trasparenza dell'IA responsabile.

Passaggi successivi