Creare e usare il modello di voce

In Preparare i dati di trainingsono stati appresi i diversi tipi di dati che è possibile usare per eseguire il training di una voce neurale personalizzata e i diversi requisiti di formato. Dopo aver preparato i dati e la dichiarazione verbale dello speaker, è possibile iniziare a caricarli nel Speech Studio. Questo articolo illustra come eseguire il training di un Sintesi vocale neurale tramite il portale Speech Studio. Vedere le lingue supportate per la voce neurale personalizzata.

Prerequisiti

Configurare lo speaker

Uno speaker vocale è un parlante individuale o di destinazione le cui voci vengono registrate e usate per creare modelli vocali neurali. Prima di creare una voce, definire l'utente tipo di voce e selezionare uno speaker giusto. Per informazioni dettagliate sulla registrazione di esempi vocali, vedere l'esercitazione.

Per eseguire il training di una voce neurale, è necessario creare un profilo di speaker con un file audio registrato dallo speaker che acconsente all'utilizzo dei dati vocali per eseguire il training di un modello vocale personalizzato. Quando si prepara lo script di registrazione, assicurarsi di includere la frase seguente:

"I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice." Questa frase viene usata per verificare se i dati di training corrispondono all'audio nell'istruzione di consenso. > altre informazioni sulla verifica dello speaker qui.

Nota

Sintesi vocale neurale è disponibile con accesso limitato. Assicurarsi di comprendere i requisiti di intelligenza artificiale responsabili equindi richiedere l'accessoa .

I passaggi seguenti presuppongono che siano stati preparati i file di consenso verbale dello speaker. Passare a Speech Studio selezionare un progetto di voce neurale personalizzata, quindi seguire questa procedura per creare un profilo di speaker.

  1. Passare a Text-to-Speech > voce personalizzata > selezionare un progetto Set up voice talent > (Configura speaker voce).

  2. Fare clic su Add voice talent (Aggiungi speaker).

  3. Successivamente, per definire le caratteristiche vocali, fare clic su Scenario di destinazione da usare. Descrivere quindi le caratteristiche vocali.

Nota

Gli scenari forniti devono essere coerenti con quanto applicato nel modulo dell'applicazione.

  1. Passare quindi all'istruzione Upload speaker, seguire le istruzioni per caricare la dichiarazione dello speaker preparata in precedenza.

Nota

Assicurarsi che l'istruzione verbale sia registrata nelle stesse impostazioni dei dati di training, inclusi l'ambiente di registrazione e lo stile di pronuncia.

  1. Infine, passare a Rivedi e inviare, è possibile esaminare le impostazioni e fare clic su Invia.

Caricare i set di dati

Quando si è pronti per caricare i dati, passare alla scheda Preparare i dati di training per aggiungere il primo set di training e caricare i dati. Un set di training è un set di espressioni audio e i relativi script di mapping usati per il training di un modello vocale. È possibile usare un set di training per organizzare i dati di training. Il controllo dell'idoneità dei dati verrà eseguito per ogni set di training. È possibile importare più set di dati in un set di training.

È possibile eseguire le operazioni seguenti per creare ed esaminare i dati di training.

  1. Nella scheda Preparare i dati di training fare clic su Aggiungi set di training per immettere Nome e > Descrizione Crea per aggiungere un nuovo set di training.

    Dopo aver creato il set di training, è possibile iniziare a caricare i dati.

  2. Per caricare i dati, fare clic su dati Upload Scegliere il tipo di dati Upload dati e Specificare il set di training di destinazione > Immettere nome e descrizione per il set di dati > rivedere le impostazioni e fare clic su > > Upload.

Nota

  • I nomi audio duplicati verranno rimossi dal training. Assicurarsi che i set di dati selezionati non contengano gli stessi nomi audio all'interno del file .zip o tra più .zip file. Se gli ID espressione (nei file audio o script) sono duplicati, verranno rifiutati.
  • Se sono stati creati set di dati nella versione precedente di Speech Studio, è necessario specificare in anticipo un set di training per i set di dati per usarli. In caso contrario, verrà aggiunto un punto esclamativo al nome del set di dati e non sarà possibile usare il set di dati.

Ogni set di dati caricato deve soddisfare i requisiti per il tipo di dati scelto. È importante formattare correttamente i dati prima di caricarli, in modo da garantire che i dati vengano elaborati in modo accurato dal Sintesi vocale neurale dati. Passare a Preparare i dati di training e assicurarsi che i dati siano stati formattati correttamente.

Nota

  • Gli utenti con sottoscrizione standard (S0) possono caricare cinque set di dati contemporaneamente. Se si raggiunge il limite, attendere che l'importazione di almeno un set di dati venga completata. Quindi riprovare.
  • Il numero massimo di set di dati che è possibile importare per ogni sottoscrizione è 10 file .zip per gli utenti con sottoscrizione gratuita (F0) e 500 per gli utenti con sottoscrizione standard (S0).

I set di dati vengono convalidati automaticamente quando si preme Upload pulsante. La convalida dei dati include una serie di controlli sui file audio per verificarne il formato, le dimensioni e la frequenza di campionamento. Correggere gli eventuali errori e inviarli di nuovo.

Dopo aver caricato i dati, è possibile controllare i dettagli nella visualizzazione dettagli del set di training. Nella scheda Panoramica è possibile controllare ulteriormente i punteggi di pronuncia e il livello di disturbo per ogni set di dati. Gli intervalli del punteggio di pronuncia sono compresi tra 0 e 100. Un punteggio della pronuncia inferiore a 70 generalmente indica un errore di riconoscimento vocale o una mancata corrispondenza dello script. Un forte accento può ridurre il punteggio della pronuncia e influire sulla voce digitale generata.

Un rapporto segnale/rumore superiore indica un livello di rumore inferiore nell'audio. Generalmente è possibile raggiungere un rapporto segnale/rumore superiore a 50 eseguendo la registrazione in studi professionali. L'audio con un rapporto segnale/rumore inferiore a 20 può determinare la presenza di rumore nella voce generata.

Valutare se ripetere la registrazione di qualsiasi espressione con punteggi di pronuncia o rapporti segnale/rumore particolarmente bassi. Se non è possibile registrare nuovamente, è consigliabile escludere tali espressioni dal set di dati.

In Dettagli dati è possibile controllare i dettagli dei dati del set di training. Se si verificano problemi tipici con i dati, seguire le istruzioni nel messaggio visualizzato per risolverli prima del training.

I problemi sono suddivisi in tre tipi. Fare riferimento alle tre tabelle seguenti per controllare i rispettivi tipi di errori.

Il primo tipo di errore elencato nella tabella seguente deve essere corretto manualmente. In caso contrario, i dati con questi errori verranno esclusi durante il training.

Category Nome Descrizione
Script Separatore non valido È necessario separare l'ID espressione e il contenuto dello script con un carattere TAB.
Script ID script non valido L'ID della riga di script deve essere numerico.
Script Script duplicato Ogni riga del contenuto dello script deve essere univoca. La riga è duplicata con {} .
Script Script troppo lungo Lo script deve contenere meno di 1.000 caratteri.
Script Nessun audio corrispondente L'ID di ogni espressione (ogni riga del file di script) deve corrispondere all'ID audio.
Script Nessuno script valido Non sono stati trovati script validi in questo set di dati. Correggere le righe di script visualizzate nell'elenco dettagliato dei problemi.
Audio Nessuno script corrispondente Nessun file audio corrisponde all'ID script. Il nome dei file wav deve corrispondere con gli ID nel file di script.
Audio Formato audio non valido Il formato audio dei file wav non è valido. Controllare il formato di file wav usando uno strumento audio come SoX.
Audio Frequenza di campionamento bassa La frequenza di campionamento dei file wav non può essere inferiore a 16 KHz.
Audio Audio troppo lungo La durata dell'audio è superiore a 30 secondi. Suddividere l'audio lungo in più file. È consigliabile che le espressioni siano più brevi di 15 secondi.
Audio Nessun audio valido Nessun audio valido trovato in questo set di dati. Controllare i dati audio e caricarlo di nuovo.

Il secondo tipo di errori elencati nella tabella seguente verrà corretto automaticamente, ma è consigliabile eseguire un controllo doppio dei dati fissi.

Category Nome Descrizione
Audio Audio stereo fisso automaticamente Usare mono nelle registrazioni di esempio audio. I canali audio stereo vengono uniti automaticamente in un canale mono, causando la perdita di contenuto. Scaricare il set di dati normalizzato ed esaminarlo.
Volume Correzione automatica del picco del volume Il picco del volume deve essere compreso nell'intervallo da -3 dB (70% del volume massimo) a -6 dB (50%). Controllare il picco del volume durante la registrazione di esempio o la preparazione dei dati. Questo audio viene ridimensionato in modo lineare per adattarsi automaticamente all'intervallo di picco (-4 dB o 65%). Scaricare il set di dati normalizzato ed esaminarlo.
Mancata corrispondenza Correzione automatica del silenzio Il silenzio di avvio è stato rilevato per più di 200 ms ed è stato tagliato automaticamente a 200 ms. Scaricare il set di dati normalizzato ed esaminarlo.
Mancata corrispondenza Correzione automatica del silenzio Il silenzio finale è stato rilevato per più di 200 ms ed è stato tagliato automaticamente a 200 ms. Scaricare il set di dati normalizzato ed esaminarlo.
Mancata corrispondenza Correzione automatica del silenzio Il silenzio di avvio è stato rilevato più breve di 100 ms ed è stato esteso automaticamente a 100 ms. Scaricare il set di dati normalizzato ed esaminarlo.
Mancata corrispondenza Correzione automatica del silenzio Il silenzio finale è stato rilevato più breve di 100 ms ed è stato esteso automaticamente a 100 ms. Scaricare il set di dati normalizzato ed esaminarlo.

Se il terzo tipo di errori elencati nella tabella seguente non viene risolto, anche se i dati con questi errori non verranno esclusi durante il training, influirà sulla qualità del training. Per un training di qualità superiore, è consigliabile correggere manualmente questi errori.

Category Nome Descrizione
Script Testo non normalizzato Questo script contiene la cifra 0-9. Espandere le parole in parole normalizzate e associarle all'audio. Ad esempio, normalizzare "123" a "100 e 23".
Script Testo non normalizzato Questo script contiene i simboli {} . Normalizzare i simboli in modo che corrispondano all'audio. Ad esempio, da '50%' a 'percento percentuale'.
Script Espressioni di domanda non sufficienti Almeno il 10% delle espressioni totali deve essere una domanda. Ciò consente al modello vocale di esprimere correttamente un tono di domanda.
Script Espressioni esclamativi non sufficienti Almeno il 10% delle espressioni totali deve essere un punto esclamativo. In questo modo, il modello vocale esprime correttamente un tono emozionato.
Audio Bassa frequenza di campionamento per la voce neurale È consigliabile che la frequenza di campionamento dei file wav sia di 24 KHz o superiore per la creazione di voci neurali. Se è inferiore, verrà automaticamente eseguita l'upsample a 24 KHz.
Volume Volume complessivo troppo basso Il volume non deve essere inferiore a -18 dB (10% del volume massimo). Controllare il livello medio del volume entro l'intervallo corretto durante la registrazione del campione o la preparazione dei dati.
Volume Overflow del volume Il volume di overflow viene rilevato alle {} ore s. Regolare le apparecchiature di registrazione per evitare l'overflow del volume in corrispondenza del valore massimo.
Volume Problema di silenzio di avvio I primi 100 ms di silenzio non sono puliti. Ridurre il livello del rumore di registrazione e lasciare invisibile all'inizio i primi 100 ms.
Volume Problema di chiusura del silenzio Gli ultimi 100 ms di silenzio non sono puliti. Ridurre il livello del rumore di registrazione e lasciare invisibile all'utente gli ultimi 100 ms.
Mancata corrispondenza Script e audio non corrispondenti Esaminare lo script e il contenuto audio per assicurarsi che corrispondano e controllino il livello del rumore del piano. Ridurre la lunghezza del lungo silenzio o suddividere l'audio in più espressioni se è troppo lungo.
Mancata corrispondenza Problema di silenzio di avvio L'audio aggiuntivo è stato udito prima della prima parola. Esaminare lo script e il contenuto audio per assicurarsi che corrispondano, controllare il livello del rumore del piano e impostare i primi 100 ms come invisibile all'utente.
Mancata corrispondenza Problema di chiusura del silenzio L'audio aggiuntivo è stato ascoltato dopo l'ultima parola. Esaminare lo script e il contenuto audio per assicurarsi che corrispondano, controllare il livello del rumore e impostare gli ultimi 100 ms invisibile all'utente.
Mancata corrispondenza Basso rapporto segnale-rumore Il livello SNR audio è inferiore a 20 dB. È consigliabile almeno 35 dB.
Mancata corrispondenza Nessun punteggio disponibile Impossibile riconoscere il contenuto vocale in questo audio. Controllare l'audio e il contenuto dello script per assicurarsi che l'audio sia valido e corrisponda allo script.

Training del modello di voce neurale personalizzato

Dopo aver convalidato il set di dati, è possibile usarlo per compilare il modello di voce neurale personalizzato.

  1. Nella scheda Train model (Training modello) fare clic su Train model (Train model) (Eseguire il training del modello) per creare un modello vocale con i dati caricati.

  2. Selezionare il metodo di training neurale per il modello e la lingua di destinazione.

Per impostazione predefinita, il training del modello vocale viene esegnato nella stessa lingua dei dati di training. È anche possibile scegliere di creare una lingua secondaria (anteprima) per il modello vocale. Controllare le lingue supportate per la voce neurale personalizzata e la funzionalità multilingue: lingua per la personalizzazione.

  1. Scegliere quindi il set di dati da usare per il training e specificare un file del parlante.

Nota

  • È necessario selezionare almeno 300 espressioni per creare una voce neurale personalizzata.
  • Per eseguire il training di una voce neurale, è necessario specificare un profilo di talent voce con il file di consenso audio fornito dal riconoscimento vocale per usare i dati vocali per eseguire il training di un modello vocale personalizzato. Sintesi vocale neurale è disponibile con accesso limitato. Assicurarsi di comprendere i requisiti di intelligenza artificiale responsabili e di applicare l'accesso qui.
  • In questa pagina è anche possibile scegliere di caricare lo script per il test. Lo script di test deve essere un file txt, minore di 1 Mb. Il formato di codifica supportato include ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE. Ogni paragrafo dell'espressione avrà come risultato un audio separato. Se si vuole combinare tutte le frasi in un unico audio, crearle in un unico paragrafo.
  1. Immettere quindi un Nome e una Descrizione per identificare il modello.

Scegliere un nome con attenzione. Il nome immesso in questo campo è il nome usato per specificare la voce nella richiesta di sintesi vocale come parte dell'input SSML. Sono consentiti solo lettere, numeri e alcuni caratteri di punteggiatura, ad esempio -, _ e (', '). Usare nomi diversi per modelli di voce neurale diversi.

Un uso comune del campo Descrizione è la registrazione dei nomi dei set di dati usati per creare il modello.

  1. Esaminare le impostazioni e quindi fare clic su Invia per avviare il training del modello.

Nota

I nomi audio duplicati verranno rimossi dal training. Assicurarsi che i set di dati selezionati non contengano gli stessi nomi audio in più .zip file.

Nella tabella Train model (Train model) viene visualizzata una nuova voce corrispondente al modello appena creato. Nella tabella viene inoltre visualizzato lo stato Elaborazione, Operazione completata, Non riuscita.

Lo stato visualizzato riflette il processo di conversione del set di dati in un modello vocale, come illustrato di seguito.

Stato Significato
Elaborazione in corso È in corso la creazione del modello vocale.
Completato Il modello vocale è stato creato e può essere distribuito.
Non riuscito Il training del modello vocale non è riuscito a causa di molti motivi, ad esempio problemi di dati non noti o problemi di rete.

La durata del training varia a seconda della quantità di dati di cui si sta facendo il training. Il training di una voce neurale personalizzata richiede in media circa 40 ore di calcolo.

Nota

Il training di voci neurali personalizzate non è gratuito. Controllare i prezzi qui. Gli utenti della sottoscrizione Standard (S0) possono eseguire il training simultaneo di tre voci. Se si raggiunge il limite, attendere che venga completato il training di almeno un carattere voce, quindi riprovare.

  1. Al termine del training del modello, è possibile esaminare i dettagli del modello.

Ogni training genererà automaticamente 100 file audio di esempio per testare il modello. Dopo aver compilato correttamente il modello vocale, è possibile testarlo prima di distribuirlo per l'uso.

La qualità della voce dipende da molti fattori, tra cui le dimensioni dei dati di training, la qualità della registrazione, l'accuratezza del file di trascrizione, il livello di corrispondenza tra la voce registrata nei dati di training e la personalità della voce progettata per il caso d'uso previsto e altro ancora. Vedere qui per altre informazioni sulle funzionalità esui limiti della tecnologia e sulle procedure consigliate per migliorare la qualità del modello.

Creare e usare un endpoint vocale neurale personalizzato

Dopo aver creato e testato il modello vocale, distribuirlo in un endpoint personalizzato per la sintesi vocale. È quindi possibile usare questo endpoint al posto dell'endpoint normale quando si effettuano richieste di sintesi vocale tramite l'API REST. L'endpoint personalizzato può essere chiamato solo dalla sottoscrizione usata per distribuire il tipo di carattere.

È possibile eseguire le operazioni seguenti per creare un endpoint vocale neurale personalizzato.

  1. Nella scheda Distribuisci modello fare clic su Distribuisci modelli.
  2. Immettere quindi un nome e una descrizione per l'endpoint personalizzato.
  3. Selezionare quindi un modello vocale da associare a questo endpoint.
  4. Infine, fare clic su Distribuisci per creare l'endpoint.

Dopo aver fatto clic sul pulsante Distribuisci, nella tabella dell'endpoint verrà visualizzata una voce per il nuovo endpoint. La creazione di un'istanza per un nuovo endpoint potrebbe richiedere alcuni minuti. Quando lo stato della distribuzione è Succeeded, l'endpoint è pronto per l'uso.

È possibile sospendere e riprendere l'endpoint se non viene sempre utilizzato. Quando un endpoint viene riattivato dopo la sospensione, l'URL dell'endpoint verrà mantenuto lo stesso in modo che non sia necessario modificare il codice nelle app.

È anche possibile aggiornare l'endpoint a un nuovo modello. Per modificare il modello, assicurarsi che il nome del nuovo modello sia uguale a quello che si vuole aggiornare.

Nota

  • Gli utenti della sottoscrizione Standard (S0) possono creare fino a 50 endpoint, ognuno con la propria voce neurale personalizzata.
  • Per usare la voce neurale personalizzata, è necessario specificare il nome del modello vocale, usare l'URI personalizzato direttamente in una richiesta HTTP e usare la stessa sottoscrizione per passare attraverso l'autenticazione del servizio TTS.

Dopo la distribuzione dell'endpoint, il nome dell'endpoint viene visualizzato come collegamento. Fare clic sul collegamento per visualizzare informazioni specifiche per l'endpoint, ad esempio la chiave dell'endpoint, l'URL dell'endpoint e il codice di esempio.

Dal punto di vista funzionale, l'endpoint personalizzato è identico all'endpoint standard usato per le richieste di sintesi vocale. Per altre informazioni, vedere Speech SDK o API REST.

È anche disponibile uno strumento online, Creazione di contenuto audio, che consente di ottimizzare l'output audio usando un'interfaccia utente semplice.

Passaggi successivi