Registrazione di esempi vocali per la voce neurale personalizzata

Questo articolo fornisce istruzioni sulla preparazione di esempi vocali di alta qualità per la creazione di un modello voce professionale usando il progetto Neural Voice Pro personalizzato.

La creazione di una voce neurale personalizzata di qualità elevata partendo da zero non è un impegno da sottovalutare. Il componente di base di una voce neurale personalizzata è costituito dalla raccolta di un numero elevato di campioni audio di voci umane. È fondamentale che queste registrazioni audio siano di alta qualità. È necessario pertanto scegliere un talento vocale con esperienza in questi tipi di registrazioni e affidare la registrazione a un tecnico del suono che usi apparecchiature professionali.

Prima di eseguire queste registrazioni, tuttavia, è necessario creare uno script costituito dalle parole che vengono lette dal talento vocale per realizzare i campioni audio.

Per creare una registrazione vocale di livello professionale, è necessario fare attenzione a molti piccoli dettagli, che sono tuttavia estremamente importanti. Questa guida è una roadmap di un processo che consente di ottenere risultati validi e coerenti.

Suggerimenti per la preparazione dei dati per una voce di alta qualità

Una voce neurale personalizzata altamente naturale dipende da diversi fattori, ad esempio la qualità e le dimensioni dei dati di training.

La qualità dei dati di training è un fattore principale. Ad esempio, nello stesso set di training, volume coerente, velocità di pronuncia, parlato e stile di pronuncia sono essenziali per creare una voce neurale personalizzata di alta qualità. È anche consigliabile evitare rumori di fondo nella registrazione e assicurarsi che lo script e la registrazione corrispondano. Per garantire la qualità dei dati, è necessario seguire i criteri di selezione dello script e i requisiti di registrazione.

Per quanto riguarda le dimensioni dei dati di training, nella maggior parte dei casi è possibile creare una voce neurale personalizzata ragionevole con 500 espressioni. In base ai test, l'aggiunta di più dati di training nella maggior parte dei linguaggi non migliora necessariamente la naturalezza della voce stessa (testata usando il punteggio MOS) ma, con più dati di training che coprono più istanze di parole, è possibile ridurre il rapporto di parti insoddisfacenti del parlato per la voce, ad esempio glitch. Per ascoltare le parti insoddisfacenti del suono vocale, vedere gli esempi di GitHub.

In alcuni casi, si potrebbe volere un utente vocale con caratteristiche uniche. Ad esempio, un personaggio animato ha bisogno di una voce con uno stile di pronuncia particolare o una voce con un’intonazione dinamica. Per questi casi, è consigliabile preparare almeno 1000 espressioni (preferibilmente 2000) e registrarle in uno studio di registrazione professionale. Per altre informazioni su come migliorare la qualità del modello vocale, vedere caratteristiche e limitazioni per l'uso di Sintesi vocale neurale.

Ruoli nella registrazione vocale

In un progetto di registrazione di voce neurale personalizzata, sono coinvolti quattro ruoli di base:

Ruolo Scopo
Speaker La voce di questa persona costituisce la base della voce neurale personalizzata.
Tecnico di registrazione Controlla gli aspetti tecnici della registrazione e fa funzionare le apparecchiature di registrazione.
Responsabile Prepara lo script e sovrintende alle prestazioni dello speaker.
Editor Finalizza i file audio e li prepara per il caricamento in Speech Studio

Una singola persona può ricoprire più di un ruolo. In questa guida si presuppone che l'utente ricopra il ruolo di responsabile e che recluti sia un talento vocale che un tecnico di registrazione. Nel caso in cui si desideri eseguire in modo autonomo le registrazioni, nell'articolo sono presenti alcune informazioni sul ruolo di tecnico di registrazione. Il ruolo editor non è necessario fino a quando non viene eseguita la sessione di registrazione. Nel frattempo, possono occupare questo ruolo il responsabile e il tecnico di registrazione.

Scegliere lo speaker

Gli attori con esperienza nel doppiaggio, nel lavoro con i personaggi, nell'annuncio o nella lettura di notizie sono degli ottimi talenti vocali. Scegliere uno speaker con la voce naturale che si preferisce. È possibile creare campioni con voci di caratterista univoci, ma per la maggior parte dei parlanti è più difficile riprodurli in modo uniforme e lo sforzo può provocare tensione nella voce. Il fattore più importante per la scelta di uno speaker è l'uniformità. Le registrazioni per lo stesso stile di voce dovrebbero sembrare tutte come se fossero state fatte nello stesso giorno nella stessa stanza. È possibile avvicinarsi a questa situazione ideale tramite procedure e tecniche ottimali di registrazione.

Il talento vocale deve essere in grado di parlare con velocità coerente, livello di volume, intonazione e tono con dettatura chiara. Devono anche essere in grado di controllare la variazione dell’intonazione, l'effetto emotivo e i manierismi vocali. La registrazione di campioni vocali può essere più faticosa rispetto ad altri tipi di lavoro vocale, quindi la maggior parte dei talenti vocali può registrare solo per due o tre ore al giorno. Limitare le sessioni a tre o quattro giorni alla settimana, con un giorno di riposo tra l'una e l'altra, se possibile.

Lavorare con il proprio talento vocale per sviluppare un utente tipo che definisce il suono complessivo e il tono emotivo della voce neurale personalizzata, assicurandosi di individuare il suono "neutro" per quell’utente tipo. Definire gli stili di pronuncia del proprio personaggio e chiedere al proprio voice talent di leggere lo script in modo che risuoni con gli stili desiderati.

Ad esempio, un utente tipo con una personalità naturalmente ottimista porterà con sé una nota di ottimismo anche quando parla in modo neutrale. Questo aspetto della personalità, tuttavia, deve essere poco evidente e costante. Per acquisire un'idea degli obiettivi da raggiungere, ascoltare brani letti da voci esistenti.

Suggerimento

In genere si desidera essere proprietari delle registrazioni vocali eseguite. Lo speaker deve essere pertanto disponibile a prestare la propria opera su commissione per il progetto.

Creare uno script

Il punto di partenza di qualsiasi sessione di registrazione di voci neurali personalizzate è lo script, che contiene le espressioni che il talento vocale deve leggere. Con il termine "espressioni" si indicano sia le frasi complete che quelle più brevi. La creazione di una voce neurale personalizzata richiede almeno 300 espressioni registrate come dati di training.

Le espressioni nello script possono provenire da origini diverse, ad esempio romanzi, pubblicazioni, trascrizioni di discorsi, notiziari e qualsiasi altra origine disponibile in forma stampata. Per una breve discussione sui potenziali problemi legali, vedere la sezione "Aspetti legali". È anche possibile scrivere un testo personalizzato.

Le espressioni non devono provenire dalla stessa origine, dallo stesso tipo di origine, né avere qualcosa a che fare tra loro. Se tuttavia nell'applicazione di riconoscimento vocale si usano frasi standard, ad esempio "Accesso eseguito", assicurasi di includerle nello script. Darà alla voce neurale personalizzata una migliore possibilità di pronunciare bene tali frasi.

È consigliabile che gli script di registrazione includano frasi generali e frasi specifiche del dominio. Ad esempio, se si prevede di registrare 2.000 frasi, 1.000 di esse potrebbero essere frasi generali, potrebbero essere presenti altre 1.000 frasi dal dominio di destinazione o dal caso d'uso dell'applicazione.

Sono disponibili script di esempio nei domini "Generale", "Chat" e "Customer Service" per ogni lingua per preparare gli script di registrazione. È possibile usare questi script condivisi Microsoft per le registrazioni direttamente o usarli come riferimento per crearne uno personalizzato.

Criteri di selezione script

Di seguito sono riportate alcune linee guida generali che è possibile seguire per creare un buon corpus (esempi audio registrati) per il training vocale neurale personalizzato.

  • Bilanciare lo script per coprire diversi tipi di frasi nel dominio, tra cui istruzioni, domande, esclamazioni, frasi lunghe e frasi brevi.

    Ogni frase deve contenere da quattro parole a 30 parole e non deve essere inclusa alcuna frase duplicata nello script.
    Per informazioni su come bilanciare i diversi tipi di frasi, vedere la tabella seguente:

    Tipi di frasi Copertura
    Frasi di istruzioni Le frasi di istruzione devono essere pari al 70-80% dello script.
    Frasi interrogative Le frasi interrogative dovrebbero costituire circa il 10%-20% dello script di dominio, includendo il 5%-10% di toni ascendenti e il 5%-10% di toni discendenti.
    Frasi esclamative Le frasi esclamative devono essere circa il 10%-20% dello script.
    Parola/frase breve Gli script di parole/frasi brevi devono essere circa il 10% delle espressioni totali, con 5-7 parole per caso.

    Nota

    Le parole o frasi brevi devono essere separate da virgole. Aiutano a ricordare al talento vocale di sospendere brevemente durante la lettura.

    Le procedure consigliate includono:

    • Copertura bilanciata per parti del Servizio cognitivo di Azure per la voce, come verbi, sostantivi, aggettivi e così via.
    • Copertura bilanciata per le pronunce. Includere tutte le lettere da A a Z in modo che il motore di sintesi vocale impari a pronunciare ogni lettera nel proprio stile.
    • Script leggibili, comprensibili e basati sul buon senso da far leggere all’oratore.
    • Evitare troppi modelli simili per parole/frasi, ad esempio "facile" e "più facile".
    • Includere diversi formati di numeri: indirizzo, unità, telefono, quantità, data e così via, in tutti i tipi di frasi.
    • Includere frasi ortografiche se si tratta di un elemento che verrà letto dalla voce neurale personalizzata. Ad esempio, "L'ortografia di Apple è A P P L E".
  • Non inserire più frasi in un'unica riga/unica espressione. Separare ogni riga in base all'espressione.

  • Assicurarsi che la frase sia pulita. In genere, non includere troppe parole non standard come numeri o abbreviazioni perché sono difficili da leggere. Alcune applicazioni potrebbero richiedere la lettura di molti numeri o acronimi. In questi casi, è possibile includere queste parole, ma è necessario normalizzarle nella forma parlata.

    Di seguito sono riportate alcune procedure consigliate, ad esempio:

    • Per le righe con abbreviazioni, anziché "BTW", scrivere "by the way".
    • Per le righe con cifre, invece di "911", scrivere "nove uno uno".
    • Per le righe con acronimi, invece di "ABC", scrivere "A B C".

    Con questo, assicurarsi che il proprio talento vocale pronunci queste parole in modo previsto. Mantenere gli script e le registrazioni corrispondenti durante il processo di training.

  • Lo script deve includere molte parole e frasi diverse, con diversi tipi di lunghezze, strutture e intonazioni.

  • Controllare lo script con attenzione per verificare la presenza di errori. Se possibile, far eseguire il controllo anche a un'altra persona. Quando si esegue lo script con il proprio talento vocale, è possibile rilevare più errori.

Differenza tra script di talento vocale e script di training

Lo script di training può differire dallo script di talento vocale, in particolare per gli script che contengono cifre, simboli, abbreviazioni, data e ora. Gli script preparati per il talento vocale devono seguire convenzioni di lettura native, ad esempio il 50% e $45. Gli script usati per il training devono essere normalizzati in modo che corrispondano alla registrazione audio, ad esempio cinque percento e quarantacinque dollari.

Nota

Vengono forniti alcuni script di esempio per il talento vocale in GitHub. Per usare gli script di esempio per il training, è necessario normalizzarli in base alle registrazioni del talento vocale prima di caricare il file.

La tabella seguente illustra la differenza tra script per il talento vocale e lo script normalizzato per il training.

Categoria Esempio di script per il talento vocale Esempio di script di training (normalizzato)
Cifre 123 centoventitré
Simboli 50% cinquanta percento
Abbreviazione ASAP as soon as possible
Data e ora 3 marzo alle 17:00 Il tre marzo alle cinque del pomeriggio

Difetti tipici di uno script

La scarsa qualità dello script può influire negativamente sui risultati del training. Per ottenere risultati di training di alta qualità, è fondamentale evitare difetti.

I difetti dello script rientrano in genere nelle categorie seguenti:

Categoria Esempio
Contenuto senza significato. "Idee verdi senza colori dormono furiosamente".
Frasi incomplete. - "Questa era la mia ultima vigilia" (nessun soggetto, nessun significato specifico)
- "Sono già divertenti (senza virgolette alla fine, non è una frase completa)
Errore nelle frasi. - Iniziare con una lettera minuscola
- Nessuna punteggiatura finale, se necessaria
- Errore ortografico
- Mancanza di punteggiatura: nessun punto alla fine (tranne nel titolo delle notizie)
- Termina con simboli, tranne virgola, domanda, esclamazione
- Formato errato, ad esempio:
 - 45$ (deve essere $45)
 - Nessuno spazio o spazio in eccesso tra parola/punteggiatura
La duplicazione in formato simile, una per ogni modello è sufficiente. - "Ora sono le 13:00 a New York"
- "Ora sono le 14:00 a New York"
- "Ora sono le 15:00 a New York"
- "Ora sono le 13:00 a Seattle"
- "Ora sono le 13:00 a Washington D.C."
Parole esterne non comuni: nello script sono accettabili solo parole straniere di uso comune. In inglese si potrebbe usare la parola francese "faux" nel discorso comune, ma un'espressione francese come "coincer la bulle" sarebbe insolito.
Emoji o altri simboli non comuni

Formato dello script

Lo script viene usato durante le sessioni di registrazione e di conseguenza è possibile crearlo in modo da consentirne l'uso più semplice. Creare il file di testo richiesto da Speech Studio separatamente.

Un formato di script di base include le tre colonne indicate di seguito:

  • Numero di espressioni, a partire da 1. La numerazione semplifica a tutte le persone nello studio il riferimento a un'espressione specifica ("riproviamo l'espressione numero 356"). Per numerare le righe della tabella in modo automatico, è possibile usare la funzionalità di numerazione dei paragrafi di Microsoft Word.
  • Una colonna vuota in cui scrivere il numero del take o il time code di ogni espressione per individuarla nella registrazione completata.
  • Testo dell'espressione.

Sample script

Nota

La maggior parte degli studi esegue la registrazione in brevi segmenti noti come “take”. Ogni take contiene in genere un numero di espressioni compreso tra 10 e 24. Si noti che il numero del take è sufficiente per trovare un'espressione in un secondo momento. Se si esegue la registrazione in uno studio che preferisce registrare segmenti più lunghi, è opportuno prendere nota del time code. Nello studio sarà in tal caso disponibile uno schermo per la visualizzazione cronologica appropriato.

Lasciare spazio sufficiente dopo ogni riga per scrivere le note. Verificare che nessuna espressione sia suddivisa in più pagine. Numerare le pagine e stampare lo script su un lato del foglio.

Stampare tre copie dello script: una per il talento vocale, una per il tecnico di registrazione e una per il responsabile. Usare graffette anziché punti metallici, dato che uno speaker con esperienza separa le pagine per evitare di fare rumore quando le gira.

Dichiarazione del talento vocale

Per eseguire il training di una voce neurale è necessario creare un profilo di talento vocale con un file audio registrato dal talento vocale che acconsente all'utilizzo dei dati vocali per eseguire il training di un modello vocale personalizzato. Quando si prepara lo script di registrazione, assicurarsi di includere la frase dell'istruzione.

Aspetti legali

In base alle norme sul copyright, la lettura di un testo protetto da copyright da parte di un attore può essere una prestazione per cui l'autore del lavoro dovrebbe essere ricompensato. Queste prestazioni non saranno riconoscibili nel prodotto finale, ovvero la voce neurale personalizzata. Tuttavia, la legittimità dell'uso di un testo protetto da copyright per questo scopo non è comunque definita in modo adeguato. Microsoft non può offrire consulenza legale in relazione a questo problema e consiglia pertanto di rivolgersi al proprio legale.

È possibile tuttavia evitare completamente questi problemi. Sono disponibili molte origini di testo che si possono usare senza licenza né autorizzazione.

Origine del testo Descrizione
CMU Arctic corpus Circa 1100 frasi selezionate da testi non protetti da copyright per l'uso specifico in progetti di sintesi vocale. Si tratta di un punto di partenza eccellente.
Testi non più protetti
da copyright
Si tratta in genere di testi pubblicati prima del 1923. Per l'inglese, sul sito Project Gutenberg sono disponibili decine di migliaia di tali testi. Può essere opportuno, tuttavia, concentrarsi su testi più recenti perché la lingua si avvicina di più all'inglese moderno.
Testi per enti pubblici I testi creati dagli enti pubblici degli Stati Uniti non sono protetti da copyright negli Stati Uniti, ma possono esserlo in altri paesi.
Pubblico dominio Testi per cui viene fatta rinuncia esplicita al diritto di copyright o che sono definiti di pubblico dominio. In alcune giurisdizioni può non essere possibile rinunciare completamente al copyright.
Testi concessi in licenza Testi distribuiti in base a una licenza, ad esempio Creative Commons o la GNU Free Documentation License (GFDL). Wikipedia usa la licenza GFDL. Alcune licenze, tuttavia, possono imporre restrizioni sulle prestazioni correlate al contenuto concesso in licenza, condizione che può influire sulla creazione di un modello di voce neurale personalizzata. È consigliabile pertanto leggere attentamente la licenza.

Registrazione dello script

Registrare lo script in uno studio di registrazione professionale specializzato in attività vocali. In uno studio di questo tipo sono disponibili un banco di registrazione, le apparecchiature adeguate e le persone esperte per farle funzionare. È consigliabile non saltare la registrazione.

Discutere il progetto con il tecnico di registrazione di studio e ascoltarne i consigli. La registrazione deve avere minima o nessuna compressione di intervallo dinamico (massimo 4:1). È fondamentale che l'audio sia caratterizzato da un volume uniforme e da un rapporto segnale/rumore elevato e che sia privo di suoni non desiderati.

Requisiti di registrazione

Per ottenere risultati di training di alta qualità, seguire i requisiti seguenti durante la registrazione o la preparazione dei dati:

  • Pronuncia chiara e corretta

  • Velocità naturale: non troppo lenta o troppo veloce tra i file audio.

  • Volume appropriato, prosodia e interruzione: stabile all'interno della stessa frase o tra frasi, interruzione corretta per la punteggiatura.

  • Nessun rumore durante la registrazione

  • Adattare il proprio design personale

  • Nessun accento sbagliato: adattarsi alla progettazione di destinazione

  • Nessuna pronuncia errata

È possibile fare riferimento alla specifica seguente per preparare gli esempi audio come procedura consigliata.

Proprietà valore
File format *.wav, Mono
Frequenza di campionamento 24 kHz
Formato del campione 16 bit, PCM
Livelli di volume di picco Da -3 dB a -6 dB
SNR > 35 dB
Silenzio - Dovrebbe esserci un po’ di silenzio (si consiglia 100 ms) all'inizio e alla fine, ma non più di 200 ms
- Silenzio tra parole o frasi < -30 dB
- Silenzio nell'onda dopo la pronuncia dell'ultima parola <-60 dB
Rumore o eco dell'ambiente - Il livello di rumore all'inizio dell'onda prima di parlare < -70 dB

Nota

È possibile registrare una frequenza di campionamento e una profondità di bit più elevata, ad esempio nel formato PCM a 48 KHz a 24 bit. Durante il training vocale neurale personalizzato, verrà campionato automaticamente a 24 KHz PCM a 16 bit.

Un rapporto segnale/rumore superiore indica un livello di rumore inferiore nell'audio. Generalmente è possibile raggiungere un rapporto segnale/rumore superiore a 35 eseguendo la registrazione in studi professionali. L'audio con un rapporto segnale/rumore inferiore a 20 può determinare la presenza di rumore nella voce generata.

Valutare se ripetere la registrazione di qualsiasi espressione con punteggi di pronuncia o rapporti segnale/rumore particolarmente bassi. Se non è possibile ripetere la registrazione, è consigliabile escludere tali espressioni dai dati.

Errori audio tipici

Per ottenere risultati di training di alta qualità, è consigliabile evitare errori audio. Gli errori audio rientrano in genere nelle categorie seguenti:

  • Il nome del file audio non corrisponde all'ID dello script.

  • Il file WAR ha un formato non valido e non può essere letto.

  • La frequenza di campionamento audio è inferiore a 16 KHz. È consigliabile che la frequenza di campionamento dei file .wav sia uguale o superiore a 24 KHz per la voce neurale di alta qualità.

  • Il picco del volume non rientra nell'intervallo compreso tra -3 dB (70% del volume massimo) e -6 dB (50%).

  • Overflow della forma d’onda: la forma d'onda viene tagliata al suo valore di picco e pertanto non è completa.

    waveform overflow

  • Le parti silenziose della registrazione non sono pulite; si possono sentire suoni come il rumore ambientale, il rumore della bocca e l'eco.

    Ad esempio, sotto l'audio contiene il rumore dell'ambiente tra i discorsi.

    environment noise

    L'esempio seguente contiene segni di offset DC o eco.

    DC offset or echo

  • Il volume complessivo è troppo basso. I dati sono contrassegnati come un problema se il volume è inferiore a -18 dB (10% del volume massimo). Assicurarsi che tutti i file audio siano coerenti allo stesso livello di volume.

    overall volume

  • Nessun silenzio prima della prima parola o dopo l'ultima parola. Inoltre, il silenzio iniziale o finale non deve essere più lungo di 200 ms o più breve di 100 ms.

    No silence

Eseguire autonomamente

Se si vuole eseguire la registrazione in modo autonomo anziché in uno studio di registrazione, di seguito vengono indicate alcuni istruzioni. Grazie all'aumento della home recording e del podcasting, attualmente è più facile trovare consigli e risorse online.

Il "banco di registrazione" deve essere una piccola stanza senza eco o rumori di fondo evidenti. La stanza deve essere silenziosa e insonorizzata il più possibile. È possibile usare tendaggi sulle pareti per ridurre l'eco e per attenuare i suoni della stanza.

Usare un microfono unidirezionale da studio di qualità elevata (abbreviato in "mic") previsto per la registrazione vocale. I microfoni Sennheiser, AKG e anche i nuovi microfoni Zoom consentono di ottenere ottimi risultati. È possibile acquistare un microfono unidirezionale o noleggiarne uno da una società di apparecchiature audiovisive. Cercare un microfono con un'interfaccia USB. Questo tipo di microfono combina in modo efficiente l'elemento microfono, il preamplificatore e il convertitore analogico-digitale in un unico componente, semplificando il collegamento.

È anche possibile usare un microfono analogico. Molte società di noleggio offrono microfoni meno recenti noti per il loro carattere vocale. Un dispositivo analogico professionale usa connettori XLR bilanciati anziché il connettore da 1/4" usato nelle apparecchiature consumer. Se si decide di usare un dispositivo analogico, è necessario procurarsi anche un preamplificatore e un'interfaccia audio per computer con tali connettori.

Installare il microfono su un supporto o su un'asta e installare un filtro pop davanti al microfono per eliminare il rumore derivante da consonanti occlusive come "p" e "b". Alcune microfoni sono dotati di un supporto a sospensione che li isola dalle vibrazioni del supporto, condizione estremamente utile.

Lo speaker deve mantenere una distanza costante dal microfono. Contrassegnare sul pavimento i punti in cui deve trovarsi lo speaker. Se lo speaker vuole sedersi, prestare particolare attenzione a monitorare la distanza del microfono ed evitare rumori della sedia.

Usare un supporto per lo script. Evitare l'angolazione del supporto in modo che possa riflettere il suono verso il microfono.

La persona che fa funzionare le apparecchiature di registrazione, ovvero il tecnico di registrazione, deve trovarsi una stanza separata rispetto al parlante nel banco di registrazione (un circuito di talkback).

La registrazione deve contenere il minor rumore possibile, con l'obiettivo di -80 dB.

Ascoltare con attenzione una registrazione di silenzio presso il banco, cercare di capire da dove proviene il rumore ed eliminare la causa. Fonti comuni di rumore sono i condotti dell'aria, gli alimentatori delle lampade fluorescenti, il traffico nelle vicinanze e le ventole della apparecchiature (presenti anche nei PC notebook). Cavi e microfoni possono trasmettere rumori elettrici dai cavi CA, in genere interferenze. Un buzz può anche essere causato da un ground loop, dovuto alla presenza di apparecchiature collegate a più di un circuito elettrico.

Suggerimento

In alcuni casi è possibile usare un equalizzatore o un software di riduzione del rumore per rimuovere il rumore dalle registrazioni, anche se è sempre consigliabile eliminarlo all'origine.

I livelli devono essere impostati in modo che la maggior parte dell'intervallo dinamico disponibile della registrazione digitale venga usato senza overdriving. Ciò significa impostare l'audio ad alto volume, ma non così alto da renderlo distorto. Nella figura seguente è riportato un esempio della forma d'onda di una registrazione valida:

A good recording waveform

In questo caso viene usata la maggior parte dell'intervallo (altezza), ma i picchi più alti del segnale non raggiungono la parte superiore o inferiore dell'intervallo stesso. È anche possibile vedere che il silenzio nella registrazione è approssimabile a una linea orizzontale sottile, che indica un basso livello di rumore. Questa registrazione è caratterizzata da un intervallo dinamico e da un rapporto segnale/rumore accettabili.

Registrare direttamente nel computer usando un'interfaccia audio di alta qualità o una porta USB, a seconda del microfono in uso. Se si usa un dispositivo analogico, mantenere semplice la catena audio: microfono, preamplificatore, interfaccia audio, computer. È possibile assegnare mensilmente licenze a entrambe Avid Pro Tools e Adobe Audition a un costo ragionevole. Se il budget è estremamente ridotto, provare l'utilità gratuita Audacity.

Registrare a una qualità monofonica di 44,1 KHz a 16 bit (qualità CD) o superiore. Lo standard attuale è di 48 KHz 24 bit, se l'apparecchiatura in uso lo supporta. L'audio verrà ridotto a 24 KHz a 16 bit prima di inviarlo a Speech Studio. Sottolineiamo che è importante disporre di una registrazione originale di qualità elevata nel caso in cui sia necessario apportare delle modifiche.

È consigliabile che persone diverse ricoprano i ruoli di responsabile, tecnico e speaker. Non provare a eseguire tutte le operazioni in modo autonomo. In caso di necessità, una sola persona può ricoprire il ruolo di responsabile e di tecnico.

Prima della sessione

Per evitare di sprecare tempo in studio, esaminare lo script con lo speaker prima della sessione di registrazione. Il talento vocale deve acquisire familiarità con il testo nonché chiarire la pronuncia delle parole che non conosce.

Nota

La maggior parte degli studi di registrazione consente di visualizzare in modo elettronico gli script nel banco di registrazione. In questo caso digitare le note direttamente nel documento dello script. È tuttavia opportuno disporre di una copia cartacea per prendere appunti durante la sessione. Anche la maggior parte dei tecnici vuole in genere una copia cartacea. Predisporre anche una terza copia stampata come backup per lo speaker qualora il computer si arresti.

Lo speaker potrebbe chiedere quale parola deve essere enfatizzata in un'espressione ("parola operativa"). Comunicare al parlante che si vuole una lettura naturale senza alcuna enfasi particolare. L'enfasi può essere aggiunta in fase di sintesi vocale, ma non deve far parte della registrazione originale.

Indicare allo speaker di pronunciare distintamente le parole. Ogni parola dello script deve essere pronunciata come è stata scritta. I suoni non devono essere omessi né confusi, come talvolta avviene in un discorso casuale, a meno che non siano stati scritti in tal modo nello script.

Testo scritto Pronuncia casuale indesiderata
lo hanno eliminato l'hanno eliminato
le luci erano quattro le luci erano quattro
come è il tempo oggi com'è il tempo oggi
non avere paura non aver paura

Il talento non deve* aggiungere pause distinte tra le parole. La frase deve fluire in modo naturale, anche se suona un po' formale. Per raggiungere questo risultato, è necessaria una certa pratica.

Sessione di registrazione

Creare una registrazione di riferimento, denominata file di corrispondenza, di un'espressione tipica all'inizio della sessione. Chiedere allo speaker di ripetere questa riga all'incirca a ogni pagina. Confrontare ogni volta la nuova registrazione al riferimento. Questa procedura consente allo speaker di mantenere l'uniformità in volume, tempo, tono e intonazione. Nel frattempo il tecnico può usare il file di corrispondenza come riferimento per controllare i livelli e l'uniformità complessiva del suono.

Il file di corrispondenza è particolarmente importante quando si riprende la registrazione dopo un'interruzione o un altro giorno. Eseguirlo più volte per il parlante e farlo ripetere ogni volta fino a quando la corrispondenza non sarà perfetta.

Per registrare un corpus con uno stile specifico, scegliere attentamente gli script che presentano lo stile desiderato. Durante la registrazione, assicurarsi che il talento vocale si mantenga coerente rispetto a volume, tempo, tonalità e tono per ottenere registrazioni che incorporano lo stile previsto.

Invitare lo speaker a respirare profondamente e a fare una pausa prima di ogni espressione. Registrare un paio di secondi di silenzio tra le espressioni. Le parole devono essere pronunciate allo stesso modo ogni volta che vengono visualizzate, tenendo conto del contesto. Ad esempio, "viola" come verbo è pronunciato in modo diverso da "viola" come sostantivo.

Registrare circa cinque secondi di silenzio prima che la prima registrazione acquisisca il rumore di fondo della stanza. Questa procedura consente a Speech Studio di compensare il rumore nelle registrazioni.

Suggerimento

Ciò che è necessario è il talento vocale, pertanto è possibile creare una registrazione monofonica (a singolo canale) delle sole righe. Se tuttavia si registra in formato stereo, è possibile usare il secondo canale per registrare la conversazione nella sala di controllo per acquisire le discussioni di righe o take particolari. Rimuovere questa traccia dalla versione caricata in Speech Studio.

Ascoltare con attenzione, usando le cuffie, la prestazione dello speaker. Verificare che la dizione sia buona, ma naturale, che la pronuncia sia corretta e che non siano presenti suoni non desiderati. Non esitare a chiedere allo speaker di registrare nuovamente un'espressione che non soddisfa gli standard.

Suggerimento

Quando si usa un gran numero di espressioni, una singola espressione potrebbe non avere un effetto evidente sulla voce neurale personalizzata risultante. Può risultare pertanto più vantaggioso prendere nota di eventuali espressioni con problemi, escluderle dal set di dati e scoprire com'è la voce neurale personalizzata risultante. È sempre possibile tornare nello studio e registrare i campioni mancanti in un secondo momento.

Prendere nota del numero del take o del time code per ogni espressione. Chiedere al tecnico se può contrassegnare ogni espressione nei metadati o nel foglio della segnalazione della registrazione.

Concedere momenti di pausa e offrire bevande per consentire al talento vocale di mantenere la voce in buono stato.

Al termine della sessione

Gli studi di registrazione moderni si avvalgono dell'uso dei computer. Al termine della sessione vengono restituiti uno o più file audio, non un nastro. Tali file sono probabilmente in formato WAV o AIFF in qualità CD (44,1 KHz 16 bit) o superiore. La frequenza di 24 KHz 16 bit è comune e consigliata. La frequenza di campionamento predefinita per una voce neurale personalizzata è di 24 KHz. È consigliabile usare una frequenza di campionamento di 24 KHz per i dati di training. Le frequenze di campionamento più elevate, ad esempio 96 KHz, non sono in genere necessarie.

Speech Studio richiede che ogni espressione fornita sia presente nel proprio file. Ogni file audio fornito dallo studio contiene più espressioni. L'attività di post-produzione primaria, di conseguenza, consiste nel suddividere le registrazioni e prepararle per l'invio. Il tecnico di registrazione potrebbe aver posizionato i marcatori nel file (oppure aver fornito un foglio separato) per indicare dove inizia ogni espressione.

Usare le note per trovare i take esatti desiderati, quindi usare un'utilità di modifica del suono, ad esempio Avid Pro Tools, Adobe Audition o l'Audacity gratuita per copiare ogni espressione in un nuovo file.

Ascoltare attentamente ogni file. In questa fase, è possibile modificare i disturbi meno evidenti indesiderati non rilevati durante la registrazione, ad esempio un lieve rumore delle labbra prima di una riga, ma prestare attenzione a rimuovere alcuna parola effettiva. Se non è possibile correggere un file, rimuoverlo dal set di dati, prendendo nota dell'operazione eseguita.

Convertire ogni file a 16 bit e a una frequenza di campionamento di 24 KHz prima del salvataggio e, se sono state registrate conversazioni in studio, rimuovere il secondo canale. Salvare ogni file in formato WAV, denominando i file con il numero di espressione presente nello script.

Creare infine la trascrizione che associa ogni file con estensione wav con la versione in formato testo dell'espressione corrispondente. Il training del modello vocale include i dettagli del formato richiesto. È possibile copiare il testo direttamente dallo script. Creare quindi un file ZIP dei file WAV e la trascrizione del testo.

Archiviare le registrazioni originali in un luogo sicuro nel caso in cui siano necessarie in un secondo momento. Conservare anche lo script e le note.

Passaggi successivi

A questo punto è possibile caricare le registrazioni e creare la voce neurale personalizzata.