Esempi di campioni vocali per la creazione di una voce personalizzataRecord voice samples to create a custom voice

La creazione di una voce personalizzata di qualità elevata partendo da zero non è un impegno da sottovalutare.Creating a high-quality production custom voice from scratch is not a casual undertaking. Il componente di base di una voce personalizzata è costituito dalla raccolta di un numero elevato di campioni audio di voci umane.The central component of a custom voice is a large collection of audio samples of human speech. È fondamentale che queste registrazioni audio siano di alta qualità.It's vital that these audio recordings be of high quality. È necessario pertanto scegliere speaker con esperienza in questi tipi di registrazioni e affidare la registrazione a un tecnico del suono competente che usi apparecchiature professionali.Choose a voice talent who has experience making these kinds of recordings, and have them recorded by a competent recording engineer using professional equipment.

Prima di eseguire queste registrazioni, tuttavia, è necessario creare uno script costituito dalle parole che vengono lette dallo speaker per realizzare i campioni audio.Before you can make these recordings, though, you need a script: the words that will be spoken by your voice talent to create the audio samples. Per ottenere risultati ottimali, lo script deve essere caratterizzato da una copertura fonetica adeguata e da una varietà sufficiente per eseguire il training del modello vocale personalizzato.For best results, your script must have good phonetic coverage and sufficient variety to train the custom voice model.

Per creare una registrazione vocale di livello professionale, è necessario fare attenzione a molti piccoli dettagli, che sono tuttavia estremamente importanti.Many small but important details go into creating a professional voice recording. Questa guida è una roadmap di un processo che consente di ottenere risultati validi e coerenti.This guide is a roadmap for a process that will help you get good, consistent results.

Suggerimento

Per ottenere risultati ottimali nello sviluppo di una voce personalizzata, è consigliabile coinvolgere Microsoft,For the highest quality results, consider engaging Microsoft to help develop your custom voice. che può vantare una vasta esperienza nella produzione di voci di alta qualità per i propri prodotti, ad esempio Cortana e Office.Microsoft has extensive experience producing high-quality voices for its own products, including Cortana and Office.

Ruoli nella registrazione vocaleVoice recording roles

In un progetto di registrazione di voce personalizzata, sono coinvolti quattro ruoli di base:There are four basic roles in a custom voice recording project:

RoleRole ScopoPurpose
SpeakerVoice talent La voce di questa persona costituirà la base della voce personalizzata.This person's voice will form the basis of the custom voice.
Tecnico di registrazioneRecording engineer Controlla gli aspetti tecnici della registrazione e fa funzionare le apparecchiature di registrazione.Oversees the technical aspects of the recording and operates the recording equipment.
ResponsabileDirector Prepara lo script e sovrintende alle prestazioni dello speaker.Prepares the script and coaches the voice talent's performance.
EditorEditor Finalizza i file audio e li prepara per il caricamento nel portale per la voce personalizzata.Finalizes the audio files and prepares them for upload to the Custom Voice portal.

Una singola persona può ricoprire più di un ruolo.An individual may fill more than one role. In questa guida si presuppone che l'utente ricopra il ruolo di responsabile e che recluti sia lo speaker che un tecnico di registrazione.This guide assumes that you will be primarily filling the director role and hiring both a voice talent and a recording engineer. Nel caso in cui si desideri eseguire in modo autonomo le registrazioni, nell'articolo sono presenti alcune informazioni sul ruolo di tecnico di registrazione.If you want to make the recordings yourself, this article includes some information about the recording engineer role. Il ruolo editor di testo non è necessario fino al termine della sessione, quindi può essere eseguito dal tecnico di registrazione responsabile.The editor role isn't needed until after the session, so can be performed by the director or the recording engineer.

Scegliere lo speakerChoose your voice talent

Gli attori con esperienza di doppiatori o di caratteristi sono ottimi esempi di speaker.Actors with experience in voiceover or voice character work make good custom voice talent. È spesso possibile trovare speaker adatti anche tra annunciatori e presentatori.You can also often find suitable talent among announcers and newsreaders.

Scegliere uno speaker con la voce naturale che si preferisce.Choose voice talent whose natural voice you like. È possibile creare campioni con voci di caratterista univoci, ma per la maggior parte degli speaker è molto più difficile riprodurli in modo uniforme e lo sforzo può provocare tensione nella voce.It is possible to create unique "character" voices, but it's much harder for most talent to perform them consistently, and the effort can cause voice strain.

Suggerimento

È consigliabile evitare, in genere, di usare voci riconoscibili per creare una voce personalizzata, a meno che, naturalmente, l'obiettivo non consista nel produrre una voce celebre.Generally, avoid using recognizable voices to create a custom voice—unless, of course, your goal is to produce a celebrity voice. Le voci meno note, generalmente, provocano meno distrazione agli utenti.Lesser-known voices are usually less distracting to users.

Il fattore più importante per la scelta di uno speaker è l'uniformità.The single most important factor for choosing voice talent is consistency. Tutte le registrazioni devono sembrare come eseguite nello stesso giorno e nella stessa stanza.Your recordings should all sound like they were made on the same day in the same room. È possibile avvicinarsi a questa situazione ideale tramite procedure e tecniche ottimali di registrazione.You can approach this ideal through good recording practices and engineering.

Lo speaker rappresenta la seconda parte dell'equazione.Your voice talent is the other half of the equation. Devono essere in grado di comunicare con frequenza coerente, livello di volume, passo e tono.They must be able to speak with consistent rate, volume level, pitch, and tone. e una dizione perfetta è naturalmente indispensabile.Clear diction is a must. Il talento deve anche essere in grado di controllare in modo rigoroso la variazione del pitch, l'impatto emotivo e i comportamenti vocali.The talent also needs to be able to strictly control their pitch variation, emotional affect, and speech mannerisms.

La registrazione di campioni vocali personalizzati può essere più difficoltosa rispetto ad altri tipi di attività legate alla voce.Recording custom voice samples can be more fatiguing than other kinds of voice work. La maggior parte degli speaker può registrare per due o tre ore al giorno.Most voice talent can record for two or three hours a day. Limitare le sessioni a tre o quattro alla settimana, con un giorno di riposo tra l'una e l'altra, se possibile.Limit sessions to three or four a week, with a day off in-between if possible.

Le registrazioni eseguite per un modello vocale devono essere neutre dal punto di vista emotivo,Recordings made for a voice model should be emotionally neutral. ovvero un'espressione triste non deve essere letta in modo triste.That is, a sad utterance should not be read in a sad way. Una certa intonazione può essere aggiunta in un secondo momento alla sintesi vocale tramite controlli di prosodia.Mood can be added to the synthesized speech later through prosody controls. È opportuno collaborare con lo speaker per sviluppare un utente tipo che definisca il suono complessivo e il tono emotivo della voce personalizzata.Work with your voice talent to develop a "persona" that defines the overall sound and emotional tone of the custom voice. In questo processo è possibile individuare con precisione qual è il tono neutro per tale utente.In the process, you'll pinpoint what "neutral" sounds like for that persona.

Un utente tipo, ad esempio, potrebbe avere una personalità naturalmente allegra.A persona might have, for example, a naturally upbeat personality. Quindi la voce potrebbe essere caratterizzata da una nota di ottimismo anche quando si parla in tono neutro.So "their" voice might carry a note of optimism even when they speak neutrally. Questo aspetto della personalità, tuttavia, deve essere poco evidente e costante.However, such a personality trait should be subtle and consistent. Per acquisire un'idea degli obiettivi da raggiungere, ascoltare brani letti da voci esistenti.Listen to readings by existing voices to get an idea of what you're aiming for.

Suggerimento

In genere si desidera essere proprietari delle registrazioni vocali eseguite.Usually, you'll want to own the voice recordings you make. Lo speaker deve essere pertanto disponibile a prestare la propria opera su commissione per il progetto.Your voice talent should be amenable to a work-for-hire contract for the project.

Creare uno scriptCreate a script

Il punto di partenza di qualsiasi sessione di registrazione di voci personalizzate è lo script, che contiene le espressioni che lo speaker deve leggere.The starting point of any custom voice recording session is the script, which contains the utterances to be spoken by your voice talent. Con il termine "espressioni" si indicano sia le frasi complete che quelle più brevi.(The term "utterances" encompasses both full sentences and shorter phrases.)

Le espressioni nello script possono provenire da origini diverse, ad esempio romanzi, pubblicazioni, trascrizioni di discorsi, notiziari e qualsiasi altra origine disponibile in forma stampata.The utterances in your script can come from anywhere: fiction, non-fiction, transcripts of speeches, news reports, and anything else available in printed form. Se si vuole garantire che la voce restituisca buoni risultati su tipi specifici di parole (ad esempio la terminologia medica o il gergo di programmazione), è possibile includere frasi da pubblicazioni scolastiche o documenti tecnici.If you want to make sure your voice does well on specific kinds of words (such as medical terminology or programming jargon), you might want to include sentences from scholarly papers or technical documents. Per una breve discussione sui potenziali problemi legali, vedere la sezione "Aspetti legali".For a brief discussion of potential legal issues, see the "Legalities" section. È anche possibile scrivere un testo personalizzato.You can also write your own text.

Le espressioni non devono provenire necessariamente dalla stessa origine o dallo stesso tipo di origine.Your utterances don't need to come from the same source, or the same kind of source. e possono anche non essere correlate tra loro.They don't even need to have anything to do with each other. Se tuttavia nell'applicazione di riconoscimento vocale si usano frasi standard, ad esempio "Accesso eseguito", assicurasi di includerle nello script.However, if you will use set phrases (for example, "You have successfully logged in") in your speech application, make sure to include them in your script. In questo modo la voce personalizzata avrà una migliore possibilità di pronunciare tali frasi correttamente.This will give your custom voice a better chance of pronouncing those phrases well. Se si decide di usare una registrazione anziché la sintesi vocale, si disporrà già della registrazione nella stessa voce.And if you should decide to use a recording in place of synthesized speech, you'll already have it in the same voice.

Se l'uniformità è il fattore chiave nella scelta dello speaker, la varietà è la caratteristica di base di uno script valido.While consistency is key in choosing voice talent, variety is the hallmark of a good script. Lo script deve includere molte parole e frasi diverse, con un'ampia gamma di lunghezze, strutture e intonazioni.Your script should include many different words and sentences with a variety of sentence lengths, structures, and moods. Tutti i suoni del linguaggio devono essere rappresentati più volte e in numerosi contesti (condizione definita copertura fonetica) .Every sound in the language should be represented multiple times and in numerous contexts (called phonetic coverage).

Il testo deve anche incorporare tutti i modi in cui un suono specifico può essere rappresentato in forma scritta e posizionare ogni suono in punti diversi nelle frasi.Furthermore, the text should incorporate all the ways that a particular sound can be represented in writing, and place each sound at varying places in the sentences. È necessario includere sia frasi dichiarative che domande ed entrambe devono essere lette con l'intonazione appropriata.Both declarative sentences and questions should be included and read with appropriate intonation.

La scrittura di uno script caratterizzato da un numero sufficiente di dati per consentire al portale del Servizio di riconoscimento vocale personalizzato di creare una voce valida non è semplice.It's difficult to write a script that provides just enough data to allow the Custom Speech portal to build a good voice. In pratica, il modo più semplice di creare uno script che consenta di ottenere una solida copertura fonetica consiste nell'includere un elevato numero di campioni.In practice, the simplest way to make a script that achieves robust phonetic coverage is to include a large number of samples. Le voci standard fornite da Microsoft sono state ottenute da decine di migliaia di espressioni.The standard voices that Microsoft provides were built from tens of thousands of utterances. Per creare una voce personalizzata di qualità, è opportuno essere preparati almeno a registrare alcune migliaia di espressioni.You should be prepared to record a few to several thousand utterances at minimum to build a production-quality custom voice.

Controllare lo script con attenzione per verificare la presenza di errori.Check the script carefully for errors. Se possibile, far eseguire il controllo anche a un'altra persona.If possible, have someone else check it too. Quando si rivede lo script con lo speaker, è possibile che vengano rilevati altri errori.When you run through the script with your talent, you'll probably catch a few more mistakes.

Formato dello scriptScript format

Per scrivere lo script, è possibile usare Microsoft Word.You can write your script in Microsoft Word. Lo script viene usato durante la sessione di registrazione e di conseguenza è possibile crearlo in modo da consentirne l'uso più semplice.The script is for use during the recording session, so you can set it up any way you find easy to work with. Creare separatamente il file di testo richiesto dal portale per la voce personalizzata.Create the text file that's required by the Custom Voice portal separately.

Un formato di script di base include le tre colonne indicate di seguito:A basic script format contains three columns:

  • Numero di espressioni, a partire da 1.The number of the utterance, starting at 1. La numerazione semplifica a tutte le persone nello studio il riferimento a un'espressione specifica ("riproviamo l'espressione numero 356").Numbering makes it easy for everyone in the studio to refer to a particular utterance ("let's try number 356 again"). Per numerare le righe della tabella in modo automatico, è possibile usare la funzionalità di numerazione dei paragrafi di Word.You can use the Word paragraph numbering feature to number the rows of the table automatically.
  • Una colonna vuota in cui scrivere il numero del take o il time code di ogni espressione per individuarla nella registrazione completata.A blank column where you'll write the take number or time code of each utterance to help you find it in the finished recording.
  • Testo dell'espressione.The text of the utterance itself.

Script di esempio

Nota

La maggior parte degli studi esegue la registrazione in brevi segmenti noti come take.Most studios record in short segments known as takes. Ogni take contiene in genere un numero di espressioni compreso tra 10 e 24.Each take typically contains 10 to 24 utterances. Si noti che il numero del take è sufficiente per trovare un'espressione in un secondo momento.Just noting the take number is sufficient to find an utterance later. Se si esegue la registrazione in uno studio che preferisce registrare segmenti più lunghi, è opportuno prendere nota del time code.If you're recording in a studio that prefers to make longer recordings, you'll want to note the time code instead. Nello studio sarà in tal caso disponibile uno schermo per la visualizzazione cronologica appropriato.The studio will have a prominent time display.

Lasciare spazio sufficiente dopo ogni riga per scrivere le note.Leave enough space after each row to write notes. Verificare che nessuna espressione sia suddivisa in più pagine.Be sure that no utterance is split between pages. Numerare le pagine e stampare lo script su un lato del foglio.Number the pages, and print your script on one side of the paper.

Stampare tre copie dello script, una per lo speaker, una per il tecnico e una per il responsabile.Print three copies of the script: one for the talent, one for the engineer, and one for the director (you). Usare graffette anziché punti metallici, dato che uno speaker con esperienza separa le pagine per evitare di fare rumore quando le gira.Use a paper clip instead of staples: an experienced voice artist will separate the pages to avoid making noise as the pages are turned.

Aspetti legaliLegalities

In base alle norme sul copyright, la lettura di un testo protetto da copyright da parte di un attore può essere una prestazione per cui l'autore del lavoro dovrebbe essere ricompensato.Under copyright law, an actor's reading of copyrighted text might be a performance for which the author of the work should be compensated. Tale prestazione non sarà riconoscibile nel prodotto finale, ovvero la voce personalizzata.This performance will not be recognizable in the final product, the custom voice. Tuttavia, la legittimità dell'uso di un testo protetto da copyright per questo scopo non è comunque definita in modo adeguato.Even so, the legality of using a copyrighted work for this purpose is not well established. Microsoft non può offrire consulenza legale in relazione a questo problema e consiglia pertanto di rivolgersi al proprio legale.Microsoft cannot provide legal advice on this issue; consult your own counsel.

È possibile tuttavia evitare completamente questi problemi.Fortunately, it is possible to avoid these issues entirely. Sono disponibili molte origini di testo che si possono usare senza licenza né autorizzazione.There are many sources of text you can use without permission or license.

Origine del testoText source DESCRIZIONEDescription
CMU Arctic corpusCMU Arctic corpus Circa 1100 frasi selezionate da testi non protetti da copyright per l'uso specifico in progetti di sintesi vocale.About 1100 sentences selected from out-of-copyright works specifically for use in speech synthesis projects. Si tratta di un punto di partenza eccellente.An excellent starting point.
Testi non più protettiWorks no longer
da copyrightunder copyright
Si tratta in genere di testi pubblicati prima del 1923.Typically works published prior to 1923. Per l'inglese, sul sito Project Gutenberg sono disponibili decine di migliaia di tali testi.For English, Project Gutenberg offers tens of thousands of such works. Può essere opportuno, tuttavia, concentrarsi su testi più recenti perché la lingua si avvicina di più all'inglese moderno.You may want to focus on newer works, as the language will be closer to modern English.
Testi di enti pubbliciGovernment works Le opere create dal Stati Uniti Government non sono protette da copyright nel Stati Uniti, anche se il governo può richiedere il copyright in altri paesi/aree geografiche.Works created by the United States government are not copyrighted in the United States, though the government may claim copyright in other countries/regions.
Pubblico dominioPublic domain Testi per cui è stata fatta rinuncia esplicita al diritto di copyright o che sono stati definiti di pubblico dominio.Works for which copyright has been explicitly disclaimed or that have been dedicated to the public domain. In alcune giurisdizioni può non essere possibile rinunciare completamente al copyright.It may not be possible to waive copyright entirely in some jurisdictions.
Testi concessi in licenzaPermissively-licensed works Testi distribuiti in base a una licenza, ad esempio Creative Commons o la GNU Free Documentation License (GFDL).Works distributed under a license like Creative Commons or the GNU Free Documentation License (GFDL). Wikipedia usa la licenza GFDL.Wikipedia uses the GFDL. Alcune licenze, tuttavia, possono imporre restrizioni sulle prestazioni correlate al contenuto concesso in licenza, condizione che può influire sulla creazione di un modello di voce personalizzata. È consigliabile pertanto leggere attentamente la licenza.Some licenses, however, may impose restrictions on performance of the licensed content that may impact the creation of a custom voice model, so read the license carefully.

Registrazione dello scriptRecording your script

Registrare lo script in uno studio di registrazione professionale specializzato in attività vocali.Record your script at a professional recording studio that specializes in voice work. In uno studio di questo tipo sono disponibili un banco di registrazione, le apparecchiature adeguate e le persone esperte per farle funzionare.They'll have a recording booth, the right equipment, and the right people to operate it. Quando di tratta di eseguire una registrazione, è opportuno non risparmiare.It pays not to skimp on recording.

È possibile discutere il progetto con il tecnico di registrazione di studio e ascoltare i loro consigli.Discuss your project with the studio's recording engineer and listen to their advice. La registrazione deve avere minima o nessuna compressione di intervallo dinamico (massimo 4:1).The recording should have little or no dynamic range compression (maximum of 4:1). È fondamentale che l'audio sia caratterizzato da un volume uniforme e da un rapporto segnale/rumore elevato e che sia privo di suoni non desiderati.It is critical that the audio have consistent volume and a high signal-to-noise ratio, while being free of unwanted sounds.

ProvareDo it yourself

Se si vuole eseguire la registrazione in modo autonomo anziché in uno studio di registrazione, di seguito vengono indicate alcuni istruzioni.If you want to make the recording yourself, rather than going into a recording studio, here's a short primer. Grazie all'aumento della home recording e del podcasting, attualmente è più facile trovare consigli e risorse online.Thanks to the rise of home recording and podcasting, it's easier than ever to find good recording advice and resources online.

Il "banco di registrazione" deve essere una piccola stanza senza eco o rumori di fondo evidenti.Your "recording booth" should be a small room with no noticeable echo or "room tone." La stanza deve essere silenziosa e insonorizzata il più possibile.It should be as quiet and soundproof as possible. È possibile usare tendaggi sulle pareti per ridurre l'eco e per attenuare i suoni della stanza.Drapes on the walls can be used to reduce echo and neutralize or "deaden" the sound of the room.

Usare un microfono unidirezionale da studio di qualità elevata (abbreviato in "mic") previsto per la registrazione vocale.Use a high-quality studio condenser microphone ("mic" for short) intended for recording voice. I microfoni Sennheiser, AKG e anche i nuovi microfoni Zoom consentono di ottenere ottimi risultati.Sennheiser, AKG, and even newer Zoom mics can yield good results. È possibile acquistare un microfono unidirezionale o noleggiarne uno da una società di apparecchiature audiovisive.You can buy a mic, or rent one from a local audio-visual rental firm. Cercare un microfono con un'interfaccia USB.Look for one with a USB interface. Questo tipo di microfono combina in modo efficiente l'elemento microfono, il preamplificatore e il convertitore analogico-digitale in un unico componente, semplificando il collegamento.This type of mic conveniently combines the microphone element, preamp, and analog-to-digital converter into one package, simplifying hookup.

È anche possibile usare un microfono analogico.You may also use an analog microphone. Molte società di noleggio offrono microfoni meno recenti rinnovati per il carattere voce.Many rental houses offer "vintage" microphones renowned for their voice character. Si noti che un dispositivo analogico professionale usa connettori XLR bilanciati anziché il connettore da 1/4" usato nelle apparecchiature consumer.Note that professional analog gear uses balanced XLR connectors, rather than the 1/4-inch plug that's used in consumer equipment. Se si decide di usare un dispositivo analogico, è necessario procurarsi anche un preamplificatore e un'interfaccia audio per computer con tali connettori.If you go analog, you'll also need a preamp and a computer audio interface with these connectors.

Installare il microfono su un supporto o su un'asta e installare un filtro pop davanti al microfono per eliminare il rumore derivante da consonanti occlusive come "p" e "b".Install the microphone on a stand or boom, and install a pop filter in front of the microphone to eliminate noise from "plosive" consonants like "p" and "b." Alcune microfoni sono dotati di un supporto a sospensione che li isola dalle vibrazioni del supporto, condizione estremamente utile.Some microphones come with a suspension mount that isolates them from vibrations in the stand, which is helpful.

Lo speaker deve mantenere una distanza costante dal microfono.The voice talent must stay at a consistent distance from the microphone. Contrassegnare sul pavimento i punti in cui deve trovarsi lo speaker.Use tape on the floor to mark where they should stand. Se lo speaker vuole sedersi, prestare particolare attenzione a monitorare la distanza del microfono ed evitare rumori della sedia.If the talent prefers to sit, take special care to monitor mic distance and avoid chair noise.

Usare un supporto per lo script.Use a stand to hold the script. Evitare l'angolazione del supporto in modo che possa riflettere il suono verso il microfono.Avoid angling the stand so that it can reflect sound toward the microphone.

La persona che fa funzionare le apparecchiature di registrazione, ovvero il tecnico, deve trovarsi una stanza separata rispetto allo speaker nel banco di registrazione ( circuito di talkback).The person operating the recording equipment—the engineer—should be in a separate room from the talent, with some way to talk to the talent in the recording booth (a talkback circuit).

La registrazione deve contenere il minor rumore possibile, con l'obiettivo di un rapporto segnale/rumore di 80 db o superiore.The recording should contain as little noise as possible, with a goal of an 80-db signal-to-noise ratio or better.

Ascoltare con attenzione una registrazione di silenzio presso il banco, cercare di capire da dove proviene il rumore ed eliminare la causa.Listen closely to a recording of silence in your "booth," figure out where any noise is coming from, and eliminate the cause. Fonti comuni di rumore sono i condotti dell'aria, gli alimentatori delle lampade fluorescenti, il traffico nelle vicinanze e le ventole della apparecchiature (presenti anche nei PC notebook).Common sources of noise are air vents, fluorescent light ballasts, traffic on nearby roads, and equipment fans (even notebook PCs might have fans). Cavi e microfoni possono trasmettere rumori elettrici dai cavi CA, in genere interferenze.Microphones and cables can pick up electrical noise from nearby AC wiring, usually a hum or buzz. Un buzz può anche essere causato da un ground loop, dovuto alla presenza di apparecchiature collegate a più di un circuito elettrico.A buzz can also be caused by a ground loop, which is caused by having equipment plugged into more than one electrical circuit.

Suggerimento

In alcuni casi è possibile usare un equalizzatore o un software di riduzione del rumore per rimuovere il rumore dalle registrazioni, anche se è sempre consigliabile eliminarlo all'origine.In some cases, you might be able to use an equalizer or a noise reduction software plug-in to help remove noise from your recordings, although it is always best to stop it at its source.

I livelli devono essere impostati in modo che la maggior parte dell'intervallo dinamico disponibile della registrazione digitale venga usato senza overdriving.Set levels so that most of the available dynamic range of digital recording is used without overdriving. Ciò significa impostare l'audio ad alto volume, ma non così alto da renderlo distorto.That means set the audio loud, but not so loud that it becomes distorted. Nella figura seguente è riportato un esempio della forma d'onda di una registrazione valida:An example of the waveform of a good recording is shown in the following image:

Una forma d'onda di una registrazione valida

In questo caso viene usata la maggior parte dell'intervallo (altezza), ma i picchi più alti del segnale non raggiungono la parte superiore o inferiore dell'intervallo stesso.Here, most of the range (height) is used, but the highest peaks of the signal do not reach the top or bottom of the window. È anche possibile vedere che il silenzio nella registrazione è approssimabile a una linea orizzontale sottile, che indica un basso livello di rumore.You can also see that the silence in the recording approximates a thin horizontal line, indicating a low noise floor. Questa registrazione è caratterizzata da un intervallo dinamico e da un rapporto segnale/rumore accettabili.This recording has acceptable dynamic range and signal-to-noise ratio.

Registrare direttamente nel computer usando un'interfaccia audio di alta qualità o una porta USB, a seconda del microfono in uso.Record directly into the computer via a high-quality audio interface or a USB port, depending on the mic you're using. Se si usa un dispositivo analogico, mantenere semplice la catena audio: microfono, preamplificatore, interfaccia audio, computer.For analog, keep the audio chain simple: mic, preamp, audio interface, computer. È possibile assegnare mensilmente licenze a entrambe Avid Pro Tools e Adobe Audition a un costo ragionevole.You can license both Avid Pro Tools and Adobe Audition monthly at a reasonable cost. Se il budget è estremamente ridotto, provare l'utilità gratuita Audacity.If your budget is extremely tight, try the free Audacity.

Registrare a una qualità monofonica di 44,1 KHz 16 bit (qualità CD) o superiore.Record at 44.1 kHz 16 bit monophonic (CD quality) or better. Lo standard attuale è di 48 KHz 24 bit, se l'apparecchiatura in uso lo supporta.Current state-of-the-art is 48 kHz 24-bit, if your equipment supports it. Sarà possibile ricampionare l'audio a 16 KHz 16 bit prima di inviarlo al portale per la voce personalizzata.You will down-sample your audio to 16 kHz 16-bit before you submit it to the Custom Voice portal. Sottolineiamo che è importante disporre di una registrazione originale di qualità elevata nel caso in cui sia necessario apportare modifiche.Still, it pays to have a high-quality original recording in the event edits are needed.

È consigliabile che persone diverse ricoprano i ruoli di responsabile, tecnico e speaker.Ideally, have different people serve in the roles of director, engineer, and talent. Non provare a eseguire tutte le operazioni in modo autonomo.Don't try to do it all yourself. In caso di necessità, una sola persona può ricoprire il ruolo di responsabile e di tecnico.In a pinch, one person can be both the director and the engineer.

Prima della sessioneBefore the session

Per evitare di sprecare tempo in studio, esaminare lo script con lo speaker prima della sessione di registrazione.To avoid wasting studio time, run through the script with your voice talent before the recording session. Sebbene il talento vocale possa acquisire familiarità con il testo, può chiarire la pronuncia di eventuali parole non note.While the voice talent becomes familiar with the text, they can clarify the pronunciation of any unfamiliar words.

Nota

La maggior parte degli studi di registrazione consente di visualizzare in modo elettronico gli script nel banco di registrazione.Most recording studios offer electronic display of scripts in the recording booth. In questo caso digitare le note direttamente nel documento dello script.In this case, type your run-through notes directly into the script's document. È tuttavia opportuno disporre di una copia cartacea per prendere appunti durante la sessione.You'll still want a paper copy to take notes on during the session, though. Anche la maggior parte dei tecnici vuole in genere una copia cartacea.Most engineers will want a hard copy, too. Predisporre anche una terza copia stampata come backup per lo speaker qualora il computer si arresti.And you'll still want a third printed copy as a backup for the talent in case the computer is down.

Lo speaker potrebbe chiedere quale parola deve essere enfatizzata in un'espressione ("parola operativa").Your voice talent might ask which word you want emphasized in an utterance (the "operative word"). Indicare che si desidera una lettura naturale senza particolare enfasi.Tell them that you want a natural reading with no particular emphasis. L'enfasi può essere aggiunta in fase di sintesi vocale, ma non deve far parte della registrazione originale.Emphasis can be added when speech is synthesized; it should not be a part of the original recording.

Indicare allo speaker di pronunciare distintamente le parole.Direct the talent to pronounce words distinctly. Ogni parola dello script deve essere pronunciata come è stata scritta.Every word of the script should be pronounced as written. I suoni non devono essere omessi né confusi, come talvolta avviene in un discorso casuale, a meno che non siano stati scritti in tal modo nello script.Sounds should not be omitted or slurred together, as is common in casual speech, unless they have been written that way in the script.

Testo scrittoWritten text Pronuncia casuale indesiderataUnwanted casual pronunciation
lo hanno eliminatonever going to give you up l'hanno eliminatonever gonna give you up
le luci erano quattrothere are four lights le luci erano quattrothere're four lights
come è il tempo oggihow's the weather today com'è il tempo oggihow's th' weather today
non avere paurasay hello to my little friend non aver paurasay hello to my lil' friend

Lo speaker non deve aggiungere pause distinte tra le parole.The talent should not add distinct pauses between words. La frase deve fluire in modo naturale, anche se suona un po' formale.The sentence should still flow naturally, even while sounding a little formal. Per raggiungere questo risultato, è necessaria una certa pratica.This fine distinction might take practice to get right.

Sessione di registrazioneThe recording session

Creare una registrazione di riferimento, denominata file di corrispondenza, di un'espressione tipica all'inizio della sessione.Create a reference recording, or match file, of a typical utterance at the beginning of the session. Chiedere allo speaker di ripetere questa riga all'incirca a ogni pagina.Ask the talent to repeat this line every page or so. Confrontare ogni volta la nuova registrazione al riferimento.Each time, compare the new recording to the reference. Questa procedura consente allo speaker di mantenere l'uniformità in volume, tempo, tono e intonazione.This practice helps the talent remain consistent in volume, tempo, pitch, and intonation. Nel frattempo il tecnico può usare il file di corrispondenza come riferimento per controllare i livelli e l'uniformità complessiva del suono.Meanwhile, the engineer can use the match file as a reference for levels and overall consistency of sound.

Il file di corrispondenza è particolarmente importante quando si riprende la registrazione dopo un'interruzione o un altro giorno.The match file is especially important when you resume recording after a break or on another day. È opportuno eseguirlo più volte per lo speaker e farlo ripetere ogni volta fino a quando la corrispondenza non sarà perfetta.You'll want to play it a few times for the talent and have them repeat it each time until they are matching well.

Invitare lo speaker a respirare profondamente e a fare una pausa prima di ogni espressione.Coach your talent to take a deep breath and pause for a moment before each utterance. Registrare un paio di secondi di silenzio tra le espressioni.Record a couple of seconds of silence between utterances. Le parole devono essere pronunciate allo stesso modo ogni volta che vengono visualizzate, tenendo conto del contesto.Words should be pronounced the same way each time they appear, considering context. Ad esempio, "viola" come verbo è pronunciato in modo diverso da "viola" come sostantivo.For example, "record" as a verb is pronounced differently from "record" as a noun.

Registrare cinque secondi di silenzio prima che la prima registrazione acquisisca il rumore di fondo della stanza.Record a good five seconds of silence before the first recording to capture the "room tone." In questo modo, il portale per la voce personalizzata può compensare eventuali rumori rimanenti nelle registrazioni.This practice helps the Custom Voice portal compensate for any remaining noise in the recordings.

Suggerimento

Ciò che è effettivamente necessario è lo speaker, pertanto è possibile creare una registrazione monofonica (a singolo canale) delle sole righe.All you really need to capture is the voice talent, so you can make a monophonic (single-channel) recording of just their lines. Se tuttavia si registra in formato stereo, è possibile usare il secondo canale per registrare la conversazione nella sala di controllo per acquisire le discussioni di righe o take particolari.However, if you record in stereo, you can use the second channel to record the chatter in the control room to capture discussion of particular lines or takes. Rimuovere questa traccia dalla versione caricata nel portale per la voce personalizzata.Remove this track from the version that's uploaded to the Custom Voice portal.

Ascoltare con attenzione, usando le cuffie, la prestazione dello speaker.Listen closely, using headphones, to the voice talent's performance. Verificare che la dizione sia buona, ma naturale, che la pronuncia sia corretta e che non siano presenti suoni non desiderati.You're looking for good but natural diction, correct pronunciation, and a lack of unwanted sounds. Non esitare a chiedere allo speaker di registrare nuovamente un'espressione che non soddisfa gli standard.Don't hesitate to ask your talent to re-record an utterance that doesn't meet these standards.

Suggerimento

Quando si usa un gran numero di espressioni, una singola espressione potrebbe non avere un effetto evidente sulla voce personalizzata risultante.If you are using a large number of utterances, a single utterance might not have a noticeable effect on the resultant custom voice. Può risultare pertanto più vantaggioso prendere nota di eventuali espressioni con problemi, escluderle dal set di dati e scoprire com'è la voce personalizzata risultante. È sempre possibile tornare nello studio e registrare i campioni mancanti in un secondo momento.It might be more expedient to simply note any utterances with issues, exclude them from your dataset, and see how your custom voice turns out. You can always go back to the studio and record the missed samples later.

Prendere nota del numero del take o del time code per ogni espressione.Note the take number or time code on your script for each utterance. Chiedere al tecnico se può contrassegnare ogni espressione nei metadati o nel foglio della segnalazione della registrazione.Ask the engineer to mark each utterance in the recording's metadata or cue sheet as well.

Interrompi le interruzioni regolari e fornisci una bevanda per aiutare il tuo talento vocale a mantenete la propria voce in forma corretta.Take regular breaks and provide a beverage to help your voice talent keep their voice in good shape.

Al termine della sessioneAfter the session

Gli studi di registrazione moderni si avvalgono dell'uso dei computer.Modern recording studios run on computers. Al termine della sessione vengono restituiti uno o più file audio, non un nastro.At the end of the session, you receive one or more audio files, not a tape. Tali file sono probabilmente in formato WAV o AIFF in qualità CD (44,1 KHz 16 bit) o superiore.These files will probably be WAV or AIFF format in CD quality (44.1 kHz 16-bit) or better. La frequenza di 48 KHz 24 bit è comune e consigliata.48 kHz 24-bit is common and desirable. In genere, non sono necessarie frequenze di campionamento maggiori, come 96 KHz.Higher sampling rates, such as 96 kHz, are generally not needed.

Il portale per la voce personalizzata richiede che ogni espressione si trovi nel proprio file.The Custom Voice portal requires each provided utterance to be in its own file. Ogni file audio fornito dallo studio contiene più espressioni.Each audio file delivered by the studio contains multiple utterances. L'attività di post-produzione primaria, di conseguenza, consiste nel suddividere le registrazioni e prepararle per l'invio.So the primary post-production task is to split up the recordings and prepare them for submission. Il tecnico di registrazione potrebbe aver posizionato i marcatori nel file (oppure aver fornito un foglio separato) per indicare dove inizia ogni espressione.The recording engineer might have placed markers in the file (or provided a separate cue sheet) to indicate where each utterance starts.

Usare le note per trovare i take esatti desiderati, quindi usare un'utilità di modifica del suono, ad esempio Avid Pro Tools, Adobe Audition o l'Audacity gratuita per copiare ogni espressione in un nuovo file.Use your notes to find the exact takes you want, and then use a sound editing utility, such as Avid Pro Tools, Adobe Audition, or the free Audacity, to copy each utterance into a new file.

Lasciare solo circa 0,2 secondi di silenzio all'inizio e alla fine di ogni clip, ad eccezione del primo.Leave only about 0.2 seconds of silence at the beginning and end of each clip, except for the first. Tale file deve iniziare con cinque secondi completi di silenzio.That file should start with a full five seconds of silence. Non usare l'editor audio per azzerare le parti silenziose del file.Do not use an audio editor to "zero out" silent parts of the file. L'inclusione del rumore di fondo della stanza consente agli algoritmi per la voce personalizzata di compensare eventuali rumori di sfondo residui.Including the "room tone" will help the Custom Voice algorithms compensate for any residual background noise.

Ascoltare attentamente ogni file.Listen to each file carefully. In questa fase, è possibile modificare i disturbi meno evidenti indesiderati non rilevati durante la registrazione, ad esempio un lieve rumore delle labbra prima di una riga, ma prestare attenzione a rimuovere alcuna parola effettiva.At this stage, you can edit out small unwanted sounds that you missed during recording, like a slight lip smack before a line, but be careful not to remove any actual speech. Se non è possibile correggere un file, rimuoverlo dal set di dati, prendendo nota dell'operazione eseguita.If you can't fix a file, remove it from your dataset and note that you have done so.

Convertire ogni file a 16 bit e a una frequenza di campionamento di 16 KHz prima del salvataggio e, se sono state registrate conversazioni in studio, rimuovere il secondo canale.Convert each file to 16 bits and a sample rate of 16 kHz before saving and, if you recorded the studio chatter, remove the second channel. Salvare ogni file in formato WAV, denominando i file con il numero di espressione presente nello script.Save each file in WAV format, naming the files with the utterance number from your script.

Creare infine la trascrizione che associa ogni file con estensione wav con la versione in formato testo dell'espressione corrispondente.Finally, create the transcript that associates each WAV file with a text version of the corresponding utterance. In Creazione di caratteri voce personalizzati sono incluse informazioni dettagliate sul formato necessario.Creating custom voice fonts includes details of the required format. È possibile copiare il testo direttamente dallo script.You can copy the text directly from your script. Creare quindi un file ZIP dei file WAV e la trascrizione del testo.Then create a Zip file of the WAV files and the text transcript.

Archiviare le registrazioni originali in un luogo sicuro nel caso in cui siano necessarie in un secondo momento.Archive the original recordings in a safe place in case you need them later. Conservare anche lo script e le note.Preserve your script and notes, too.

Passaggi successiviNext steps

A questo punto è possibile caricare le registrazioni e creare la voce personalizzata.You're ready to upload your recordings and create your custom voice.