Hangminták rögzítése egyéni neurális hanghoz

Ez a cikk útmutatást nyújt a kiváló minőségű hangminták előkészítéséhez egy professzionális hangmodell létrehozásához az egyéni neurális hang pro projekttel.

A kiváló minőségű, egyedi neurális hang létrehozása az alapoktól nem alkalmi vállalkozás. Az egyéni neurális hang központi összetevője az emberi beszéd hangmintáinak nagy gyűjteménye. Létfontosságú, hogy ezek a hangfelvételek kiváló minőségűek legyenek. Válasszon ki egy olyan hangtehetségeket, akik tapasztalattal rendelkeznek az ilyen típusú felvételek készítésében, és profi berendezésekkel rögzíttetik őket egy felvételkészítő mérnökkel.

Ahhoz azonban, hogy elkészíthesse ezeket a felvételeket, szüksége lesz egy szkriptre: a hangminták létrehozásához a hangtehetség beszéli a szavakat.

Sok apró, de fontos részlet a professzionális hangrögzítés létrehozásában. Ez az útmutató egy folyamat ütemterve, amely segít a jó és következetes eredmények eléréséhez.

Tippek az adatok kiváló minőségű hangra való előkészítéséhez

A rendkívül természetes egyéni neurális hang számos tényezőtől függ, például a betanítási adatok minőségétől és méretétől.

A betanítási adatok minősége elsődleges tényező. Például ugyanabban a betanítási csoportban a konzisztens hangerő, a beszédsebesség, a beszédmagasság és a beszédstílus elengedhetetlen a kiváló minőségű egyéni neurális hang létrehozásához. El kell kerülnie a háttérzajt is a felvételen, és győződjön meg arról, hogy a szkript és a rögzítés megegyezik. Az adatok minőségének biztosításához be kell tartania a szkriptek kiválasztásának feltételeit és a rögzítési követelményeket.

A betanítási adatok méretét tekintve a legtöbb esetben 500 kimondott szöveggel hozhat létre ésszerű egyéni neurális hangot. A tesztek szerint a legtöbb nyelven több betanítási adat hozzáadása nem feltétlenül javítja a hang természetességét (a MOS pontszámmal tesztelve), azonban több, több szópéldányt lefedő betanítási adatokkal nagyobb eséllyel csökkentheti az elégedetlen beszédrészek arányát a hanghoz, például a hibákhoz. A beszéd nem megfelelő részeinek meghallgatásához tekintse meg a GitHub-példákat.

Bizonyos esetekben előfordulhat, hogy egyedi jellemzőkkel rendelkező hangszemélyiségre van szüksége. Egy rajzfilm-személyiségnek például speciális beszédstílusú hangra vagy dinamikus intonációval rendelkező hangra van szüksége. Ilyen esetekben javasoljuk, hogy készítsen legalább 1000 (lehetőleg 2000) kimondott szöveget, és rögzítse őket egy professzionális stúdióban. Ha többet szeretne megtudni a hangmodell minőségének javításáról, tekintse meg az egyéni neurális hang használatára vonatkozó jellemzőket és korlátozásokat.

Hangrögzítési szerepkörök

Egy egyéni neurális hangrögzítési projektben négy alapvető szerepkör van:

Szerepkör Cél
Hangtehetség Ennek a személynek a hangja képezi az egyéni neurális hang alapját.
Hangrögzítési mérnök Felügyeli a rögzítés technikai szempontjait, és működteti a menetíró készüléket.
Igazgató Előkészíti a szkriptet, és felkészíti a hangtehetség teljesítményét.
Szerkesztő Véglegesíti a hangfájlokat, és előkészíti őket a Speech Studióba való feltöltésre

Egy személy több szerepkört is betölthet. Ez az útmutató feltételezi, hogy betölti a rendezői szerepkört, és hangtehetségeket és hangmérnököt is alkalmaz. Ha saját maga szeretné készíteni a felvételeket, ez a cikk tartalmaz néhány információt a felvételszakértői szerepkörről. A szerkesztői szerepkörre csak a rögzítési munkamenet után van szükség. Addig is a rendező vagy a hangmérnök betöltheti ezt a szerepkört.

A hangtehetség kiválasztása

A szinkronhangzásban, a hangkaraktúrában, a bejelentésben vagy a hírek felolvasásában jártos színészek jó hangtehetségeket tehetnek. Válassza ki a hangtehetségeket, akiknek a természetes hangja tetszik. Egyedi "karakter" hangokat is létrehozhat, de a legtöbb tehetség nehezebben tudja következetesen végrehajtani őket, és az erőfeszítés a hangterhelést okozhatja. A hangtehetség kiválasztásának egyetlen legfontosabb tényezője a konzisztencia. Az azonos hangstílusú felvételeknek úgy kell hangzaniuk, mintha ugyanazon a napon készültek volna ugyanabban a szobában. Ezt az ideális megoldást jó rögzítési gyakorlatokkal és mérnöki munkával érheti el.

A hangtehetségnek képesnek kell lennie konzisztens sebességgel, hangerővel, hangmagassággal és hangszínnel beszélni tiszta diktálással. Emellett képesnek kell lenniük szabályozni a hangmagasság-variációt, az érzelmi hatást és a beszéd modorát. A hangminták rögzítése sokkal kövérebb lehet, mint a többi hangművelet, így a legtöbb hangtehetség csak napi két-három órát rögzíthet. A munkameneteket legfeljebb heti három vagy négy napra korlátozhatja, ha lehetséges, egy szabadnapot.

A hangtehetségével együttműködve dolgozzon ki egy olyan személyiséget, amely meghatározza az egyéni neurális hang általános hang- és érzelmi tónusát, így biztos lehet abban, hogy a "semleges" hangok milyenek az adott személyhez. Ön határozza meg a beszédstílusok a persona, és kérje meg a hang tehetségét, hogy olvassa el a szkriptet úgy, hogy rezonáljon a stílusok kívánt.

Egy természetesen vidám személyiséggel rendelkező személy például akkor is hordozna optimizmust, ha semlegesen beszél. Ennek a személyiségvonásnak azonban finomnak és következetesnek kell lennie. Hallgassa meg a meglévő hangok felolvasását, hogy képet kapjon arról, hogy mire törekszik.

Tipp.

Általában a saját hangrögzítéseket kell használnia. A hangtehetségnek alkalmasnak kell lennie a projektre vonatkozó munkaszerződésre.

Szkript létrehozása

Minden egyéni neurális hangrögzítési munkamenet kiindulópontja a szkript, amely tartalmazza a hangtehetség által elhangzandó kimondott szövegeket. A "kimondott szövegek" kifejezés teljes mondatokat és rövidebb kifejezéseket is magában foglal. Egyéni neurális hang létrehozásához legalább 300 rögzített kimondott szövegre van szükség betanítási adatként.

A szkriptben szereplő kimondott szövegek bárhonnan származhatnak: fikció, nem fikció, beszédek átiratai, hírjelentések és bármi más, amely nyomtatott formában elérhető. A lehetséges jogi kérdések rövid ismertetését a "Jogi kérdések" című szakaszban találja. Saját szöveget is írhat.

A kimondott szövegeknek nem kell ugyanabból a forrásból, ugyanabból a forrásból származnia, vagy bármi köze van egymáshoz. Ha azonban beállított kifejezéseket (például "Sikeresen bejelentkezett") használ a beszédalkalmazásban, mindenképpen vegye fel őket a szkriptbe. Ez nagyobb esélyt ad az egyéni neurális hangnak arra, hogy jól kimondsa ezeket a kifejezéseket.

Javasoljuk, hogy a rögzítési szkriptek általános és tartományspecifikus mondatokat is tartalmazzanak. Ha például 2000 mondatot szeretne rögzíteni, 1000 lehet általános mondat, további 1000 pedig a céltartományból származó mondat vagy az alkalmazás használati esete.

Mintaszkripteket biztosítunk az "Általános", a "Csevegés" és az "Ügyfélszolgálat" tartományokban minden nyelvhez , hogy megkönnyítsük a rögzítési szkriptek előkészítését. Ezeket a Megosztott Microsoft-szkripteket közvetlenül használhatja a felvételekhez, vagy hivatkozásként használhatja őket saját létrehozására.

Szkriptkijelölési feltételek

Az alábbiakban néhány általános útmutatást követve létrehozhat egy jó korpuszt (rögzített hangmintákat) az egyéni neurális hangképzéshez.

  • Egyensúlyozza ki a szkriptet, hogy lefedje a tartomány különböző mondattípusait, beleértve az utasításokat, kérdéseket, felkiáltójeleket, hosszú mondatokat és rövid mondatokat.

    Minden mondatnak négy vagy 30 szót kell tartalmaznia, és nem szabad ismétlődő mondatokat belefoglalni a szkriptbe.
    A különböző mondattípusok kiegyenlítéséhez tekintse meg az alábbi táblázatot:

    Mondattípusok Fedezet
    Utasítás mondatai Az utasítás mondatainak a szkript 70–80%-ának kell lennie.
    Kérdőjelek A kérdés mondatainak a tartományszkript 10–20%-ának kell lennie, beleértve az emelkedés 5–10%-át és a csökkenő hangok 5–10%-át.
    Felkiáltójelek A felkiáltójeles mondatoknak a szkript 10-20%-ának kell lenniük.
    Rövid szó/kifejezés A rövid szó-/kifejezésszkripteknek az összes kimondott szöveg 10%-ának kell lenniük, esetenként 5-7 szóval.

    Feljegyzés

    A rövid szavakat/kifejezéseket vesszővel kell elválasztani. Segítenek emlékeztetni a hangtehetségeket, hogy rövid ideig szüneteljenek olvasáskor.

    Ajánlott eljárások:

    • A beszédrészek kiegyensúlyozott lefedettsége, például igék, főnevek, melléknevek stb.
    • A kiejtések kiegyensúlyozott lefedettsége. Az A-tól Z-ig minden betűt belefoglalhat, így a Szöveg és a Beszéd motor megtanulja, hogyan kell kimondani az egyes betűket a stílusában.
    • Olvasható, érthető, közérthető szkriptek a beszélő számára olvasáshoz.
    • Kerülje a túl sok hasonló mintát a szavakhoz/kifejezésekhez, például az "egyszerű" és a "könnyebb" kifejezéshez.
    • A számok különböző formátumai: cím, egység, telefon, mennyiség, dátum és így tovább, minden mondattípusban.
    • Adjon meg helyesírási mondatokat, ha ezt az egyéni neurális hang felolvassa. Például: "Az Apple helyesírása A P P L E".
  • Ne tegyen több mondatot egy sorba/egy kimondott szövegbe. Különítse el az egyes sorokat kimondott szöveg alapján.

  • Győződjön meg arról, hogy a mondat tiszta. Általában ne tartalmazzon túl sok nem szabványos szót, például számokat vagy rövidítéseket, mert nehezen olvashatók. Egyes alkalmazásokhoz számos szám vagy betűszó olvasására lehet szükség. Ezekben az esetekben felveheti ezeket a szavakat, de normalizálhatja őket a beszélt formájukban.

    Az alábbiakban néhány ajánlott eljárás található például:

    • A "BTW" helyett a rövidítéseket tartalmazó sorok esetében írja be a "by the way" szöveget.
    • Számjegyeket tartalmazó sorok esetén a "911" helyett írja be a "kilenc egy"-t.
    • Az "ABC" helyett betűszóval ellátott sorokhoz írja be az "A B C"-t.

    Ezzel győződjön meg arról, hogy a hangtehetség a várt módon ejti ki ezeket a szavakat. A betanítási folyamat során tartsa egyezően a szkriptet és a felvételeket.

  • A szkriptnek számos különböző szót és mondatot kell tartalmaznia, különböző mondathosszúságokkal, szerkezetekkel és hangulatokkal.

  • Ellenőrizze a szkriptben a hibákat. Ha lehetséges, más is ellenőrizze. Ha a szkriptet a hangtehetségével futtatja, több hibát is elkaphat.

Különbség a hangtehetség-szkript és a betanítási szkript között

A betanítási szkript eltérhet a hangtehetség-szkripttől, különösen a számjegyeket, szimbólumokat, rövidítéseket, dátumot és időt tartalmazó szkriptek esetében. A hangtehetséghez előkészített szkripteknek natív olvasási konvenciók szerint kell lenniük, például 50% és 45 dollár. A betanításhoz használt szkripteket normalizálni kell a hangrögzítéshez, például ötven százalékot és negyvenöt dollárt.

Feljegyzés

Néhány példaszkriptet biztosítunk a hangtehetséghez a GitHubon. A példaszkriptek betanításhoz való használatához a fájl feltöltése előtt normalizálnia kell őket a hangtehetség felvételeinek megfelelően.

Az alábbi táblázat a hangtehetség szkriptjei és a betanításhoz használt normalizált szkriptek közötti különbséget mutatja be.

Kategória Példa hangtehetség-szkriptre Példa betanítási szkriptre (normalizált)
Számjegyek 123 százhuszonhárom
Szimbólumok 50% ötven százalék
Rövidítés ASAP amint lehetséges
Dátum és idő Március 3., 17:00 Március harmadik 17 órakor

A szkriptek tipikus hibái

A szkript gyenge minősége hátrányosan befolyásolhatja a betanítási eredményeket. A kiváló minőségű betanítási eredmények eléréséhez elengedhetetlen a hibák elkerülése.

A szkripthibák általában a következő kategóriákba sorolhatók:

Kategória Példa
Értelmetlen tartalom. "A színtelen zöld ötletek dühösen alszanak."
Hiányos mondatok. - "Ez volt az utolsó estém" (nincs téma, nincs konkrét jelentés)
- "Már vicces (nincs idézőjel a végén, ez nem egy teljes mondat)
Elírás a mondatokban. - Kezdje kisbetűvel
- Szükség esetén nincs záró írásjel
-Elírás
- Írásjelek hiánya: nincs időszak a végén (kivéve a hír címét)
- Szimbólumokkal végződik, kivéve a vesszőt, a kérdést, a felkiáltást
- Helytelen formátum, például:
 - 45 $ (45 $ kell lennie)
 - Nincs szóköz vagy túlterjedés a szó/írásjelek között
Duplikáció hasonló formátumban, minden mintánként egy elég. - "Most 13:00 New Yorkban"
- "Most 14:00 New Yorkban"
- "Most 15:00 New Yorkban"
- "Most 13:00 Seattle-ben"
- "Most 13:00 washingtoni d.c."
Nem gyakori idegen szavak: csak a gyakran használt idegen szavak elfogadhatók a szkriptben. Angolul a "faux" francia szót használhatjuk a közbeszédben, de egy francia kifejezés, például a "coincer la bulle" nem lenne ritka.
Emoji vagy egyéb nem gyakori szimbólumok

Szkriptformátum

A szkript a munkamenetek rögzítése során használható, így bármilyen módon beállíthatja, amellyel egyszerűen dolgozhat. Külön hozza létre a Speech Studio által igényelt szövegfájlt.

Az alapszintű szkriptformátum három oszlopot tartalmaz:

  • A kimondott szöveg száma 1-től kezdődően. A számozás megkönnyíti, hogy a stúdióban mindenki hivatkozzon egy adott kimondott szövegre ("próbálkozzunk újra a 356-os számmal"). A Microsoft Word bekezdésszámozási funkciójával automatikusan megszámozza a táblázat sorait.
  • Egy üres oszlop, amelyben megírhatja az egyes kimondott szövegek take number vagy time kódját, hogy segítsen megtalálni azt a kész felvételen.
  • A kimondott szöveg maga.

Sample script

Feljegyzés

A legtöbb stúdió rövid, "vesz" nevű szegmensben rögzíti a rekordokat. Minden egyes elvétel általában 10–24 kimondott szöveget tartalmaz. Csak a take szám jelölése elegendő ahhoz, hogy később kimondott szöveget találjon. Ha olyan stúdióban készít felvételt, amely hosszabb felvételeket szeretne készíteni, érdemes inkább az időkódot megjegyeznie. A stúdióban kiemelt időkijelző jelenik meg.

Minden sor után hagyjon elegendő helyet a jegyzetek írásához. Győződjön meg arról, hogy egyetlen kimondott szöveg sem oszlik el a lapok között. Számozza meg az oldalakat, és nyomtassa ki a szkriptet a papír egyik oldalán.

Nyomtassa ki a forgatókönyv három példányát: egyet a hangszínésznek, egyet a hangmérnöknek, egyet pedig a rendezőnek (Ön). Használjon papírklipet a kapcsok helyett: egy tapasztalt hangművész elválasztja a lapokat, hogy elkerülje a zajt a lapok elfordítása során.

Hangtehetség-nyilatkozat

A neurális hang betanításához létre kell hoznia egy hangtehetségprofilt egy hangfájllal, amelyet a hangtehetség rögzít, és hozzájárul a beszédadatok használatához egy egyéni hangmodell betanításához. A felvételi szkript előkészítésekor mindenképpen adja meg az utasítás mondatát.

Legalities

A szerzői jog értelmében a szerző szerzői jog által védett szöveg olvasása olyan előadás lehet, amelyért a mű szerzőjét kártalanítani kell. Ez a teljesítmény nem lesz felismerhető a végtermékben, az egyéni neurális hangban. Ennek ellenére a szerzői jog által védett mű e célra való használatának jogszerűsége nem megalapozott. A Microsoft nem tud jogi tanácsot adni ezzel a problémával kapcsolatban; forduljon saját jogi tanácsadójához.

Szerencsére lehetséges, hogy ezeket a problémákat teljesen elkerüljük. Számos olyan szövegforrás van, amelyet engedély vagy licenc nélkül használhat.

Szövegforrás Leírás
CMU Sarkvidéki korpusz Körülbelül 1100 mondat van kiválasztva a szerzői jogon kívüli művekből, kifejezetten beszédszintézis-projektekben való használatra. Kiváló kiindulópont.
Már nem működik
szerzői jogi védelem alatt
Általában 1923 előtt közzétett munkák. Angol nyelven a Project Gutenberg több tízezer ilyen művet kínál. Érdemes lehet az újabb művekre összpontosítani, mivel a nyelv közelebb áll a modern angolhoz.
A kormányzati munka A Egyesült Államok kormány által létrehozott művek nem szerzői jogvédelem alatt állnak a Egyesült Államok, bár a kormány más országokban/régiókban is igényelhet szerzői jogokat.
Nyilvános tartomány Olyan művek, amelyekhez a szerzői jog kifejezetten ki van tiltva vagy a nyilvános tartomány számára van fenntartva. Előfordulhat, hogy egyes joghatóságokban nem lehet teljesen lemondani a szerzői jogról.
Megengedő licenccel rendelkező művek A Creative Commonshoz vagy a GNU ingyenes dokumentációs licencéhez (GFDL) hasonló licenccel terjesztett művek. A Wikipedia a GFDL-t használja. Egyes licencek azonban korlátozhatják a licenccel rendelkező tartalom teljesítményét, ami befolyásolhatja az egyéni neurális hangmodellek létrehozását, ezért gondosan olvassa el a licencet.

A szkript rögzítése

Rögzítse a szkriptet egy professzionális stúdióban, amely a hangmunkára specializálódott. Van egy hangrögzítő standjuk, a megfelelő felszerelésük, és a megfelelő emberek, akik működtetik. Javasoljuk, hogy ne próbálkozzon a felvétellel.

Beszélje meg a projektet a stúdió hangmérnökével, és hallgassa meg a tanácsukat. A felvételnek kevés vagy nincs dinamikus tartománytömörítése (legfeljebb 4:1). Kritikus fontosságú, hogy a hang hangereje konzisztens legyen, és magas jel-zaj arányú legyen, miközben a hang nem kéretlen hangokat tartalmaz.

Rögzítési követelmények

A kiváló minőségű betanítási eredmények eléréséhez kövesse az alábbi követelményeket a rögzítés vagy az adatok előkészítése során:

  • Világos és jól kifejezhető

  • Természetes sebesség: nem túl lassú vagy túl gyors a hangfájlok között.

  • Megfelelő kötet, prófédia és törés: ugyanazon mondaton belül vagy mondatok között stabil, írásjelek helyes törése.

  • Nincs zaj a rögzítés során

  • A persona design igazítása

  • Nincs rossz jelölőszín: illeszkedik a céltervhez

  • Nincs helytelen kiejtés

Az alábbi specifikációban ajánlott eljárásként fel kell készülnie a hangmintákra.

Tulajdonság Érték
Fájlformátum *.wav, Mono
Mintavételezési sebesség 24 KHz
Minták formátuma 16 bites, PCM
Maximális kötetszintek -3 dB-ről -6 dB-ra
SNR > 35 dB
Csend - Az elején és végén legyen némi csend (ajánlott 100 ms), de legfeljebb 200 ms
- Csend szavak vagy kifejezések < között -30 dB
- Csend a hullámban az utolsó szó elhangzása <után -60 dB
Környezeti zaj vagy visszhang - A zaj szintje a hullám elején beszéd előtt < -70 dB

Feljegyzés

Magasabb mintavételi sebességgel és bitmélységben rögzíthet, például 48 KHz-es 24 bites PCM formátumban. Az egyéni neurális hang betanítása során automatikusan 24 KHz-es, 16 bites PCM-re fogjuk lemintázni.

A magasabb jel-zaj arány (SNR) alacsonyabb zajt jelez a hangban. Általában 35+ SNR-t érhet el professzionális stúdiókban való felvétellel. A 20 alatti SNR-t tartalmazó hang nyilvánvaló zajt okozhat a generált hangban.

Fontolja meg az alacsony kiejtési pontszámú vagy gyenge jel-zaj arányú kimondott szövegek ismételt rögzítését. Ha nem tudja újból rögzíteni, fontolja meg, hogy kizárja ezeket a kimondott szövegeket az adataiból.

Tipikus hanghibák

A kiváló minőségű betanítási eredmények érdekében erősen ajánlott elkerülni a hanghibákat. A hanghibák általában a következő kategóriákba sorolhatók:

  • A hangfájl neve nem egyezik a szkript azonosítójával.

  • A WAR-fájl formátuma érvénytelen, ezért nem olvasható.

  • A hangmintavételi sebesség alacsonyabb, mint 16 KHz. Javasoljuk, hogy a .wav fájl mintavételezési sebessége egyenlő vagy magasabb legyen, mint 24 KHz a kiváló minőségű neurális hang esetén.

  • A kötetcsúcs nem a -3 dB (a maximális kötet 70%-a) és -6 dB (50%) tartományon belül van.

  • Hullámforma túlcsordulása: a hullámforma a csúcsértékénél van vágva, ezért nem teljes.

    waveform overflow

  • A felvétel csendes részei nem tisztaak; olyan hangokat hallhat, mint a környezeti zaj, a szájzaj és a visszhang.

    Az alábbi hang például a beszédek közötti környezeti zajt tartalmazza.

    environment noise

    Az alábbi minta egyenáramú eltolás vagy visszhang jeleit tartalmazza.

    DC offset or echo

  • A teljes kötet túl alacsony. Az adatok problémaként lesznek megjelölve, ha a kötet kisebb, mint -18 dB (a maximális kötet 10%-a). Győződjön meg arról, hogy az összes hangfájlnak azonos hangerőn kell konzisztensnek lennie.

    overall volume

  • Nincs csend az első szó előtt vagy az utolsó szó után. Emellett a kezdő vagy záró csend nem lehet hosszabb 200 ms-nál vagy 100 ms-nál rövidebbnél.

    No silence

Saját maga végezze el

Ha saját maga szeretné készíteni a felvételt, ahelyett, hogy stúdióba szeretne menni, íme egy rövid alapozó. Az otthoni felvétel és a podcasting növekedésének köszönhetően minden eddiginél könnyebb megtalálni a jó felvételi tanácsokat és forrásokat az interneten.

A "rögzítőfülke" legyen egy kis szoba, és ne legyen látható visszhang vagy "szobahang". A lehető legcsendesebbnek és hangszigeteltnek kell lennie. Drapok a falakon lehet használni, hogy csökkentse a visszhangot, és semlegesítse vagy "holt" a hang a szoba.

Használjon egy kiváló minőségű stúdiókondenzátoros mikrofont ("mikrofon" röviden) hangrögzítésre. A Sennheiser, az AKG és még az újabb Zoom micsek jó eredményeket hozhatnak. Vásárolhat mikrofont, vagy bérelhet egyet egy helyi audio-vizuális kölcsönző cégtől. Keressen egy USB-adapterrel rendelkezőt. Ez a mikrofontípus kényelmesen egyesíti a mikrofon elemet, az előerősítőt és az analóg-digitális átalakítót egyetlen csomagban, leegyszerűsítve a csatlakoztatást.

Analóg mikrofont is használhat. Sok bérházak kínálnak "vintage" mikrofonok ismert a hang karakter. A professzionális analóg fogaskerék kiegyensúlyozott XLR-összekötőket használ a fogyasztói berendezésekben használt 1/4 hüvelykes csatlakozó helyett. Ha analóg módon halad, szüksége lesz egy előerősítőre és egy számítógép hangfelületre is ezekkel az összekötőkkel.

Telepítse a mikrofont egy állványra vagy bummra, és telepítsen egy pop szűrőt a mikrofon elé, hogy kiküszöbölje a "p" és a "b" mássalhangzók zaját. Egyes mikrofonok felfüggesztési csatlakozóval vannak elszigetelve az állvány rezgéseitől, ami hasznos.

A hangtehetségnek következetes távolságban kell maradnia a mikrofontól. Használjon szalagot a padlón, hogy megjelölje, hol kell állnia. Ha a tehetség szívesebben ül, különös figyelmet fordít a mikrofon távolságának figyelésére és a szék zajának elkerülésére.

Használjon egy állványt a szkript tárolásához. Kerülje az állvány megmozdítását, hogy az tükrözze a mikrofon felé irányuló hangot.

A menetíró készüléket üzemeltető személynek – a hangrögzítő mérnöknek – külön helyiségben kell lennie a tehetségtől, valamilyen módon a felvételfülkében (talkback circuit) a tehetséggel való beszélgetéshez.

A felvételnek a lehető legkevesebb zajt kell tartalmaznia, amelynek célja -80 dB.

Hallgasson meg egy felvételt a csendről a "standján", állapítsa meg, honnan jön a zaj, és kiküszöbölje az okot. Gyakori zajforrások a szellőzőnyílások, a fénycsőelőtétek, a közeli utak forgalma és a berendezések ventilátorai (még a notebook pc-k is rendelkezhetnek ventilátorokkal). A mikrofonok és kábelek elektromos zajt képesek felvenni a közeli AC-kábelekből, általában zúgás vagy zümmögés. A zümmögést egy földi hurok is okozhatja, amelyet egynél több elektromos áramkörbe csatlakoztatott berendezések okoznak.

Tipp.

Bizonyos esetekben előfordulhat, hogy egy hangszínszabályzót vagy egy zajcsökkentő szoftver beépülő modult is használhat a felvételek zajának eltávolításához, bár mindig a legjobb, ha a forrásánál állítja le.

Állítsa be a szinteket úgy, hogy a digitális rögzítés rendelkezésre álló dinamikus tartományának nagy része túldrukkolás nélkül legyen használva. Ez azt jelenti, hogy állítsa be a hang hangos, de nem olyan hangos, hogy eltorzul. Egy jó felvétel hullámformára az alábbi képen látható példa:

A good recording waveform

Itt a tartomány (magasság) nagy részét használják, de a jel legmagasabb csúcsai nem érik el az ablak tetejét vagy alját. Azt is láthatja, hogy a felvétel csendje egy vékony vízszintes vonalhoz közelít, ami alacsony zajszintet jelez. Ez a felvétel elfogadható dinamikus tartományt és jel-zaj arányt kínál.

Rögzítsen közvetlenül a számítógépre egy kiváló minőségű hangfelületen vagy USB-porton keresztül, a használt mikrofontól függően. Analóg módon tartsa egyszerűnek a hangláncot: mikrofon, előerősítő, hangfelület, számítógép. Az Avid Pro Toolst és az Adobe Auditiont is havonta, ésszerű áron licencelheti. Ha a költségvetése rendkívül szoros, próbálja ki az ingyenes Audacity-t.

Rögzítsen 44,1 KHz-es 16 bites monofonikus (CD-minőség) vagy jobb. A jelenlegi korszerű 48 KHz 24 bites, ha a berendezés támogatja. A beszédmintát 24 KHz-es 16 bitesre fogja lemintázni, mielőtt elküldené a Speech Studióba. Ennek ellenére érdemes jó minőségű eredeti felvételt készíteni abban az esetben, ha szerkesztésre van szükség.

Ideális esetben különböző emberek szolgálnak igazgatói, mérnöki és tehetségi szerepkörökben. Ne próbálja meg egyedül csinálni. Egy csippentésben egy személy lehet az igazgató és a mérnök is.

A munkamenet előtt

A stúdióidő elsiklásának elkerülése érdekében futtassa végig a szkriptet a hangtehetségével a felvételi munkamenet előtt. Míg a hangtehetség megismerkedik a szöveggel, tisztázhatja az ismeretlen szavak kiejtését.

Feljegyzés

A legtöbb stúdió a forgatókönyvek elektronikus megjelenítését kínálja a felvételi standon. Ebben az esetben írja be az átfuttatási jegyzeteket közvetlenül a szkript dokumentumába. A munkamenet során azonban továbbra is azt szeretné, hogy egy papíralapú másolat jegyzeteljen. A legtöbb mérnöknek is szüksége lesz egy másolatra. És akkor is szüksége lesz egy harmadik nyomtatott másolatra, hogy biztonsági másolatot készítsen a tehetségnek, ha a számítógép leáll.

A hangtehetséged megkérdezheti, hogy melyik szót szeretné kiemelni egy kimondott szövegben (az "operatív szó"). Mondja el nekik, hogy természetes olvasást szeretne, különös hangsúlyt nem fektetve. A hangsúly a beszéd szintetizálásakor adható hozzá; nem lehet része az eredeti felvételnek.

Irányítsd a tehetséget, hogy kimondsa a szavakat külön-külön. A szkript minden szavát írottként kell kimondani. A hangokat nem szabad kihagyni és nem szabad együtt hagyni, ahogy az alkalmi beszédben is gyakori, kivéve, ha a szkriptben így írták őket.

Írott szöveg Nem kívánt alkalmi kiejtés
soha nem adod fel soha nem adod fel
négy fény van Négy fény van
milyen az időjárás ma milyen az időjárás ma?
köszönj a kis barátomnak! köszönj lil barátomnak!

A tehetségnek nem szabad* különböző szüneteket hozzáadnia a szavak között. A mondatnak természetesen kell folynia, még akkor is, ha egy kicsit formálisnak hangzik. Ez a finom megkülönböztetés a gyakorlatban, hogy jobbra.

A rögzítési munkamenet

Hozzon létre egy referencia-felvételt vagy egyezésfájlt egy tipikus kimondott szövegről a munkamenet elején. Kérje meg a tehetséget, hogy ismételje meg ezt a sort minden oldalon. Minden alkalommal hasonlítsa össze az új felvételt a hivatkozással. Ez a gyakorlat segít a tehetségnek konzisztensen maradni a hangerőben, a tempóban, a hangmagasságban és az intonációban. Eközben a mérnök használhatja a találatfájlt a szintek és a hang általános konzisztenciájának referenciájaként.

Az egyező fájl különösen fontos, ha szünet után vagy egy másik napon folytatja a felvételt. Játsszon néhányszor a tehetség számára, és ismételje meg minden alkalommal, amíg jól nem illeszkednek.

Ha egy adott stílussal rendelkező korpuszt szeretne rögzíteni, gondosan válassza ki a kívánt stílust bemutató szkripteket. A felvétel során győződjön meg arról, hogy a hangtehetség konzisztensen tartja a hangerőt, a tempót, a hangmagasságot és a hangszínt, hogy a kívánt stílust megtestesíthesse.

Edző a tehetség, hogy egy mély lélegzetet, és szünet egy pillanatra előtt minden kimondott szöveg. Rögzítsen néhány másodpercnyi csendet a kimondott szövegek között. A szavakat minden alkalommal ugyanúgy kell kimondani, amikor megjelennek, figyelembe véve a kontextust. A "record" as a verb például másként van kiadva, mint a "rekord" főnévként.

Az első felvétel előtt körülbelül öt másodpercnyi csendet rögzíthet a "szobahang" rögzítéséhez. Ez a gyakorlat segít a Speech Studio-nak kompenzálni a felvételek zaját.

Tipp.

Mindössze annyit kell rögzítenie, hogy a hangtehetség, így egy monofonikus (egycsatornás) felvételt készíthet csak a vonalakról. Ha azonban sztereóban rögzíti a felvételt, a második csatornával rögzítheti a csevegőt a vezérlőteremben, hogy rögzítse az adott sorok vagy beszélgetések beszélgetését. Távolítsa el ezt a sávot a Speech Studióba feltöltött verzióból.

Hallgassa meg a hangtehetség teljesítményét a fejhallgató használatával. Jó, de természetes húzást, helyes kiejtést és nemkívánatos hangok hiányát keresi. Ne habozzon megkérni a tehetségét, hogy jegyezze fel újra azokat a kimondott szövegeket, amelyek nem felelnek meg ezeknek a szabványoknak.

Tipp.

Ha nagy számú kimondott szöveget használ, előfordulhat, hogy egyetlen kimondott szövegnek nincs észrevehető hatása az eredményül kapott egyéni neurális hangra. Célszerűbb lehet egyszerűen feljegyezni a problémákat tartalmazó kimondott szövegeket, kizárni őket az adathalmazból, és látni, hogyan alakul ki az egyéni neurális hang. Bármikor visszatérhet a stúdióba, és később rögzítheti a kihagyott mintákat.

Figyelje meg az egyes kimondott szövegekhez tartozó szám- vagy időkódot a szkripten. Kérje meg a mérnököt, hogy jelölje meg az egyes kimondott szövegeket a felvétel metaadataiban vagy jellapján is.

Tartson rendszeres szüneteket, és biztosítson egy italt, amely segít a hangtehetségnek, hogy jó formában tartsa a hangját.

A munkamenet után

Modern stúdiók futnak számítógépeken. A munkamenet végén egy vagy több hangfájlt kap, nem szalagot. Ezek a fájlok valószínűleg WAV vagy AIFF formátumban CD-minőségben (44,1 KHz 16 bites) vagy jobb. 24 KHz 16 bites gyakori és kívánatos. Az egyéni neurális hang alapértelmezett mintavételezési sebessége 24 KHz. Ajánlott 24 KHz-es mintasebesség használata a betanítási adatokhoz. Általában nincs szükség magasabb mintavételezési sebességre, például 96 KHz-re.

A Speech Studio megköveteli, hogy minden megadott kimondott szöveg a saját fájljában legyen. A stúdió által szállított hangfájlok mindegyike több kimondott szöveget tartalmaz. Ezért az elsődleges utómunkát a felvételek felosztása és a beküldésre való előkészítés céljából kell elvégezni. Előfordulhat, hogy a hangrögzítő mérnök jelölőket helyezett el a fájlban (vagy külön jellapot adott meg), hogy jelezze, hol kezdődnek az egyes kimondott szövegek.

A jegyzetek segítségével megtalálhatja a kívánt pontos elemet, majd egy hangszerkesztő segédprogrammal( például Avid Pro Tools, Adobe Audition vagy az ingyenes Audacity) másolhatja az egyes kimondott szövegeket egy új fájlba.

Gondosan hallgassa meg az egyes fájlokat. Ebben a szakaszban szerkesztheti a felvétel során kihagyott kis nemkívánatos hangokat, például egy kis ajakcsatolást egy sor előtt, de ügyeljen arra, hogy ne távolítsa el a tényleges beszédet. Ha nem tudja kijavítani a fájlt, távolítsa el az adathalmazból, és vegye figyelembe, hogy ezt megtette.

A mentés előtt konvertálja az egyes fájlokat 16 bitesre és 24 KHz-es mintasebességre, és ha rögzítette a stúdióbeszélgetést, távolítsa el a második csatornát. Mentse az egyes fájlokat WAV formátumban, és nevezheti el a fájlokat a szkript kimondott szövegszámával.

Végül hozza létre az átiratot, amely az egyes WAV-fájlokat a megfelelő kimondott szöveg szövegverziójához társítja. A hangmodell betanítása a szükséges formátum részleteit tartalmazza. A szöveget közvetlenül a szkriptből másolhatja. Ezután hozzon létre egy Zip-fájlt a WAV-fájlokból és a szöveges átiratból.

Archiválja az eredeti felvételeket biztonságos helyen, ha később szüksége lesz rájuk. A szkriptet és a jegyzeteket is megőrizheti.

Következő lépések

Készen áll a felvételek feltöltésére és az egyéni neurális hang létrehozására.