カスタム音声を作成するための音声サンプルを録音する

高品質かつプロダクション品質のカスタム音声をゼロから作成することは、カジュアルな仕事ではありません。 カスタム音声の中心的な構成要素は、人間の発話のオーディオ サンプルの大規模なコレクションです。 これらのオーディオの録音は高品質のものでなければなりません。 この種の録音に参加した経験があるボイス タレントを選び、優秀な録音エンジニアの手で、プロフェッショナルの機器を使用してボイス タレントの声を録音します。

ただし、これらの録音を行う前に、オーディオ サンプルを作成するためにボイス タレントが読み上げる台本を用意する必要があります。 最良の結果を得るには、カスタム音声モデルをトレーニングするための良好な音声カバレッジと十分な多様性を台本が備えている必要があります。

小さくても重要な詳細を積み重ねることが、プロフェッショナルな音声録音の実現につながります。 このガイドは、良好で一貫した結果を得るために役立つプロセスのロードマップです。

注意

ニューラル音声をトレーニングする場合は、ボイス タレントのプロファイルと共に、自分の音声データがカスタム音声モデルのトレーニングに使用されることをボイス タレントが承認している音声同意ファイルを、指定する必要があります。 録音スクリプトを準備するときは、以下の文を必ず含めてください。

"I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice." (私 [自分の姓名] は、私の音声の合成バージョンを作成して使用するために、私の音声が [会社名] によって使用されることを承知しています。) この文は、同意した人物と同じ人物によってトレーニング データが作成されたかどうかを確認するために使用されます。 詳細については、ボイス タレントの確認に関する記事を参照してください。

カスタム ニューラル音声を利用するためのアクセスには制限があります。 責任ある AI の要件について理解し、こちらのアクセスを適用してください。

ヒント

最高品質の結果を得るためには、カスタム音声開発の支援を Microsoft に依頼することを検討してください。 Microsoft には、Cortana や Office などの自社製品用の高品質音声の制作に関して豊富な経験があります。

音声録音のロール

カスタム音声録音プロジェクトには 4 つの基本ロールがあります。

Role 目的
ボイス タレント この人の声は、カスタム音声の基礎を形成します。
録音エンジニア 録音の技術的側面を監督し、録音機器を操作します。
ディレクター 台本を準備し、ボイス タレントの演技を指導します。
エディター オーディオ ファイルをファイナライズし、Custom Voice ポータルにアップロードするための準備をします。

1 人が複数の役割を兼ねる場合があります。 このガイドでは、読者が主にディレクターのロールを務め、ボイス タレントと録音エンジニアの両方を雇うと想定しています。 録音を自分自身で行う場合は、この記事に、録音エンジニアのロールに関する情報がいくらか含まれています。 エディターのロールはセッション後まで必要とされないので、ディレクターまたは録音エンジニアが実行できます。

ボイス タレントを選択する

カスタム ボイス タレントの適任候補は、ボイスオーバーやキャラクター ボイスの仕事の経験がある演者です。 アナウンサーやニュースキャスターから適任のタレントが見つかることもよくあります。

好みの自然な声を持ったボイス タレントを選びます。 ユニークな "キャラクター" 音声を作ることは可能ですが、そのような声を一貫して演じることはほとんどのタレントにとってかなり難しく、喉に負担がかかる可能性があります。

ヒント

一般には、聞き覚えがある声を使ってカスタム音声を作成することは避けてください。もちろん、有名人の声を再現することが目標である場合は別です。 通常は、あまり聞き覚えがない声のほうが、聞く人の気を散らしません。

ボイス タレントを選ぶにあたって、たった 1 つの最も重要な要素は一貫性です。 すべての録音は、同じ日に同じ部屋で録音されたように聞こえる必要があります。 優れた録音の実践とエンジニアリングによって、この理想に近づくことができます。

方程式の残りの半分はボイス タレントです。 一貫した速さ、音量、ピッチ、トーンで話すことができる必要があります。 明瞭な話し方は必須です。 タレントは、ピッチの変化、感情、スピーチの癖を厳密に制御できる必要もあります。

カスタム音声サンプルの録音は、他の種類の声の仕事よりも疲労度が大きい可能性があります。 ほとんどのボイス タレントは 1 日に 2 ~ 3 時間の録音ができます。 可能であれば、セッションを週に 3 ~ 4 日に制限し、間に 1 日の休みを入れてください。

ボイス タレントと協力して、カスタム音声の全体的なサウンドと感情的トーンを定義する "ペルソナ" を作り上げます。 プロセスにおいては、そのペルソナにとって "中立的" がどのように聞こえるかを決定します。 カスタム ニューラル音声機能を使用すると、感情をこめて話すモデルをトレーニングできます。 "読み上げスタイル" を定義し、ボイス タレントに、必要なスタイルに合った方法でスクリプトを読むように依頼します。

たとえば、あるペルソナは生まれつき明るい性格かもしれません。 したがって、"そのような人々" の音声は、中立的に話しているときでも楽観的な調子を帯びる場合があります。 ただし、そのような性格上の特徴は、繊細で一貫している必要があります。 既存の音声による読み上げを聞いてみて、何を目標にしているのかのアイデアを得ます。

ヒント

自分が行う音声録音は自分が主導権を持ちたいと考えるのが普通です。 ボイス タレントはプロジェクトの雇用契約に従う必要があります。

スクリプトの作成

カスタム音声録音セッションの出発点は、ボイス タレントが読み上げる発話が含まれる台本です。 ("発話" という用語には、文全体と短いフレーズの両方が含まれます。)

台本内の発話は、フィクション、ノンフィクション、スピーチのトランスクリプト、ニュース レポート、印刷形態で利用可能なその他の資料など、あらゆる場所から取得できます。 (医学用語やプログラミングの専門用語などの) 特定の種類の言葉について高い音声品質を確保したい場合は、学術論文や技術文書に記載された文章を含めることができます。 考えられる法的な問題の簡単な説明については、「合法性」のセクションを参照してください。 独自のテキストを記述することもできます。

発話は同じソースまたは同じ種類のソースに由来する必要はありません。 互いに関連している必要さえありません。 ただし、「ログインに成功しました」のような定型句を音声アプリケーションで使用する場合は、必ずそれらを台本に含めてください。 これにより、カスタム音声がそれらのフレーズを正しく発音できる可能性が高まります。 また、合成音声の代わりに録音を使用することに決めた場合、同じ音声で録音が既に存在していることになります。

一貫性はボイス タレントを選ぶ上で重要ですが、多様性は優れた台本の特徴です。 台本には、多くの異なる言葉および文を、また、さまざまな長さ、構造、叙法の文を含める必要があります。 言語のあらゆる音を、さまざまなコンテキストで何度も表現する必要があります (音声カバレッジ と呼ばれます)。

さらに、テキストでは、特定の音を書面で表現できるすべての方法を組み込み、それぞれの音を文中のさまざまな場所に配置する必要があります。 宣言文と疑問文の両方を含め、適切なイントネーションで読み上げる必要があります。

Custom Speech ポータルで良質の音声を構築するために ちょうど十分な データを提供する台本を記述することは困難です。 実際には、堅牢な音声カバレッジを達成する台本を作成するための最も簡単な方法は、多数のサンプルを含めることです。 Microsoft が提供する標準音声は、何万もの発話から構築されました。 プロダクション品質のカスタム音声を構築するには、最低でも数千の発話を録音するための準備をする必要があります。

台本の誤りを注意深くチェックします。 可能であれば、他の人にもチェックしてもらいます。 タレントと一緒に台本をリハーサルすれば、さらにいくつかの誤りを見つけられるでしょう。

台本の書式

台本は Microsoft Word で記述できます。 台本は録音セッション中に使用するものであるため、扱いやすい任意の形式にまとめることができます。 Custom Voice ポータルに必要なテキスト ファイルは別途作成します。

基本的な台本書式には 3 つの列が含まれます。

  • 1 から始まる発話番号。 番号を付けることで、(「356 番をもう一度言ってみましょう」のように) スタジオ内の誰もが特定の発話を容易に参照できます。 Word の段落番号機能を使用して、テーブルの行に自動的に番号を付けることができます。
  • 完了した録音から発話を見つけやすくするために、各発話のテイク番号またはタイム コードを書き込む空の列。
  • 発話そのもののテキスト。

サンプル スクリプト

注意

ほとんどのスタジオでは、テイク と呼ばれる短いセグメントで録音を行います。 各テイクには通常、10 ~ 24 の発話が含まれます。 後から発話を見つけるためには、テイク番号をメモしておくだけで十分です。 より長めの録音を好むスタジオで録音する場合は、代わりにタイム コードをメモすることができます。 スタジオには、よく目立つ時間表示があります。

それぞれの行の後に、メモを書き込むための十分なスペースを残します。 複数のページにまたがった発話がないことを確認してください。 ページ番号を付けて、台本を用紙の片面に印刷します。

台本は 3 部印刷します。1 部はタレント用、1 部はエンジニア用、1 部はディレクター (あなた) 用です。 ホチキスの代わりにペーパー クリップを使用してください。経験を積んだボイス アーティストは、ページをめくるときに音が立たないよう、ページをばらばらにします。

合法性

著作権法下では、著作権で保護されたテキストを演者が読み上げることは、作品の著者に対価の支払いが発生する実演とみなされる場合があります。 この実演は、最終成果物であるカスタム音声で認識可能なものでありません。 とはいえ、著作権で保護された作品をこの目的のために使用することの合法性は十分に確立されていません。 Microsoft はこの問題に関する法律上の助言を提供できません。ご自身の弁護士に相談してください。

幸いにも、これらの問題を全面的に回避することは可能です。 許可またはライセンスなしで使用できる多くのテキスト ソースがあります。

テキスト ソース [説明]
CMU Arctic コーパス 著作権切れの作品から抜粋された約 1,100 の文で、特に音声合成プロジェクトで利用されます。 優れた出発点です。
著作権が
切れた作品
一般的には、1923 年よりも前に出版された作品です。 英語の場合、Project Gutenberg でそのような作品が数万点提供されています。 言語が近代英語に近づくことから、より新しい作品を重視するとよいでしょう。
政府 著作物 米国政府によって作成された著作物は米国内では著作権で保護されませんが、他の国/地域においては政府が著作権を主張する可能性があります。
パブリック ドメイン 著作権が明示的に放棄されている、または完全にパブリック ドメインで公開されている著作物。 一部の法域では著作権の完全放棄が不可能な場合があります。
寛大なライセンスの著作物 クリエイティブ コモンズや GNU Free Documentation License (GFDL) などのライセンス下で配布される著作物。 Wikipedia は GFDL を使用しています。 ただし、一部のライセンスでは、ライセンスされたコンテンツの実演に制限が設けられいてカスタム音声モデルの作成に影響する可能性があるため、ライセンスを入念に確認してください。

台本の録音

音声の仕事に特化したプロの録音スタジオで台本を録音してください。 そのようなスタジオは、録音ブース、適切な機器、機器を操作する適任のスタッフを備えています。 録音の費用を惜しむことは割に合いません。

プロジェクトについてスタジオの録音エンジニアと話し合い、エンジニアのアドバイスを聞きます。 録音ではダイナミック レンジ圧縮をほとんど、または一切使用しないでください (最大4:1)。 オーディオは音量が一貫していて、信号対雑音比が高く、不要な音が入っていないことが重要です。

自分で実行する

ここでは、録音スタジオに行かず自力で録音したい方のために、基本的な手順を概説します。 自宅録音やポッドキャスティングが普及したおかげで、録音に関する良いアドバイスやリソースをオンラインで見つけることは以前よりずっと簡単になっています。

"録音ブース" には、顕著なエコーまたは "ルーム トーン" がない小部屋を使用してください。 できる限りの静かさと防音性を確保してください。 厚手のカーテンで壁を覆うことで、エコーを減らし、部屋の音を中和するか "減衰させる" ことができます。

音声録音用の高品質スタジオ コンデンサー マイクを使用します。 Sennheiser、AKG、さらには最近の Zoom マイクを使用すると良い結果が得られます。 マイクは購入することも、近くの音響映像機器レンタル会社からレンタルすることもできます。 USB インターフェイスが付いたものを探します。 このタイプのマイクは、利便性のために、マイク エレメント、プリアンプ、アナログ/デジタル コンバーターを 1 つのパッケージにまとめて接続を簡素化しています。

アナログ マイクを使用することもできます。 多くのレンタル会社では、音声の特徴で有名な "ヴィンテージ" マイクを提供しています。 プロ用のアナログ機器では、コンシューマー機器で使用されている 1/4 インチプラグではなく、バランスド XLR コネクターを使用していることに注意してください。 アナログの場合、これらのコネクターを備えたプリアンプとコンピューター オーディオ インターフェイスも必要になります。

スタンドまたはブーム上にマイクを設置し、マイクの前にポップ フィルターを設置して、"p" や "b" のような "破裂音" の子音のノイズを除去します。 一部のマイクには、スタンドの振動からマイクを守るサスペンション マウントが付属し、これが役に立ちます。

ボイス タレントはマイクから一定の距離を保つ必要があります。 床にテープを貼って、どこに立てばよいかの目印にします。 タレントが着席を希望する場合、特に注意を払ってマイクの距離を調整し、椅子が音を立てないようにします。

台本を保持するスタンドを使用します。 マイクに向かって音が反射するようなスタンドの角度を避けます。

録音機器を操作する人、つまりエンジニアは、タレントとは別の部屋で待機し、何らかの方法で録音ブース内のタレントと話ができるようにしてください (トークバック回路)

録音にできるだけノイズが入らないようにして、80 db、またはそれよりも良い信号対雑音比を目標にしてください。

"ブース" 内で無音を録音したものをよく聴いて、ノイズの発生源を特定し、原因を取り除きます。 ノイズの発生源としてよくあるのは、通気孔、蛍光灯の安定器、近くの道路の交通、機器のファン (ノートブック PC にもファンが付いている場合があります) などです。 マイクとケーブルが近くの AC 配線から電気的ノイズ (通常、ハムまたはバズ) を拾うことがあります。 バズは、接地ループ によって発生することもあります。これは、機器を複数の電気回路に接続していることによって発生します。

ヒント

状況によっては、イコライザーやノイズ リダクション ソフトウェア プラグインを使用して録音からノイズを除去できる場合がありますが、最善なのは常に、発生源でノイズを止めることです。

デジタル録音の利用可能ダイナミック レンジのほとんどがオーバードライブなしで使用されるようにレベルを設定してください。 これは、オーディオの音量を大きく設定しますが、ゆがみが生じるほどは大きくしないことを意味します。 次のイメージに、良好な録音の波形の例を示します。

良好な録音の波形

ここでは、レンジ (高さ) のほとんどが使用されていますが、信号の最高ピークはウィンドウの上端または下端に届きません。 録音中の無音部分が細い水平線に近似し、低いノイズ フロアを示していることも確認できます。 この録音のダイナミック レンジと信号対雑音比は許容範囲内です。

使用しているマイクによっては、高品質のオーディオ インターフェイスまたは USB ポートを介してコンピューターに直接録音します。 アナログの場合、マイク、プリアンプ、オーディオ インターフェイス、コンピューターというシンプルなオーディオ チェーンを維持します。 Avid Pro ToolsAdobe Audition はどちらも、手頃な料金で月単位のライセンスを購入できます。 予算が本当に厳しい場合は、無料の Audacity を試してみてください。

44.1 kHz 16 ビット モノラル (CD 品質) 以上で録音します。 機器でサポートされている場合、現在の最先端は 48 kHz 24 ビットです。 Custom Voice ポータルに提出する前に、オーディオを 16 kHz 16 ビットにダウンサンプリングします。 それでも、編集が必要な場合には、オリジナルの録音が高品質であることのメリットはあります。

ディレクター、エンジニア、タレントはそれぞれ別の人物が務めるのが理想的です。 何もかも自分一人でやろうとしないでください。 ピンチの場合は、1 人がディレクターとエンジニアの両方を務められます。

セッションの前に

スタジオでの時間を無駄にしないよう、録音セッションの前にボイス タレントと一緒に台本をリハーサルしてください。 ボイス タレントがテキストに慣れてくると、使い慣れない言葉を明瞭に発音できるようになります。

注意

ほとんどの録音スタジオの録音ブースでは、台本の電子表示を提供します。 この場合、台本のドキュメントにリハーサルのメモを直接入力します。 それでも、ディレクターはセッション中にメモを取るために紙のコピーが欲しくなるでしょう。 ほとんどのエンジニアもハード コピーを欲しがります。 そして、コンピューターがダウンした場合のタレント用のバックアップとして、3 部目の印刷コピーがやはり欲しくなるでしょう。

発話の中のどの言葉を強調してほしいか、つまり "operative word" (最も重要な言葉) をボイス タレントから質問される場合があります。 何も強調せず自然に読んでほしい、と伝えます。 強調は音声が合成されるときに追加できます。オリジナルの録音に含めるべきではありません。

言葉をはっきり発音するよう、タレントに指示します。 台本のすべての言葉が、書かれているとおりに発音される必要があります。 台本でそのように書かれている場合を除き、日常会話でよくあるように音を省略したり、早口であいまいに言ったりしてはなりません。

書かれているテキスト 望ましくないくだけた発音
never going to give you up never gonna give you up
there are four lights there're four lights
how's the weather today how's th' weather today
say hello to my little friend say hello to my lil' friend

タレントは言葉の間にはっきりした休止を追加しては なりません。 少し堅苦しく聞こえたとしても、文が自然に流れるようにしてください。 この微妙な区別を正しく理解するには練習が必要かもしれません。

録音セッション

セッションの始めに、典型的な発話のリファレンス録音、または マッチ ファイル を作成します。 約 1 ページごとにこの台詞を反復するよう、タレントに依頼してください。 毎回、新しい録音をリファレンスと比較します。 この練習は、タレントが音量、テンポ、ピッチ、イントネーションの一貫性を保つのに役立ちます。 一方エンジニアは、音のレベルと全体的な一貫性のリファレンスとしてマッチ ファイルを使用できます。

マッチ ファイルは特に、休憩後または別の日に録音を再開するときに重要です。 タレントのためにマッチ ファイルを何回か再生し、十分に一致するまで毎回、タレントにマッチ ファイルを反復してもらうことができます。

各発話の前に深呼吸して少し間を取るよう、タレントを指導します。 発話の間に 2 ~ 3 秒の無音を録音します。 単語は、コンテキストを考慮にいれて、現れるたびに同じように発音される必要があります。 たとえば、動詞としての "録音する" の発音は、名詞としての "録音" とは異なります。

最初の録音の前に丸 5 秒の無音を録音して "ルーム トーン" をキャプチャーします。 これを実行すると、Custom Voice ポータルが録音内の残りのノイズを補正するために役立ちます。

ヒント

本当にキャプチャーする必要があるのはボイス タレントなので、それらの台詞だけのモノラル (シングル チャンネル) 録音を行うことができます。 ただし、ステレオで録音する場合、特定の台詞またはテイクについての議論を把握するために、2 番目のチャンネルを使用してコントロール ルームの会話を録音することができます。 このトラックは、Custom Voice ポータルにアップロードされるバージョンからは削除してください。

ヘッドフォンを使って、ボイス タレントの演技をよく聴きます。 期待するのは、ディクテーションが上手いながらも自然で、発音が正確で、不要な音が含まれていないことです。 これらの基準を満たさない発話の録り直しをタレントに依頼することを遠慮しないでください。

ヒント

大量の発話を使用する場合、1 つの発話は結果のカスタム音声に目立った影響を及ぼさないかもしれません。 単純に、問題のある発話をメモし、データ セットからそれらを除外して、カスタム音声がどのように聞こえるかを確認したほうが得策な場合があります。後からいつでも、スタジオに戻って欠落分のサンプルを録音できます。

各発話の台本上のテイク番号またはタイム コードをメモします。 録音のメタデータやキュー シートでも、各発話にマークを付けるようエンジニアに依頼します。

ボイス タレントの声を良い状態に保つために、定期的に休憩を取り、飲み物を提供します。

セッション後

最新の録音スタジオはコンピューターでデータを管理します。 セッションの終了後、テープではなく 1 つ以上のオーディオ ファイルを受け取ります。 これらのファイルはおそらく、CD 品質 (44.1 kHz 16 ビット) 以上の WAV または AIFF フォーマットです。 48 kHz 24 ビットが一般的であり、望ましいものです。 それよりも高い 96 kHz などのサンプリング レートは、一般的には必要ありません。

Custom Voice ポータルでは、提供される個々の発話が個別のファイルに入っている必要があります。 スタジオから渡される各オーディオ ファイルには、複数の発話が含まれています。 したがって、最重要のポストプロダクション タスクは、録音を分割して提出の準備をすることです。 各発話の開始位置を示すために、録音エンジニアによってファイル内にマーカーが配置 (または別個のキュー シートが提供) されている可能性があります。

メモを使用して目的のテイクを探し、Avid Pro ToolsAdobe Audition、無料の Audacity などのサウンド編集ユーティリティを使用して、各発話を新しいファイルにコピーします。

最初のクリップを除き、各クリップの先頭と末尾に約 0.2 秒の無音だけを残します。 そのファイルは丸 5 秒の無音で始まるようにしてください。 オーディオ エディターを使用してファイルの無音部分を "全カット" しないでください。 "ルーム トーン" を含めておくことは、Custom Voice アルゴリズムが残存の背景ノイズを補正するために役立ちます。

各ファイルを注意深く聴きます。 この段階で、台詞前の小さな唇の音など、録音中は気付かなかった小さい不要な音を編集で除去することができますが、実際の音声まで削除しないよう注意してください。 ファイルを修正できない場合は、データ セットからそのファイルを削除し、そうしたことをメモしてください。

保存する前に、各ファイルを 16 ビット、サンプル レート 16 kHz に変換し、スタジオの会話を録音した場合は 2 番目のチャンネルを削除します。 各ファイルを WAV フォーマットで保存し、台本内の発話番号でファイルに名前を付けます。

最後に、各 WAV ファイルを対応する発話のテキスト バージョンに関連付ける トランスクリプト を作成します。 カスタム音声の作成には、必要なフォーマットの詳細が含まれます。 テキストは台本から直接コピーできます。 次に、WAV ファイルとテキスト トランスクリプトの Zip ファイルを作成します。

後で必要な場合に備えて、オリジナルの録音を安全な場所に保管します。 台本とメモも保存しておきます。

次のステップ

録音をアップロードしてカスタム音声を作成する準備ができました。