カスタム音声を作成するためのデータを準備する

お使いのアプリケーション用にカスタムのテキスト読み上げ音声を作成する準備ができたら、まず、オーディオ録音と関連するスクリプトを収集して、音声モデルのトレーニングを開始します。 この音声サービスは、このデータを使って、録音の音声に一致するように調整された一意の音声を作成します。 音声のトレーニングが完了すると、お使いのアプリケーションで音声の合成を開始できます。

独自のテキスト読み上げ音声モデルをトレーニングする前に、オーディオ録音と関連するテキスト文字起こしが必要になります。 このページでは、データの種類、使用方法、およびそれぞれの管理方法について確認します。

注意

ニューラル音声をトレーニングする場合は、ボイス タレントのプロファイルと共に、自分の音声データがカスタム音声モデルのトレーニングに使用されることをボイス タレントが承認している音声同意ファイルを、指定する必要があります。 録音スクリプトを準備するときは、以下の文を必ず含めてください。

"I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice." (私 [自分の姓名] は、私の音声の合成バージョンを作成して使用するために、私の音声が [会社名] によって使用されることを承知しています。) この文は、同意した人物と同じ人物によってトレーニング データが作成されたかどうかを確認するために使用されます。 詳細については、ボイス タレントの確認に関する記事を参照してください。

カスタム ニューラル音声を利用するためのアクセスには制限があります。 責任ある AI の要件について理解し、こちらのアクセスを適用してください。

データ型

音声トレーニング データセットには、オーディオ録音と、関連する文字起こしを含んだテキスト ファイルが含まれています。 各オーディオ ファイルには、1 つの発話 (1 つの文または対話システムの 1 つのターン) が含まれ、その長さは 15 秒未満である必要があります。

場合によっては、適切なデータセットを準備できていない可能性があるため、長さやトランスクリプトの有無に関係なく、使用可能なオーディオ ファイルを使ってカスタム音声トレーニングをテストする必要があります。 Batch Transcription API を使用してオーディオを発話にセグメント化し、トランスクリプトを準備するのに役立つツール (ベータ) が用意されています。

次の表に、データの種類と、それぞれがカスタム テキスト読み上げ音声モデルの作成にどのように使用されるかを示します。

データ型 説明 使用する場合 必要な追加の処理
個々の発話 + 一致するトランスクリプト 個々の発話としてのオーディオ ファイル (.wav) のコレクション (.zip)。 各オーディオ ファイルは、長さを 15 秒以下にし、書式設定されたトランスクリプト (.txt) とペアにする必要があります。 一致するトランスクリプトを使用したプロによる録音 トレーニングの準備完了。
長いオーディオ + トランスクリプト (ベータ) セグメント化されていない (20 秒を超える) 長いオーディオ ファイルのコレクション (.zip)。すべての音声を含むトランスクリプト (.txt) とペアになります。 オーディオ ファイルおよび一致するトランスクリプトがあっても、これらが発話にセグメント化されていない。 (バッチ文字起こしを使用した) セグメント化。
必要に応じて、オーディオ形式の変換。
オーディオのみ (ベータ) トランスクリプトなしのオーディオ ファイルのコレクション (.zip)。 トランスクリプトがなく、オーディオ ファイルのみが利用可能である。 (バッチ文字起こしを使用した) セグメント化 + トランスクリプトの生成。
必要に応じて、オーディオ形式の変換。

ファイルは種類別にデータセットにグループ化し、ZIP ファイルとしてアップロードする必要があります。 各データセットには、1 つのデータの種類のみを含めることができます。

注意

サブスクリプションあたりのインポートできるデータセットの最大数は、Free サブスクリプション (F0) ユーザーの場合は zip ファイル 10 個、Standard サブスクリプション (S0) ユーザーの場合は 500 個です。

個々の発話 + 一致するトランスクリプト

個々の発話の録音および一致するトランスクリプトは 2 つの方法で準備できます。 スクリプトを記述してボイス タレントに読んでもらうか、公開されているオーディオを使用してテキストに書き起こします。 後者を行う場合は、"うーん" やその他のつなぎ語、口ごもり、不明瞭な単語、誤った発音などの流ちょうでない部分をオーディオ ファイルから削除します。

良質の音声モデルを作成するには、静かな部屋で高品質のマイクを使って録音します。 一定の音量、読み上げ速度、ピッチ、および表現方法で話すことが不可欠です。

ヒント

製品用の音声を作成するには、専門の録音スタジオと音声タレントを使うことをお勧めします。 詳細については、カスタム音声用の音声サンプルを録音する方法に関するページを参照してください。

オーディオ ファイル

各オーディオ ファイルには、1 つの発話 (1 つの文または対話システムの 1 つのターン) が含まれる必要があります。また、その長さは 15 秒未満にする必要があります。 すべてのファイルは、同じ音声言語である必要があります。 中国語と英語のバイリンガルを除き、複数言語によるカスタムのテキスト読み上げ音声はサポートされていません。 各オーディオ ファイルには、ファイル名拡張子が .wav の一意の数値ファイル名を付ける必要があります。

オーディオを準備する際は、次のガイドラインに従ってください。

プロパティ
ファイル形式 .zip ファイルにグループ化された RIFF (.wav)
サンプリング レート 16,000 Hz 以上
サンプル形式 PCM、16 ビット
ファイル名 数値、拡張子は .wav。 重複するファイル名は許可されません。
オーディオの長さ 15 秒未満
アーカイブ形式 .zip
最大アーカイブ サイズ 2048 MB

注意

サンプリング レートが 16,000 Hz 未満の .wav ファイルは拒否されます。 さまざまなサンプル レートの .wav ファイルが .zip ファイルに含まれている場合は、16,000 Hz 以上のものだけがインポートされます。 現在、ポータルには 200 MB までの .zip アーカイブがインポートされます。 ただし、複数のアーカイブをアップロードできます。

トランスクリプト

文字起こしファイルはプレーンテキスト ファイルです。 次のガイドラインを使用して文字起こしを準備してください。

プロパティ
ファイル形式 プレーン テキスト (.txt)
エンコード形式 ANSI/ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、または UTF-16-BE。 zh-CN では、ANSI/ASCII および UTF-8 エンコードがサポートされていません。
1 行あたりの発話の数 1 - 文字起こしファイルの各行には、いずれかのオーディオ ファイルの名前に続けて、対応する文字起こしが含まれている必要があります。 ファイル名と文字起こしは、タブ (\t) で区切る必要があります。
ファイルの最大サイズ 2048 MB

1 つの .txt ファイル内でトランスクリプトが発話単位で構成されている例を次に示します。

0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.

トランスクリプトが、対応するオーディオの文字起こしに対して 100% 正確であることが重要です。 トランスクリプトのエラーは、トレーニング時の品質低下をもたらします。

長いオーディオ + トランスクリプト (ベータ)

場合によっては、セグメント化されたオーディオを使用できないことがあります。 Custom Voice ポータルを通じて、長いオーディオ ファイルをセグメント化して文字起こしを作成する際に役立つサービス (ベータ) を提供しています。 このサービスは、音声テキスト変換サブスクリプションの使用量に対して課金されることに注意してください。

注意

長いオーディオのセグメント化サービスでは音声テキスト変換のバッチ文字起こし機能が利用されるため、サポートされるのは Standard サブスクリプション (S0) ユーザーのみです。 セグメント化の処理中、データの精度が向上するよう認識モデルを改良するために、オーディオ ファイルとトランスクリプトは Custom Speech Service にも送信されます。 この処理の間はデータが保持されません。 セグメント化が完了すると、セグメント化された発話とそのマッピング トランスクリプトだけがダウンロードおよびトレーニング用に格納されます。

オーディオ ファイル

セグメント化に向けてオーディオを準備する際は、次のガイドラインに従ってください。

プロパティ
ファイル形式 .zip ファイルにグループ化された、PCM でサンプリング レートが 16 khz 16 ビット以上の RIFF (.wav) またはビット レートが 256 KBps 以上の .mp3
ファイル名 ASCII 文字と Unicode 文字がサポートされています。 重複する名前は許可されません。
オーディオの長さ 20 秒超
アーカイブ形式 .zip
最大アーカイブ サイズ 2048 MB

すべてのオーディオ ファイルは、ZIP ファイルにグループ化する必要があります。 .wav ファイルと .mp3 ファイルを 1 つのオーディオ ZIP に含めてかまいません。 たとえば、"kingstory.wav" という名前のオーディオ ファイル (長さ 45 秒) と "queenstory.mp3" という名前の別のオーディオ ファイル (長さ 200 秒) を含む ZIP ファイルをアップロードできます。 処理が終わると、すべての .mp3 ファイルは .wav 形式に変換されます。

トランスクリプト

トランスクリプトは、次の表に示された仕様に応じて準備する必要があります。 各オーディオ ファイルは、トランスクリプトと一致する必要があります。

プロパティ
ファイル形式 .zip にグループ化された、プレーンテキスト (.txt)
ファイル名 一致するオーディオ ファイルと同じ名前を使用する
エンコード形式 UTF-8-BOM のみ
1 行あたりの発話の数 制限なし
ファイルの最大サイズ 2048 MB

このデータの種類のトランスクリプト ファイルはすべて、ZIP ファイルにグループ化する必要があります。 たとえば、"kingstory.wav" という名前のオーディオ ファイル (長さ 45 秒) と "queenstory.mp3" という名前の別のファイル (長さ 200 秒) を含む ZIP ファイルをアップロードしたとします。 2 つのトランスクリプト (1 つは "kingstory.txt" という名前、もう 1 つは "queenstory.txt" という名前) を含むもう 1 つの ZIP ファイルのアップロードが必要になります。 各プレーンテキスト ファイル内では、一致するオーディオの正確な文字起こしを完全に入力します。

データセットが正常にアップロードされたら、提供されたトランスクリプトに基づいてオーディオ ファイルを発話にセグメント化することをお手伝いします。 このデータセットをダウンロードすることで、セグメント化された発話および一致するトランスクリプトを確認できます。 セグメント化された発話には自動的に一意の ID が割り当てられます。 重要なのは、提供したトランスクリプトが 100% 正確であるようにすることです。 トランスクリプトのエラーは、オーディオのセグメント化時に精度を低下させ、さらにその後のトレーニング フェーズで品質低下を引き起こす場合があります。

オーディオのみ (ベータ)

オーディオ録音の文字起こしがない場合は、[オーディオのみ] オプションを使用してデータをアップロードしてください。 このシステムは、オーディオ ファイルのセグメント化と文字起こしに役立つ場合があります。 このサービスは、音声テキスト変換サブスクリプションの使用量に対して課金されることに注意してください。

オーディオを準備する際は、次のガイドラインに従ってください。

注意

長いオーディオのセグメント化サービスでは音声テキスト変換のバッチ文字起こし機能が利用されるため、サポートされるのは Standard サブスクリプション (S0) ユーザーのみです。

プロパティ
ファイル形式 .zip ファイルにグループ化された、PCM でサンプリング レートが 16 khz 16 ビット以上の RIFF (.wav) またはビット レートが 256 KBps 以上の .mp3
ファイル名 ASCII 文字と Unicode 文字がサポートされています。 重複する名前は許可されません。
オーディオの長さ 20 秒超
アーカイブ形式 .zip
最大アーカイブ サイズ 2048 MB

すべてのオーディオ ファイルは、ZIP ファイルにグループ化する必要があります。 データセットが正常にアップロードされたら、Speech のバッチ音声文字起こしサービスに基づいてオーディオ ファイルを発話にセグメント化することをお手伝いします。 セグメント化された発話には自動的に一意の ID が割り当てられます。 一致するトランスクリプトが、音声認識を使用して生成されます。 処理が終わると、すべての .mp3 ファイルは .wav 形式に変換されます。 このデータセットをダウンロードすることで、セグメント化された発話および一致するトランスクリプトを確認できます。

次のステップ