Audio Content Creation ツールを使用する音声合成

[アーティクル]
01/18/2024

Speech Studio の Audio Content Creation ツールを使用すると、コードを記述せずにテキスト読み上げ合成を行うことができます。出力オーディオをそのまま使用することも、さらにカスタマイズするための開始点として使用することもできます。

オーディオブック、ニュース放送、ビデオナレーション、チャットボットなどのさまざまなシナリオ向けの非常に自然なオーディオコンテンツをビルドします。 Audio Content Creation を使用すると、テキスト読み上げ音声を効率的に微調整したり、カスタマイズされたオーディオエクスペリエンスを設計したりできます。

このツールは、音声合成マークアップ言語 (SSML) に基づいています。これにより、音声の特徴、音声スタイル、話す速度、発音、韻律などのテキスト読み上げ出力属性をリアルタイムまたはバッチ合成で調整できます。

コードなしアプローチ: Audio Content Creation ツールを使用すると、コードを記述せずにテキスト読み上げ合成を行うことができます。出力オーディオは、必要な最終的な成果物になる場合があります。たとえば、ポッドキャストやビデオナレーションに出力オーディオを使用できます。
開発者にやさしい: 出力オーディオを聴き、SSML を調整して音声合成を向上させることができます。その後、 Speech SDK または Speech CLI を使用して、SSML をアプリケーションに統合できます。たとえば、SSML を使用してチャットボットをビルドできます。

幅広い言語と音声のポートフォリオに簡単にアクセスできます。これらの音声には、最先端の事前構築済みニューラル音声や、構築済みであれば自分のカスタムニューラル音声が含まれます。

詳細については、YouTubeのAudio Content Creation のチュートリアルビデオを参照してください。

作業の開始

Speech Studio の Audio Content Creation ツールには無料でアクセスできますが、Speech サービスの使用料は課金されます。このツールを使用するには、Azure アカウントでサインインし、音声リソースを作成する必要があります。 Azure アカウントごとに提供される無料の月単位音声クォータには、50 万文字の事前構築済みニューラル音声 (価格ページでは "ニューラル" となっています) が含まれています。通常、月単位で割り当てられる量は、3 人から 5 人の小規模なコンテンツチームにとっては十分です。

以降のセクションでは、Azure アカウントを作成し、音声リソースを取得する方法の手順について説明します。

手順 1: Azure アカウントを作成する

Audio Content Creation を使用するには、Microsoft アカウントと Azure アカウントが必要です。

Azure portal は、お使いの Azure アカウントを管理するための一元的な場所です。音声リソースを作成し、製品アクセスを管理し、単純な Web アプリから複雑なクラウドデプロイまで、あらゆるものを監視できます。

手順 2: 音声リソースを作成する

Azure アカウントにサインアップしたら、音声サービスにアクセスするために、Azure アカウントで音声リソースを作成する必要があります。 Azure portal で音声リソースを作成します。詳細については、「マルチサービスリソースを作成する」を参照してください。

新しい音声リソースを展開するまでに少し時間がかかります。展開が完了したら、Audio Content Creation ツールの使用を開始できます。

Note

ニューラル音声を使用する予定の場合は、ニューラル音声をサポートするリージョンでリソースを作成するようにしてください。

Azure アカウントと音声リソースを取得したら、Speech Studio にサインインし、Audio Content Creation を選択します。
操作しようとしている Azure サブスクリプションと音声リソースを選択し、[リソースの使用] を選択します。

次に Audio Content Creation にサインインすると、現在の音声リソースの下にあるオーディオ作業ファイルに直接リンクされます。 Azure サブスクリプションの詳細と状態は、Azure portal で確認できます。

Azure サブスクリプションの所有者または管理者であれば、使用できる音声リソースがない場合に、Speech Studio で [新しいリソースの作成] をクリックして音声リソースを作成することができます。

特定の Azure サブスクリプションのユーザーロールを持っている場合、新しい音声リソースを作成するためのアクセス許可を持っていない可能性があります。アクセスを取得するには、管理者に問い合わせください。

任意の時点で音声リソースに切り替えるには、ページ上部の [設定] を選択します。

ディレクトリを切り替えるには、[設定] を選択するか、自分のプロファイルに移動します。

ツールの使用

次の図は、テキスト読み上げ出力を微調整するプロセスを示したものです。

Diagram of the sequence of steps for fine-tuning text to speech outputs.

以下では、前の図の各手順について説明します。

操作しようとしている音声リソースを選択します。
プレーンテキストまたは SSML スクリプトを使用して、音声チューニングファイルを作成します。 Audio Content Creation にコンテンツを入力するか、アップロードします。
スクリプトの内容の音声と言語を選択します。 Audio Content Creation には、すべての事前構築済みのテキスト読み上げ音声が含まれています。事前構築済みのニューラル音声、またはカスタムニューラル音声を使用できます。

注意

カスタムニューラル音声には、ゲートアクセスを使用できます。これにより、自然な音声と同じような高品位の音声を作成できます。詳細については、ゲートプロセスに関するページを参照してください。
プレビューするコンテンツを選択してから、[再生] (三角形のアイコン) をクリックして、既定の合成出力をプレビューします。

テキストに何らかの変更を加えた場合は、[停止] アイコンを選択し、もう一度 [再生] を選択して、変更したスクリプトを使用してオーディオを再生成します。

発音、切れ目、ピッチ、速さ、抑揚、音声スタイルなどを調整して、出力を改善します。オプションの完全な一覧については、「音声合成マークアップ言語 (SSML)」を参照してください。

音声出力の微調整の詳細については、「Microsoft Azure AI 音声を使用してテキストを音声に変換する」というビデオを参照してください。
チューニングした音声を保存してエクスポートします。

チューニングトラックをシステムに保存すると、作業を続行して出力を反復処理することができます。出力に問題がなければ、エクスポート機能を使用して音声作成タスクを作成できます。エクスポートタスクの状態を監視し、ご使用のアプリや製品で使用するための出力をダウンロードすることができます。

音声チューニングファイルを作成する

コンテンツは、2 つの方法のいずれかで Audio Content Creation ツールに取り込むことができます。

方法 1
1. [新規]>[テキストファイル] をクリックして新しい音声チューニングファイルを作成します。
2. 編集ウィンドウに内容を入力するか貼り付けます。各ファイルで使用できる文字数は 20,000 以下です。スクリプトに含まれる文字数が 20,000 より多い場合は、オプション 2 を使用して、内容を複数のファイルに自動的に分割できます。
3. [保存] を選択します。

方法 2

[アップロード]>[テキストファイル] を選択して、1 つ以上のテキストファイルをインポートします。プレーンテキストと SSML の両方がサポートされています。

スクリプトファイルが 20,000 文字を超えている場合は、段落、文字、または正規表現によって内容を分割します。

テキストファイルをアップロードするときには、それらが以下の要件を満たしていることを確認してください。

プロパティ	説明
ファイル形式	プレーンテキスト (.txt)* SSML テキスト (.txt)** ZIP ファイルはサポートされていません。
エンコード形式	UTF-8
ファイル名	各ファイルには一意の名前が必要です。重複するファイルはサポートされていません。
テキストの長さ	文字数の制限は 20,000 字です。ファイルがこの制限を超えている場合は、ツールの指示に従って分割します。
SSML の制限	各 SSML ファイルに含めることができる SSML は 1 つだけです。

* プレーンテキストの例:

Welcome to use Audio Content Creation to customize audio output for your products.

** SSML テキストの例:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

チューニングした音声をエクスポートする

音声出力を確認し、チューニングと調整に問題がなければ、音声をエクスポートできます。

[エクスポート] をクリックして音声作成タスクを作成します。

クラウドでオーディオ出力を簡単に保存、検索するには、[オーディオライブラリにエクスポート] をお勧めします。 Azure BLOB ストレージを使用するとアプリケーションとより効果的に統合できます。ローカルのディスクにオーディオを直接ダウンロードすることもできます。

チューニングした音声の出力形式を選択します。次の表に、サポートされているオーディオ形式とサンプルレートを示します。

Format	8 kHz サンプルレート	16 kHz サンプルレート	24 kHz サンプルレート	48 kHz サンプルレート
wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	該当なし	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

タスクの状態を表示するには、[タスク一覧] タブを選択します。

タスクが失敗した場合は、詳細情報のページで詳細なレポートを確認してください。
タスクが完了すると、[オーディオライブラリ] ペインでオーディオをダウンロードできるようになります。
ダウンロードするファイルと、[ダウンロード] を選択します。

これで、カスタムのチューニングされた音声をご使用のアプリや製品で使用する準備ができました。

BYOS と、BLOB の匿名パブリック読み取りアクセスを構成する

Bring Your Own Storage (BYOS) へのアクセス許可が失われると、ファイルの表示、作成、編集、または削除を実行できなくなります。アクセスを再開するには、Azure portal で現在のストレージを削除し、BYOS を再構成する必要があります。 BYOS を構成する方法の詳細については、「App Service でローカル共有として Azure Storage をマウントする」を参照してください。

BYOS のアクセス許可を構成したら、関連するコンテナーと BLOB の匿名パブリック読み取りアクセスを構成する必要があります。そうしない場合、BLOB データをパブリックアクセスで利用できず、BLOB 内の辞書ファイルにアクセスできなくなります。既定では、コンテナーのパブリックアクセス設定は無効になっています。匿名ユーザーにコンテナーとその BLOB に対する読み取りアクセスを許可するには、まず [BLOB パブリックアクセスを許可する] を [有効] に設定してストレージアカウントのパブリックアクセスを許可し、次にコンテナー (名前は acc-public-files) のパブリックアクセスレベル (BLOB 専用の匿名読み取りアクセス) を設定します。匿名パブリック読み取りアクセスを構成する方法の詳細については、「コンテナーと BLOB の匿名パブリック読み取りアクセスを構成する」を参照してください。

Audio Content Creation ユーザーを追加または削除する

複数のユーザーが Audio Content Creation を使用する場合は、それらのユーザーに Azure サブスクリプションと音声リソースへのアクセスを付与できます。 Azure サブスクリプションに追加したユーザーは、Azure サブスクリプションの下のすべてのリソースにアクセスできます。しかし、音声リソースにのみユーザーを追加した場合は、音声リソースにのみアクセスできるようになり、この Azure サブスクリプションの下にある他のリソースにはアクセスできません。音声リソースにアクセスできるユーザーは、Audio Content Creation を使用できます。

アクセスの付与対象のユーザーは、Microsoft アカウントを設定する必要があります。 Microsoft アカウントを持っていない場合は、わずか数分で作成できます。既存のメールアドレスを使用して、それを Microsoft アカウントにリンクすることも、Outlook のメールアドレスを作成して Microsoft アカウントとして使用することもできます。

ユーザーを音声リソースに追加する

ユーザーが Audio Content Creation を使用できるように、音声リソースにユーザーを追加するには、以下を実行します。

Azure portal で [すべてのサービス] を選択します。
次に、Azure AI サービス を選択し、特定の Speech リソースに移動します。

Note

また、リソースグループ、サブスクリプション、または管理グループ全体に対して Azure RBAC を設定することもできます。これを行うには、目的のスコープレベルを選択し、目的の項目に移動します (たとえば、 [リソースグループ] を選択し、目的のリソースグループをクリックします)。
左側のナビゲーションウィンドウで [アクセス制御 (IAM)] を選択します。
[追加]>[ロールの割り当ての追加] の順に選択します。
次の画面の [ロール] タブで、追加するロール (今回の場合は [所有者]) を選択します。
[メンバー] タブでユーザーのメールアドレスを入力し、ディレクトリ内のユーザーの名前を選択します。メールアドレスは、Microsoft Entra ID によって信頼されている Microsoft アカウントにリンクされている必要があります。ユーザーは、自分個人のメールアドレスを使用して、Microsoft アカウントに簡単にサインアップできます。
[確認と割り当て] タブで、 [確認と割り当て] を選択してロールを割り当てます。

以下では、次に何が行われるかを説明します。

ユーザーにメールでの招待が自動的に送信されます。メールで [招待を受諾]>[Azure への参加を承諾] を選択すると、受諾できます。ユーザーは次に、Azure portal にリダイレクトされます。 Azure portal でさらにアクションを行う必要はありません。しばらくすると、その音声リソースのスコープで、ユーザーにロールが割り当てられます。これで、この音声リソースへのアクセスが付与されます。ユーザーが招待メールを受け取っていない場合は、[ロールの割り当て] で自分のアカウントを検索し、自分のプロファイルに移動できます。 [ID]>[招待が受け入れられました] を探し、[(管理)] を選択してメールでの招待を再送信します。招待リンクをコピーして彼らに送信することもできます。

こうしてユーザーは、Audio Content Creation の製品ページへのアクセスや更新を行い、自分の Microsoft アカウントでサインインします。すべての音声製品の中から [Audio Content Creation] ブロックを選択します。ポップアップウィンドウまたは右上にある設定内で、音声リソースを選択します。

使用できる音声リソースを見つけられない場合は、それらが適切なディレクトリ内にあることを確認するために調査できます。それを行うには、右上にあるアカウントプロファイルを選択してから、[現在のディレクトリ] の横にある [切り替え] を選択します。選択できるディレクトリが複数ある場合は、複数のディレクトリにアクセスできることを意味します。別のディレクトリに切り替えて [設定] に移動すると、適切な音声リソースが使用可能かどうかを確認できます。

同じ音声リソース内にいるユーザーは、Audio Content Creation ツールでお互いの作業を見ることができます。 Audio Content Creation で、個々のユーザーが固有のプライベートワークプレースを持つようにする場合は、各ユーザーに対して新しい音声リソースを作成し、各ユーザーにその音声リソースへの一意のアクセスを付与します。

音声リソースからユーザーを削除する

Azure portal で Azure AI サービス を検索し、ユーザーを削除する音声リソースを選択します。
[アクセス制御 (IAM)] を選択してから、[ロールの割り当て] タブを選択して、この音声リソースのロールの割り当てをすべて表示します。
削除するユーザーを選択し、[削除] を選択してから、[OK] をクリックします。

ユーザーが他のユーザーにアクセスを付与できるようにする

あるユーザーが他のユーザーにアクセスを付与することを許可する場合は、そのユーザーに音声リソースの所有者ロールを割り当てて、そのユーザーを Azure ディレクトリ閲覧者として設定する必要があります。

ユーザーを音声リソースの所有者として追加します。詳細については、「ユーザーを音声リソースに追加する」を参照してください。
Azure portal で、左上にある折りたたまれたメニューを選択し、[Microsoft Entra ID] を選択してから、[ユーザー] を選択します。
ユーザーの Microsoft アカウントページを探し、ユーザーの詳細ページに移動してから、[割り当てられたロール] を選択します。
[割り当ての追加]>[ディレクトリ閲覧者] を選択します。 [割り当ての追加] ボタンを使用できない場合は、アクセスを持っていないことを意味します。ユーザーへの割り当てを追加できるのは、このディレクトリのグローバル管理者のみです。

Audio Content Creation ツールを使用する音声合成