Custom Voice を作成するCreate a Custom Voice

Custom Voice 用のデータの準備に関するページでは、カスタム音声のトレーニングに使用できるさまざまなデータの種類と、さまざまな形式の要件について説明しました。In Prepare data for Custom Voice, we described the different data types you can use to train a custom voice and the different format requirements. 実際のデータが準備できたら、Custom Voice ポータルに、または Custom Vision Training API を使用して、そのデータのアップロードを開始できます。Once you have prepared your data, you can start to upload them to the Custom Voice portal, or through the Custom Voice training API. ここでは、ポータルを使用したカスタム音声のトレーニング手順を説明します。Here we describe the steps of training a custom voice through the portal.

注意

このページでは、「Custom Voice の概要」とカスタム音声用のデータの準備に関するページを読み、Custom Voice プロジェクトを作成していることを前提としています。This page assumes you have read Get started with Custom Voice and Prepare data for Custom Voice, and have created a Custom Voice project.

カスタマイズ用の言語に関するセクションで、カスタム音声用にサポートされている言語を確認してください。Check the languages supported for custom voice: language for customization.

データセットをアップロードするUpload your datasets

実際のデータをアップロードする準備ができたら、Custom Voice ポータルに移動します。When you're ready to upload your data, go to the Custom Voice portal. Custom Voice プロジェクトを作成するか、選択します。Create or select a Custom Voice project. このプロジェクトでは、実際の音声トレーニングに使用するデータとして適切な言語またはロケールと性別プロパティを共有する必要があります。The project must share the right language/locale and the gender properties as the data you intend to use for your voice training. たとえば、英国アクセントの英語で音声を録音した場合は en-GB を選択します。For example, select en-GB if the audio recordings you have is done in English with a UK accent.

[データ] タブに移動し、 [データのアップロード] をクリックします。Go to the Data tab and click Upload data. ウィザードで、準備したものと一致する正しいデータの種類を選択します。In the wizard, select the correct data type that matches what you have prepared.

アップロードする各データセットでは、選択したデータの種類の要件が満たされている必要があります。Each dataset you upload must meet the requirements for the data type that you choose. アップロードする前に、データを正しく書式設定することが重要です。It is important to correctly format your data before it's uploaded. これにより、データが Custom Voice サービスによって確実に処理されます。This ensures the data will be accurately processed by the Custom Voice service. Custom Voice 用のデータの準備に関するページに移動し、実際のデータが正しく書式設定されていることを確認します。Go to Prepare data for Custom Voice and make sure your data has been rightly formatted.

注意

Free サブスクリプション (F0) ユーザーは、2 個のデータセットを同時にアップロードできます。Free subscription (F0) users can upload two datasets simultaneously. Standard サブスクリプション (S0) ユーザーは、5 個のデータセットを同時にアップロードできます。Standard subscription (S0) users can upload five datasets simultaneously. 制限に達した場合は、少なくとも 1 つのデータセットのインポートが終わるまで待機します。If you reach the limit, wait until at least one of your datasets finishes importing. その後、やり直してください。Then try again.

注意

サブスクリプションあたりのインポートできるデータセットの最大数は、Free サブスクリプション (F0) ユーザーの場合は .zip ファイル 10 個、Standard サブスクリプション (S0) ユーザーの場合は 500 個です。The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

アップロード ボタンを押すと、データセットが自動的に検証されます。Datasets are automatically validated once you hit the upload button. データ検証には、ファイル形式、サイズ、サンプリング レートを確認する、オーディオ ファイルの一連のチェックが含まれます。Data validation includes series of checks on the audio files to verify their file format, size, and sampling rate. エラーが見つかった場合は、修正して、もう一度送信します。Fix the errors if any and submit again. データのインポート要求が正常に開始されると、先ほどアップロードしたデータセットに対応するエントリがデータの表に表示されます。When the data-importing request is successfully initiated, you should see an entry in the data table that corresponds to the dataset you’ve just uploaded.

次の表に、インポートされたデータセットの処理状態を示します。The following table shows the processing states for imported datasets:

StateState 意味Meaning
処理中Processing ご自分のデータセットは受信され、処理されています。Your dataset has been received and is being processed.
成功Succeeded ご自分のデータセットは検証が済み、音声モデルの作成に使用できるようになっています。Your dataset has been validated and may now be used to build a voice model.
失敗Failed ファイルのエラー、データの問題、ネットワークの問題など、さまざまな理由により、処理中にご自分のデータセットが失敗しました。Your dataset has been failed during processing due to many reasons, for example file errors, data problems or network issues.

検証が完了すると、ご自分の各データセットについて、一致した発話の合計数を [Utterances](発話) 列で確認できます。After validation is complete, you can see the total number of matched utterances for each of your datasets in the Utterances column. 選択したデータの種類では長いオーディオのセグメント化が必要な場合、この列には、実際のトランスクリプトに基づいて、または音声文字起こしサービスを通じて、自動的にセグメント化された発話のみが反映されます。If the data type you have selected requires long-audio segmentation, this column only reflects the utterances we have segmented for you either based on your transcripts or through the speech transcription service. さらに、検証済みのデータセットをダウンロードして、正常にインポートされた発話とそのマッピング トランスクリプトの詳細な結果を確認できます。You can further download the dataset validated to view the detail results of the utterances successfully imported and their mapping transcripts. ヒント: 長いオーディオのセグメント化では、データ処理が完了するまでに 1 時間以上かかることがあります。Hint: long-audio segmentation can take more than an hour to complete data processing.

データ詳細ビューでは、各データセットの発音スコアとノイズ レベルをさらにチェックできます。In the data detail view, you can further check the pronunciation scores and the noise level for each of your datasets. 発音スコアの範囲は 0 ~ 100 です。The pronunciation score ranges from 0 to 100. スコアが 70 未満の場合は、通常、音声のエラーまたはスクリプトの不一致を示しています。A score below 70 normally indicates a speech error or script mismatch. アクセントが強いと発音スコアが下がることがあり、生成されるデジタル音声に影響します。A heavy accent can reduce your pronunciation score and impact the generated digital voice.

高い信号雑音比 (SNR) は、オーディオのノイズが低いことを示します。A higher signal-to-noise ratio (SNR) indicates lower noise in your audio. 一般に、専門スタジオでの録音によって、SNR が 50 以上に達するようにできます。You can typically reach a 50+ SNR by recording at professional studios. SNR が 20 未満のオーディオでは、生成される音声に明らかなノイズが含まれる可能性があります。Audio with an SNR below 20 can result in obvious noise in your generated voice.

発音スコアが低い場合や SNR が悪い場合は、発話を録音し直すことを検討してください。Consider re-recording any utterances with low pronunciation scores or poor signal-to-noise ratios. 再録音できない場合は、それらの発話をデータセットから除外してもかまいません。If you can't re-record, you might exclude those utterances from your dataset.

注意

カスタム ニューラル音声を使用している場合は、 [Voice Talent](ボイス タレント) タブでボイス タレントを登録する必要があります。録音スクリプトを準備するときは、TTS 音声モデルを作成して合成音声を生成するために音声データを使用することについて、ボイス タレントの同意を得るため、以下の文を必ず含めてください。It is required that if you are using Custom Neural Voice, you must register your voice talent in the Voice Talent tab. When preparing your recording script, make sure you include the below sentence to acquire the voice talent acknowledgement of using their voice data to create a TTS voice model and generate synthetic speech. "I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice." (私 [自分の姓名] は、私の音声の合成バージョンを作成して使用するために、私の音声が [会社名] によって使用されることを承知しています。)“I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice.” この文は、トレーニング データセット内の録音が、同意したのと同じ人物によって行われたかどうかを確認するために使用されます。This sentence will be used to verify if the recordings in your training datasets are done by the same person that makes the consent. データが処理される方法およびボイス タレントの確認が行われる方法の詳細については、こちらで確認してくださいRead more about how your data will be processed and how voice talent verification is done here.

ご自分のカスタム音声モデルを作成するBuild your custom voice model

ご自分のデータセットの検証後、それを使用してご自分のカスタム音声モデルを作成できます。After your dataset has been validated, you can use it to build your custom voice model.

  1. [テキスト読み上げ] > [Custom Voice] > プロジェクトの名前 > [モデル] に移動します。Navigate to Text-to-Speech > Custom Voice > [name of project] > Model.

  2. [Train model](モデルのトレーニング) をクリックします。Click Train model.

  3. 次に、このモデルを識別しやすい 名前説明 を入力します。Next, enter a Name and Description to help you identify this model.

    名前は慎重に選択します。Choose a name carefully. ここで入力する名前が、SSML 入力の一部としての音声合成の要求時に、音声を指定するために使用する名前になります。The name you enter here will be the name you use to specify the voice in your request for speech synthesis as part of the SSML input. アルファベット、数字、およびいくつかの区切り文字 (-、_、(、) など) だけを使用できます。Only letters, numbers, and a few punctuation characters such as -, _, and (', ') are allowed. 音声モデルごとに、異なる名前を使用します。Use different names for different voice models.

    [Description](説明) フィールドの一般的な用途は、モデルの作成に使用されたデータセットの名前を記録することです。A common use of the Description field is to record the names of the datasets that were used to create the model.

  4. [Select training data](トレーニング データの選択) ページから、トレーニングに使用する 1 つまたは複数のデータセットを選択します。From the Select training data page, choose one or multiple datasets that you would like to use for training. 送信前に、発話の数を確認します。Check the number of utterances before you submit them. "アダプティブ" トレーニング方法を使用する en-US と zh-CN の音声モデルについては、任意の数の発話から始めることができます。You can start with any number of utterances for en-US and zh-CN voice models using the "Adaptive" training method. 他のロケールでは、"統計的パラメトリック" と "連結" のトレーニング方法を含む標準レベルを使用して音声をトレーニングできるようにするには 2,000 より多くの発話を、またカスタム ニューラル音声をトレーニングするには 300 より多くの発話を、選択する必要があります。For other locales, you must select more than 2,000 utterances to be able to train a voice using a standard tier including the "Statistical parametric" and "Concatenative" training methods, and more than 300 utterances to train a custom neural voice.

    注意

    重複したオーディオ名はトレーニングから削除されます。Duplicate audio names will be removed from the training. 選択したデータセット内の複数の .zip ファイルに同じオーディオ名が含まれていないことを確認してください。Make sure the datasets you select do not contain the same audio names across multiple .zip files.

    ヒント

    高品質の結果を得るためには、同じ話者のデータセットを使用する必要があります。Using the datasets from the same speaker is required for quality results. 異なるトレーニング方法には、異なるトレーニング データ サイズが必要です。Different training methods require different training data size. "統計的パラメトリック" 方法を使用してモデルをトレーニングするには、少なくとも 2,000 個の異なる発話が必要です。To train a model with the "Statistical parametric" method, at least 2,000 distinct utterances are required. "連結" 方法の場合は 6,000 個の発話ですが、"ニューラル" の場合の最小データ サイズ要件は 300 個の発話です。For the "Concatenative" method, it's 6,000 utterances, while for "Neural", the minimum data size requirement is 300 utterances.

  5. 次のステップで、トレーニング方法 を選択します。Select the training method in the next step.

    注意

    ニューラル音声をトレーニングする場合は、ボイス タレントのプロファイルと共に、自分の音声データがカスタム音声モデルのトレーニングに使用されることをボイス タレントが承認している音声同意ファイルを、指定する必要があります。If you would like to train a neural voice, you must specify a voice talent profile with the audio consent file provided of the voice talent acknowledging to use his/her speech data to train a custom voice model. カスタム ニューラル音声を利用するためのアクセスには制限があります。Custom Neural Voice is available with limited access. 責任ある AI の要件について理解し、こちらのアクセスを適用してください。Make sure you understand the responsible AI requirements and apply the access here.

    このページでは、テスト用のスクリプトのアップロードを選択することもできます。On this page you can also select to upload your script for testing. テスト スクリプトは、1 Mb 未満の txt ファイルである必要があります。The testing script must be a txt file, less than 1Mb. サポートされているエンコード形式は、ANSI/ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、または UTF-16-BE です。Supported encoding format includes ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, or UTF-16-BE. 発話の段落ごとに、個別の音声になります。Each paragraph of the utterance will result in a separate audio. すべての文を 1 つの音声に結合したい場合は、1 つの段落にします。If you want to combine all sentences into one audio, make them in one paragraph.

  6. [Train](トレーニング) をクリックして、実際の音声モデルの作成を開始します。Click Train to begin creating your voice model.

[トレーニング] の表に、この新しく作成されたモデルに対応する新しいエントリが表示されます。The Training table displays a new entry that corresponds to this newly created model. この表には、次の状態も表示されます。処理中、成功、失敗。The table also displays the status: Processing, Succeeded, Failed.

表示される状態は、ここに示すように、ご自分のデータセットから音声モデルへの変換プロセスを反映しています。The status that's shown reflects the process of converting your dataset to a voice model, as shown here.

StateState 意味Meaning
処理中Processing 実際の音声モデルを作成中です。Your voice model is being created.
成功Succeeded 実際の音声モデルは作成が済み、デプロイ可能です。Your voice model has been created and can be deployed.
失敗Failed 気が付かなかったデータの問題やネットワークの問題など、さまざまな理由により、トレーニング中に実際の音声モデルが失敗しました。Your voice model has been failed in training due to many reasons, for example unseen data problems or network issues.

トレーニング時間は、処理されるオーディオ データの量と、選択したトレーニング方法によって異なります。Training time varies depending on the volume of audio data processed and the training method you have selected. 30 分から 40 時間かかる可能性があります。It can range from 30 minutes to 40 hours. 実際のモデルのトレーニングが成功したら、そのテストを開始できます。Once your model training is succeeded, you can start to test it.

注意

Free サブスクリプション (F0) ユーザーは、1 つの音声フォントを同時にトレーニングできます。Free subscription (F0) users can train one voice font simultaneously. Standard サブスクリプション (S0) ユーザーは、3 つの音声を同時にトレーニングできます。Standard subscription (S0) users can train three voices simultaneously. 制限に達した場合は、少なくとも 1 つの音声フォントのトレーニングが終わるまで待ってから、やり直します。If you reach the limit, wait until at least one of your voice fonts finishes training, and then try again.

注意

カスタム ニューラル音声のトレーニングは無料ではありません。Training of custom neural voices is not free. 価格を確認してください。Check the pricing here.

注意

サブスクリプションあたりのトレーニングできる音声モデルの最大数は、Free サブスクリプション (F0) ユーザーの場合はモデル 10 個、Standard サブスクリプション (S0) ユーザーの場合は 100 個です。The maximum number of voice models allowed to be trained per subscription is 10 models for free subscription (F0) users and 100 for standard subscription (S0) users.

ニューラル音声トレーニング機能を使用している場合、リアルタイムのストリーミング シナリオ向けに最適化されたモデルをトレーニングするか、または非同期の長いオーディオ合成用に最適化された HD ニューラル モデルをトレーニングするかを選択できます。If you are using the neural voice training capability, you can select to train a model optimized for real-time streaming scenarios, or a HD neural model optimized for asynchronous long-audio synthesis.

実際の音声モデルをテストするTest your voice model

トレーニングごとに、モデルのテストに役立つ 100 個のサンプル オーディオ ファイルが自動的に生成されます。Each training will generate 100 sample audio files automatically to help you test the model. 音声モデルが正常に作成されたら、展開して使用する前にテストすることができます。After your voice model is successfully built, you can test it before deploying it for use.

  1. [テキスト読み上げ] > [Custom Voice] > プロジェクトの名前 > [モデル] に移動します。Navigate to Text-to-Speech > Custom Voice > [name of project] > Model.

  2. テストするモデルの名前をクリックします。Click the name of the model you would like to test.

  3. モデルの詳細ページの [テスト] タブで、サンプルのオーディオ ファイルが見つかります。On the model detail page, you can find the sample audio files under the Testing tab.

音声の品質は、トレーニング データのサイズ、録音の品質、トランスクリプト ファイルの正確さ、トレーニング データに録音された音声が目的のユース ケースに合わせて設計された音声の性格とどの程度一致しているかなど、さまざまな要因に依存します。The quality of the voice depends on a number of factors, including the size of the training data, the quality of the recording, the accuracy of the transcript file, how well the recorded voice in the training data matches the personality of the designed voice for your intended use case, and more. テクノロジの機能と制限、およびモデルの品質を向上させるためのベスト プラクティスの詳細については、こちらを確認してくださいCheck here to learn more about the capabilities and limits of our technology and the best practice to improve your model quality.

カスタム音声エンドポイントを作成して使用するCreate and use a custom voice endpoint

音声モデルの作成とテストが正常に終了したら、カスタム Text-to-Speech エンドポイントに展開します。After you've successfully created and tested your voice model, you deploy it in a custom Text-to-Speech endpoint. その後は、REST API で Text-to-Speech 要求を行うときの通常のエンドポイントの代わりに、このエンドポイントを使います。You then use this endpoint in place of the usual endpoint when making Text-to-Speech requests through the REST API. ご自分のカスタム エンドポイントは、フォントをデプロイするときに使ったサブスクリプションからのみ呼び出すことができます。Your custom endpoint can be called only by the subscription that you have used to deploy the font.

新しいカスタム音声エンドポイントを作成するには、 [テキスト読み上げ] > [Custom Voice] > [エンドポイント] に移動します。To create a new custom voice endpoint, go to Text-to-Speech > Custom Voice > Endpoint. [エンドポイントの追加] を選択し、ご自分のカスタム エンドポイントの 名前説明 を入力します。Select Add endpoint and enter a Name and Description for your custom endpoint. 次に、このエンドポイントに関連付けるカスタム音声モデルを選択します。Then select the custom voice model you would like to associate with this endpoint.

[追加] をクリックすると、エンドポイントの表にご自分の新しいエンドポイントのエントリが表示されます。After you have clicked the Add button, in the endpoint table, you will see an entry for your new endpoint. 新しいエンドポイントのインスタンス化には、数分かかることがあります。It may take a few minutes to instantiate a new endpoint. 展開の状態が [Succeeded](成功) の場合、エンドポイントを使用する準備ができています。When the status of the deployment is Succeeded, the endpoint is ready for use.

常に使用するのでない場合は、エンドポイントを 中断 して 再開 することができます。You can Suspend and Resume your endpoint if you don't use it all the time. 中断後にエンドポイントが再アクティブ化されるとき、エンドポイントの URL は同じままになるので、アプリのコードを変更する必要はありません。When an endpoint is reactivated after suspension, the endpoint URL will be kept the same so you don't need to change your code in your apps.

また、エンドポイントを新しいモデルに更新することもできます。You can also update the endpoint to a new model. モデルを変更するには、必ず新しいモデルの名前を更新するモデルと同じにします。To change the model, make sure the new model is named the same as the one your want to update.

注意

Free サブスクリプション (F0) ユーザーは、1 つだけモデルをデプロイできます。Free subscription (F0) users can have only one model deployed. Standard サブスクリプション (S0) ユーザーは、それぞれが独自のカスタム音声を使用する最大 50 個のエンドポイントを作成できます。Standard subscription (S0) users can create up to 50 endpoints, each with its own custom voice.

注意

実際のカスタム音声を使用するには、音声モデルの名前を指定し、HTTP 要求に直接カスタム URI を使用し、同じサブスクリプションを使用して TTS サービスの認証を通過する必要があります。To use your custom voice, you must specify the voice model name, use the custom URI directly in an HTTP request, and use the same subscription to pass through the authentication of TTS service.

ご自分のエンドポイントがデプロイされると、エンドポイント名はリンクとして表示されます。After your endpoint is deployed, the endpoint name appears as a link. リンクをクリックすると、エンドポイント キー、エンドポイントの URL、サンプル コードなど、ご自分のエンドポイントに固有の情報が表示されます。Click the link to display information specific to your endpoint, such as the endpoint key, endpoint URL, and sample code.

Custom Voice ポータルを使用して、エンドポイントのオンライン テストを行うこともできます。Online testing of the endpoint is also available via the custom voice portal. ご自分のエンドポイントをテストするには、 [Endpoint detail](エンドポイントの詳細) ページから [Check endpoint](エンドポイントの確認) を選択します。To test your endpoint, choose Check endpoint from the Endpoint detail page. エンドポイントのテスト ページが表示されます。The endpoint testing page appears. 読み上げるテキストをテキスト ボックスに (プレーンテキストまたは SSML 形式のどちらかで) 入力します。Enter the text to be spoken (in either plain text or SSML format in the text box. カスタム音声フォントで読み上げられるテキストを聞くには、 [Play](再生) を選択します。To hear the text spoken in your custom voice font, select Play. このテスト機能は、カスタム音声合成の実際の使用量に対して課金されます。This testing feature will be charged against your custom speech synthesis usage.

カスタム エンドポイントの機能は、テキスト読み上げ要求に使用される標準のエンドポイントと同じです。The custom endpoint is functionally identical to the standard endpoint that's used for text-to-speech requests. 詳しくは、REST API に関するページをご覧ください。See REST API for more information.

次のステップNext steps