Custom Speech とはWhat is Custom Speech?

Custom Speech は、アプリケーションや製品での Microsoft の音声テキスト変換の正確性を評価して改善するために使用できる、UI ベースのツールのセットです。Custom Speech is a set of UI-based tools that allow you to evaluate and improve the Microsoft speech-to-text accuracy for your applications and products. 作業を始めるにあたって必要なのは、少数のテスト オーディオ ファイルだけです。All it takes to get started is a handful of test audio files. この記事のリンクに従って、カスタム音声テキスト変換エクスペリエンスの作成を開始しましょう。Follow the links in this article to start creating a custom speech-to-text experience.

Custom Speech の内容What's in Custom Speech?

Custom Speech で何らかの操作を行うには、Azure アカウントと音声サービスのサブスクリプションが必要です。Before you can do anything with Custom Speech, you'll need an Azure account and a Speech service subscription. アカウントの取得後、データの準備、モデルのトレーニングとテスト、認識品質の調査、正確性の評価を行い、最後にそのカスタム音声テキスト変換モデルをデプロイして使用することができます。After you have an account, you can prep your data, train and test your models, inspect recognition quality, evaluate accuracy, and ultimately deploy and use the custom speech-to-text model.

この図は、Speech Studio の Custom Speech エリアを構成する諸要素を示しています。This diagram highlights the pieces that make up the Custom Speech area of the Speech Studio. それぞれのステップの詳細については、下のリンクを使用してください。Use the links below to learn more about each step.

Speech Studio の Custom Speech エリアを構成する要素を強調表示した図。

  1. プロジェクトをサブスクライブして作成するSubscribe and create a project. Azure アカウントを作成し、音声サービスをサブスクライブします。Create an Azure account and subscribe to the Speech service. この統合されたサブスクリプションにより、音声テキスト変換、テキスト読み上げ、音声翻訳、Speech Studio にアクセスできるようになります。This unified subscription gives you access to speech-to-text, text-to-speech, speech translation, and the Speech Studio. その後、音声サービス サブスクリプションを使用して、初めての Custom Speech プロジェクトを作成します。Then use your Speech service subscription to create your first Custom Speech project.

  2. テスト データをアップロードするUpload test data. テスト データ (オーディオ ファイル) をアップロードして、ご利用のアプリケーション、ツール、製品に使用する Microsoft の音声テキスト変換プランを評価します。Upload test data (audio files) to evaluate the Microsoft speech-to-text offering for your applications, tools, and products.

  3. 認識品質を調査するInspect recognition quality. Speech Studio を使用して、アップロードした音声を再生し、テスト データの音声認識品質を調査します。Use the Speech Studio to play back uploaded audio and inspect the speech recognition quality of your test data. 定量的な測定については、データの調査に関するページを参照してください。For quantitative measurements, see Inspect data.

  4. 正確性を評価して改善するEvaluate and improve accuracy. 音声テキスト変換モデルの正確性を評価して改善します。Evaluate and improve the accuracy of the speech-to-text model. さらにトレーニングが必要であるかどうかは、Speech Studio で得られる "ワード エラー率" を使用して判断できます。The Speech Studio will provide a Word Error Rate, which you can use to determine if additional training is required. 正確性に問題がなければ、音声サービスの API を直接使用できます。If you're satisfied with the accuracy, you can use the Speech service APIs directly. 相対平均で 5% から 20% 正確性を高めたい場合、ポータルの [トレーニング] タブを使用して、追加のトレーニング データ (人間がラベル付けしたトランスクリプトと関連テキストなど) をアップロードします。If you want to improve accuracy by a relative average of 5% to 20%, use the Training tab in the portal to upload additional training data, like human-labeled transcripts and related text.

  5. モデルをトレーニングしてデプロイするTrain and deploy a model. ご自分の音声テスト データと一緒に、文書化されたトランスクリプト (10 から 1,000 時間) と関連テキスト (200 MB 未満) を入力することにより、音声テキスト変換モデルの正確性を高めます。Improve the accuracy of your speech-to-text model by providing written transcripts (10 to 1,000 hours) and related text (<200 MB) along with your audio test data. このデータが音声テキスト変換モデルのトレーニングに役立てられます。This data helps to train the speech-to-text model. トレーニング後に、再テストを行います。After training, retest. その結果に問題がなければ、モデルをカスタム エンドポイントにデプロイすることができます。If you're satisfied with the result, you can deploy your model to a custom endpoint.

Azure アカウントの設定Set up your Azure account

Speech Studio を使用してカスタム モデルを作成する前に、Azure アカウントと音声サービス サブスクリプションを用意する必要があります。You need to have an Azure account and Speech service subscription before you can use the Speech Studio to create a custom model. アカウントとサブスクリプションをお持ちでない場合は、Speech Service を無料でお試しくださいIf you don't have an account and subscription, try the Speech service for free.

注意

必ず Standard (S0) サブスクリプションを作成してください。Please be sure to create a standard (S0) subscription. Free (F0) サブスクリプションはサポートされていません。Free (F0) subscriptions aren't supported.

オーディオ データ を使用してカスタム モデルをトレーニングする場合は、トレーニングに使用できる専用のハードウェアを備えた次のいずれかのリージョンを選択してください。If you plan to train a custom model with audio data, pick one of the following regions that have dedicated hardware available for training. これにより、モデルのトレーニングにかかる時間が短縮され、トレーニングにより多くのオーディオを使用できるようになります。This will reduce the time it takes to train a model and allow you to use more audio for training. これらのリージョンでは、音声サービスによって最大 20 時間のオーディオがトレーニングに使用されます。他のリージョンでは、最大 8 時間しか使用されません。In these regions, the Speech service will use up to 20 hours of audio for training; in other regions it will only use up to 8 hours.

  • オーストラリア東部Australia East
  • カナダ中部Canada Central
  • インド中部Central India
  • 米国東部East US
  • 米国東部 2East US 2
  • 米国中北部North Central US
  • 北ヨーロッパNorth Europe
  • 米国中南部South Central US
  • 東南アジアSoutheast Asia
  • 英国南部UK South
  • US Gov アリゾナUS Gov Arizona
  • US Gov バージニア州US Gov Virginia
  • 西ヨーロッパWest Europe
  • 米国西部 2West US 2

Azure アカウントと音声サービス サブスクリプションを作成したら、Speech Studio にサインインして、ご利用のサブスクリプションを接続する必要があります。After you create an Azure account and a Speech service subscription, you'll need to sign in to the Speech Studio and connect your subscription.

  1. Speech Studio にサインインします。Sign in to the Speech Studio.
  2. 作業に必要なサブスクリプションを選択し、音声プロジェクトを作成します。Select the subscription you need to work in and create a speech project.
  3. サブスクリプションを変更する場合は、上部のメニューで [歯車] ボタンを選択します。If you want to modify your subscription, select the cog button in the top menu.

プロジェクトを作成する方法How to create a project

データ、モデル、テスト、エンドポイントなどのコンテンツは、Speech Studio の "プロジェクト" にまとめられます。Content like data, models, tests, and endpoints are organized into projects in the Speech Studio. プロジェクトは、ドメインと国および言語ごとに作成されます。Each project is specific to a domain and country/language. たとえば、米国の英語を使用するコール センターのプロジェクトを作成することが考えられます。For example, you might create a project for call centers that use English in the United States.

初めてのプロジェクトを作成するには、 [音声テキスト変換/Custom Speech] を選択し、 [新しいプロジェクト] を選択します。To create your first project, select Speech-to-text/Custom speech, and then select New Project. ウィザードの手順に従ってプロジェクトを作成します。Follow the instructions provided by the wizard to create your project. プロジェクトを作成したら、4 つのタブが表示されます ( [データ][テスト中][トレーニング][デプロイ] )。After you create a project, you should see four tabs: Data, Testing, Training, and Deployment. それぞれのタブの使い方については、「次の手順」に記載のリンクを使用してください。Use the links provided in Next steps to learn how to use each tab.

重要

Speech Studio (以前の名称は "Custom Speech ポータル") が最近更新されました。The Speech Studio formerly known as "Custom Speech portal" was recently updated! CRIS.ai ポータルで、または API を使用して以前のデータ、モデル、テスト、および公開されたエンドポイントを作成した場合は、新しいポータルで新しいプロジェクトを作成して、これらの古いエンティティに接続する必要があります。If you created previous data, models, tests, and published endpoints in the CRIS.ai portal or with APIs, you need to create a new project in the new portal to connect to these old entities.

モデルとエンドポイントのライフサイクルModel and Endpoint lifecycle

普通は最新のモデルの方が正確性が高いため、古いモデルは時間の経過と共にあまり役に立たなくなります。Older models typically become less useful over time because the newest model usually has higher accuracy. そのため、ベース モデルに加え、ポータルで作成されたカスタム モデルとエンドポイントは、適応に 1 年、デコードに 2 年の有効期限が与えられます。Therefore, base models as well as custom models and endpoints created through the portal are subject to expiration after 1 year for adaptation and 2 years for decoding. 詳しい説明については、「モデルとエンドポイントのライフサイクル」の記事をご覧ください。See a detailed description in the Model and endpoint lifecycle article.

次のステップNext steps