Co je služba rozpoznávání řeči vlastní?What is Custom Speech Service?

Vlastní rozpoznávání řeči Service je Cloudová služba, která uživatelům poskytuje schopnost přizpůsobit rozpoznávání řeči modely pro přepis řeči na Text.Custom Speech Service is a cloud-based service that provides users with the ability to customize speech models for Speech-to-Text transcription. Používat službu vlastní rozpoznávání řeči, naleznete portál služby řeči vlastní.To use the Custom Speech Service, refer to the Custom Speech Service Portal.

Vlastní rozpoznávání řeči služby umožňuje vytvářet vlastní jazyk modely a akustickými modely, které jsou pro aplikaci a uživatele.The Custom Speech Service enables you to create customized language models and acoustic models tailored to your application and your users. Tím, že nahrajete konkrétní řeči nebo textová data ke službě vlastní rozpoznávání řeči, můžete vytvořit vlastní modely, které lze použít ve spojení s existující modely stavu techniky řeči společnosti Microsoft.By uploading your specific speech and/or text data to the Custom Speech Service, you can create custom models that can be used in conjunction with Microsoft’s existing state-of-the-art speech models.

Například pokud přidáváte hlasové interakce na mobilní telefon, tablet nebo počítači aplikace, můžete vytvořit vlastní jazyk model, který je možné kombinovat s akustickými modelu společnosti Microsoft vytvořit koncový bod řeči na text, který je určený pro vaši aplikaci.For example, if you’re adding voice interaction to a mobile phone, tablet or PC app, you can create a custom language model that can be combined with Microsoft’s acoustic model to create a speech-to-text endpoint designed especially for your app. Pokud vaše aplikace je určen k použití v konkrétním prostředí nebo naplnění určitého uživatele, můžete také vytvořit a nasadit vlastní akustickými modelu s touto službou.If your application is designed for use in a particular environment or by a particular user population, you can also create and deploy a custom acoustic model with this service.

Jak fungují systémy rozpoznávání řeči?How do speech recognition systems work?

Systémy rozpoznávání řeči se skládají z několika komponent, které vzájemně spolupracují.Speech recognition systems are composed of several components that work together. Dva nejdůležitější součásti jsou akustickými modelu a modelu jazyka.Two of the most important components are the acoustic model and the language model.

Akustickými model je třídění, které označuje krátké fragmenty zvuk do jednoho čísla fonémy nebo zvukové jednotky, v daném jazyce.The acoustic model is a classifier that labels short fragments of audio into one of a number of phonemes, or sound units, in a given language. Například slovo "řeči" se skládá ze čtyř fonémy "s p iy ch".For example, the word “speech” is composed of four phonemes “s p iy ch”. Tyto klasifikace se provádějí řádově stokrát za sekundu.These classifications are made on the order of 100 times per second.

Jazykový model je pravděpodobnostní rozdělení přes posloupnosti slov.The language model is a probability distribution over sequences of words. Jazykový model pomáhá systému zvolit takovou posloupnost slov, která zní podobně, a to na základě pravděpodobnosti jednotlivých posloupností slov.The language model helps the system decide among sequences of words that sound similar, based on the likelihood of the word sequences themselves. Například posloupnosti „recognize speech“ a „wreck a nice beach“ znějí podobně, ale výskyt první z nich je mnohem pravděpodobnější, takže jí bude jazykovým modelem přiřazené vyšší ohodnocení.For example, “recognize speech” and “wreck a nice beach” sound alike but the first hypothesis is far more likely to occur, and therefore will be assigned a higher score by the language model.

Acoustic i jazyk modely jsou statistické modely vytvořeným ze Cvičná data.Both the acoustic and language models are statistical models learned from training data. V důsledku toho provádějí nejlépe při rozpoznávání řeči, na které narazí při použití v aplikacích je podobná data zaznamenali během cvičení.As a result, they perform best when the speech they encounter when used in applications is similar to the data observed during training. Modely acoustic a jazyk v modulu Microsoft řeči na Text byl trénink na kolekci značné řeč a textu a poskytují výkon stavu techniky pro nejčastější scénáře použití, například interakci s Cortana na vaše čipové Telefon, tablet nebo počítač, vyhledávání na webu pomocí hlasového nebo diktování textové zprávy na přítele.The acoustic and language models in the Microsoft Speech-To-Text engine have been trained on an enormous collection of speech and text and provide state-of-the-art performance for the most common usage scenarios, such as interacting with Cortana on your smart phone, tablet or PC, searching the web by voice or dictating text messages to a friend.

Proč používat službu řeči vlastní?Why use the Custom Speech Service?

Sice špičkových modul Microsoft řeči na Text, je určen k scénáře popsané výše.While the Microsoft Speech-To-Text engine is world-class, it is targeted toward the scenarios described above. Ale pokud očekáváte, že hlas dotazy k aplikaci tak, aby obsahovala určité termínů položky, jako jsou názvy produktů nebo žargonu zabezpečení dochází jen zřídka v typické rozpoznávání řeči, je pravděpodobné, že můžete získat lepší výkon přizpůsobením jazyka modelu.However, if you expect voice queries to your application to contain particular vocabulary items, such as product names or jargon that rarely occur in typical speech, it is likely that you can obtain improved performance by customizing the language model.

Pokud například vytváříte aplikaci umožňující hlasové dotazy na web MSDN, je pravděpodobné, že termíny jako „object-oriented“, „namespace“ nebo „dot net“ se budou vyskytovat častěji než v klasických hlasových aplikacích.For example, if you were building an app to search MSDN by voice, it’s likely that terms like “object-oriented” or “namespace” or “dot net” will appear more frequently than in typical voice applications. Přizpůsobení jazykového modelu umožní systému se to naučit.Customizing the language model will enable the system to learn this.

Další postupNext steps

Další informace o tom, jak používat službu vlastní rozpoznávání řeči, najdete v tématu vlastní řeči portálu služby.For more information about how to use the Custom Speech Service, see the Custom Speech Service Portal.