Co je Custom Speech Service?What is Custom Speech Service?

Poznámka

Custom Speech Service, která bude fungovat už od 15. ledna 2019 nahrazuje nová Speech Service a sady SDK.The new Speech Service and SDK is replacing the Custom Speech Service, which will no longer work starting January 15, 2019. Informace o přepínání Speech Service najdete v tématu migrace ze služby Custom Speech Service na Speech Service.For information on switching to the Speech Service, see Migrating from the Custom Speech Service to the Speech Service.

Custom Speech Service je cloudová služba, která uživatelům poskytuje možnost přizpůsobení modelů řeči pro přepis řeči na text.Custom Speech Service is a cloud-based service that provides users with the ability to customize speech models for Speech-to-Text transcription. Pokud chcete službu Custom Speech Service používat, přejděte na portál služby Custom Speech Service.To use the Custom Speech Service, refer to the Custom Speech Service Portal.

Služba Custom Speech Service umožňuje vytvářet jazykové a akustické modely přizpůsobené vaší aplikaci a uživatelům.The Custom Speech Service enables you to create customized language models and acoustic models tailored to your application and your users. Po nahrání konkrétních řečových a/nebo textových dat do služby Custom Speech Service můžete vytvořit vlastní modely, které lze použít v kombinaci s existujícími špičkovými modely řeči Microsoftu.By uploading your specific speech and/or text data to the Custom Speech Service, you can create custom models that can be used in conjunction with Microsoft’s existing state-of-the-art speech models.

Pokud například přidáváte hlasové interakce do aplikace pro mobilní telefon, tablet nebo počítač, můžete vytvořit vlastní jazykový model, který můžete v kombinaci s akustickým modelem Microsoftu použít k vytvoření koncového bodu převodu řeči na text určeného speciálně pro vaši aplikaci.For example, if you’re adding voice interaction to a mobile phone, tablet or PC app, you can create a custom language model that can be combined with Microsoft’s acoustic model to create a speech-to-text endpoint designed especially for your app. Jestliže je vaše aplikace určená pro konkrétní prostředí nebo konkrétní populaci uživatelů, můžete pomocí této služby také vytvořit a nasadit vlastní akustický model.If your application is designed for use in a particular environment or by a particular user population, you can also create and deploy a custom acoustic model with this service.

Jak systémy rozpoznávání řeči fungují?How do speech recognition systems work?

Systémy rozpoznávání řeči se skládají z několika komponent, které vzájemně spolupracují.Speech recognition systems are composed of several components that work together. Mezi dvě nejdůležitější komponenty patří akustický model a jazykový model.Two of the most important components are the acoustic model and the language model.

Akustický model je klasifikátor, který označuje krátké zvukové fragmenty jedním z mnoha fonémů, neboli zvukových jednotek, v daném jazyce.The acoustic model is a classifier that labels short fragments of audio into one of a number of phonemes, or sound units, in a given language. Například slovo „speech“ je tvořeno čtyřmi fonémy „s p iy ch“.For example, the word “speech” is composed of four phonemes “s p iy ch”. Tyto klasifikace se provádějí řádově 100krát za sekundu.These classifications are made on the order of 100 times per second.

Jazykový model je pravděpodobnostní rozdělení přes posloupnosti slov.The language model is a probability distribution over sequences of words. Jazykový model pomáhá systému rozhodovat mezi posloupnostmi podobně znějících slov na základě pravděpodobnosti samotných posloupností slov.The language model helps the system decide among sequences of words that sound similar, based on the likelihood of the word sequences themselves. Například posloupnosti „recognize speech“ a „wreck a nice beach“ zní podobně, ale výskyt první z nich je mnohem pravděpodobnější, takže jí bude jazykovým modelem přiřazeno vyšší skóre.For example, “recognize speech” and “wreck a nice beach” sound alike but the first hypothesis is far more likely to occur, and therefore will be assigned a higher score by the language model.

Akustické i jazykové modely jsou statistické modely, které se učí z trénovacích dat.Both the acoustic and language models are statistical models learned from training data. Ve výsledku pak fungují nejlépe, pokud se řeč, kterou rozpoznávají v aplikacích, podobá datům zpracovaným během tréninku.As a result, they perform best when the speech they encounter when used in applications is similar to the data observed during training. Akustické a jazykové modely v modulu Microsoftu pro převod řeči na text byly trénovány na ohromné kolekci řeči a textu a ve většině běžných situací, ke kterým patří interakce s Cortanou na smartphonu, tabletu nebo v počítači, hlasové vyhledávání na webu nebo diktování SMS zpráv přátelům, poskytují špičkový výkon.The acoustic and language models in the Microsoft Speech-To-Text engine have been trained on an enormous collection of speech and text and provide state-of-the-art performance for the most common usage scenarios, such as interacting with Cortana on your smart phone, tablet or PC, searching the web by voice or dictating text messages to a friend.

Proč službu Custom Speech Service používat?Why use the Custom Speech Service?

Přestože modul Microsoftu pro převod řeči na text patří ke světové špičce, je zaměřený na výše popsané situace.While the Microsoft Speech-To-Text engine is world-class, it is targeted toward the scenarios described above. Pokud ale očekáváte, že hlasové dotazy ve vaší aplikaci budou obsahovat určité slovníkové položky, jako jsou názvy produktů nebo žargon, který se v běžné řeči vyskytuje zřídka, je pravděpodobné, že přizpůsobením jazykového modelu můžete výkon zlepšit.However, if you expect voice queries to your application to contain particular vocabulary items, such as product names or jargon that rarely occur in typical speech, it is likely that you can obtain improved performance by customizing the language model.

Pokud například vytváříte aplikaci pro hlasové vyhledávání na webu MSDN, je pravděpodobné, že se termíny jako „object-oriented“, „namespace“ nebo „dot net“ budou vyskytovat častěji než v klasických hlasových aplikacích.For example, if you were building an app to search MSDN by voice, it’s likely that terms like “object-oriented” or “namespace” or “dot net” will appear more frequently than in typical voice applications. Přizpůsobení jazykového modelu umožní systému se to naučit.Customizing the language model will enable the system to learn this.

Další postupNext steps

Další informace o tom, jak pomocí služby Custom Speech Service, najdete v článku vlastní Speech Service Portal.For more information about how to use the Custom Speech Service, see the Custom Speech Service Portal.