Co je převod řeči na text?What is speech-to-text?

V tomto přehledu se dozvíte o výhodách a funkcích služby Speech-to-text.In this overview, you learn about the benefits and capabilities of the speech-to-text service. Převod řeči na text, označovaný také jako rozpoznávání řeči, umožňuje přepis zvukových streamů v reálném čase na text.Speech-to-text, also known as speech recognition, enables real-time transcription of audio streams into text. Vaše aplikace, nástroje nebo zařízení můžou používat, zobrazovat a provádět na tomto textu akce jako vstup příkazu.Your applications, tools, or devices can consume, display, and take action on this text as command input. Tato služba využívá stejnou technologii rozpoznávání, kterou Microsoft používá pro Cortana a produkty Office.This service is powered by the same recognition technology that Microsoft uses for Cortana and Office products. Bez problémů funguje s nabídkami služeb pro převod a převod textu na řeč .It seamlessly works with the translation and text-to-speech service offerings. Úplný seznam dostupných jazyků pro převod řeči na text najdete v tématu podporované jazyky.For a full list of available speech-to-text languages, see supported languages.

Služba převod řeči na text standardně používá univerzální jazykový model.The speech-to-text service defaults to using the Universal language model. Tento model byl vyškolený pomocí dat vlastněných společností Microsoft a nasazený v cloudu.This model was trained using Microsoft-owned data and is deployed in the cloud. Je ideální pro scénáře konverzace a diktování.It's optimal for conversational and dictation scenarios. Při použití převodu řeči na text pro rozpoznávání a přepis v jedinečném prostředí můžete vytvořit a naučit vlastní modely akustického, jazyka a výslovnosti.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models. Přizpůsobení je užitečné pro řešení hlučného hluku nebo slovníku specifického pro konkrétní odvětví.Customization is helpful for addressing ambient noise or industry-specific vocabulary.

Tato dokumentace obsahuje následující typy článků:This documentation contains the following article types:

  • Rychlé starty jsou pokyny Začínáme, které vám pomohou při provádění požadavků na službu.Quickstarts are getting-started instructions to guide you through making requests to the service.
  • Návody obsahují pokyny k používání služby v konkrétnějším nebo přizpůsobeném způsobu.How-to guides contain instructions for using the service in more specific or customized ways.
  • Koncepty poskytují podrobné vysvětlení funkcí a funkcí služby.Concepts provide in-depth explanations of the service functionality and features.
  • Kurzy jsou delší než příručky, které ukazují, jak používat službu jako součást v širších obchodních řešeních.Tutorials are longer guides that show you how to use the service as a component in broader business solutions.

Poznámka

Zpracování řeči Bingu byl vyvyřazen z 15. října 2019.Bing Speech was decommissioned on October 15, 2019. Pokud vaše aplikace, nástroje nebo produkty používají rozhraní API Zpracování řeči Bingu, vytvořili jsme příručky, které vám pomůžou s migrací na službu Speech.If your applications, tools, or products are using the Bing Speech APIs, we've created guides to help you migrate to the Speech service.

Důležité

Pro všechny požadavky HTTP na tuto službu se teď vynutilo TLS 1,2.TLS 1.2 is now enforced for all HTTP requests to this service. Další informace najdete v tématu zabezpečení Azure Cognitive Services.For more information, see Azure Cognitive Services security.

ZačínámeGet started

Projděte si rychlý Start a začněte s převodem řeči na text.See the quickstart to get started with speech-to-text. Služba je k dispozici prostřednictvím sady Speech SDK, REST APIa rozhraní příkazového řádku pro rozpoznávání řeči.The service is available via the Speech SDK, the REST API, and the Speech CLI.

Ukázka kóduSample code

Vzorový kód pro sadu Speech SDK je k dispozici na GitHubu.Sample code for the Speech SDK is available on GitHub. Tyto ukázky se týkají běžných scénářů, jako je čtení zvuku ze souboru nebo datového proudu, průběžné a jednorázové rozpoznávání a práce s vlastními modely.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models.

PřizpůsobeníCustomization

Kromě standardního modelu služby Speech můžete vytvořit vlastní modely.In addition to the standard Speech service model, you can create custom models. Přizpůsobení pomáhá překonat překážky rozpoznávání řeči, jako je například mluvený styl, slovník a šum na pozadí, viz Custom Speech.Customization helps to overcome speech recognition barriers such as speaking style, vocabulary and background noise, see Custom Speech. Možnosti vlastního nastavení se liší podle jazyka nebo národního prostředí, viz podporované jazyky pro ověření podpory.Customization options vary by language/locale, see supported languages to verify support.

Dávkový přepisBatch transcription

Batch přepis je sada REST API operací, které umožňují přepisovat velké množství zvuků v úložišti.Batch transcription is a set of REST API operations that enable you to transcribe a large amount of audio in storage. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu.You can point to audio files with a shared access signature (SAS) URI and asynchronously receive transcription results. Další informace o tom, jak používat rozhraní API služby Batch pro přepis, najdete v tématu How to .See the how-to for more information on how to use the batch transcription API.

Referenční dokumentyReference docs

Služba rozpoznávání řeči poskytuje dvě sady SDK.The Speech service provides two SDKs. První sada SDK je primární sada Speech SDK a poskytuje většinu funkcí potřebných pro interakci se službou Speech.The first SDK is the primary Speech SDK and provides most of the functionalities needed to interact with the Speech service. Druhá sada SDK je specifická pro zařízení, která se vhodně jmenuje sada Speech Devices SDK.The second SDK is specific to devices, appropriately named the Speech Devices SDK. Obě sady SDK jsou k dispozici v mnoha jazycích.Both SDKs are available in many languages.

Referenční dokumentace sady Speech SDKSpeech SDK reference docs

V následujícím seznamu najdete vhodné referenční dokumentace sady Speech SDK:Use the following list to find the appropriate Speech SDK reference docs:

Tip

Sada SDK služby Speech je aktivně udržovaná a aktualizovaná.The Speech service SDK is actively maintained and updated. Chcete-li sledovat změny, aktualizace a doplňky funkcí najdete v poznámkách k verzi sady Speech SDK.To track changes, updates and feature additions refer to the Speech SDK release notes.

Referenční dokumentace sady Speech Devices SDKSpeech Devices SDK reference docs

Sada Speech Devices SDK je nadmnožinou sady Speech SDK s rozšířenými funkcemi pro konkrétní zařízení.The Speech Devices SDK is a superset of the Speech SDK, with extended functionality for specific devices. Pokud si chcete stáhnout sadu Speech SDK pro zařízení, musíte nejdřív zvolit vývojovou sadu.To download the Speech Devices SDK, you must first choose a development kit.

Odkazy na REST APIREST API references

Odkazy na různá rozhraní REST API služby Speech Service najdete v následujícím seznamu:For references of various Speech service REST APIs, refer to the listing below:

Další krokyNext steps