Přehled rozhraní API pro rozpoznávání řeči MicrosoftMicrosoft Speech API overview

Rozhraní API založené na cloudu řeči Microsoft poskytuje vývojářům snadný způsob, jak vytvořit výkonné funkce rozpoznávání řeči ve svých aplikacích, jako je ovládací prvek příkaz hlasové, pomocí přirozené řeči konverzace a přepis řeči a diktování uživatelském dialogu.The cloud-based Microsoft Speech API provides developers an easy way to create powerful speech-enabled features in their applications, like voice command control, user dialog using natural speech conversation, and speech transcription and dictation. Rozhraní API pro rozpoznávání řeči Microsoft podporuje obě řeči na Text a převod textu na řeč převod.The Microsoft Speech API supports both Speech to Text and Text to Speech conversion.

  • Převod řeči na Text rozhraní API lidského hlasu převede na text, který můžete použít jako vstup nebo příkazy k řízení vaší aplikace.Speech to Text API converts human speech to text that can be used as input or commands to control your application.
  • Převod textu na řeč rozhraní API převede text na zvukové datových proudů, které je možné přehrát uživateli vaší aplikace.Text to Speech API converts text to audio streams that can be played back to the user of your application.

Převod řeči na text (rozpoznávání řeči)Speech to text (speech recognition)

Rozpoznávání řeči Microsoft rozhraní API transcribes příkaz zvukových datových proudů do text, který vaše aplikace můžete zobrazit uživateli nebo provedení akce jako vstup.Microsoft speech recognition API transcribes audio streams into text that your application can display to the user or act upon as command input. Nabízí dva způsoby pro vývojáře pro přidání do své aplikace řeči: rozhraní REST API nebo klientské knihovny založené na protokolu Websocket.It provides two ways for developers to add Speech to their apps: REST APIs or Websocket-based client libraries.

  • REST API: vývojáři mohou použít HTTP volání ze svých aplikací se službou pro rozpoznávání řeči.REST APIs: Developers can use HTTP calls from their apps to the service for speech recognition.
  • Knihovny klienta: pokročilé funkce, vývojáři můžou stáhnout Microsoft Speech klientské knihovny a propojit do své aplikace.Client libraries: For advanced features, developers can download Microsoft Speech client libraries, and link into their apps. Knihovny klienta jsou dostupné na různých platformách (Windows, Android, iOS) pomocí různých jazyků (C#, Java, JavaScript, ObjectiveC).The client libraries are available on various platforms (Windows, Android, iOS) using different languages (C#, Java, JavaScript, ObjectiveC). Na rozdíl od rozhraní REST API knihovny klienta využívat získáváním na základě protokolu Websocket.Unlike the REST APIs, the client libraries utilize Websocket-based procotol.
Případy použitíUse cases Rozhraní REST APIREST APIs Knihovny klientaClient Libraries
Převést prostě mluvené zvuk, například příkazy (audio délka < 15 s) bez dočasné výsledkyConvert a short spoken audio, for example, commands (audio length < 15 s) without interim results AnoYes AnoYes
Převést dlouho zvuk (s > 15)Convert a long audio (> 15 s) NeNo AnoYes
Zvuk datového proudu s dočasné výsledky potřebyStream audio with interim results desired NeNo AnoYes
Pochopení textu převést z zvuk pomocí LEOŠUnderstand the text converted from audio using LUIS NeNo AnoYes

Podle toho, která vývojářům přístup zvolte (rozhraní REST API nebo knihovny klienta), služba Microsoft řeči podporuje následující:Whichever approach developers choose (REST APIs or client libraries), Microsoft speech service supports the following:

  • Pokročilé technologie rozpoznávání řeči od společnosti Microsoft, které používá Cortana, diktování Office, Office překladač a další produkty společnosti Microsoft.Advanced speech recognition technologies from Microsoft that are used by Cortana, Office Dictation, Office Translator, and other Microsoft products.
  • Průběžné rozpoznávání v reálném čase.Real-time continuous recognition. Rozpoznávání řeči rozhraní API umožňuje uživatelům transcribe zvuk do textu v reálném čase a podporuje přijímat mezilehlé výsledky slova, která, pokud byly rozpoznány.The speech recognition API enables users to transcribe audio into text in real time, and supports to receive the intermediate results of the words that have been recognized so far. Služba rozpoznávání řeči také podporuje end řeči detekce.The speech service also supports end-of-speech detection. Kromě toho mohli uživatelé vybrat další možnosti formátování, jako je malá a velká písmena a interpunkce, maskování vulgárnost a normalizaci text.In addition, users can choose additional formatting capabilities, like capitalization and punctuation, masking profanity, and text normalization.
  • Podporuje optimalizované výsledky rozpoznávání řeči pro interaktivní, konverzace, a diktování scénáře.Supports optimized speech recognition results for interactive, conversation, and dictation scenarios. Pro scénáře uživatele, které vyžadují vlastní jazyk modely a akustickými modely vlastní řeči služby vám umožní vytvořit řeči modely, které jsou pro aplikaci a uživatele.For user scenarios which require customized language models and acoustic models, Custom Speech Service allows you to create speech models that tailored to your application and your users.
  • V několika dialekty podporují mnoho mluvené jazyky.Support many spoken languages in multiple dialects. Úplný seznam podporovaných jazyků v jednotlivých režimech rozpoznávání najdete v tématu jazyky rozpoznávání.For the full list of supported languages in each recognition mode, see recognition languages.
  • Integrace s znalosti jazyka.Integration with language understanding. Kromě vstupní zvuk převod na text, řeči na Text poskytuje aplikacím další schopností pochopit, co znamená text.Besides converting the input audio into text, the Speech to Text provides applications an additional capability to understand what the text means. Použije jazyk Principy inteligentního Service(LUIS) extrahovat tříd Intent a entity z rozpoznaný text.It uses the Language Understanding Intelligent Service(LUIS) to extract intents and entities from the recognized text.

Další postupNext steps

Převod textu na řeč (řeči souhrnnou)Text to speech (speech synthesis)

Převod textu na řeč rozhraní API REST použijte k převedení strukturovaných textových zvuk datového proudu.Text to Speech APIs use REST to convert structured text to an audio stream. Rozhraní API zadejte převod rychlé převod textu na řeč v různých jazycích a hlasy.The APIs provide fast text to speech conversion in various voices and languages. Kromě toho uživatelé také mít možnost měnit zvuk charakteristiky, jako jsou například výslovnosti, svazek, výška atd.In addition users also have the ability to change audio characteristics like pronunciation, volume, pitch etc. pomocí SSML značky.using SSML tags.

Další postupNext steps