Co je pro zpracování řeči Bingu?What is Bing Speech?

Poznámka

Zpracování řeči Bingu, které budou fungovat už od 15. října 2019 nahrazuje nová Speech Service a sady SDK.The new Speech Service and SDK is replacing Bing Speech, which will no longer work starting October 15, 2019. Informace o přepínání Speech Service najdete v tématu migrace z pro zpracování řeči Bingu ve službě řeči.For information on switching to the Speech Service, see Migrating from Bing Speech to the Speech Service.

Založené na cloudu Microsoft Bing Speech API poskytuje vývojářům snadný způsob, jak vytvořit výkonné funkce, které podporou řeči ve svých aplikacích, stejně jako ovládací prvek hlasových příkazů, dialogové okno uživatele pomocí konverzace přirozené řeči a přepis řeči a diktování.The cloud-based Microsoft Bing Speech API provides developers an easy way to create powerful speech-enabled features in their applications, like voice command control, user dialog using natural speech conversation, and speech transcription and dictation. Rozhraní Speech API Microsoft podporuje obě převod řeči na Text a převod textu na řeč převodu.The Microsoft Speech API supports both Speech to Text and Text to Speech conversion.

  • Převod řeči na Text rozhraní API převede lidské řeči na text, který může sloužit jako vstup nebo příkazy pro řízení vaší aplikace.Speech to Text API converts human speech to text that can be used as input or commands to control your application.
  • Převod textu na řeč rozhraní API převede text na zvuk datové proudy, které se dají přehrávat na uživatele vaší aplikace.Text to Speech API converts text to audio streams that can be played back to the user of your application.

Převod řeči na text (rozpoznávání řeči)Speech to text (speech recognition)

Rozhraní API pro rozpoznávání řeči Microsoft transcribes příkaz audiostreamy do textu, který vaše aplikace může zobrazit uživateli nebo adekvátně jako vstup.Microsoft speech recognition API transcribes audio streams into text that your application can display to the user or act upon as command input. Poskytuje dva způsoby, jak vývojářům přidat do svých aplikací pro zpracování řeči: rozhraní REST API nebo ostatní klientské knihovny založené na protokolu Websocket.It provides two ways for developers to add Speech to their apps: REST APIs or Websocket-based client libraries.

  • REST API: vývojáři mohou pomocí protokolu HTTP volání ze svých aplikací do služby pro rozpoznávání řeči.REST APIs: Developers can use HTTP calls from their apps to the service for speech recognition.
  • Klientské knihovny: pro pokročilé funkce, vývojáři mohli stáhnout Microsoft Speech klientských knihoven a propojit do svých aplikací.Client libraries: For advanced features, developers can download Microsoft Speech client libraries, and link into their apps. Klientské knihovny jsou dostupné na různých platformách (Windows, Android, iOS) používající různé jazyky (C#, Java, JavaScript, ObjectiveC).The client libraries are available on various platforms (Windows, Android, iOS) using different languages (C#, Java, JavaScript, ObjectiveC). Na rozdíl od rozhraní REST API využívat klientské knihovny je protokol založený na protokolu Websocket.Unlike the REST APIs, the client libraries utilize Websocket-based protocol.
Případy použitíUse cases Rozhraní REST APIREST APIs Klientské knihovnyClient Libraries
Převést krátké mluvené, například příkazy (s zvuku délka < 15) bez prozatímní výsledkyConvert a short spoken audio, for example, commands (audio length < 15 s) without interim results AnoYes AnoYes
Převod dlouhé zvuku (> 15 s)Convert a long audio (> 15 s) NeNo AnoYes
Zvukový Stream s prozatímní požadované výsledkyStream audio with interim results desired NeNo AnoYes
Vysvětlení text převést z zvuk pomocí služby LUISUnderstand the text converted from audio using LUIS NeNo AnoYes

Podle toho, která vývojářům přístup zvolte (rozhraní REST API nebo klientských knihoven), služba speech Microsoft podporuje následující:Whichever approach developers choose (REST APIs or client libraries), Microsoft speech service supports the following:

  • Pokročilé technologie rozpoznávání řeči od Microsoftu, které jsou používány Cortanu, diktování Office, Office Translator a další produkty společnosti Microsoft.Advanced speech recognition technologies from Microsoft that are used by Cortana, Office Dictation, Office Translator, and other Microsoft products.
  • V reálném čase průběžné rozpoznávání.Real-time continuous recognition. Rozhraní API pro rozpoznávání řeči umožňuje uživatelům přepisy zvuku na text v reálném čase a podporuje pro příjem mezivýsledků slov, která zatím byly rozpoznány.The speech recognition API enables users to transcribe audio into text in real time, and supports to receive the intermediate results of the words that have been recognized so far. Služba speech také podporuje zjišťování end řeči.The speech service also supports end-of-speech detection. Kromě toho moci uživatelé zvolit další možnosti formátování, jako jsou malá a velká písmena a interpunkční znaménka, maskování vulgárních výrazů a normalizace text.In addition, users can choose additional formatting capabilities, like capitalization and punctuation, masking profanity, and text normalization.
  • Podporuje optimalizované výsledky rozpoznávání řeči pro interaktivní, konverzace, a diktování scénáře.Supports optimized speech recognition results for interactive, conversation, and dictation scenarios. Pro uživatelské scénáře, které vyžadují vlastní jazykové modely a akustických modelů Custom Speech Service umožňuje vytvářet modely řeči, které přizpůsobená pro vaši aplikaci a uživatele.For user scenarios which require customized language models and acoustic models, Custom Speech Service allows you to create speech models that tailored to your application and your users.
  • Podporu mnoha jazyků mluvené slovo ve více dialektů.Support many spoken languages in multiple dialects. Úplný seznam podporovaných jazyků v jednotlivých režimech rozpoznávání najdete v tématu rozpoznávání jazyků.For the full list of supported languages in each recognition mode, see recognition languages.
  • Integrace se službou language understanding.Integration with language understanding. Kromě převod vstupního zvuku na text, převod řeči na Text poskytuje aplikacím další schopností pochopit, co znamená text.Besides converting the input audio into text, the Speech to Text provides applications an additional capability to understand what the text means. Používá Language Understanding Intelligent Service(LUIS) extrahovat z textové rozpoznaných záměry a entity.It uses the Language Understanding Intelligent Service(LUIS) to extract intents and entities from the recognized text.

Další postupNext steps

Převod textu na řeč (syntézu řeči)Text to speech (speech synthesis)

Převod textu na řeč rozhraní API pro použití služby REST k převedení strukturovaných textových zvukový datový proud.Text to Speech APIs use REST to convert structured text to an audio stream. Rozhraní API poskytují převod rychlé textu na řeč v různých jazycích a hlasy.The APIs provide fast text to speech conversion in various voices and languages. Kromě toho také mít uživatelé možnost změnit zvukové charakteristiky jako výslovnost, svazek, od atd.In addition users also have the ability to change audio characteristics like pronunciation, volume, pitch etc. pomocí SSML značky.using SSML tags.

Další postupNext steps