Co je převod řeči na text?
V tomto přehledu se dozvíte o výhodách a možnostech služby převodu řeči na text. Převod řeči na text, označovaný také jako rozpoznávání řeči, umožňuje přepis zvukových streamů do textu v reálném čase. Aplikace, nástroje nebo zařízení mohou tento text využívat, zobrazovat a jako vstup příkazu s tímto textem jednat. Tato služba využívá stejnou technologii rozpoznávání, kterou Microsoft používá pro Cortana a Office produktů. Bezproblémově funguje s nabídkami služby překladu a převodu textu na řeč. Úplný seznam dostupných jazyků pro převod řeči na text najdete v tématu podporované jazyky.
Služba převodu řeči na text ve výchozím nastavení používá univerzální jazykový model. Tento model byl vytrénován pomocí dat vlastněných Microsoftem a nasazený v cloudu. Je optimální pro scénáře konverzace a diktování. Při použití převodu řeči na text pro rozpoznávání a přepis v jedinečném prostředí můžete vytvářet a trénovat vlastní akustické, jazykové a výslovné modely. Přizpůsobení je užitečné pro řešení okolního šumu nebo slovní zásoby specifické pro konkrétní odvětví.
Tato dokumentace obsahuje následující typy článku:
- Rychlé starty jsou úvodní pokyny, které vás provede prováděním požadavků na službu.
- Návody obsahují pokyny pro použití služby konkrétnějšími nebo přizpůsobenějšími způsoby.
- Koncepty poskytují podrobné vysvětlení funkcí a funkcí služby.
- Kurzy jsou delší příručky, které vám ukážou, jak tuto službu používat jako součást v širších obchodních řešeních.
Poznámka
Bing Speech bylo 15. října 2019 vyřazeno z provozu. Pokud vaše aplikace, nástroje nebo produkty používají rozhraní API Bing Speech, vytvořili jsme příručky, které vám pomůžou s migrací do služby Speech.
Začínáme
Pokud chcete začít s převodem řeči na text, podívejte se na rychlý start. Služba je dostupná prostřednictvím sady Speech SDK, rozhraní REST APIa rozhraní příkazového řádku služby Speech.
Ukázka kódu
Ukázkový kód pro sadu Speech SDK je k dispozici na GitHub. Tyto ukázky popisují běžné scénáře, jako je čtení zvuku ze souboru nebo streamu, průběžné rozpoznávání a rozpoznávání na začátku a práce s vlastními modely.
- Ukázky převodu řeči na text (SDK)
- Ukázky dávkového přepisu (REST)
- Ukázky posouzení výslovnosti (REST)
Přizpůsobení
Kromě standardního modelu služby Speech můžete vytvářet vlastní modely. Přizpůsobení pomáhá překonat překážky rozpoznávání řeči, jako je styl řeči, slovní zásoba a šum na pozadí, najdete v tématu Custom Speech. Možnosti přizpůsobení se liší podle jazyka nebo národního prostředí. Pokud chcete ověřit podporu, podívejte se na podporované jazyky.
Dávkový přepis
Dávkový přepis je sada REST API operací, které umožňují přepis velkého množství zvuku v úložišti. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu. Další informace o použití rozhraní API pro dávkový přepis najdete v návodu.
Referenční dokumenty
Služba rozpoznávání řeči poskytuje dvě sady SDK. První sada SDK je primární sada Speech SDK a poskytuje většinu funkcí potřebných pro interakci se službou Speech. Druhá sada SDK je specifická pro zařízení, která se vhodně jmenuje sada Speech Devices SDK. Obě sady SDK jsou k dispozici v mnoha jazycích.
Referenční dokumentace sady Speech SDK
V následujícím seznamu najdete vhodné referenční dokumentace sady Speech SDK:
Tip
Sada SDK služby Speech je aktivně udržovaná a aktualizovaná. Chcete-li sledovat změny, aktualizace a doplňky funkcí najdete v poznámkách k verzi sady Speech SDK.
Referenční dokumentace sady Speech Devices SDK
Sada Speech Devices SDK je nadmnožinou sady Speech SDK s rozšířenými funkcemi pro konkrétní zařízení. Pokud si chcete stáhnout sadu Speech SDK pro zařízení, musíte nejdřív zvolit vývojovou sadu.
Odkazy na REST API
Odkazy na různá rozhraní REST API služby Speech Service najdete v následujícím seznamu:
- Rozhraní REST API: Převod řeči na text
- REST API: posouzení výslovnosti
- Rozhraní REST API: Převod textu na řeč
- REST API: přepis a přizpůsobení Batch