Co je neurální převod textu na řeč?

Neurální převod textu na řeč Microsoftu používá hluboké neurální sítě k téměř nerozlišování hlasů počítačů od nahrávek lidí. Díky přirozené prosomii a jasnému vyjádření slov se neurální text na řeč výrazně snižuje únava při naslouchání při interakci se systémy AI.

Vzory zátěže a intonace v mluveném jazyce se nazývají prosody. Tradiční systémy pro převod textu na řeč rozčtou proaktivní analýzu do samostatných kroků lingvistické analýzy a akustických předpovědí, které se řídí nezávislými modely. To může mít za následek tlumenou a běsnící syntézu hlasu. Neurální schopnost převodu textu na řeč od Microsoftu současně predikce a syntézu hlasu prosozuje, používá hluboké neurální sítě k překonání limitů tradičních systémů pro převod textu na řeč při porovnávání vzorů zátěže a intonace v mluveném jazyce a syntetizuje jednotky řeči do počítačového hlasu. Výsledkem je plynulý a přirozeně znějící hlas.

V tomto přehledu se dozvíte o výhodách a možnostech služby převodu textu na řeč, která vašim aplikacím, nástrojům nebo zařízením umožňuje převádět text na syntetizovanou řeč jako člověk. Používejte neurální hlasy, jako jsou lidé, nebo vytvořte vlastní hlas jedinečný pro váš produkt nebo značku. Úplný seznam podporovaných hlasů, jazyků a národního prostředí najdete v tématu podporované jazyky.

Tato dokumentace obsahuje následující typy článku:

  • Rychlé starty jsou úvodní pokyny, které vás provede prováděním požadavků na službu.
  • Návody obsahují pokyny pro použití služby konkrétnějšími nebo přizpůsobenějšími způsoby.
  • Koncepty poskytují podrobné vysvětlení funkcí a funkcí služby.
  • Kurzy jsou delší příručky, které vám ukážou, jak tuto službu používat jako součást v širších obchodních řešeních.

Poznámka

Bing 15. října 2019 se řeč vyřazena z provozu. Pokud vaše aplikace, nástroje nebo produkty používají rozhraní BING Speech API nebo Custom Speech, vytvořili jsme příručky, které vám pomůžou s migrací do služby Speech.

Základní funkce

  • Syntéza řeči – pomocí sady Speech SDK nebo REST API převod textu na řeč pomocí neurálních hlasů platformy nebo vlastních neurálních hlasů.

  • Asynchronní syntéza dlouhého zvuku – pomocí rozhraní Long Audio API můžete asynchronně syntetizovat soubory převodu textu na řeč déle než 10 minut (například zvukové knihy nebo přednášky). Na rozdíl od syntézy prováděné pomocí sady Speech SDK nebo převodu řeči na REST API se odpovědi v reálném čase nevrátily. Očekává se, že požadavky se odesílaly asynchronně, odpovědi se dotazuje a syntetizovaný zvuk se stahuje, když je dostupný ze služby.

  • Neurální hlasy platformy – hluboké neurální sítě slouží k překonání limitů tradiční syntézy řeči s ohledem na zátěž a intonaci v mluveném jazyce. Prosody predikce a syntéza hlasu se provádějí souběžně, což vede k plynulějším a přirozeně znějícím výstupům. Neurální hlasy lze použít k přirozenějším a poutavějším interakcím s chatovacími roboty a hlasovým asistenty, k převodu digitálních textů, jako jsou elektronické knihy, na audiobooky a k vylepšení navigačních systémů v autech. Díky přirozené prosudii, která je podobná člověku, a jasnému vyjádření slov neurální hlasy výrazně snižují únavné naslouchání při interakci se systémy AI. Úplný seznam neurálních hlasů platformy najdete v podporovaných jazycích.

  • Vyladění výstupu TTS pomocí SSML – SSML (Speech Synthesis Markup Language) je jazyk značek založený na jazyce XML, který se používá k přizpůsobení výstupů převodu textu na řeč. SSML vám umožňuje nejen upravit výšku, přidat pozastavení, vylepšit výslovnost, změnit rychlost řeči, upravit objem a připsat více hlasů jednomu dokumentu, ale také definovat vlastní lexikony nebo přepnout na různé styly řeči. S vícejazyčným hlasemmůžete také upravit jazyky pro mluvy přes SSML. Podívejte se, jak pomocí SSML vyladit hlasový výstup pro váš scénář.

  • Visemes – Visemes jsou klíčové pozice ve pozorované řeči, včetně pozice rtů, řídce a rtu při výrobě konkrétního phonemu. Visemes má silnou korelaci s hlasy a phonememi. Pomocí událostí viseme v sadě Speech SDK můžete generovat data animace obličeje, která se používají k animace tváří při komunikaci při čtení, vzdělávání, zábavě a zákaznických služeb. Viseme se v současné době podporuje pouze pro en-US neurální hlasy USA (jazyk).

Začínáme

Pokud chcete začít s převodem textu na řeč, podívejte se na rychlý start. Služba převodu textu na řeč je dostupná prostřednictvím sady Speech SDK, rozhraní REST APIa rozhraní příkazového řádku služby Speech.

Ukázka kódu

Ukázkový kód pro převod textu na řeč je k dispozici na GitHub. Tyto ukázky zahrnují převod textu na řeč v nejoblíbenějších programovacích jazycích.

Přizpůsobení

Kromě neurálních hlasů můžete vytvářet a ladit vlastní hlasy jedinečné pro váš produkt nebo značku. Vše, co je potřeba k tomu, abyste začali, je několik zvukových souborů a přidružených přepisů. Další informace najdete v tématu Začínáme s Vlastní neurální hlas

Poznámka k cenám

Při použití služby převodu textu na řeč se vám účtuje každý znak, který se převede na řeč, včetně interpunkce. I když samotný dokument SSML není fakturovatelný, volitelné prvky, které se používají k úpravě způsobu převodu textu na řeč, jako jsou phonemes a pitch, se počítají jako fakturovatelné znaky. Tady je seznam fakturovatelných položek:

  • Text předaný službě převodu textu na řeč v textu SSML požadavku
  • Všechny značky v textovém poli textu požadavku ve formátu SSML s výjimkou značek <speak> <voice> a
  • Písmena, interpunkce, mezery, tabulátory, značky a všechny prázdné znaky
  • Každý bod kódu definovaný v kódování Unicode

Podrobné informace najdete v tématu Ceny.

Důležité

Každý znak čínštiny, japonštiny a korejštiny se pro fakturaci počítá jako dva znaky.

Migrace na neurální hlas

  1. srpna 2024 vyřazení standardních hlasů z provozu už nebude podporováno.Oznámení bylo odesláno do všech stávajících předplatných služby Speech do 31. srpna 2021. Během období vyřazení (31. srpna 2021–31. srpna 2024) mohou stávající standardní hlasy dál používat své standardní hlasy, měli by se všichni noví uživatelé a nové prostředky řeči přesunout na neurální hlasy.

Požadovaná akce

  1. Zkontrolujte strukturu cen a naslouchejte neurálním hlasovým vzorkům v dolní části stránky, abyste zjistili správný hlas pro potřeby vaší firmy.
  2. Pokud chcete provést změnu, postupujte podle vzorového kódu a do 31. srpna 2024 aktualizujte název hlasu v žádosti o syntézu řeči na podporované názvy neurálních hlasů ve vybraných jazycích. Od 1. září 2024 už nebudou podporované standardní hlasy. Pro svou žádost o syntézu řeči, ať už v cloudu nebo v premu, používejte neurální hlasy. V případě neurálního kontejneru použijte kontejnery neurálního hlasu a postupujte podle pokynů.

Referenční dokumenty

Další kroky