Co je převod textu na řeč?What is text-to-speech?

Důležité

Pro všechny požadavky HTTP na tuto službu se teď vynutilo TLS 1,2.TLS 1.2 is now enforced for all HTTP requests to this service. Další informace najdete v tématu zabezpečení Azure Cognitive Services.For more information, see Azure Cognitive Services security.

V tomto přehledu se dozvíte o výhodách a funkcích služby převod textu na řeč, která umožňuje vašim aplikacím, nástrojům a zařízením převádět text na syntetizované rozpoznávání řeči typu člověk.In this overview, you learn about the benefits and capabilities of the text-to-speech service, which enables your applications, tools, or devices to convert text into human-like synthesized speech. Používejte hlasy neuronové, nebo si vytvořte vlastní hlas jedinečný pro svůj produkt nebo značku.Use human-like neural voices, or create a custom voice unique to your product or brand. Úplný seznam podporovaných hlasů, jazyků a národních prostředí najdete v tématu podporované jazyky.For a full list of supported voices, languages, and locales, see supported languages.

Tato dokumentace obsahuje následující typy článků:This documentation contains the following article types:

 • Rychlé starty jsou pokyny Začínáme, které vám pomohou při provádění požadavků na službu.Quickstarts are getting-started instructions to guide you through making requests to the service.
 • Návody obsahují pokyny k používání služby v konkrétnějším nebo přizpůsobeném způsobu.How-to guides contain instructions for using the service in more specific or customized ways.
 • Koncepty poskytují podrobné vysvětlení funkcí a funkcí služby.Concepts provide in-depth explanations of the service functionality and features.
 • Kurzy jsou delší než příručky, které ukazují, jak používat službu jako součást v širších obchodních řešeních.Tutorials are longer guides that show you how to use the service as a component in broader business solutions.

Poznámka

Zpracování řeči Bingu byl vyvyřazen z 15. října 2019.Bing Speech was decommissioned on October 15, 2019. Pokud vaše aplikace, nástroje nebo produkty používají Zpracování řeči Bingu rozhraní API nebo Custom Speech, vytvořili jsme příručky, které vám pomůžou s migrací na službu Speech.If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to the Speech service.

Základní funkceCore features

 • Syntéza řeči – pomocí sady Speech SDK nebo REST API můžete převést převod textu na řeč pomocí standardních, neuronové nebo vlastních hlasů.Speech synthesis - Use the Speech SDK or REST API to convert text-to-speech using standard, neural, or custom voices.

 • Asynchronní syntéza dlouhého zvuku – používá rozhraní API dlouhého zvukového rozhraní k asynchronnímu syntetizování souborů přemluveného textu na řeč delší než 10 minut (například zvukové knihy nebo přednášky).Asynchronous synthesis of long audio - Use the Long Audio API to asynchronously synthesize text-to-speech files longer than 10 minutes (for example audio books or lectures). Na rozdíl od syntézy prováděné pomocí sady Speech SDK nebo řeči-text REST API nevrátí odpovědi v reálném čase.Unlike synthesis performed using the Speech SDK or speech-to-text REST API, responses aren't returned in real time. Očekává se, že se požadavky odesílají asynchronně, odpovědi se dotazují na a že se při zpřístupnění ze služby stáhne syntetizované zvuky.The expectation is that requests are sent asynchronously, responses are polled for, and that the synthesized audio is downloaded when made available from the service. Jsou podporovány pouze vlastní hlasy neuronové.Only custom neural voices are supported.

 • Neuronové hlasy – špičkové sítě neuronové se používají k překonání limitů tradiční syntézy řeči s ohledem na zátěž a nevyužití v mluveném jazyce.Neural voices - Deep neural networks are used to overcome the limits of traditional speech synthesis with regard to stress and intonation in spoken language. Prosody předpověď a Hlasová syntéza se provádí současně, což vede k více kapalinovým a přirozeným výstupům.Prosody prediction and voice synthesis are performed simultaneously, which results in more fluid and natural-sounding outputs. Hlasy neuronové se dají použít k zajištění většího přirozeného a poutavého působení chatovacích robotů o a hlasových asistentů, převodu digitálních textů, jako jsou například e-knihy na audiobooks, a k vylepšení navigačních systémů v klecích.Neural voices can be used to make interactions with chatbots and voice assistants more natural and engaging, convert digital texts such as e-books into audiobooks, and enhance in-car navigation systems. V případě přirozeného Prosody jako přirozeného a jasného kloubování slov, neuronové hlasy významně omezují naslouchat únavu při interakci se systémy AI.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems. Úplný seznam hlasů pro neuronové najdete v tématu podporované jazyky.For a full list of neural voices, see supported languages.

 • Upravit styly speaking pomocí jazyka SSML-Speech syntézy (SSML) je značkovací jazyk založený na jazyce XML, který slouží k přizpůsobení výstupů řeči na text.Adjust speaking styles with SSML - Speech Synthesis Markup Language (SSML) is an XML-based markup language used to customize speech-to-text outputs. Pomocí SSML můžete upravit rozteč, přidat pauzy, zlepšit výslovnost, zrychlit nebo zpomalit rychlost řeči, zvýšit nebo snížit objem a zadat u jednoho dokumentu více hlasů.With SSML, you can adjust pitch, add pauses, improve pronunciation, speed up or slow down speaking rate, increase or decrease volume, and attribute multiple voices to a single document. Další informace najdete v tématu postup pro úpravu stylu speaking.See the how-to for adjusting speaking styles.

 • Visemes- visemes jsou klíčovým výsledkem pozorovaného hlasu, včetně pozice sad LIP, vidlice a jazyka při vytváření konkrétního foném.Visemes - Visemes are the key poses in observed speech, including the position of the lips, jaw and tongue when producing a particular phoneme. Visemes mají silnou korelaci s hlasy a fonémy.Visemes have a strong correlation with voices and phonemes. Pomocí událostí viseme v sadě Speech SDK můžete vygenerovat data animace obličeje, která se dají použít k animování plošek v oblasti komunikace, vzdělávání, zábavy a zákaznických služeb v sadě LIP.Using viseme events in Speech SDK, you can generate facial animation data, which can be used to animate faces in lip-reading communication, education, entertainment, and customer service.

Poznámka

Události viseme se v tuto chvíli podporují jenom pro en-US-AriaNeural hlasový vstup.Viseme events are currently only supported for the en-US-AriaNeural voice.

ZačínámeGet started

Pokud chcete začít používat převod textu na řeč, Projděte si rychlý Start .See the quickstart to get started with text-to-speech. Služba převod textu na řeč je k dispozici prostřednictvím sady Speech SDK, REST APIa rozhraní příkazového řádku pro rozpoznávání řečiThe text-to-speech service is available via the Speech SDK, the REST API, and the Speech CLI

Ukázka kóduSample code

Vzorový kód pro převod textu na řeč je k dispozici na GitHubu.Sample code for text-to-speech is available on GitHub. Tyto ukázky překrývají převod textu na řeč v nejoblíbenějších programovacích jazycích.These samples cover text-to-speech conversion in most popular programming languages.

PřizpůsobeníCustomization

Kromě hlasů neuronové můžete vytvářet a doladit vlastní hlasy, které jsou pro váš produkt nebo značku jedinečné.In addition to neural voices, you can create and fine-tune custom voices unique to your product or brand. Vše, co vše trvá, je několik zvukových souborů a přidružených přepisů.All it takes to get started are a handful of audio files and the associated transcriptions. Další informace najdete v tématu Začínáme s vlastním hlasem .For more information, see Get started with Custom Voice

Poznámka k ceněPricing note

Při použití služby převod textu na řeč se vám bude účtovat každý znak, který se převede na řeč, včetně interpunkce.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. I když samotný dokument SSML není fakturovatelný, volitelné prvky, které slouží k úpravě způsobu převodu textu na řeč, jako je fonémy a rozteč, se počítají jako Fakturovatelné znaky.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Tady je seznam toho, co je Fakturovatelné:Here's a list of what's billable:

 • Text předaný do služby převodu textu na řeč v SSML textu žádostiText passed to the text-to-speech service in the SSML body of the request
 • Všechny značky v textovém poli textu žádosti ve formátu SSML, s výjimkou <speak> <voice> značek aAll markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
 • Písmena, interpunkční znaménka, mezery, tabulátory, značky a všechny prázdné znakyLetters, punctuation, spaces, tabs, markup, and all white-space characters
 • Každý bod kódu definovaný v kódování UnicodeEvery code point defined in Unicode

Podrobné informace najdete v tématu ceny.For detailed information, see Pricing.

Důležité

Každý čínský, japonský a korejský znak jazyka se počítá jako dva znaky pro účely fakturace.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Referenční dokumentyReference docs

Další krokyNext steps