Mi az a szövegfelolvasás?What is text-to-speech?

Fontos

A TLS 1,2 mostantól a szolgáltatáshoz tartozó összes HTTP-kérelem esetében érvénybe lép.TLS 1.2 is now enforced for all HTTP requests to this service. További információ: Azure Cognitive Services Security.For more information, see Azure Cognitive Services security.

A beszédfelismerési szolgáltatás szöveg-beszéd formátuma lehetővé teszi, hogy az alkalmazások, az eszközök vagy az eszközök szöveget alakítsanak át az emberi – például a szintetizált beszédbe.Text-to-speech from the Speech service enables your applications, tools, or devices to convert text into human-like synthesized speech. Válasszon a standard és a neurális hangok közül, vagy hozzon létre egyedi hangvételt a termék vagy a márka számára.Choose from standard and neural voices, or create a custom voice unique to your product or brand. a 75 + standard hangok több mint 45 nyelven és területi beállításban érhetők el, és az 5 neurális hang a kiválasztott számú nyelven és területi beállításban érhető el.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in a select number of languages and locales. A támogatott hangok, nyelvek és területi beállítások teljes listájáért lásd: támogatott nyelvek.For a full list of supported voices, languages, and locales, see supported languages.

Megjegyzés

A Bing Speech 2019. október 15-én lett leszerelve.Bing Speech was decommissioned on October 15, 2019. Ha alkalmazásai, eszközei vagy termékei a Bing Speech API-kat vagy Custom Speech-t használják, a beszédfelismerési szolgáltatásba való Migrálás megkönnyítéséhez útmutatókat hoztunk létre.If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to the Speech service.

Alapvető funkciókCore features

  • Beszédfelismerés – a SPEECH SDK vagy a REST API segítségével normál, neurális vagy egyéni hangok használatával alakíthatja át a szöveg-beszédet.Speech synthesis - Use the Speech SDK or REST API to convert text-to-speech using standard, neural, or custom voices.

  • A hosszú hang aszinkron szintézise – a hosszú hangalapú API használatával aszinkron módon szintetizálhatja a szöveg-beszéd fájlokat 10 percnél hosszabb ideig (például Hangoskönyvek vagy előadások esetén).Asynchronous synthesis of long audio - Use the Long Audio API to asynchronously synthesize text-to-speech files longer than 10 minutes (for example audio books or lectures). A Speech SDK vagy a beszéd – szöveg REST API használatával végrehajtott szintézistől eltérően a válaszokat nem valós időben adja vissza a rendszer.Unlike synthesis performed using the Speech SDK or speech-to-text REST API, responses aren't returned in real time. A várt érték az, hogy a kérelmeket aszinkron módon küldik el, a rendszer lekérdezi a válaszokat, és letölti a szintetizált hangot, amikor elérhetővé válik a szolgáltatásból.The expectation is that requests are sent asynchronously, responses are polled for, and that the synthesized audio is downloaded when made available from the service. Csak az egyéni neurális hangok támogatottak.Only custom neural voices are supported.

  • Standard hangok – statisztikai számszerű szintézis és/vagy összefűzési technikák használatával hozhatók létre.Standard voices - Created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. Ezek a hangok jól érthetőek és természetesek.These voices are highly intelligible and sound natural. Egyszerűen engedélyezheti, hogy alkalmazásai több mint 45 nyelven beszéljenek, számos hanglehetőséggel.You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. Ezek a hangok magas kiejtési pontosságot biztosítanak, beleértve a rövidítések támogatását, a rövidítések, a dátum/idő értelmezését, a telefonokat és egyebeket.These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. A standard hangok teljes listájáért lásd: támogatott nyelvek.For a full list of standard voices, see supported languages.

  • Neurális hangok – a mély neurális hálózatokkal leküzdhető a hagyományos beszédfelismerés korlátai a hangsúlyt és a hanglejtést illetően a beszélt nyelven.Neural voices - Deep neural networks are used to overcome the limits of traditional speech synthesis with regards to stress and intonation in spoken language. A Prosody előrejelzése és a hangszintézis párhuzamosan történik, ami több folyadékot és természetes hangzású kimenetet eredményez.Prosody prediction and voice synthesis are performed simultaneously, which results in more fluid and natural-sounding outputs. A neurális hangokat felhasználhatja az csevegőrobotok-és hangsegédekkel való interakciót természetesebb és vonzó, digitális szövegek, például e-könyvek hangoskönyvekbe való átalakítására és az autós navigációs rendszerek fejlesztésére.Neural voices can be used to make interactions with chatbots and voice assistants more natural and engaging, convert digital texts such as e-books into audiobooks, and enhance in-car navigation systems. Az emberi jellegű természetes prosody és a szavak egyértelmű megfogalmazásával a neurális hangok jelentősen csökkentik a figyelés fáradtságot, amikor az AI-rendszerekkel kommunikál.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems. A neurális hangok teljes listáját lásd: támogatott nyelvek.For a full list of neural voices, see supported languages.

  • Speech szintézis Markup Language (SSML) – XML-alapú leíró nyelv, amely a beszédfelismerési kimenetek testreszabására szolgál.Speech Synthesis Markup Language (SSML) - An XML-based markup language used to customize speech-to-text outputs. A SSML beállíthatja a Pitch, a szüneteltetések hozzáadását, a kiejtés növelését, a sebesség növelését vagy lelassulását, a kötetek növelését és csökkentését, valamint több hang megadását egyetlen dokumentumra.With SSML, you can adjust pitch, add pauses, improve pronunciation, speed up or slow down speaking rate, increase or decrease volume, and attribute multiple voices to a single document. Lásd: SSML.See SSML.

BevezetésGet started

A szöveg-beszéd szolgáltatás a SPEECH SDK-n keresztül érhető el.The text-to-speech service is available via the Speech SDK. Számos gyakori forgatókönyv érhető el, különböző nyelveken és platformokon:There are several common scenarios available as quickstarts, in various languages and platforms:

Ha szeretné, a szöveg és a beszéd közötti szolgáltatás a Rest-on keresztül érhető el.If you prefer, the text-to-speech service is accessible via REST.

MintakódSample code

A szöveg és a beszéd mintája a GitHubon érhető el.Sample code for text-to-speech is available on GitHub. Ezek a minták a legnépszerűbb programozási nyelvek szöveg-beszéd átalakítását fedik le.These samples cover text-to-speech conversion in most popular programming languages.

TestreszabásCustomization

A standard és a neurális hangokon kívül egyéni hangokat is létrehozhat és finomhangolással egyedivé teheti a termékét vagy márkáját.In addition to standard and neural voices, you can create and fine-tune custom voices unique to your product or brand. A kezdéshez mindössze néhány hangfájlt és a hozzá tartozó átírásokat kell használnia.All it takes to get started are a handful of audio files and the associated transcriptions. További információ: Ismerkedés az egyéni hanggalFor more information, see Get started with Custom Voice

Díjszabási MegjegyzésPricing note

A szöveg-beszéd típusú szolgáltatás használatakor a rendszer minden, a beszédre konvertált karakter után számláz, beleértve a központozást is.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. Míg maga a SSML-dokumentum nem számlázható, a szöveg átalakításának módjára, például a fonémák és a Pitch formátumára szolgáló opcionális elemek számlázandó karakternek számítanak.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Az alábbi lista tartalmazza a számlázható tartalmakat:Here's a list of what's billable:

  • A kérelem SSML törzsében a szöveg-beszéd szolgáltatásnak átadott szövegText passed to the text-to-speech service in the SSML body of the request
  • A kérelem törzsének összes jelölése a SSML formátumban, a <speak> és <voice> a címkék kivételévelAll markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • Betűk, írásjelek, szóközök, tabulátorok, jelölések és minden fehér szóközLetters, punctuation, spaces, tabs, markup, and all white-space characters
  • Minden Unicode-ban definiált kód pontEvery code point defined in Unicode

Részletes információkat a díjszabásbantalál.For detailed information, see Pricing.

Fontos

Minden kínai, Japán és koreai nyelvi karakter két karakternek számít a számlázáshoz.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Dokumentációs dokumentumokReference docs

További lépésekNext steps