Mi az a szövegfelolvasás?What is text-to-speech?

Fontos

A TLS 1,2 mostantól a szolgáltatáshoz tartozó összes HTTP-kérelem esetében érvénybe lép.TLS 1.2 is now enforced for all HTTP requests to this service. További információ: Azure Cognitive Services Security.For more information, see Azure Cognitive Services security.

Ebben az áttekintésben megismerheti a szöveg és a beszéd közötti szolgáltatás előnyeit és képességeit, ami lehetővé teszi, hogy alkalmazásai, eszközei vagy eszközei szövegeket alakítsanak ki az emberi, például a szintetizált beszédbe.In this overview, you learn about the benefits and capabilities of the text-to-speech service, which enables your applications, tools, or devices to convert text into human-like synthesized speech. Használjon emberi jellegű neurális hangokat, vagy hozzon létre egyedi hangvételt a termék vagy a márka számára.Use human-like neural voices, or create a custom voice unique to your product or brand. A támogatott hangok, nyelvek és területi beállítások teljes listájáért lásd: támogatott nyelvek.For a full list of supported voices, languages, and locales, see supported languages.

Ez a dokumentáció a következő cikk-típusokat tartalmazza:This documentation contains the following article types:

  • A gyors üzembe helyezési útmutató végigvezeti Önt a szolgáltatásra irányuló kérések lépésein.Quickstarts are getting-started instructions to guide you through making requests to the service.
  • A útmutatók útmutatói a szolgáltatás részletesebb vagy testreszabott módokon történő használatára vonatkozó utasításokat tartalmaznak.How-to guides contain instructions for using the service in more specific or customized ways.
  • A fogalmak részletesen ismertetik a szolgáltatás funkcióit és funkcióit.Concepts provide in-depth explanations of the service functionality and features.
  • Az oktatóanyagok már olyan útmutatók, amelyek bemutatják, hogyan használhatja a szolgáltatást összetevőként a szélesebb körű üzleti megoldásokban.Tutorials are longer guides that show you how to use the service as a component in broader business solutions.

Megjegyzés

A Bing Speech 2019. október 15-én lett leszerelve.Bing Speech was decommissioned on October 15, 2019. Ha alkalmazásai, eszközei vagy termékei a Bing Speech API-kat vagy Custom Speech-t használják, a beszédfelismerési szolgáltatásba való Migrálás megkönnyítéséhez útmutatókat hoztunk létre.If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to the Speech service.

Alapvető funkciókCore features

  • Beszédfelismerés – a SPEECH SDK vagy a REST API segítségével normál, neurális vagy egyéni hangok használatával alakíthatja át a szöveg-beszédet.Speech synthesis - Use the Speech SDK or REST API to convert text-to-speech using standard, neural, or custom voices.

  • A hosszú hang aszinkron szintézise – a hosszú hangalapú API használatával aszinkron módon szintetizálhatja a szöveg-beszéd fájlokat 10 percnél hosszabb ideig (például Hangoskönyvek vagy előadások esetén).Asynchronous synthesis of long audio - Use the Long Audio API to asynchronously synthesize text-to-speech files longer than 10 minutes (for example audio books or lectures). A Speech SDK vagy a beszéd – szöveg REST API használatával végrehajtott szintézistől eltérően a válaszokat nem valós időben adja vissza a rendszer.Unlike synthesis performed using the Speech SDK or speech-to-text REST API, responses aren't returned in real time. A várt érték az, hogy a kérelmeket aszinkron módon küldik el, a rendszer lekérdezi a válaszokat, és letölti a szintetizált hangot, amikor elérhetővé válik a szolgáltatásból.The expectation is that requests are sent asynchronously, responses are polled for, and that the synthesized audio is downloaded when made available from the service. Csak az egyéni neurális hangok támogatottak.Only custom neural voices are supported.

  • Neurális hangok – a mély neurális hálózatok a hagyományos beszédfelismerés korlátainak leküzdésére szolgálnak a hangsúlyt és a hanglejtést illetően.Neural voices - Deep neural networks are used to overcome the limits of traditional speech synthesis with regard to stress and intonation in spoken language. A Prosody előrejelzése és a hangszintézis párhuzamosan történik, ami több folyadékot és természetes hangzású kimenetet eredményez.Prosody prediction and voice synthesis are performed simultaneously, which results in more fluid and natural-sounding outputs. A neurális hangokat felhasználhatja az csevegőrobotok-és hangsegédekkel való interakciót természetesebb és vonzó, digitális szövegek, például e-könyvek hangoskönyvekbe való átalakítására és az autós navigációs rendszerek fejlesztésére.Neural voices can be used to make interactions with chatbots and voice assistants more natural and engaging, convert digital texts such as e-books into audiobooks, and enhance in-car navigation systems. Az emberi jellegű természetes prosody és a szavak egyértelmű megfogalmazásával a neurális hangok jelentősen csökkentik a figyelés fáradtságot, amikor az AI-rendszerekkel kommunikál.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems. A neurális hangok teljes listáját lásd: támogatott nyelvek.For a full list of neural voices, see supported languages.

  • A beszédfelismerési stílusok a SSML-hangszintézis Markup Language (SSML) nyelvvel való beállítása egy XML-alapú Markup-nyelv, amely a beszéd-szöveg kimenetek testreszabására szolgál.Adjust speaking styles with SSML - Speech Synthesis Markup Language (SSML) is an XML-based markup language used to customize speech-to-text outputs. A SSML beállíthatja a Pitch, a szüneteltetések hozzáadását, a kiejtés növelését, a sebesség növelését vagy lelassulását, a kötetek növelését és csökkentését, valamint több hang megadását egyetlen dokumentumra.With SSML, you can adjust pitch, add pauses, improve pronunciation, speed up or slow down speaking rate, increase or decrease volume, and attribute multiple voices to a single document. Lásd: útmutató a beszéd stílusainak módosításához.See the how-to for adjusting speaking styles.

  • Visemes – a Visemes a megfigyelt beszédben jelent meg, beleértve az ajkak, az állkapocs és a nyelv pozícióját, amikor egy adott fonéma hoz létre.Visemes - Visemes are the key poses in observed speech, including the position of the lips, jaw and tongue when producing a particular phoneme. A Visemes erős korrelációt mutat a hang-és fonémák.Visemes have a strong correlation with voices and phonemes. Az viseme-események a Speech SDK-ban való használatával az arc-animálási információk is létrehozhatók, amelyekkel animálható az arcok az ajak-olvasási kommunikáció, az oktatás, a szórakoztatás és az ügyfélszolgálat számára.Using viseme events in Speech SDK, you can generate facial animation data, which can be used to animate faces in lip-reading communication, education, entertainment, and customer service.

Megjegyzés

A Viseme-események jelenleg csak a hang esetében támogatottak en-US-AriaNeural .Viseme events are currently only supported for the en-US-AriaNeural voice.

BevezetésGet started

Tekintse meg az első lépéseket a szöveg és a beszéd megismeréséhez.See the quickstart to get started with text-to-speech. A szöveg-beszéd szolgáltatás a SPEECH SDK, a REST APIés a Speech CLI használatával érhető el.The text-to-speech service is available via the Speech SDK, the REST API, and the Speech CLI

MintakódSample code

A szöveg és a beszéd mintája a GitHubon érhető el.Sample code for text-to-speech is available on GitHub. Ezek a minták a legnépszerűbb programozási nyelvek szöveg-beszéd átalakítását fedik le.These samples cover text-to-speech conversion in most popular programming languages.

TestreszabásCustomization

A neurális hangokon kívül a termékhez vagy a márkához egyedileg egyedi hangokat is létrehozhat és finomhangolást készíthet.In addition to neural voices, you can create and fine-tune custom voices unique to your product or brand. A kezdéshez mindössze néhány hangfájlt és a hozzá tartozó átírásokat kell használnia.All it takes to get started are a handful of audio files and the associated transcriptions. További információ: Ismerkedés az egyéni hanggalFor more information, see Get started with Custom Voice

Díjszabási MegjegyzésPricing note

A szöveg-beszéd típusú szolgáltatás használatakor a rendszer minden, a beszédre konvertált karakter után számláz, beleértve a központozást is.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. Míg maga a SSML-dokumentum nem számlázható, a szöveg átalakításának módjára, például a fonémák és a Pitch formátumára szolgáló opcionális elemek számlázandó karakternek számítanak.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Az alábbi lista tartalmazza a számlázható tartalmakat:Here's a list of what's billable:

  • A kérelem SSML törzsében a szöveg-beszéd szolgáltatásnak átadott szövegText passed to the text-to-speech service in the SSML body of the request
  • A kérelem törzsének összes jelölése a SSML formátumban, a <speak> és a <voice> címkék kivételévelAll markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • Betűk, írásjelek, szóközök, tabulátorok, jelölések és minden fehér szóközLetters, punctuation, spaces, tabs, markup, and all white-space characters
  • Minden Unicode-ban definiált kód pontEvery code point defined in Unicode

Részletes információkat a díjszabásbantalál.For detailed information, see Pricing.

Fontos

Minden kínai, Japán és koreai nyelvi karakter két karakternek számít a számlázáshoz.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Dokumentációs dokumentumokReference docs

Következő lépésekNext steps