Wat is tekst-naar-spraak?What is text-to-speech?

Tekst-naar-spraak van Azure speech Services is een service waarmee u uw toepassingen, hulpprogram ma's of apparaten tekst kunt converteren naar natuurlijke menselijke-achtige, gesynthesizerde spraak.Text-to-speech from Azure Speech Services is a service that enables your applications, tools, or devices to convert text into natural human-like synthesized speech. Kies uit standaard-en Neural stemmen of maak uw eigen aangepaste spraak die uniek is voor uw product of merk.Choose from standard and neural voices, or create your own custom voice unique to your product or brand. 75 + standaard stemmen zijn verkrijgbaar in meer dan 45 talen en land instellingen en vijf Neural stemmen zijn beschikbaar in vier talen en land instellingen.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in 4 languages and locales. Zie ondersteunde talenvoor een volledige lijst.For a full list, see supported languages.

Met de tekst-naar-spraak-technologie kunnen makers van inhoud op verschillende manieren communiceren met hun gebruikers.Text-to-speech technology allows content creators to interact with their users in different ways. Tekst-naar-spraak kan de toegankelijkheid verbeteren door gebruikers de mogelijkheid te bieden om te communiceren met inhoud audibly.Text-to-speech can improve accessibility by providing users with an option to interact with content audibly. Of de gebruiker een visuele waardevermindering, een leer bare handicap of navigatie-informatie vereist tijdens het besturings element, tekst-naar-spraak, een bestaande ervaring kan verbeteren.Whether the user has a visual impairment, a learning disability, or requires navigation information while driving, text-to-speech can improve an existing experience. Tekst-naar-spraak is ook een waardevolle invoeg toepassing voor spraak bots en spraak assistenten.Text-to-speech is also a valuable add-on for voice bots and voice assistants.

Door gebruik te maken van SSML (Speech synthese Markup Language), een op XML gebaseerde Markup-taal, kunnen ontwikkel aars die de tekst naar spraak-service gebruiken, opgeven hoe invoer tekst wordt omgezet in gesynthesizerde spraak.By leveraging Speech Synthesis Markup Language (SSML), an XML-based markup language, developers using the text-to-speech service can specify how input text is converted into synthesized speech. Met SSML kunt u de hoogte, de uitspraak, de spreek snelheid, het volume en meer aanpassen.With SSML, you can adjust pitch, pronunciation, speaking rate, volume, and more. Zie SSMLvoor meer informatie.For more information, see SSML.

Standaard stemmenStandard voices

Standaard stemmen worden gemaakt met behulp van statistische parametrische synthese en/of samenvoeg synthese technieken.Standard voices are created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. Deze stemmen zijn zeer begrijpelijk en klinkt natuurlijk.These voices are highly intelligible and sound natural. U kunt uw toepassingen eenvoudig laten spreken in meer dan 45 talen, met een breed scala aan spraak opties.You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. Deze stemmen bieden een hoge nauw keurigheid van de uitspraak, inclusief ondersteuning voor afkortingen, acroniem uitbrei dingen, datum-en tijd interpretaties, telefoons en meer.These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. Gebruik standaard stem om de toegankelijkheid van uw toepassingen en services te verbeteren door gebruikers toe te staan te communiceren met uw inhouds audibly.Use standard voice to improve accessibility for your applications and services by allowing users to interact with your content audibly.

Neural stemmenNeural voices

Neural stemmen gebruiken diepe Neural-netwerken om de limieten van traditionele tekst-naar-spraak-systemen te verruimen in het vergelijken van de patronen van stress en intonation in gesp roken taal en bij het samen werken aan de spraak eenheden in een computer spraak.Neural voices use deep neural networks to overcome the limits of traditional text-to-speech systems in matching the patterns of stress and intonation in spoken language, and in synthesizing the units of speech into a computer voice. Standaard tekst-naar-spraak onderbreekt prosody in afzonderlijke linguĂŻstische analyse en akoestische Voorspellings stappen die worden geregeld door onafhankelijke modellen, wat kan leiden tot muffled-spraak synthese.Standard text-to-speech breaks down prosody into separate linguistic analysis and acoustic prediction steps that are governed by independent models, which can result in muffled voice synthesis. Onze Neural-functie biedt prosody voor spellingen en spraak synthese, wat leidt tot een meer vloeistof-en natuurlijk-geluids spraak.Our neural capability does prosody prediction and voice synthesis simultaneously, which results in a more fluid and natural-sounding voice.

Neural stemmen kunnen worden gebruikt om interacties te maken met chat bots uitbreiden en spraak assistenten die natuurlijk en aantrekkelijker zijn, en om digitale teksten, zoals e-books, te converteren naar Audiobooks en in-car navigatie systemen te verbeteren.Neural voices can be used to make interactions with chatbots and voice assistants more natural and engaging, convert digital texts such as e-books into audiobooks and enhance in-car navigation systems. Met het menselijke net zoals natuurlijke prosody en heldere afbakening van woorden, verlaagt Neural stemmen veel luister intensief wanneer u met AI-systemen communiceert.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems.

Neural stemmen ondersteunen verschillende stijlen, zoals Neutral en cheerful.Neural voices support different styles, such as neutral and cheerful. Zo kan de Jessa (en-US) Voice cheerfully spreken, die is geoptimaliseerd voor warme, blije gesprek.For example, the Jessa (en-US) voice can speak cheerfully, which is optimized for warm, happy conversation. U kunt de spraak uitvoer aanpassen, zoals Toon, Toon hoogte en snelheid, met behulp van de taal voor het opmaken van spraak synthese.You can adjust the voice output, like tone, pitch, and speed using Speech Synthesis Markup Language. Zie ondersteunde talenvoor een volledige lijst met beschik bare stemmen.For a full list of available voices, see supported languages.

Ga voor meer informatie over de voor delen van Neural stemmen naar de nieuwe Neural-tekst naar-speech-service van micro soft, waarmee computers kunnen spreken zoals mensen.To learn more about the benefits of neural voices, see Microsoft’s new neural text-to-speech service helps machines speak like people.

Aangepaste stemmenCustom voices

Met stem aanpassing kunt u een herken bare, eenzijdige stem voor uw merk maken.Voice customization lets you create a recognizable, one-of-a-kind voice for your brand. Als u uw aangepaste spraak letter type wilt maken, maakt u een studio-opname en uploadt u de bijbehorende scripts als de trainings gegevens.To create your custom voice font, you make a studio recording and upload the associated scripts as the training data. De service maakt vervolgens een uniek spraak model dat is afgestemd op uw opname.The service then creates a unique voice model tuned to your recording. U kunt dit aangepaste spraak lettertype gebruiken om spraak te vervormen.You can use this custom voice font to synthesize speech. Zie aangepaste stemmenvoor meer informatie.For more information, see custom voices.

Speech Synthesis Markup Language (SSML)Speech Synthesis Markup Language (SSML)

SSML (Speech synthese Markup Language) is een op XML gebaseerde Markup-taal waarmee ontwikkel aars kunnen opgeven hoe invoer tekst wordt omgezet in gesynthesizerde spraak met behulp van de tekst-naar-spraak-service.Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. Vergeleken met onbewerkte tekst kunnen ontwikkel aars met SSML de hoogte, de uitspraak, de spreek snelheid, het volume en meer van de tekst-naar-spraak-uitvoer nauw keuriger instellen.Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. Normale Lees tekens, zoals het onderbreken na een periode, of het gebruik van de juiste intonation wanneer een zin eindigt met een vraag teken, worden automatisch afgehandeld.Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

Alle tekst invoer die wordt verzonden naar de service tekst naar spraak moet zijn gestructureerd als SSML.All text inputs sent to the text-to-speech service must be structured as SSML. Zie voor meer informatie taal voor opmaak van spraak synthese.For more information, see Speech Synthesis Markup Language.

Prijs notitiePricing note

Wanneer u de service tekst naar spraak gebruikt, wordt u gefactureerd voor elk teken dat naar spraak wordt geconverteerd, inclusief Lees tekens.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. Hoewel het SSML-document zelf niet factureerbaar is, worden optionele elementen die worden gebruikt voor het aanpassen van de manier waarop de tekst naar spraak wordt geconverteerd, zoals fonemen en pitch, geteld als factureer bare tekens.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Hier volgt een lijst met wat factureerbaar is:Here's a list of what's billable:

  • Tekst die wordt door gegeven aan de service tekst naar spraak in de SSML-hoofd tekst van de aanvraagText passed to the text-to-speech service in the SSML body of the request
  • Alle aantekeningen in het tekst veld van de aanvraag tekst in de SSML-indeling, met uitzonde ring van <speak>-en <voice>-TagsAll markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • Letters, lees tekens, spaties, tabs, opmaak en alle spatie tekensLetters, punctuation, spaces, tabs, markup, and all white-space characters
  • Elk code punt dat in Unicode is gedefinieerdEvery code point defined in Unicode

Zie prijzenvoor gedetailleerde informatie.For detailed information, see Pricing.

Belangrijk

Elk Chinees, Japans en Koreaans teken worden als twee tekens beschouwd voor facturering.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Kern functiesCore features

In deze tabel worden de belangrijkste functies voor tekst naar spraak weer gegeven:This table lists the core features for text-to-speech:

ToepassingUse case SDKSDK RESTREST
Zet tekst om in spraak.Convert text to speech. JaYes JaYes
Upload gegevens sets voor stem aanpassing.Upload datasets for voice adaptation. NeeNo Ja*Yes*
Spraak lettertype modellen maken en beheren.Create and manage voice font models. NeeNo Ja*Yes*
Implementaties van spraak lettertype maken en beheren.Create and manage voice font deployments. NeeNo Ja*Yes*
Stem lettertype testen maken en beheren.Create and manage voice font tests. NeeNo Ja*Yes*
Abonnementen beheren.Manage subscriptions. NeeNo Ja*Yes*

*deze services zijn beschikbaar via het CRIS.ai-eind punt. Zie Swagger-verwijzing. Deze aangepaste spraak training en beheer-Api's implementeren beperking waarbij aanvragen worden beperkt tot 25 per vijf seconden, terwijl de spraakherkennings-API zelf de beperking implementeert, waardoor er Maxi maal 200 aanvragen per seconde worden toegestaan. Wanneer er een beperking optreedt, wordt u gewaarschuwd via bericht headers.*These services are available using the cris.ai endpoint. See Swagger reference. These custom voice training and management APIs implement throttling that limits requests to 25 per 5 seconds, while the speech synthesis API itself implements throttling that allows 200 requests per second as the highest. When throttling occurs, you'll be notified via message headers.

Aan de slag met tekst-naar-spraakGet started with text to speech

We bieden Quick starts die zijn ontworpen om code in minder dan 10 minuten uit te voeren.We offer quickstarts designed to have you running code in less than 10 minutes. Deze tabel bevat een lijst met Quick starts voor tekst naar spraak, geordend op taal.This table includes a list of text-to-speech quickstarts organized by language.

SDK-Quick startsSDK quickstarts

Quick Start (SDK)Quickstart (SDK) PlatformPlatform API-naslaginformatieAPI Reference
C#, .NET CoreC#, .NET Core WindowsWindows DoorBrowse
C#.NET FrameworkC#, .NET Framework WindowsWindows DoorBrowse
C#, UWPC#, UWP WindowsWindows DoorBrowse
C#, EenheidC#, Unity Windows, AndroidWindows, Android DoorBrowse
C++C++ WindowsWindows DoorBrowse
C++C++ LinuxLinux DoorBrowse
JavaJava Windows, Linux, macOSWindows, Linux, macOS DoorBrowse
JavaJava AndroidAndroid DoorBrowse
Objective-CObjective-C macOSmacOS DoorBrowse
Objective-CObjective-C iOSiOS DoorBrowse
Swift (~/articles/Cognitive-Services/Speech-Service/QuickStarts/text-to-speech-langs/Swift-MacOS.MD[Swift](~/articles/cognitive-services/speech-service/quickstarts/text-to-speech-langs/swift-macos.md macOSmacOS DoorBrowse
SwiftSwift iOSiOS DoorBrowse
PythonPython Window, Linux, macOSWindow, Linux, macOS DoorBrowse

REST-Quick startsREST quickstarts

Snelstartgids (REST)Quickstart (REST) PlatformPlatform API-verwijzingAPI reference
C#, .NET CoreC#, .NET Core Windows, macOS, LinuxWindows, macOS, Linux DoorBrowse
Node.jsNode.js Venster, macOS, LinuxWindow, macOS, Linux DoorBrowse
PythonPython Venster, macOS, LinuxWindow, macOS, Linux DoorBrowse

VoorbeeldcodeSample code

Voorbeeld code voor tekst-naar-spraak is beschikbaar op GitHub.Sample code for text-to-speech is available on GitHub. Deze voor beelden hebben betrekking op conversie van tekst naar spraak in de populairste programmeer talen.These samples cover text-to-speech conversion in most popular programming languages.

ReferentiedocumentenReference docs

Volgende stappenNext steps