Wat is tekst-naar-spraak?

In dit overzicht krijgt u informatie over de voordelen en mogelijkheden van de Text-to-Speech-service, waarmee uw toepassingen, hulpprogramma's of apparaten tekst kunnen converteren naar menselijke, gesynthetiseerde spraak. Gebruik gebruik van vooraf gemaakte menselijke, vooraf gemaakte neurale stemmen, of maak een aangepaste neurale stem die uniek is voor uw product of merk. Zie Ondersteunde talen voor een volledige lijst met ondersteunde stemmen, talen en talen.

Notitie

Bing Speech is buiten gebruik gesteld op 15 oktober 2019. Als uw toepassingen, hulpprogramma's of producten gebruikmaken van de Bing Speech-API's of Custom Speech, zie Migrate from Bing Speech to the Speech service (Migreren van Bing Speech naar de Speech-service).

Kernfuncties

De Text-to-Speech-service bevat de volgende functies.

Functie Samenvatting Demo
Vooraf gebouwde Neural Voice (neurale genoemd op de pagina met prijzen) Uiterst natuurlijke out-of-the-box-stemmen powered by deep neural networks. Maak een Azure-account en speechserviceabonnement, gebruik vervolgens de Speech SDK of ga naar de Speech Studio-portalen selecteer vooraf gebouwde neurale stemmen om aan de slag te gaan. Ga naar de pagina met prijzen en controleer de prijsgegevens. Controleer hier de stemvoorbeelden en bepaal de juiste stem voor uw bedrijfsbehoeften.
Aangepaste neurale stem (aangepaste neurale neurale genoemd op de pagina met prijzen) Eenvoudig te gebruiken selfservice voor het maken van een natuurlijke merkstem, met beperkte toegang voor verantwoord gebruik. Maak een Azure-account en speech-serviceabonnement (met S0-laag) en pas deze toe om aangepaste neurale functies te gebruiken. Nadat u toegang hebt gekregen, gaat u naar Speech Studio portal en selecteert u Custom Voice om aan de slag te gaan. Ga naar de pagina met prijzen en controleer de prijsgegevens. Controleer hier de stemvoorbeelden.

Meer informatie over neurale functies voor tekst-naar-spraak

Tekst-naar-spraak (TTS), ook wel spraaksynthese genoemd, stelt uw toepassingen in staat om te spreken. De text-to-speech-functie van de Speech-service in Azure is volledig bijgewerkt naar de neurale TTS-engine, die gebruikmaakt van deep neurale netwerken om de stemmen van computers bijna niet te onderscheiden van de opnamen van mensen. Dankzij de menselijke, natuurlijke prosody en duidelijke uiting van woorden, is het luisteren van neurale tekst naar spraak aanzienlijk verminderd wanneer u met AI-systemen communiceert.

De patronen van stress en intonatie in gesproken taal worden prosody genoemd. Traditionele tekst-naar-spraak-systemen delen prosody op in afzonderlijke taalkundige analyse- en akoestische voorspellingsstappen die worden beheerd door onafhankelijke modellen. Dit kan resulteren in gedempte, geroeste spraaksynthese. Neurale tekst-naar-spraak-mogelijkheden van Microsoft doen prosodyvoorspelling en spraaksynthese tegelijkertijd, gebruiken deep neurale netwerken om de limieten van traditionele tekst-naar-spraak-systemen te overwinnen bij het afstemmen van de patronen van stress en intonatie in gesproken taal, en synthetiseert de eenheden van spraak in een computerstem. Het resultaat is een meer vloeiende en natuurlijk klinkende stem.

  • Realtime spraaksynthese: gebruik de Speech SDK of REST API om tekst naar spraak te converteren met behulp van vooraf gemaakte neurale stemmen of aangepaste neurale stemmen.

  • Asynchrone synthese van lange audio: gebruik de API voor lange audio om tekst-naar-spraak-bestanden asynchroon te synthetiseren langer dan 10 minuten (bijvoorbeeld audioboeken of presentaties). In tegenstelling tot synthese uitgevoerd met behulp van de Speech-SDK of spraak-naar-REST API, worden antwoorden niet in realtime geretourneerd. De verwachting is dat aanvragen asynchroon worden verzonden, antwoorden worden gepeild en dat de gesynthetiseerde audio wordt gedownload wanneer deze beschikbaar wordt gesteld vanuit de service.

  • Vooraf gebouwde neurale stemmen: diepe neurale netwerken worden gebruikt om de limieten van traditionele spraaksynthese te overwinnen met betrekking tot stress en intonatie in gesproken taal. Prosodyvoorspelling en spraaksynthese worden gelijktijdig uitgevoerd, wat resulteert in vloeiende en natuurlijk klinkende uitvoer. Neurale stemmen kunnen worden gebruikt om interacties met chatbots en spraakassistenten natuurlijker en aantrekkelijker te maken, digitale teksten zoals e-books te converteren naar audioboeken en navigatiesystemen in de auto te verbeteren. Met de menselijke, natuurlijke prosody en duidelijke afsteming van woorden verminderen neurale stemmen de luisterende last bij interactie met AI-systemen aanzienlijk. Zie Ondersteunde talen voor een volledige lijst met neurale platformstemmen.

  • Tekst-naar-spraak-uitvoer afstemmen met SSML - Speech Synthesis Markup Language (SSML) is een op XML gebaseerde markuptaal die wordt gebruikt om tekst-naar-spraak-uitvoer aan te passen. Met SSML kunt u niet alleen toonhoogte aanpassen, pauzes toevoegen, uitspraak verbeteren, de spreeksnelheid wijzigen, volume aanpassen en meerdere stemmen aan één document toeschrijven, maar ook uw eigen woordenconsen definiëren of overschakelen naar verschillende spreekstijlen. Met de meertalige stemmen kuntu ook de spreektalen aanpassen via SSML. Bekijk hoe u SSML gebruikt om de spraakuitvoer voor uw scenario af te stemmen.

  • Visemes: Visemes vormen de belangrijkste houdingen in waargenomen spraak, met inbegrip van de positie van de thee, de ogen en de ogen bij het produceren van een bepaald telefoonnummer. Visemes hebben een sterke correlatie met stemmen en phonemes. Met behulp van viseme-gebeurtenissen in speech-SDK kunt u gezichts animatiegegevens genereren, die kunnen worden gebruikt om gezichten te animateren in communicatie, onderwijs, entertainment en klantenservice. Viseme wordt momenteel alleen ondersteund voor de en-US Engelse (Verenigde Staten) en-US

Notitie

De traditionele/standaardstemmen en niet-neurale aangepaste stem worden buiten gebruik genomen en worden in 2024 niet meer ondersteund. Als uw toepassingen, hulpprogramma's of producten gebruikmaken van een van de standaardstemmen en aangepaste stemmen, hebben we handleidingen gemaakt om u te helpen migreren naar de neurale versie.

Aan de slag

Zie de snelstart om aan de slag te gaan met Tekst naar spraak. De Text-to-Speech-service is beschikbaar via de Speech SDK,de REST APIen de Speech CLI

Voorbeeldcode

Voorbeeldcode voor Tekst-naar-spraak is beschikbaar op GitHub. Deze voorbeelden hebben betrekking op de conversie van tekst naar spraak in de populairste programmeertalen.

Aangepaste neurale stem

Naast vooraf gemaakte neurale stemmen kunt u aangepaste neurale stemmen maken en afstemmen die uniek zijn voor uw product of merk. U hebt alleen maar een aantal audiobestanden en de bijbehorende transcripties nodig om aan de slag te gaan. Zie Aan de slag met aangepaste neurale spraak voor meer informatie

Prijsinformatie

Wanneer u de Text-to-Speech-service gebruikt, wordt u gefactureerd voor elk teken dat wordt geconverteerd naar spraak, inclusief leestekens. Hoewel het SSML-document zelf niet factureerbaar is, worden optionele elementen die worden gebruikt om aan te passen hoe de tekst wordt geconverteerd naar spraak, zoals telefoon en toonhoogte, geteld als factureerbare tekens. Hier is een lijst met factureerbare kosten:

  • Tekst die wordt doorgegeven aan de Text-to-Speech-service in de SSML-body van de aanvraag
  • Alle markeringen in het tekstveld van de aanvraagtekst in de SSML-indeling, met uitzondering van <speak> tags en <voice>
  • Letters, leestekens, spaties, tabs, opmaak en alle spaties
  • Elk codepunt dat is gedefinieerd in Unicode

Zie Prijzen voor gedetailleerde informatie.

Belangrijk

Elke Chinese tekens worden geteld als twee tekens voor facturering, waaronder Kanji die wordt gebruikt in het Japans, Kanja die wordt gebruikt in het Koreaans of Alszi in andere talen wordt gebruikt.

Naslagdocumentatie

Volgende stappen