Wat is neurale tekst-naar-spraak?
Neurale tekst-naar-spraak van Microsoft maakt gebruik van deep neurale netwerken om de stemmen van computers bijna niet te onderscheiden van opnamen van personen. Met de menselijke, natuurlijke prosody en duidelijke uiting van woorden, heeft neurale tekst-naar-spraak het luisteren aanzienlijk verminderd wanneer u met AI-systemen communiceert.
De patronen van stress en intonatie in gesproken taal worden prosody genoemd. Traditionele tekst-naar-spraak-systemen delen prosody op in afzonderlijke taalkundige analyse- en akoestische voorspellingsstappen die worden beheerd door onafhankelijke modellen. Dit kan resulteren in gedempte, modeachtige spraaksynthese. Neurale tekst-naar-spraak-mogelijkheden van Microsoft doen proodyvoorspelling en spraaksynthese tegelijkertijd, maakt gebruik van deep neurale netwerken om de limieten van traditionele tekst-naar-spraak-systemen te overwinnen bij het afstemmen van de patronen van stress en intonatie in gesproken taal, en synthetiseert de eenheden van spraak in een computerstem. Het resultaat is een meer vloeiende en natuurlijk klinkende stem.
In dit overzicht krijgt u informatie over de voordelen en mogelijkheden van de tekst-naar-spraak-service, waarmee uw toepassingen, hulpprogramma's of apparaten tekst kunnen converteren naar menselijke, gesynthetiseerde spraak. Gebruik menselijke neurale stemmen of maak een aangepaste stem die uniek is voor uw product of merk. Zie Ondersteunde talen voor een volledige lijst met ondersteunde stemmen, talen en talen.
Deze documentatie bevat de volgende artikeltypen:
- Quickstarts zijn aan de slag-instructies om u te begeleiden bij het indienen van aanvragen bij de service.
- Instructiegidsen bevatten instructies voor het gebruik van de service op specifiekere of aangepaste manieren.
- Concepten bieden uitgebreide uitleg over de servicefunctionaliteit en -functies.
- Zelfstudies zijn langere handleidingen die laten zien hoe u de service als onderdeel kunt gebruiken in bredere bedrijfsoplossingen.
Notitie
Bing Spraak is buiten gebruik gesteld op 15 oktober 2019. Als uw toepassingen, hulpprogramma's of producten gebruikmaken van de Bing Speech-API's of Custom Speech, hebben we handleidingen gemaakt om u te helpen migreren naar de Speech-service.
Kernfuncties
Spraaksynthese: gebruik de Speech SDK of REST API om tekst naar spraak te converteren met behulp van neurale platformstemmen of aangepaste neurale stemmen.
Asynchrone synthese van lange audio: gebruik de API voor lange audio om tekst-naar-spraak-bestanden asynchroon te synthetiseren langer dan 10 minuten (bijvoorbeeld audioboeken of gesproken tekst). In tegenstelling tot synthese die wordt uitgevoerd met behulp van de Speech SDK of spraak-naar-REST API, worden antwoorden niet in realtime geretourneerd. De verwachting is dat aanvragen asynchroon worden verzonden, antwoorden worden gepeild en dat de gesynthetiseerde audio wordt gedownload wanneer deze beschikbaar wordt gesteld via de service.
Neurale platformstemmen: deep neurale netwerken worden gebruikt om de limieten van traditionele spraaksynthese met betrekking tot stress en intonatie in gesproken taal te overwinnen. Prosodyvoorspelling en spraaksynthese worden gelijktijdig uitgevoerd, wat resulteert in meer vloeiende en natuurlijk klinkende uitvoer. Neurale stemmen kunnen worden gebruikt om interacties met chatbots en spraakassistenten natuurlijker en aantrekkelijker te maken, digitale teksten zoals e-books te converteren naar audioboeken en navigatiesystemen in de auto te verbeteren. Met de menselijke, natuurlijke prosody en duidelijke uiting van woorden verminderen neurale stemmen het luisteren aanzienlijk wanneer u met AI-systemen communiceert. Zie Ondersteunde talen voor een volledige lijst met neurale platformstemmen.
TTS-uitvoer afstemmen met SSML - Speech Synthesis Markup Language (SSML) is een op XML gebaseerde markeringstaal die wordt gebruikt om tekst-naar-spraak-uitvoer aan te passen. Met SSML kunt u niet alleen de toonhoogte aanpassen, pauzes toevoegen, de uitspraak verbeteren, de spreeksnelheid wijzigen, het volume aanpassen en meerdere stemmen aan één document toeschrijven, maar ook uw eigen woordenwissels definiëren of overschakelen naar verschillende spreekstijlen. Met de meertalige stemmen kuntu ook de spreektalen aanpassen via SSML. Zie SSML gebruiken om de spraakuitvoer voor uw scenario af te stemmen.
Visemes: Visemes vormen de sleutelposities in waargenomen spraak, met inbegrip van de positie van de ogen, de mond en de ogen bij het produceren van een bepaald phoneme. Visemes hebben een sterke correlatie met stemmen en phonemes. Met behulp van viseme-gebeurtenissen in speech-SDK kunt u gegevens over gezichts animaties genereren, die kunnen worden gebruikt om gezichten te animateren in communicatie, onderwijs, entertainment en klantenservice. Viseme wordt momenteel alleen ondersteund voor de
en-USEngelse (Verenigde Staten) neurale stemmen.
Aan de slag
Zie de quickstart om aan de slag te gaan met tekst-naar-spraak. De text-to-speech-service is beschikbaar via de Speech SDK,de REST APIen de Speech CLI
Voorbeeldcode
Voorbeeldcode voor tekst-naar-spraak is beschikbaar op GitHub. Deze voorbeelden hebben betrekking op de conversie van tekst naar spraak in de populairste programmeertalen.
Aanpassing
Naast neurale stemmen kunt u aangepaste stemmen maken en afstemmen die uniek zijn voor uw product of merk. U hebt alleen een aantal audiobestanden en de bijbehorende transcripties nodig om aan de slag te gaan. Zie Aan de slag met Aangepaste neurale stem
Prijsinformatie
Wanneer u de text-to-speech-service gebruikt, wordt u gefactureerd voor elk teken dat wordt geconverteerd naar spraak, inclusief leestekens. Hoewel het SSML-document zelf niet factureerbaar is, worden optionele elementen die worden gebruikt om aan te passen hoe de tekst wordt geconverteerd naar spraak, zoals telefoonnummers en toonhoogte, geteld als factureerbare tekens. Hier is een lijst met factureerbare kosten:
- Tekst die wordt doorgegeven aan de text-to-speech-service in de SSML-body van de aanvraag
- Alle markeringen in het tekstveld van de aanvraagtekst in de SSML-indeling, met uitzondering van
<speak>tags en<voice> - Letters, leestekens, spaties, tabs, opmaak en alle spaties
- Elk codepunt dat is gedefinieerd in Unicode
Zie Prijzen voor gedetailleerde informatie.
Belangrijk
Elk Chinees, Japans en Koreaans taalteken wordt geteld als twee tekens voor facturering.
Migreren naar neurale spraak
De standaardstemmen worden op 31 augustus 2024 niet meer ondersteund.De aankondiging is verzonden naar alle bestaande Spraak-abonnementen vóór 31 augustus 2021. Tijdens de periode voor het stoppen (31 augustus 2021- 31 augustus 2024) kunnen bestaande standaardstemgebruikers hun standaardstemmen blijven gebruiken. Alle nieuwe gebruikers/nieuwe spraakresources moeten worden verplaatst naar de neurale stemmen.
Vereiste actie
- Bekijk de prijsstructuur en luister naar de neurale stemvoorbeelden onder aan de pagina om de juiste stem voor uw bedrijfsbehoeften te bepalen.
- Als u de wijziging wilt maken, volgt u de voorbeeldcode om de spraaknaam in uw spraaksyntheseaanvraag voor 31 augustus 2024 bij te werken naar de ondersteunde neurale spraaknamen in gekozen talen. Vanaf 1 september 2024 worden standaardstemmen niet meer ondersteund. Gebruik neurale stemmen voor uw aanvraag voor spraaksynthese, in de cloud of on-prem. Gebruik voor een on-prem-container de neurale spraakcontainers en volg de instructies.