Wat is tekst naar spraak?

Artikel
01/23/2024

In dit overzicht krijgt u informatie over de voordelen en mogelijkheden van de tekst-naar-spraakfunctie van de Speech-service, die deel uitmaakt van Azure AI-services.

Met tekst naar spraak kunnen uw toepassingen, hulpprogramma's of apparaten tekst omzetten in menselijke, zoals gesynthetiseerde spraak. De spraakfunctie voor tekst wordt ook wel spraaksynthese genoemd. Gebruik menselijke, zoals vooraf samengestelde neurale stemmen, of maak een aangepaste neurale stem die uniek is voor uw product of merk. Zie Taal- en spraakondersteuning voor de Speech-service voor een volledige lijst met ondersteunde stemmen, talen en landinstellingen.

Kernfuncties

Tekst naar spraak bevat de volgende functies:

Functie	Samenvatting	Demo
Vooraf samengestelde neurale stem (neurale spraak genoemd op de pagina met prijzen)	Zeer natuurlijke out-of-the-box stemmen. Maak een Azure-account en een Speech-serviceabonnement en gebruik vervolgens de Speech SDK of ga naar de Speech Studio-portal en selecteer vooraf gemaakte neurale stemmen om aan de slag te gaan. Controleer de prijsgegevens.	Controleer de spraakgalerie en bepaal de juiste stem voor uw zakelijke behoeften.
Aangepaste neurale spraak (aangepaste neurale spraak genoemd op de pagina met prijzen)	Gebruiksvriendelijke selfservice voor het creëren van een natuurlijke merkstem, met beperkte toegang voor verantwoordelijk gebruik. Maak een Azure-account en een Speech-serviceabonnement (met de S0-laag) en pas toe om de aangepaste neurale functie te gebruiken. Nadat u toegang hebt gekregen, gaat u naar de Speech Studio-portal en selecteert u Custom Voice om aan de slag te gaan. Controleer de prijsgegevens.	Controleer de stemvoorbeelden.

Meer informatie over neurale tekst naar spraakfuncties

Tekst-naar-spraak maakt gebruik van diepe neurale netwerken om de stemmen van computers vrijwel niet te onderscheiden van de opnamen van mensen. Met de duidelijke articulatie van woorden vermindert neurale tekst naar spraak de luistermoeheid aanzienlijk wanneer gebruikers interactie hebben met AI-systemen.

De patronen van stress en intonatie in gesproken taal worden prosody genoemd. Traditionele tekst-naar-spraaksystemen splitsen prosody op in afzonderlijke taalkundige analyse- en akoestische voorspellingsstappen die worden beheerd door onafhankelijke modellen. Dat kan leiden tot gedempte spraaksynthese.

Hier volgt meer informatie over neurale tekst naar spraakfuncties in de Speech-service en hoe ze de limieten van traditionele tekst naar spraaksystemen overwinnen:

Realtime spraaksynthese: gebruik de Speech SDK of REST API om tekst naar spraak te converteren met behulp van vooraf gemaakte neurale stemmen of aangepaste neurale stemmen.
Asynchrone synthese van lange audio: gebruik de batchsynthese-API (preview) om tekst asynchroon te synthetiseren naar spraakbestanden die langer zijn dan 10 minuten (bijvoorbeeld audioboeken of lezingen). In tegenstelling tot synthese die wordt uitgevoerd via de Speech SDK of Speech to text REST API, worden antwoorden niet in realtime geretourneerd. De verwachting is dat aanvragen asynchroon worden verzonden, antwoorden worden gepeild naar en gesynthetiseerde audio wordt gedownload wanneer de service deze beschikbaar maakt.
Vooraf samengestelde neurale stemmen: Microsoft neurale tekst naar spraak maakt gebruik van diepe neurale netwerken om de grenzen van traditionele spraaksynthese met betrekking tot stress en intonatie in gesproken taal te overwinnen. Prosody voorspelling en spraaksynthese worden gelijktijdig uitgevoerd, wat resulteert in meer vloeiende en natuurlijk klinkende uitvoer. Elk vooraf samengesteld neurale spraakmodel is beschikbaar op 24 kHz en 48 kHz. U kunt neurale stemmen gebruiken om:
- Maak interacties met chatbots en spraakassistenten natuurlijker en aantrekkelijker.
- Digitale teksten zoals e-books converteren naar audioboeken.
- Verbeter navigatiesystemen in de auto.
Zie Taal- en spraakondersteuning voor de Speech-service voor een volledige lijst met platformneuraal stemmen.
Tekst verfijnen naar spraakuitvoer met SSML: Speech Synthesis Markup Language (SSML) is een xml-opmaaktaal die wordt gebruikt om tekst aan te passen aan spraakuitvoer. Met SSML kunt u de toonhoogte aanpassen, pauzes toevoegen, uitspraak verbeteren, spreeksnelheid wijzigen, volume aanpassen en meerdere stemmen aan één document toewijzen.

U kunt SSML gebruiken om uw eigen lexicons te definiëren of over te schakelen naar verschillende spreekstijlen. Met de meertalige stemmen kunt u de spreektalen ook aanpassen via SSML. Als u de spraakuitvoer voor uw scenario wilt verfijnen, raadpleegt u Synthese verbeteren met Speech Synthesis Markup Language en Spraaksynthese met het hulpprogramma Voor het maken van audio-inhoud.
Visemes: Visemes zijn de belangrijkste houdingen in waargenomen spraak, met inbegrip van de positie van de lippen, kaak en tong bij het produceren van een bepaald foneme. Visemes heeft een sterke correlatie met stemmen en telefoontjes.

Met behulp van viseme-gebeurtenissen in Speech SDK kunt u gezichtsanimatiegegevens genereren. Deze gegevens kunnen worden gebruikt om gezichten te animeren in lipleescommunicatie, onderwijs, entertainment en klantenservice. Viseme wordt momenteel alleen ondersteund voor de en-US neurale stemmen (US English).

Notitie

We zijn van plan om de traditionele/standaardstemmen en niet-neurale aangepaste stem in 2024 buiten gebruik te stellen. Daarna ondersteunen we ze niet meer.

Als uw toepassingen, hulpprogramma's of producten gebruikmaken van een van de standaardstemmen en aangepaste stemmen, moet u migreren naar de neurale versie. Zie Migreren naar neurale stemmen voor meer informatie.

Aan de slag

Zie de quickstart om aan de slag te gaan met tekst naar spraak. Tekst naar spraak is beschikbaar via de Speech SDK, de REST API en de Speech CLI.

Tip

Als u tekst wilt converteren naar spraak zonder code, kunt u het hulpprogramma Audio-inhoud maken in Speech Studio gebruiken.

Voorbeeldcode

Voorbeeldcode voor tekst-naar-spraak is beschikbaar op GitHub. Deze voorbeelden hebben betrekking op tekst naar spraakconversie in de populairste programmeertalen:

Aangepaste neurale spraak

Naast vooraf samengestelde neurale stemmen kunt u aangepaste neurale stemmen maken en verfijnen die uniek zijn voor uw product of merk. Het enige wat nodig is om aan de slag te gaan, is een handvol audiobestanden en de bijbehorende transcripties. Zie Aan de slag met aangepaste neurale spraak voor meer informatie.

Prijsnotitie

Factureerbare tekens

Wanneer u de functie tekst naar spraak gebruikt, wordt u gefactureerd voor elk teken dat wordt geconverteerd naar spraak, inclusief interpunctie. Hoewel het SSML-document zelf niet factureerbaar is, worden optionele elementen die worden gebruikt om aan te passen hoe de tekst wordt geconverteerd naar spraak, zoals telefoontjes en toonhoogte, meegeteld als factureerbare tekens. Hier volgt een lijst met factureerbare functies:

Tekst die is doorgegeven aan de tekst naar spraakfunctie in de hoofdtekst van de SSML van de aanvraag
Alle markeringen in het tekstveld van de aanvraagtekst in de SSML-indeling, met uitzondering <speak> van en <voice> tags
Letters, leestekens, spaties, tabs, markeringen en alle spaties
Elk codepunt dat is gedefinieerd in Unicode

Zie de prijzen van de Speech-service voor gedetailleerde informatie.

Belangrijk

Elk Chinees teken wordt geteld als twee tekens voor facturering, waaronder kanji die wordt gebruikt in het Japans, hanja gebruikt in het Koreaans of hanzi die in andere talen wordt gebruikt.

Trainings- en hostingtijd voor aangepaste neurale spraak modelleren

Aangepaste neurale spraaktraining en hosting worden zowel per uur berekend als gefactureerd per seconde. Zie prijzen van de Speech-service voor de prijs van de factureringseenheid.

De trainingstijd van aangepaste neurale spraak (CNV) wordt gemeten door 'rekenuur' (een eenheid om de actieve tijd van de machine te meten). Normaal gesproken worden bij het trainen van een spraakmodel twee computingtaken parallel uitgevoerd. De berekende rekenuren zijn dus langer dan de werkelijke trainingstijd. Gemiddeld duurt het minder dan één rekenuur om een CNV Lite-stem te trainen; terwijl voor CNV Pro meestal 20 tot 40 rekenuren nodig zijn om een stem in één stijl te trainen en ongeveer 90 rekenuren om een stem met meerdere stijlen te trainen. De CNV-trainingstijd wordt gefactureerd met een limiet van 96 rekenuren. Dus in het geval dat een spraakmodel wordt getraind in 98 rekenuren, worden er slechts 96 rekenuren in rekening gebracht.

Het hosten van aangepaste neurale spraak (CNV)-eindpunten wordt gemeten op basis van de werkelijke tijd (uur). De hostingtijd (uren) voor elk eindpunt wordt elke dag berekend om 00:00 UTC voor de afgelopen 24 uur. Als het eindpunt bijvoorbeeld 24 uur actief is op dag 1, wordt het 24 uur om 00:00 UTC gefactureerd op de tweede dag. Als het eindpunt zojuist is gemaakt of opgeschort gedurende de dag, wordt het gefactureerd voor de geaccumuleerde lopende tijd tot 00:00 UTC de tweede dag. Als het eindpunt momenteel niet wordt gehost, wordt het niet gefactureerd. Naast de dagelijkse berekening om 00:00 UTC elke dag, wordt de facturering ook onmiddellijk geactiveerd wanneer een eindpunt wordt verwijderd of opgeschort. Voor een eindpunt dat is gemaakt om 08:00 UTC op 1 december, wordt het hostinguur bijvoorbeeld berekend op 16 uur om 00:00 UTC op 2 december en 24 uur om 00:00 UTC op 3 december. Als de gebruiker het hosten van het eindpunt om 16:30 UTC op 3 december onderbreekt, wordt de duur (16,5 uur) van 00:00 tot 16:30 UTC op 3 december berekend voor facturering.

Naslagdocumentatie

Verantwoorde AI

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.