Wat is Aangepaste neurale stem?

Aangepaste neurale stem is een TTS-functie (text-to-speech) waarmee u een unieke, aangepaste synthetische stem voor uw toepassingen kunt maken. Met Aangepaste neurale stem kunt u een zeer natuurlijk klinkende stem bouwen door uw audiovoorbeelden op te geven als trainingsgegevens. Op basis van de neurale TTS-technologie en het universele model met meerdere talen kunt u Aangepaste neurale stem synthetische stemmen maken die veel spreekstijlen of aanpasbare talen hebben. De realistische en natuurlijk klinkende stem van Aangepaste neurale stem kan merken vertegenwoordigen, machines personificeren en gebruikers in staat stellen om in gesprek te communiceren met toepassingen. Zie de ondersteunde talen voor Aangepaste neurale stem en meertalige functies.

Notitie

De Aangepaste neurale stem vereist registratie en toegang tot de functie is beperkt op basis van de geschiktheids- en gebruikscriteria van Microsoft. Klanten die deze functie willen gebruiken, moeten hun gebruiksgevallen registreren via het opnameformulier.

De basisbeginselen van Aangepaste neurale stem

De onderliggende neurale TTS-technologie die wordt gebruikt Aangepaste neurale stem bestaat uit drie belangrijke onderdelen: Text Analyzer, Neural Acoustic Model en Neural Vocoder. Voor het genereren van natuurlijke synthetische spraak op basis van tekst is tekst de eerste invoer in Text Analyzer, die uitvoer biedt in de vorm van een phoneme-reeks. Een phoneme is een basiseenheid voor geluid die het ene woord van het andere in een bepaalde taal onderscheidt. Een reeks phonemes definieert de uitspraak van de woorden die in de tekst zijn opgegeven.

Vervolgens gaat de phoneme-reeks naar het Neural Acoustic Model om akoestische kenmerken te voorspellen die spraaksignalen definiƫren, zoals de timbre, de spreekstijl, snelheid, intonations en stresspatronen. Ten slotte converteert neurale Vocoder de akoestische kenmerken naar akoestische golven, zodat synthetische spraak wordt gegenereerd.

Inleidingsafbeelding voor aangepaste neurale stem.

Neurale TTS-spraakmodellen worden getraind met behulp van deep neurale netwerken op basis van de opnamevoorbeelden van menselijke stemmen. In deze blogwordt beschreven hoe neurale TTS werkt met de meest moderne neurale spraaksynthesemodellen. In de blog wordt ook uitgelegd hoe een universeel basismodel kan worden aangepast aan de stem van een doelspreker met minder dan 2 uur aan spraakgegevens (of minder dan 2000 opgenomen utterances) en de stem bovendien kan overbrengen naar een andere taal of stijl. Zie het blogbericht voor meer informatie over hoe een neurale vocoder wordt getraind.

Aangepaste neurale stem kunt u de Neural TTS-engine aanpassen aan uw scenario's. Als u een aangepaste neurale stem wilt maken, gebruikt u Speech Studio om de opgenomen audio en bijbehorende scripts te uploaden, het model te trainen en de stem te implementeren op een aangepast eindpunt. Aangepaste neurale stem kan tekst van de gebruiker gebruiken om tekst in realtime te converteren naar spraak of offline audio-inhoud genereren met tekstinvoer. Dit wordt beschikbaar gesteld via de REST API,de Speech SDKof de webportal.

Aan de slag

Termen en definities

Termijn Definition
Spraakmodel Een tekst-naar-spraak-model dat de unieke kenmerken van een doelspreker kan nabootsen. Een spraakmodel wordt ook wel een spraakstijl of synthetische stem genoemd. Een spraakmodel is een set parameters in binaire indeling die niet door mensen kan worden gelezen en geen audio-opnamen bevat. Het kan niet worden omgekeerd om de audio van een menselijke stem af te leiden of te construeren.
Spraak talent Personen of doelspresers waarvan de stemmen worden opgenomen en gebruikt om stemmodellen te maken die zijn bedoeld om te klinken als de stem van het spraak talent.
Standaard-TTS De standaardmethode , ofte wel 'traditioneel', van TTS die gesproken taal opbreekt in telefoonfragmenten, zodat ze kunnen worden gemixt en gematcht met behulp van klassieke programmering of statistische methoden.
Neurale TTS Neurale TTS synthetiseert spraak met behulp van deep neurale netwerken die de manier hebben 'geleerd' waarop phonetics worden gecombineerd in natuurlijke menselijke spraak, in plaats van procedurele programmering of statistische methoden te gebruiken. Neural TTS maakt niet alleen gebruik van opnamen van een doelstem talent, maar maakt ook gebruik van een bronbibliotheek/basismodel dat is gebouwd met spraakopnamen van veel verschillende sprekers.
Trainingsgegevens Een aangepaste gegevensset voor neurale spraaktraining met de audio-opnamen van het spraak talent en de bijbehorende teksttranscripties.
Persona Een persona beschrijft wie u deze stem wilt laten zijn. Een goed ontwerp voor persona's informeert alle mensen die een stem maken, of ze nu een beschikbaar spraakmodel kiezen dat al is gemaakt, of dat ze helemaal opnieuw beginnen door een nieuw spraak talent te casten en op te nemen.
Script Een script is een tekstbestand dat de utterances bevat die door uw spraak talent moeten worden uitgesproken. (De term "utterances" omvat zowel volledige zinnen als kortere zinnen.)

Verantwoordelijk gebruik van AI

Zie de transparantienota voor Aangepaste neurale stem het gebruik van uw gegevens. De opmerkingen bij transparantie van Microsoft zijn bedoeld om u te helpen begrijpen hoe onze AI-technologie werkt, welke keuzes systeemeigenaren kunnen maken die invloed hebben op de systeemprestaties en het gedrag en het belang van het denken over het hele systeem, inclusief de technologie, de mensen en de omgeving.

Volgende stappen