Vad är Anpassad neural röst?

Anpassad neural röst är en funktion för text till tal (TTS) som gör att du kan skapa en anpassad syntetisk röst av ett slag för dina program. Med Anpassad neural röst kan du skapa en röst med mycket naturligt ljud genom att tillhandahålla dina ljudexempel som träningsdata. Baserat på neural TTS-teknik och den universella modellen med flera talare, kan du med Anpassad neural röst skapa syntetiska röster som är omfattande i talstilar eller anpassningsbara korsspråk. Den realistiska och naturliga rösten hos Anpassad neural röst kan representera varumärken, personifiera datorer och göra det möjligt för användare att interagera med program konversationsmässigt. Se språk som stöds för Anpassad neural röst och mellan språk.

Anteckning

Funktionen Anpassad neural röst kräver registrering och åtkomst till den är begränsad baserat på Microsofts behörighets- och användningsvillkor. Kunder som vill använda den här funktionen måste registrera sina användningsfall via formuläret.

Grunderna i Anpassad neural röst

Den underliggande neurala TTS-tekniken som används för Anpassad neural röst består av tre huvudkomponenter: Textanalys, Neural Acoustic Model och Neural Vocoder. För att generera naturligt syntetiskt tal från text matas text först in i Text Analyzer, som tillhandahåller utdata i form av telefonsekvens. En phoneme är en grundläggande ljudenhet som skiljer ett ord från ett annat på ett visst språk. En sekvens med fonem definierar uttalet av de ord som anges i texten.

Därefter hamnar telefonsekvensen i den neurala akustiska modellen för att förutsäga akustiska funktioner som definierar talsignaler, till exempel timbre, talstil, hastighet, intonationer och stressmönster. Slutligen konverterar neural Vocoder de akustiska funktionerna till hörbara vågor så att syntetiskt tal genereras.

Introduktionsbild för anpassad neural röst.

NeuralA TTS-röstmodeller tränas med djupa neurala nätverk baserat på inspelningsexempel på mänskliga röster. I den härbloggen beskriver vi hur neural TTS fungerar med de senaste modellerna för neural talsyntes. Bloggen förklarar också hur en universell basmodell kan anpassas till en måltalares röst med mindre än 2 timmars taldata (eller mindre än 2 000 inspelade yttranden) och dessutom överföra rösten till ett annat språk eller stil. Mer information om hur en neural vocoder tränas finns i blogginlägget.

Anpassad neural röst kan du anpassa den neurala TTS-motorn så att den passar dina scenarier. Om du vill skapa en anpassad neural röst använder du Speech Studio för att ladda upp det inspelade ljudet och motsvarande skript, träna modellen och distribuera rösten till en anpassad slutpunkt. Anpassad neural röst kan använda text som tillhandahålls av användaren för att konvertera text till tal i realtid eller generera ljudinnehåll offline med textinmatning. Detta görs tillgängligt via REST API, Speech SDKeller webbportalen.

Kom igång

Villkor och definitioner

Period Definition
Röstmodell En text-till-tal-modell som kan efterlikna en måltalares unika röstegenskaper. En röstmodell kallas även för ett röstteckensnitt eller syntetisk röst. En röstmodell är en uppsättning parametrar i binärt format som inte är läsbara för människor och som inte innehåller ljudinspelningar. Den kan inte bakåtkompileras för att härleda eller konstruera ljud från en mänsklig röst.
Rösttalang Individer eller måltalare vars röster spelas in och används för att skapa röstmodeller som är avsedda att låta som rösttalangens röst.
Standard TTS Standardmetoden, eller "traditionell", för TTS som delar upp talat språk i fonetiska kodfragment så att de kan mixas och matchas med hjälp av klassisk programmering eller statistiska metoder.
Neural TTS Neural TTS syntetiserar tal med hjälp av djupa neurala nätverk som har "lärt sig" hur fontics kombineras i naturligt mänskligt tal, i stället för att använda procedurprogrammering eller statistiska metoder. Förutom inspelningarna av en målrösttalang använder Neural TTS ett källbibliotek/en basmodell som skapats med röstinspelningar från många olika talare.
Träningsdata En anpassad datamängd för träning av neural röst som innehåller ljudinspelningar av rösttalanger och tillhörande texttranskriskriptioner.
Persona En persona beskriver vem du vill att den här rösten ska vara. En bra persona-design informerar all röstskapande oavsett om den väljer en tillgänglig röstmodell som redan har skapats, eller om den börjar från grunden genom att spela in och spela in en ny rösttalang.
Skript Ett skript är en textfil som innehåller yttranden som ska talas av din rösttalang. (Termen "yttranden " omfattar både fullständiga meningar och kortare fraser.)

Ansvarsfull användning av AI

Information om hur du använder Anpassad neural röst på ett ansvarsfullt sätt finns i transparensanteckningen. Microsofts transparensanteckningar är avsedda att hjälpa dig att förstå hur vår AI-teknik fungerar, vilka val systemägare kan göra som påverkar systemets prestanda och beteende samt vikten av att tänka på hela systemet, inklusive teknik, människor och miljön.

Nästa steg