Vad är Anpassad neural röst?

Anpassad neural röst är en funktion för text till tal (TTS) som gör att du kan skapa en unik anpassad syntetisk röst för dina program. Med Anpassad neural röst kan du skapa en mycket naturlig röst genom att använda egna ljudsamplingar som träningsdata. Med Anpassad neural röst, som bygger på neural TTS-teknik och en flerspråkig universalmodell med flera röster, kan du skapa syntetiska röster med många olika talstilar, och dessa anpassas mellan olika språk. Med Anpassad neural röst får du en realistisk och naturlig röst som kan representera varumärken, få datorer att upplevas som mer mänskliga och låta användare interagera med program via konversation. Se språk som stöds för Anpassad neural röst och språklig funktion.

Anteckning

För Anpassad neural röst krävs registrering, och åtkomst till funktionen är begränsad enligt Microsofts behörighets- och användningsvillkor. Kunder som vill använda den här funktionen måste registrera sina användningsfall via ett formulär.

Grunderna i Anpassad neural röst

Den underliggande neurala TTS-tekniken som används Anpassad neural röst består av tre huvudkomponenter: Textanalys, Neural Acoustic Model och Neural Vocoder. För att generera naturligt syntetiskt tal från text matas text först in i Textanalys, som ger utdata i form av phoneme-sekvens. Ett fonme är en grundläggande ljudenhet som skiljer ett ord från ett annat på ett visst språk. En sekvens med fonem definierar uttalet av orden som anges i texten.

Därefter hamnar fonme-sekvensen i den neurala akustiska modellen för att förutsäga akustiska funktioner som definierar talsignaler, till exempel timbre, talstil, hastighet, intonationer och stressmönster. Slutligen konverterar neural Vocoder de akustiska funktionerna till hörbara vågor så att syntetiskt tal genereras.

Introduktionsbild för anpassad neural röst.

Neurala TTS-röstmodeller tränas med djupa neurala nätverk baserat på inspelning av prover av mänskliga röster. I den härbloggen beskriver vi hur neural tts fungerar med de senaste modellerna för neural talsyntes. Bloggen förklarar också hur en universell basmodell kan anpassas till en måltalares röst med mindre än 2 timmars taldata (eller mindre än 2 000 inspelade yttranden) och överför dessutom rösten till ett annat språk eller stil. Mer information om hur en neural vocoder tränas finns i blogginlägget.

Anpassad neural röst kan du anpassa den neurala TTS-motorn så att den passar dina scenarier. Om du vill skapa en anpassad neural röst använder Speech Studio för att ladda upp det inspelade ljudet och motsvarande skript, träna modellen och distribuera rösten till en anpassad slutpunkt. Anpassad neural röst kan använda text från användaren för att konvertera text till tal i realtid eller generera ljudinnehåll offline med textinmatning. Detta görs tillgängligt via REST API, Speech SDKeller webbportalen.

Kom igång

Villkor och definitioner

Period Definition
Röstmodell En text-till-tal-modell som kan efterlikna en måltalares unika röstegenskaper. En röstmodell kallas även för ett röstteckensnitt eller syntetisk röst. En röstmodell är en uppsättning parametrar i binärt format som inte är läsbara för människor och som inte innehåller ljudinspelningar. Den kan inte bakåtkompileras för att härleda eller konstruera ljud från en mänsklig röst.
Rösttalang Individer eller måltalare vars röster spelas in och används för att skapa röstmodeller som är avsedda att låta som rösttalangens röst.
Standard-TTS Standardmetoden, eller "traditionell", för TTS som delar upp talat språk i fonetiska kodfragment så att de kan mixas och matchas med hjälp av klassisk programmering eller statistiska metoder.
Neural TTS Neural TTS syntetiserar tal med hjälp av djupa neurala nätverk som har "lärt sig" på det sätt som fontics kombineras i naturligt mänskligt tal, i stället för att använda procedurprogrammering eller statistiska metoder. Förutom inspelningarna av en målrösttalang använder Neural TTS ett källbibliotek/en basmodell som skapats med röstinspelningar från många olika talare.
Träningsdata En anpassad datauppsättning för neural röstträning som innehåller ljudinspelningar av rösttalanger och tillhörande texttranskribering.
Persona En persona beskriver vem du vill att den här rösten ska vara. En bra persondesign informerar all röstskapande oavsett om den väljer en tillgänglig röstmodell som redan har skapats, eller om den börjar från grunden genom att spela in och spela in en ny rösttalang.
Skript Ett skript är en textfil som innehåller yttranden som ska talas av din rösttalang. (Termen "yttranden " omfattar både fullständiga meningar och kortare fraser.)

Ansvarsfull användning av AI

Information om hur du använder Anpassad neural röst på ett ansvarsfullt sätt finns i transparensanteckningen. Microsofts transparensanteckningar är avsedda att hjälpa dig att förstå hur vår AI-teknik fungerar, vilka val systemägare kan göra som påverkar systemets prestanda och beteende samt vikten av att tänka på hela systemet, inklusive teknik, människor och miljön.

Nästa steg