Skapa och använda din röstmodell

I Förbereda träningsdata hardu lärt dig om de olika datatyper som du kan använda för att träna en anpassad neural röst och olika formatkrav. När du har förberett dina data och rösttalangen kan du börja ladda upp dem till Speech Studio. I den här artikeln får du lära dig hur du tränar Anpassad neural röst via Speech Studio portalen. Se språk som stöds för anpassad neural röst.

Förutsättningar

Konfigurera röstbegåvningar

En rösttalang är en enskild talare eller måltalare vars röster spelas in och används för att skapa neurala röstmodeller. Innan du skapar en röst definierar du din röstpersona och väljer en rätt rösttalang. Mer information om hur du spelar in röstexempel finns i självstudien.

För att träna en neural röst måste du skapa en rösttalangeprofil med en ljudfil som registrerats av röstbegåvarna och som godkänner användningen av deras taldata för att träna en anpassad röstmodell. När du förbereder inspelningsskriptet ska du se till att inkludera följande mening:

"Jag [ange ditt för- och efternamn] är medveten om att inspelningar av min röst kommer att användas av [ange företagets namn] för att skapa och använda en syntetisk version av min röst." Den här meningen används för att kontrollera om träningsdata matchar ljudet i medgivandesatsen. > Läs mer om röstverifiering här.

Anteckning

Anpassad neural röst är tillgänglig med begränsad åtkomst. Se till att du förstår de ansvarsfulla AI-kravenoch tillämpa sedan för åtkomst.

Följande steg förutsätter att du har förberett filerna med röstbegåvade ordmedgivanden. Gå till Speech Studio för att välja ett anpassat neuralt röstprojekt och följ sedan följande steg för att skapa en profil för rösttalanger.

  1. Gå till Text-till-tal > Anpassad röst > ett projekt Konfigurera > röstbegåvningar.

  2. Välj Lägg till rösttalang.

  3. Välj sedan Målscenario som ska användas för att definiera röstegenskaper. Beskriv sedan dina röstegenskaper.

Anteckning

De scenarier som du anger måste överensstämma med det du har sökt i programformuläret.

  1. Gå sedan till Upload rösttalangeinstruktion, följ instruktionen för att ladda upp en rösttalesinstruktion som du har förberett i förväg.

Anteckning

Kontrollera att den verbala instruktionen registreras i samma inställningar som dina träningsdata, inklusive inspelningsmiljön och talstilen.

  1. Slutligen går du till Granska och skapa. Du kan granska inställningarna och välja Skicka.

Upload dina data

När du är redo att ladda upp dina data går du till fliken Förbered träningsdata för att lägga till din första träningsuppsättning och ladda upp data. En träningsuppsättning är en uppsättning ljudyttranden och deras mappningsskript som används för att träna en röstmodell. Du kan använda en träningsuppsättning för att organisera dina träningsdata. Kontroll av databeredskap utförs för varje träningsuppsättning. Du kan importera flera data till en träningsuppsättning.

Du kan göra följande för att skapa och granska dina träningsdata.

  1. På fliken Förbered träningsdata väljer du Lägg till träningsuppsättning för att ange Namn och Beskrivning Skapa > för att lägga till en ny träningsuppsättning.

    När träningsuppsättningen har skapats kan du börja ladda upp dina data.

  2. Om du vill ladda upp data väljer du Upload data Välj > datatyp Upload data och Ange målträningsuppsättningen > Ange namn och Beskrivning för dina data > granska > inställningarna och välj Skicka.

Anteckning

  • Dubbla ljudnamn tas bort från träningen. Kontrollera att de data du väljer inte innehåller samma ljudnamn i .zip eller flera .zip filer. Om yttranden (antingen i ljud- eller skriptfiler) är dubbletter avvisas de.
  • Om du har skapat datafiler i den tidigare versionen av Speech Studio måste du ange en träningsuppsättning för dina data i förväg för att använda dem. Annars läggs ett utropstecken till i datanamnet och data kan inte användas.

Varje data som du överför måste uppfylla kraven för den datatyp som du väljer. Det är viktigt att formatera dina data korrekt innan de laddas upp, vilket säkerställer att data bearbetas korrekt av Anpassad neural röst tjänsten. Gå till Förbered träningsdata och kontrollera att dina data har formaterats korrekt.

Anteckning

  • Användare av standardprenumeration (S0) kan ladda upp fem datafiler samtidigt. Om du når gränsen väntar du tills minst en av dina datafiler har importerat klart. Försök sedan igen.
  • Det maximala antalet datafiler som tillåts importeras per prenumeration är 10 .zip-filer för användare med kostnadsfri prenumeration (F0) och 500 för användare med standardprenumeration (S0).

Datafiler verifieras automatiskt när du trycker på knappen Skicka. Datavalidering innehåller en serie kontroller av ljudfilerna för att verifiera deras filformat, storlek och samplingsfrekvens. Åtgärda eventuella fel och skicka igen.

När data har laddats upp kan du kontrollera informationen i detaljvyn för träningsuppsättningen. På fliken Översikt kan du kontrollera uttalspoängen och brusnivån för var och en av dina data. Uttalspoängen sträcker sig från 0 till 100. En poäng under 70 indikerar vanligtvis ett talfel eller ett skriptmatchat fel. En tung accent kan minska uttalspoängen och påverka den genererade digitala rösten.

Ett högre signal-till-brus-förhållande (SNR) anger lägre brus i ljudet. Du kan vanligtvis nå en 50 + SNR genom att spela in på professionella studior. Ljud med en SNR under 20 kan resultera i uppenbart brus i din genererade röst.

Överväg att spela in yttranden med låga uttalspoäng eller låga förhållanden mellan signal och brus. Om du inte kan registrera dem på nytt kan du utesluta dessa yttranden från dina data.

datainformationen kan du kontrollera datainformationen för träningsuppsättningen. Om det finns några vanliga problem med data följer du anvisningarna i det meddelande som visas för att åtgärda dem före träningen.

Problemen är indelade i tre typer. Referera till följande tre tabeller för att kontrollera respektive typ av fel.

Åtgärda den första typen av fel som anges i tabellen nedan manuellt, annars utesluts data med dessa fel under träningen.

Kategori Name Beskrivning
Skript Ogiltig avgränsare Du måste avgränsa tamant-ID:t och skriptinnehållet med ett TABB-tecken.
Skript Ogiltigt skript-ID Skriptrads-ID måste vara numeriskt.
Skript Duplicerat skript Varje rad i skriptinnehållet måste vara unik. Raden dupliceras med {} .
Skript Skriptet är för långt Skriptet måste vara mindre än 1 000 tecken.
Skript Inget matchande ljud ID:t för varje uttryck (varje rad i skriptfilen) måste matcha ljud-ID:t.
Skript Inget giltigt skript Inget giltigt skript hittades i den här datauppsättningen. Åtgärda de skriptrader som visas i den detaljerade problemlistan.
Ljud Inget matchande skript Inga ljudfiler matchar skript-ID:t. Namnet på wav-filerna måste matcha med -ID:erna i skriptfilen.
Ljud Ogiltigt ljudformat Ljudformatet för WAV-filerna är ogiltigt. Kontrollera wav-filformatet med ett ljudverktyg som SoX.
Ljud Låg samplingsfrekvens Samplingsfrekvensen för WAV-filerna får inte vara lägre än 16 KHz.
Ljud För långt ljud Ljudvaraktigheten är längre än 30 sekunder. Dela upp det långa ljudet i flera filer. Vi föreslår att yttranden ska vara kortare än 15 sekunder.
Ljud Inget giltigt ljud Inget giltigt ljud hittades i den här datauppsättningen. Kontrollera dina ljuddata och ladda upp igen.

Den andra typen av fel som anges i tabellen nedan åtgärdas automatiskt, men dubbel kontroll av fasta data rekommenderas.

Kategori Name Beskrivning
Ljud Automatisk fast stereoljud Använd mono i dina ljudexempelinspelningar. Stereoljudkanaler sammanfogas automatiskt i en monokanal, vilket kan orsaka förlust av innehåll. Ladda ned den normaliserade datauppsättningen och granska den.
Volym Automatisk fast volymtopp Volymens topp bör vara inom intervallet -3 dB (70 % av maxvolymen) till -6 dB (50 %). Kontrollera volymens topp under exempelinspelningen eller förberedelsen av data. Det här ljudet skalas linjärt för att passa det högsta intervallet automatiskt (-4 dB eller 65 %). Ladda ned den normaliserade datauppsättningen och granska den.
Obalans Åtgärdad automatisk tystnad Den första tystnaden upptäcks vara längre än 200 ms och har trimmats till 200 ms automatiskt. Ladda ned den normaliserade datauppsättningen och granska den.
Obalans Åtgärdad automatisk tystnad Sluttystnad har identifierats vara längre än 200 ms och har trimmats till 200 ms automatiskt. Ladda ned den normaliserade datauppsättningen och granska den.
Obalans Åtgärdad automatisk tystnad Den första tystnaden har identifierats vara kortare än 100 ms och har utökats till 100 ms automatiskt. Ladda ned den normaliserade datauppsättningen och granska den.
Obalans Åtgärdad automatisk tystnad Sluttystnad har identifierats vara kortare än 100 ms och har utökats till 100 ms automatiskt. Ladda ned den normaliserade datauppsättningen och granska den.

Om den tredje typen av fel som anges i tabellen nedan inte är åtgärdad, även om data med dessa fel inte undantas under träningen, påverkar det kvaliteten på träningen. För utbildning av högre kvalitet rekommenderas manuell åtgärd av dessa fel.

Kategori Name Beskrivning
Skript Icke-normaliserad text Det här skriptet innehåller siffran 0–9. Expandera dem till normaliserade ord och matcha med ljudet. Normalisera till exempel "123" till "ett hundra tjugot tre".
Skript Icke-normaliserad text Det här skriptet innehåller symboler {} . Normalisera symbolerna så att de matchar ljudet. Till exempel "50 %" till "50 % " till "50 %".
Skript Det finns inte tillräckligt med yttranden för frågor Minst 10 % av de totala yttrandena ska vara fråge meningar. Detta hjälper röstmodellen att uttrycka en frågeton.
Skript Det finns inte tillräckligt med utropstecken Minst 10 % av de totala yttrandena ska vara utropstecken. Detta hjälper röstmodellen att uttrycka en spänd ton på rätt sätt.
Ljud Låg samplingsfrekvens för neural röst Vi rekommenderar att samplingsfrekvensen för dina WAV-filer är 24 KHz eller högre för att skapa neurala röster. Den uppdateras automatiskt till 24 KHz om den är lägre.
Volym Den totala volymen är för låg Volymen får inte vara lägre än -18 dB (10 % av maxvolymen). Kontrollera volymens genomsnittliga nivå inom rätt intervall under exempelinspelningen eller förberedelsen av data.
Volym Volymspill Spillvolym har identifierats {} på s. Justera inspelningsutrustningen för att undvika att volymen spills vid dess högsta värde.
Volym Starta tystnadsproblem De första 100 ms tystnaden är inte ren. Minska golvnivån för inspelningsbruset och lämna de första 100 ms i början som tyst.
Volym Slut på tystnadsproblem De senaste 100 ms tystnaden är inte rena. Minska golvnivån för inspelningsbruset och lämna de senaste 100 ms i slutet tyst.
Obalans Ord med låg poäng Granska skriptet och ljudinnehållet för att kontrollera att de matchar och styr brusnivån. Minska längden på lång tystnad eller dela upp ljudet i flera yttranden om det är för långt.
Obalans Starta tystnadsproblem Extra ljud har hörts före det första ordet. Granska skriptet och ljudinnehållet för att se till att de matchar, kontrollera brusnivån och gör de första 100 ms tyst.
Obalans Slut på tystnadsproblem Extra ljud har hörts efter det sista ordet. Granska skriptet och ljudinnehållet för att kontrollera att de matchar, kontrollera brusnivån och gör de senaste 100 ms tyst.
Obalans Lågt signalbrusförhållande Ljud-SNR-nivån är lägre än 20 dB. Minst 35 dB rekommenderas.
Obalans Inga poäng är tillgängliga Det gick inte att identifiera talinnehåll i det här ljudet. Kontrollera ljud- och skriptinnehållet för att kontrollera att ljudet är giltigt och matchar skriptet.

Träna din anpassade modell för neural röst

När dina datafiler har verifierats kan du använda dem för att skapa din anpassade neurala röstmodell.

  1. På fliken Träna modell väljer du Träna modell för att skapa en röstmodell med de data som du har laddat upp.

  2. Välj neural träningsmetod för din modell och målspråk.

Som standard tränas röstmodellen på samma språk som dina träningsdata. Du kan också välja att skapa ett sekundärt språk (förhandsversion) för din röstmodell. Kontrollera vilka språk som stöds för anpassad neural röst och korsspråksfunktion: språk för anpassning.

Träning av anpassade neurala röster är inte kostnadsfri. Mer information finns i prissättningen. Men om du har statistiska parametriska eller sammanfogande röstmodeller som distribuerats före 2021-03-31 med S0 Speech-resurser erbjuds kostnadsfria neurala träningskrediter till din Azure-prenumeration och du kan träna 5 olika versioner av neurala röster kostnadsfritt.

  1. Välj sedan de data som du vill använda för träning och ange en talarfil.

Anteckning

  • Du måste välja minst 300 yttranden för att skapa en anpassad neural röst.
  • För att träna en neural röst måste du ange en rösttalangeprofil med ljudmedgivandefilen från rösttalangen som bekräftar att han/hennes taldata ska användas för att träna en anpassad röstmodell. Anpassad neural röst är tillgänglig med begränsad åtkomst. Se till att du förstår de ansvarsfulla AI-kraven och tillämpa åtkomsten här.
  1. Välj sedan ditt testskript.

Varje träning genererar automatiskt 100 exempelljudfiler som hjälper dig att testa modellen med ett standardskript. Du kan också ange ett eget testskript som valfritt. Testskriptet måste undanta filnamnen (ID:t för varje tamanus), annars kommer dessa ID:n att talas. Nedan visas ett exempel på hur yttrandena är ordnade i en .txt fil:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Varje stycke i yttranden resulterar i ett separat ljud. Om du vill kombinera alla meningar till ett ljud gör du dem i ett stycke.

Anteckning

  • Testskriptet måste vara en txt-fil som är mindre än 1 MB. Kodningsformat som stöds omfattar ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE eller UTF-16-BE.
  • De genererade ljuden är en kombination av det uppladdade testskriptet och standardtestskriptet.
  1. Ange ett Namn och en Beskrivning som hjälper dig att identifiera den här modellen.

Välj ett namn noggrant. Namnet du anger här är det namn som du använder för att ange rösten i din begäran om talsyntes som en del av SSML-indata. Endast bokstäver, siffror och några skiljetecken, till exempel -, _, och (', ') tillåts. Använd olika namn för olika neurala röstmodeller.

Ett vanligt användningsfält för fältet Beskrivning är att registrera namnen på de data som användes för att skapa modellen.

  1. Granska inställningarna och välj sedan Skicka för att börja träna modellen.

Anteckning

Dubbla ljudnamn tas bort från träningen. Kontrollera att de data du väljer inte innehåller samma ljudnamn i flera .zip filer.

Tabellen Träna modell visar en ny post som motsvarar den nyligen skapade modellen. I tabellen visas även statusen: Bearbetning, Lyckades, Misslyckades.

Statusen som visas visar processen för att konvertera dina data till en röstmodell, som du ser här.

Tillstånd Innebörd
Bearbetar Din röstmodell håller på att skapas.
Lyckades Din röstmodell har skapats och kan distribueras.
Misslyckad Din röstmodell har misslyckats i träningen på grund av många orsaker, till exempel problem med att ta bort data eller nätverksproblem.

Träningsvaraktigheten varierar beroende på hur mycket data du tränar. Det tar i genomsnitt cirka 40 beräkningstimmar att träna en anpassad neural röst.

Anteckning

Användare av standardprenumeration (S0) kan träna tre röster samtidigt. Om du når gränsen väntar du tills minst en av dina röstmodeller har avslutat träningen och försöker sedan igen.

  1. När du har slutfört träningen av modellen kan du granska modellinformationen.

När röstmodellen har skapats kan du använda de genererade ljudfilerna för att testa den innan du distribuerar den för användning.

Röstens kvalitet beror på många faktorer, inklusive storleken på träningsdata, inspelningskvaliteten, avskriftsfilens noggrannhet, hur väl den inspelade rösten i träningsdata matchar personligheten hos den utformade rösten för ditt avsedda användningsfall och mycket mer. Läs här om du vill veta mer om funktionerna och gränserna för vår teknik och bästa praxis för att förbättra din modellkvalitet.

Skapa och använda en anpassad slutpunkt för neural röst

När du har skapat och testat din röstmodell distribuerar du den i en anpassad text till tal-slutpunkt. Sedan använder du den här slutpunkten i stället för den vanliga slutpunkten när du gör text till tal-begäranden via REST API. Din anpassade slutpunkt kan bara anropas av den prenumeration som du har använt för att distribuera modellen.

Du kan göra följande för att skapa en anpassad slutpunkt för neural röst.

  1. På fliken Distribuera modell väljer du Distribuera modell.
  2. Ange sedan ett Namn och en Beskrivning för din anpassade slutpunkt.
  3. Välj sedan en röstmodell som du vill associera med den här slutpunkten.
  4. Välj slutligen Distribuera för att skapa slutpunkten.

När du har klickat på knappen Distribuera visas en post för den nya slutpunkten i slutpunktstabellen. Det kan ta några minuter att instansiera en ny slutpunkt. När statusen för distributionen är Lyckades är slutpunkten redo att användas.

Du kan pausa och återuppta slutpunkten om du inte använder den hela tiden. När en slutpunkt återaktiveras efter att den har inaktiverats behålls slutpunkts-URL:en på samma sätt så att du inte behöver ändra koden i dina appar.

Du kan också uppdatera slutpunkten till en ny modell. Om du vill ändra modellen kontrollerar du att den nya modellen har samma namn som den som du vill uppdatera.

Anteckning

  • Standard-prenumerationsanvändare (S0) kan skapa upp till 50 slutpunkter, var och en med sin egen anpassade neurala röst.
  • Om du vill använda din anpassade neurala röst måste du ange röstmodellnamnet, använda den anpassade URI:en direkt i en HTTP-begäran och använda samma prenumeration för att passera autentiseringen av TTS-tjänsten.

När slutpunkten har distribuerats visas slutpunktsnamnet som en länk. Klicka på länken för att visa information som är specifik för din slutpunkt, till exempel slutpunktsnyckel, slutpunkts-URL och exempelkod.

Den anpassade slutpunkten är funktionellt identisk med standardslutpunkten som används för text-till-tal-begäranden. Mer information finns i Speech SDK eller REST API.

Vi tillhandahåller också ett onlineverktyg, Skapa ljudinnehåll, som gör att du kan finjustera deras ljudutdata med hjälp av ett användarvänligt användargränssnitt.

Nästa steg