Kom igång med Anpassad neural röst

Anpassad neural röst är en uppsättning onlineverktyg som gör att du kan skapa en identifierbar, en-av-en-typ-röst för ditt varumärke. Allt som krävs för att komma igång är en handfull ljudfiler och tillhörande transkriptioner. Följ länkarna nedan för att börja skapa en anpassad text till tal-upplevelse. Se språk och regioner som stöds för Anpassad neural röst.

Anteckning

Som en del av Microsofts arbete med att utforma ansvarsfull AI har vi begränsat användningen av Anpassad neural röst. Du kan få tillgång till tekniken först när dina program har granskats och du har förbinder dig att använda den i enlighet med våra principer för ansvarsfull AI. Läs mer om vår princip om begränsning av åtkomst och tillämpa här.

Konfigurera ditt Azure-konto

En speech-tjänstprenumeration krävs innan du kan använda Anpassad neural röst. Följ de här anvisningarna för att skapa en speech-tjänstprenumeration i Azure. Om du inte har något Azure-konto kan du registrera dig för ett nytt.

När du har skapat ett Azure-konto och en speech-tjänstprenumeration måste du logga in Speech Studio och ansluta din prenumeration.

  1. Hämta prenumerationsnyckeln för Speech-tjänsten från Azure Portal.
  2. Logga in på Speech Studiooch klicka sedan på Anpassad röst.
  3. Välj din prenumeration och skapa ett talprojekt.
  4. Om du vill växla till en annan Speech-prenumeration använder du kuggikonen som finns i det övre navigeringsfönstret.

Anteckning

Du måste ha en F0- eller S0 Speech-tjänstnyckel skapad i Azure innan du kan använda tjänsten. Anpassad neural röst stöder endast S0-nivån.

Skapa ett projekt

Innehåll som data, modeller, tester och slutpunkter är ordnade i Projekt i Speech Studio. Varje projekt är specifikt för ett land/språk och könet på den röst som du vill skapa. Du kan till exempel skapa ett projekt för en kvinnas röst för kundtjänstens chattrobotar som använder engelska i USA (en-US).

Om du vill skapa ditt första projekt väljer du fliken Text-till-tal/Anpassad röst och klickar sedan på Skapa projekt. Följ anvisningarna i guiden för att skapa projektet. När du har skapat ett projekt visas fyra flikar: Konfigurera rösttalanger, Förbereda träningsdata, Träna modell och Distribuera modell. Använd länkarna i nästa steg för att lära dig hur du använder varje flik.

Tips för att skapa en anpassad neural röst

Att skapa en bra anpassad röst kräver noggrann kvalitetskontroll i varje steg, från röstdesign och förberedelse av data till distribution av röstmodellen till systemet. Nedan visas några viktiga steg att vidta när du skapar en anpassad neural röst för din organisation.

Persona-design

Börja med att utforma en persona av rösten som representerar ditt varumärke med hjälp av ett personligt kort dokument som definierar element som funktionerna i rösten och tecknet bakom rösten. Detta hjälper till att vägleda processen med att skapa en anpassad röstmodell, inklusive att definiera skript, välja din rösttalang, träning och röstjustering.

Val av skript

Välj inspelningsskriptet noggrant för att representera användarscenarier för din röst. Du kan till exempel använda fraser från robotkonversationer som inspelningsskript om du skapar en kundtjänstrobot. Inkludera olika meningstyper i dina skript, inklusive instruktioner, frågor, utrop osv.

Förbereda träningsdata

Vi rekommenderar att ljudinspelningarna fångas i en inspelningsstudio av professionell kvalitet för att uppnå ett högt förhållande mellan signal och brus. Röstmodellens kvalitet beror mycket på dina träningsdata. Konsekvent volym, talhastighet, tonhöjd och konsekvens i uttrycksfulla talsätt krävs.

När inspelningarna är klara följer du Förbereda träningsdata för att förbereda träningsdata i rätt format.

Utbildning

När du har förberett träningsdata går du till Speech Studio för att skapa din anpassade neurala röst. Du måste välja minst 300 yttranden för att skapa en anpassad neural röst. En serie datakvalitetskontroller utförs automatiskt när du laddar upp dem. Om du vill skapa röstmodeller av hög kvalitet bör du åtgärda felen och skicka dem igen.

Testning

Förbered testskript för din röstmodell som täcker de olika användningsfallen för dina appar. Vi rekommenderar att du använder skript i och utanför träningsdatamängden så att du kan testa kvaliteten bredare för olika innehåll.

Justering och justering

Stilen och egenskaperna hos den tränade röstmodellen beror på stilen och kvaliteten på inspelningarna från rösttalangen som används för träning. Flera justeringar kan dock göras med hjälp av SSML (Speech Synthesis Markup Language) när du gör API-anrop till din röstmodell för att generera syntetiskt tal. SSML är det märkspråk som används för att kommunicera med TTS-tjänsten för att konvertera text till ljud. Justeringarna omfattar ändring av tonhöjd, frekvens, intonation och uttalskorrigering. Om röstmodellen har skapats med flera format kan SSML också användas för att växla format.

Migrera till Anpassad neural röst

Standard-/icke-neural träningsnivå (statistisk parametrisk, sammanfogning) för Anpassad röst kommer att tas ur bruk. Meddelandet har skickats ut till alla befintliga Speech-prenumerationer före 28 februari 2021. Under utfasningsperioden (mellan 1 mars 2021 och 29 februari 2024) kan befintliga användare på standardnivån fortsätta att använda de icke-neurala modeller som de har skapat. Alla nya användare/nya talresurser bör flyttas till den neurala nivån/Anpassad neural röst. Efter 29 februari 2024 stöds inte längre alla standard-/icke-neurala anpassade röster.

Om du använder icke-neurala/standardbaserade Anpassad röst migrerar du till Anpassad neural röst följer stegen nedan. När du Anpassad neural röst till ett nytt konto kan du utveckla mer realistiska röster för ännu mer naturliga konversationsgränssnitt och göra det möjligt för dina kunder och slutanvändare att dra nytta av den senaste text till tal-tekniken på ett ansvarsfullt sätt.

  1. Läs mer om vår princip om begränsning av åtkomst och tillämpa här. Observera att åtkomsten till Anpassad neural röst-tjänsten är föremål för Microsofts eget gottfinnande baserat på våra berättigandekriterier. Kunder kan få tillgång till tekniken först när deras program har granskats och de har förbinder sig att använda den i enlighet med våra principer för ansvarsfull AI och uppförandekoden.
  2. När ditt program har godkänts får du åtkomst till funktionen "neural" träning. Se till att du loggar in Speech Studio med samma Azure-prenumeration som du anger i ditt program.

    Viktigt

    För att skydda rösttalanger och förhindra träning av röstmodeller med obehörig inspelning eller utan bekräftelse från rösttalangen kräver vi att kunden laddar upp ett inspelat meddelande om rösttalangen som ger sitt medgivande. När du förbereder inspelningsskriptet ser du till att inkludera den här meningen. "Jag [ange ditt för- och efternamn] är medveten om att inspelningar av min röst kommer att användas av [ange företagets namn] för att skapa och använda en syntetisk version av min röst." Den här meningen måste laddas upp till fliken Konfigurera röstbegåvningar som en fil med ett uttryckligt medgivande. Den används för att kontrollera om inspelningarna i dina träningsdatamängder görs av samma person som gör medgivandet.

  3. När Anpassad neural röst har skapats distribuerar du röstmodellen till en ny slutpunkt. Om du vill skapa en ny anpassad röstslutpunkt med din neurala röstmodell går du till Text-till-tal-> Anpassad röst > Distribuera modell. Välj Distribuera modeller och ange ett Namn och en Beskrivning för din anpassade slutpunkt. Välj sedan den anpassade neurala röstmodell som du vill koppla till den här slutpunkten och bekräfta distributionen.
  4. Uppdatera koden i dina appar om du har skapat en ny slutpunkt med en ny modell.

Nästa steg