Träna din professionella röstmodell

I den här artikeln får du lära dig hur du tränar en anpassad neural röst via Speech Studio-portalen.

Viktigt!

Anpassad neural röstträning är för närvarande endast tillgänglig i vissa regioner. När din röstmodell har tränats i en region som stöds kan du kopiera den till en Speech-resurs i en annan region efter behov. Mer information finns i fotnoterna i taltjänsttabellen.

Träningsvaraktigheten varierar beroende på hur mycket data du använder. Det tar i genomsnitt cirka 40 beräkningstimmar att träna en anpassad neural röst. Standardprenumerationsanvändare (S0) kan träna fyra röster samtidigt. Om du når gränsen väntar du tills minst en av dina röstmodeller har slutfört träningen och försöker sedan igen.

Kommentar

Även om det totala antalet timmar som krävs per träningsmetod varierar, gäller samma enhetspris för var och en. Mer information finns i prisinformationen för anpassad neural träning.

Välj en träningsmetod

När du har verifierat dina datafiler använder du dem för att skapa din anpassade neurala röstmodell. När du skapar en anpassad neural röst kan du välja att träna den med någon av följande metoder:

  • Neural: Skapa en röst på samma språk som dina träningsdata.

  • Neural – korslingual: Skapa en röst som talar ett annat språk än dina träningsdata. Med träningsdata kan du till exempel zh-CN skapa en röst som talar en-US.

    Språket i träningsdata och målspråket måste båda vara ett av de språk som stöds för korsspråkig röstträning. Du behöver inte förbereda träningsdata på målspråket, men testskriptet måste vara på målspråket.

  • Neural – flera format: Skapa en anpassad neural röst som talar i flera stilar och känslor, utan att lägga till nya träningsdata. Flera stilröster är användbara för videospelskaraktärer, konversationschattrobotar, ljudböcker, innehållsläsare med mera.

    Om du vill skapa en röst med flera format måste du förbereda en uppsättning allmänna träningsdata, minst 300 yttranden. Välj en eller flera av de förinställda måltalande formatmallarna. Du kan också skapa flera anpassade format genom att tillhandahålla formatexempel, med minst 100 yttranden per format, som extra träningsdata för samma röst. De förinställda format som stöds varierar beroende på olika språk. Se tillgängliga förinställda format på olika språk.

Språket för träningsdata måste vara ett av de språk som stöds för anpassad neural röst, korslinguell eller flera formatträning.

Träna din anpassade neurala röstmodell

Följ dessa steg för någon av följande metoder för att skapa en anpassad neural röst i Speech Studio:

  1. Logga in på Speech Studio.

  2. Välj Anpassad röst<>Projektnamnet>>Träna modell>Träna en ny modell.

  3. Välj Neural som träningsmetod för din modell och välj sedan Nästa. Om du vill använda en annan träningsmetod kan du läsa Neural – korslingual eller Neural – i flera format.

    Screenshot that shows how to select neural training.

  4. Välj en version av träningsreceptet för din modell. Den senaste versionen är markerad som standard. De funktioner och träningstider som stöds kan variera beroende på version. Normalt rekommenderar vi den senaste versionen. I vissa fall kan du välja en tidigare version för att minska träningstiden. Mer information om tvåspråkig utbildning och skillnader mellan nationella inställningar finns i Tvåspråkig utbildning .

  5. Välj de data som du vill använda för träning. Dubbletter av ljudnamn tas bort från träningen. Kontrollera att de data du väljer inte innehåller samma ljudnamn i flera .zip filer.

    Du kan bara välja datauppsättningar som har bearbetats för träning. Om du inte ser träningsuppsättningen i listan kontrollerar du databehandlingsstatusen.

  6. Välj en talarfil med rösttalang-instruktionen som motsvarar talaren i dina träningsdata.

  7. Välj Nästa.

  8. Varje träning genererar 100 ljudexempelfiler automatiskt som hjälper dig att testa modellen med ett standardskript.

    Du kan också välja Lägg till mitt eget testskript och ange ett eget testskript med upp till 100 yttranden för att testa modellen utan extra kostnad. De genererade ljudfilerna är en kombination av automatiska testskript och anpassade testskript. Mer information finns i testskriptkrav.

  9. Ange ett namn som hjälper dig att identifiera modellen. Välj ett namn noggrant. Modellnamnet används som röstnamn i din talsyntesbegäran av SDK- och SSML-indata. Endast bokstäver, siffror och några skiljetecken tillåts. Använd olika namn för olika neurala röstmodeller.

  10. Du kan också ange beskrivningen som hjälper dig att identifiera modellen. En vanlig användning av beskrivningen är att registrera namnen på de data som du använde för att skapa modellen.

  11. Välj Nästa.

  12. Granska inställningarna och välj rutan för att acceptera användningsvillkoren.

  13. Välj Skicka för att börja träna modellen.

Tvåspråkig träning

Om du väljer neural träningstyp kan du träna en röst att tala på flera språk. Båda zh-CN språken och zh-TW stöder tvåspråkig utbildning för att rösten ska tala både kinesiska och engelska. Beroende delvis på dina träningsdata kan den syntetiserade rösten tala engelska med en engelsk infödd accent eller engelska med samma accent som träningsdata.

Kommentar

Om du vill att en röst på språkspråket zh-CN ska tala engelska med samma dekorfärg som exempeldata bör du välja Chinese (Mandarin, Simplified), English bilingual när du skapar ett projekt eller ange språkvarianten zh-CN (English bilingual) för träningsuppsättningsdata via REST API.

I följande tabell visas skillnaderna mellan de två språken:

Språkvariant för Speech Studio SPRÅKVARIANT FÖR REST API Tvåspråkigt stöd
Chinese (Mandarin, Simplified) zh-CN Om dina exempeldata innehåller engelska talar den syntetiserade rösten engelska med en engelsk infödd accent, i stället för samma accent som exempeldata, oavsett mängden engelska data.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Om du vill att den syntetiserade rösten ska tala engelska med samma accent som exempeldata rekommenderar vi att du inkluderar över 10 % engelska data i träningsuppsättningen. Annars kanske den engelsktalande accenten inte är idealisk.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Om du vill träna en syntetiserad röst som kan tala engelska med samma accent som dina exempeldata måste du ange över 10 % engelska data i träningsuppsättningen. Annars är standardinställningen en engelsk infödd accent. Tröskelvärdet på 10 % beräknas baserat på de data som accepteras efter en lyckad uppladdning, inte data innan de laddas upp. Om vissa uppladdade engelska data avvisas på grund av defekter och inte uppfyller tröskelvärdet på 10 % är den syntetiserade rösten som standard en engelsk infödd accent.

Tillgängliga förinställda format på olika språk

I följande tabell sammanfattas de olika förinställda formaten enligt olika språk.

Samtalsstil Språk (språk)
Arg Engelska (USA) (en-US)
Japanska (Japan) (ja-JP) 1
Kinesiska (mandarin, förenklad) (zh-CN) 1
Lugn Kinesiska (mandarin, förenklad) (zh-CN) 1
chatt Kinesiska (mandarin, förenklad) (zh-CN) 1
Glad Engelska (USA) (en-US)
Japanska (Japan) (ja-JP) 1
Kinesiska (mandarin, förenklad) (zh-CN) 1
Missnöjda Kinesiska (mandarin, förenklad) (zh-CN) 1
Glada Engelska (USA) (en-US)
Rädda Kinesiska (mandarin, förenklad) (zh-CN) 1
Vänlig Engelska (USA) (en-US)
Hoppfull Engelska (USA) (en-US)
Ledsen Engelska (USA) (en-US)
Japanska (Japan) (ja-JP) 1
Kinesiska (mandarin, förenklad) (zh-CN) 1
Skrika Engelska (USA) (en-US)
Allvarliga Kinesiska (mandarin, förenklad) (zh-CN) 1
Livrädd Engelska (USA) (en-US)
Ovänliga Engelska (USA) (en-US)
Viskar Engelska (USA) (en-US)

1 Den neurala röststilen är tillgänglig i offentlig förhandsversion. Formatmallar i offentlig förhandsversion är endast tillgängliga i dessa tjänstregioner: USA, östra, Europa, västra och Asien, sydöstra.


Tabellen Träna modell visar en ny post som motsvarar den nya modellen. Statusen återspeglar processen för att konvertera dina data till en röstmodell enligt beskrivningen i den här tabellen:

Tillstånd Innebörd
Bearbetning Din röstmodell skapas.
Lyckades Din röstmodell har skapats och kan distribueras.
Misslyckad Din röstmodell har misslyckats i träningen. Orsaken till felet kan till exempel vara osedda dataproblem eller nätverksproblem.
Avbruten Träningen för din röstmodell avbröts.

Medan modellstatusen är Bearbetning kan du välja Avbryt träning för att avbryta röstmodellen. Du debiteras inte för den här avbrutna träningen.

Screenshot that shows how to cancel training for a model.

När du har tränat modellen kan du granska modellinformationen och testa din röstmodell.

Du kan använda verktyget Skapa ljudinnehåll i Speech Studio för att skapa ljud och finjustera din distribuerade röst. Om det är tillämpligt för din röst kan du välja ett av flera formatmallar.

Byt namn på din modell

  1. Om du vill byta namn på den modell som du skapade väljer du Klona modell för att skapa en klon av modellen med ett nytt namn i det aktuella projektet.

    Screenshot of selecting the Clone model button.

  2. Ange det nya namnet i fönstret Klona röstmodell och välj sedan Skicka. Texten Neural läggs automatiskt till som ett suffix i det nya modellnamnet.

    Screenshot of cloning a model with a new name.

Testa din röstmodell

När röstmodellen har skapats kan du använda de genererade ljudfilerna för att testa den innan du distribuerar den.

Röstens kvalitet beror på många faktorer, till exempel:

  • Storleken på träningsdata.
  • Kvaliteten på inspelningen.
  • Noggrannheten i avskriftsfilen.
  • Hur väl den inspelade rösten i träningsdata matchar den designade röstens personlighet för ditt avsedda användningsfall.

Välj DefaultTests under Testning för att lyssna på exempelljudfilerna. Standardtestexemplen innehåller 100 exempelljudfiler som genereras automatiskt under träningen för att hjälpa dig att testa modellen. Utöver dessa 100 ljudfiler som tillhandahålls som standard läggs även dina egna testskriptyttranden till i DefaultTests-uppsättningen . Det här tillägget är högst 100 yttranden. Du debiteras inte för testningen med DefaultTests.

Screenshot of selecting DefaultTests under Testing.

Om du vill ladda upp egna testskript för att ytterligare testa din modell väljer du Lägg till testskript för att ladda upp ditt eget testskript.

Screenshot of adding model test scripts.

Kontrollera kraven för testskript innan du laddar upp testskriptet. Du debiteras för den extra testningen med batchsyntesen baserat på antalet fakturerbara tecken. Se Priser för Azure AI Speech.

Under Lägg till testskript väljer du Bläddra efter en fil för att välja ditt eget skript och sedan Lägg till för att ladda upp den.

Screenshot of uploading model test scripts.

Krav för testskript

Testskriptet måste vara en .txt fil som är mindre än 1 MB. Kodningsformat som stöds är ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE eller UTF-16-BE.

Till skillnad från transkriptionsfilerna för träning bör testskriptet undanta yttrande-ID:t, som är filnamnet för varje yttrande. Annars talas dessa ID:er.

Här är en exempeluppsättning med yttranden i en .txt fil:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

Varje stycke i yttrandet resulterar i ett separat ljud. Om du vill kombinera alla meningar till ett ljud gör du dem till ett enda stycke.

Kommentar

De genererade ljudfilerna är en kombination av automatiska testskript och anpassade testskript.

Uppdatera motorversionen för din röstmodell

Azure text till talmotorer uppdateras då och då för att samla in den senaste språkmodellen som definierar uttalet av språket. När du har tränat din röst kan du tillämpa din röst på den nya språkmodellen genom att uppdatera till den senaste motorversionen.

  1. När en ny motor är tillgänglig uppmanas du att uppdatera din neurala röstmodell.

    Screenshot of displaying engine update message.

  2. Gå till sidan med modellinformation och följ anvisningarna på skärmen för att installera den senaste motorn.

    Screenshot of following on-screen instructions to install the new engine.

    Du kan också välja Installera den senaste motorn senare för att uppdatera din modell till den senaste motorversionen.

    Screenshot of selecting Install the latest engine button to update engine.

    Du debiteras inte för motoruppdatering. De tidigare versionerna behålls fortfarande.

  3. Du kan kontrollera alla motorversioner för modellen från listan Motorversion eller ta bort en om du inte behöver den längre.

    Screenshot of displaying Engine version drop-down list.

    Den uppdaterade versionen anges automatiskt som standard. Men du kan ändra standardversionen genom att välja en version i listrutan och välja Ange som standard.

    Screenshot that shows how to set a version as default.

Om du vill testa varje motorversion av röstmodellen kan du välja en version i listan och sedan välja DefaultTests under Testning för att lyssna på ljudfilerna. Om du vill ladda upp dina egna testskript för att ytterligare testa den aktuella motorversionen kontrollerar du först att versionen är inställd som standard och följer sedan stegen i Testa din röstmodell.

När motorn uppdateras skapas en ny version av modellen utan extra kostnad. När du har uppdaterat motorversionen för röstmodellen måste du distribuera den nya versionen för att skapa en ny slutpunkt. Du kan bara distribuera standardversionen.

Screenshot that shows how to redeploy a new version of your voice model.

När du har skapat en ny slutpunkt måste du överföra trafiken till den nya slutpunkten i produkten.

Mer information om funktionerna och gränserna för den här funktionen och bästa praxis för att förbättra modellkvaliteten finns i Egenskaper och begränsningar för att använda anpassad neural röst.

Kopiera röstmodellen till ett annat projekt

Du kan kopiera röstmodellen till ett annat projekt för samma region eller en annan region. Du kan till exempel kopiera en neural röstmodell som har tränats i en region till ett projekt för en annan region.

Kommentar

Anpassad neural röstträning är för närvarande endast tillgänglig i vissa regioner. Du kan kopiera en neural röstmodell från dessa regioner till andra regioner. Mer information finns i regionerna för anpassad neural röst.

Så här kopierar du din anpassade neurala röstmodell till ett annat projekt:

  1. På fliken Träna modell väljer du en röstmodell som du vill kopiera och väljer sedan Kopiera till projekt.

    Screenshot of the copy to project option.

  2. Välj den region, talresurs och projekt där du vill kopiera modellen. Du måste ha en talresurs och ett projekt i målregionen, annars måste du skapa dem först.

    Screenshot of the copy voice model dialog.

  3. Välj Skicka för att kopiera modellen.

  4. Välj Visa modell under meddelandemeddelandet för lyckad kopiering.

Gå till projektet där du kopierade modellen för att distribuera modellkopian.

Nästa steg

I den här artikeln får du lära dig hur du tränar en anpassad neural röst via det anpassade röst-API:et.

Viktigt!

Anpassad neural röstträning är för närvarande endast tillgänglig i vissa regioner. När din röstmodell har tränats i en region som stöds kan du kopiera den till en Speech-resurs i en annan region efter behov. Mer information finns i fotnoterna i taltjänsttabellen.

Träningsvaraktigheten varierar beroende på hur mycket data du använder. Det tar i genomsnitt cirka 40 beräkningstimmar att träna en anpassad neural röst. Standardprenumerationsanvändare (S0) kan träna fyra röster samtidigt. Om du når gränsen väntar du tills minst en av dina röstmodeller har slutfört träningen och försöker sedan igen.

Kommentar

Även om det totala antalet timmar som krävs per träningsmetod varierar, gäller samma enhetspris för var och en. Mer information finns i prisinformationen för anpassad neural träning.

Välj en träningsmetod

När du har verifierat dina datafiler använder du dem för att skapa din anpassade neurala röstmodell. När du skapar en anpassad neural röst kan du välja att träna den med någon av följande metoder:

  • Neural: Skapa en röst på samma språk som dina träningsdata.

  • Neural – korslingual: Skapa en röst som talar ett annat språk än dina träningsdata. Med träningsdata kan du till exempel fr-FR skapa en röst som talar en-US.

    Språket i träningsdata och målspråket måste båda vara ett av de språk som stöds för korsspråkig röstträning. Du behöver inte förbereda träningsdata på målspråket, men testskriptet måste vara på målspråket.

  • Neural – flera format: Skapa en anpassad neural röst som talar i flera stilar och känslor, utan att lägga till nya träningsdata. Flera stilröster är användbara för videospelskaraktärer, konversationschattrobotar, ljudböcker, innehållsläsare med mera.

    Om du vill skapa en röst med flera format måste du förbereda en uppsättning allmänna träningsdata, minst 300 yttranden. Välj en eller flera av de förinställda måltalande formatmallarna. Du kan också skapa flera anpassade format genom att tillhandahålla formatexempel, med minst 100 yttranden per format, som extra träningsdata för samma röst. De förinställda format som stöds varierar beroende på olika språk. Se tillgängliga förinställda format på olika språk.

Språket i träningsdata måste vara ett av de språk som stöds för anpassad neural röst, korslingual eller träning i flera format.

Skapa en röstmodell

Om du vill skapa en neural röst använder du den Models_Create åtgärden för det anpassade röst-API:et. Skapa begärandetexten enligt följande instruktioner:

Gör en HTTP PUT-begäran med hjälp av URI:n enligt följande Models_Create exempel.

  • Ersätt YourResourceKey med din Speech-resursnyckel.
  • Ersätt YourResourceRegion med din Speech-resursregion.
  • Ersätt JessicaModelId med ett valfritt modell-ID. Skiftlägeskänsligt ID används i modellens URI och kan inte ändras senare.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2023-12-01-preview"

Du bör få en svarstext i följande format:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Tvåspråkig träning

Om du väljer neural träningstyp kan du träna en röst att tala på flera språk. Båda zh-CN språken och zh-TW stöder tvåspråkig utbildning för att rösten ska tala både kinesiska och engelska. Beroende delvis på dina träningsdata kan den syntetiserade rösten tala engelska med en engelsk infödd accent eller engelska med samma accent som träningsdata.

Kommentar

Om du vill att en röst på språkspråket zh-CN ska tala engelska med samma dekorfärg som exempeldata bör du välja Chinese (Mandarin, Simplified), English bilingual när du skapar ett projekt eller ange språkvarianten zh-CN (English bilingual) för träningsuppsättningsdata via REST API.

I följande tabell visas skillnaderna mellan de två språken:

Språkvariant för Speech Studio SPRÅKVARIANT FÖR REST API Tvåspråkigt stöd
Chinese (Mandarin, Simplified) zh-CN Om dina exempeldata innehåller engelska talar den syntetiserade rösten engelska med en engelsk infödd accent, i stället för samma accent som exempeldata, oavsett mängden engelska data.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) Om du vill att den syntetiserade rösten ska tala engelska med samma accent som exempeldata rekommenderar vi att du inkluderar över 10 % engelska data i träningsuppsättningen. Annars kanske den engelsktalande accenten inte är idealisk.
Chinese (Taiwanese Mandarin, Traditional) zh-TW Om du vill träna en syntetiserad röst som kan tala engelska med samma accent som dina exempeldata måste du ange över 10 % engelska data i träningsuppsättningen. Annars är standardinställningen en engelsk infödd accent. Tröskelvärdet på 10 % beräknas baserat på de data som accepteras efter en lyckad uppladdning, inte data innan de laddas upp. Om vissa uppladdade engelska data avvisas på grund av defekter och inte uppfyller tröskelvärdet på 10 % är den syntetiserade rösten som standard en engelsk infödd accent.

Tillgängliga förinställda format på olika språk

I följande tabell sammanfattas de olika förinställda formaten enligt olika språk.

Samtalsstil Språk (språk)
Arg Engelska (USA) (en-US)
Japanska (Japan) (ja-JP) 1
Kinesiska (mandarin, förenklad) (zh-CN) 1
Lugn Kinesiska (mandarin, förenklad) (zh-CN) 1
chatt Kinesiska (mandarin, förenklad) (zh-CN) 1
Glad Engelska (USA) (en-US)
Japanska (Japan) (ja-JP) 1
Kinesiska (mandarin, förenklad) (zh-CN) 1
Missnöjda Kinesiska (mandarin, förenklad) (zh-CN) 1
Glada Engelska (USA) (en-US)
Rädda Kinesiska (mandarin, förenklad) (zh-CN) 1
Vänlig Engelska (USA) (en-US)
Hoppfull Engelska (USA) (en-US)
Ledsen Engelska (USA) (en-US)
Japanska (Japan) (ja-JP) 1
Kinesiska (mandarin, förenklad) (zh-CN) 1
Skrika Engelska (USA) (en-US)
Allvarliga Kinesiska (mandarin, förenklad) (zh-CN) 1
Livrädd Engelska (USA) (en-US)
Ovänliga Engelska (USA) (en-US)
Viskar Engelska (USA) (en-US)

1 Den neurala röststilen är tillgänglig i offentlig förhandsversion. Formatmallar i offentlig förhandsversion är endast tillgängliga i dessa tjänstregioner: USA, östra, Europa, västra och Asien, sydöstra.


Hämta träningsstatus

Om du vill få träningsstatus för en röstmodell använder du den Models_Get funktionen för det anpassade röst-API:et. Konstruera begärande-URI:n enligt följande instruktioner:

Gör en HTTP GET-begäran med hjälp av URI:n enligt följande Models_Get exempel.

  • Ersätt YourResourceKey med din Speech-resursnyckel.
  • Ersätt YourResourceRegion med din Speech-resursregion.
  • Ersätt JessicaModelId om du angav ett annat modell-ID i föregående steg.
curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2023-12-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Du bör få en svarstext i följande format.

Kommentar

Receptet kind och andra egenskaper beror på hur du tränade rösten. I det här exemplet är Default recepttyp för neural röstträning.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Du kan behöva vänta i flera minuter innan träningen är klar. Så småningom ändras statusen till antingen Succeeded eller Failed.

Nästa steg