Träna och distribuera en Custom Speech-modell

I den här artikeln får du lära dig hur du tränar och distribuerar Custom Speech-modeller. Genom att träna en tal till text-modell kan du förbättra igenkänningsprecisionen för Microsofts baslinjemodell. Du använder transkriptioner med mänsklig etikett och relaterad text för att träna en modell. Dessa datauppsättningar, tillsammans med tidigare uppladdade ljuddata, används för att förfina och träna tal till text-modellen.

Använda träning för att lösa noggrannhetsproblem

Om du stöter på igenkänningsproblem med en basmodell kan du använda transkriptioner som är märkta med människor och relaterade data för att träna en anpassad modell och förbättra noggrannheten. Använd den här tabellen för att avgöra vilken datauppsättning som ska användas för att åtgärda dina problem:

Användningsfall Datatyp
Förbättra igenkänningsprecisionen för branschspecifika vokabulär och grammatik, som medicinsk terminologi eller IT-jargong Relaterad text (meningar/yttranden)
Definiera den fonetiska och visade formen av ett ord eller en term som har icke-standarduttal, som produktnamn eller förkortningar Relaterad text (uttal)
Förbättra igenkänningsprecisionen för talstilar, accenter eller specifika bakgrundsbrus Ljud + mänskligt märkta avskrifter

Träna och utvärdera en modell

Det första steget för att träna en modell är att ladda upp träningsdata. Stegvisa instruktioner för att förbereda transkriptioner och relaterad text (yttranden och uttal) finns i Förbereda och testa dina data. När du har laddat upp träningsdata följer du de här anvisningarna för att börja träna din modell:

  1. Logga in på Custom Speech-portalen. Om du planerar att träna en modell med ljud och mänskliga märkta transkriptionsdatauppsättningar väljer du en Speech-prenumeration i en region med dedikerad maskinvara för träning.
  2. Gå till Tal till text Anpassat > tal > [namnet på projektet] > Utbildning.
  3. Välj Träna modell.
  4. Ge träningen ett namn och en beskrivning.
  5. I listan Scenario och baslinjemodell väljer du det scenario som passar din domän bäst. Om du inte är säker på vilket scenario du ska välja väljer du Allmänt. Baslinjemodellen är startpunkten för träning. Den senaste modellen är vanligtvis det bästa valet.
  6. På sidan Välj träningsdata väljer du en eller flera relaterade textdatauppsättningar eller ljud + mänskliga märkta transkriptionsdatauppsättningar som du vill använda för träning.

Anteckning

När du tränar en ny modell börjar du med relaterad text. träning med ljud + transkription med mänsklig etikett kan ta mycket längre tid (upp till flera dagar).

Anteckning

Alla basmodeller stöder inte träning med ljud. Om en basmodell inte stöder det använder Speech-tjänsten endast texten från avskrifterna och ignorerar ljudet. Se Språkstöd för en lista över basmodeller som stöder träning med ljuddata.

Anteckning

Om du ändrar basmodellen som används för träning och du har ljud i träningsdatauppsättningen kontrollerar du alltid om den nya valda basmodellen stöder träning med ljuddata. Om den tidigare använda basmodellen inte hade stöd för träning med ljuddata och träningsdatamängden innehåller ljud, ökar träningstiden med den nya basmodellen drastiskt och kan lätt gå från flera timmar till flera dagar och mer. Detta gäller särskilt om speech-tjänstprenumerationen inte finns i en region med dedikerad maskinvara för träning.

Om du får problem som beskrivs i stycket ovan kan du snabbt minska träningstiden genom att minska mängden ljud i datauppsättningen eller ta bort den helt och endast lämna texten. Det senare alternativet rekommenderas starkt om speech-tjänstprenumerationen inte finns i en region med dedikerad maskinvara för träning.

  1. När träningen är klar kan du utföra noggrannhetstestning på den nytränade modellen. Det här är valfritt.
  2. Välj Skapa för att skapa din anpassade modell.

I tabellen Träning visas en ny post som motsvarar den nya modellen. I tabellen visas även statusen: Processing, Succeeded( Bearbetningen lyckades) eller Failed (Misslyckades).

Läs mer om att utvärdera och förbättra modellen med anpassat tal. Om du väljer att testa noggrannheten är det viktigt att välja en akustisk datamängd som skiljer sig från den som du använde med din modell för att få en realistisk bild av modellens prestanda.

Anteckning

Både basmodeller och anpassade modeller kan endast användas fram till ett visst datum (se Modell- och slutpunktslivscykel). Speech Studio visar det här datumet i kolumnen Förfallodatum för varje modell och slutpunkt. Efter detta datum kan begäran till en slutpunkt eller batch-transkription misslyckas eller gå tillbaka till basmodellen.

Träna om din modell med hjälp av den senaste basmodellen för att dra nytta av noggrannhetsförbättringar och för att undvika att din modell upphör att gälla.

Distribuera en anpassad modell

När du har laddat upp och inspekterat data, utvärdera noggrannhet och tränat en anpassad modell kan du distribuera en anpassad slutpunkt som ska användas med dina appar, verktyg och produkter.

Om du vill skapa en anpassad slutpunkt loggar du in på Custom Speech-portalen. Välj Distributionmenyn Anpassat tal längst upp på sidan. Om det här är din första körning ser du att det inte finns några slutpunkter i tabellen. När du har skapat en slutpunkt använder du den här sidan för att spåra varje distribuerad slutpunkt.

Välj sedan Lägg till slutpunkt och ange ett Namn och en Beskrivning för din anpassade slutpunkt. Välj sedan den anpassade modell som du vill associera med slutpunkten. Du kan också aktivera loggning från den här sidan. Med loggning kan du övervaka slutpunktstrafik. Om loggning är inaktiverat lagras inte trafik.

Skärmbild som visar sidan Ny slutpunkt.

Anteckning

Glöm inte att acceptera användningsvillkoren och prisinformationen.

Välj sedan Skapa. Den här åtgärden återgår till sidan Distribution. Tabellen innehåller nu en post som motsvarar din anpassade slutpunkt. Slutpunktens status visar dess aktuella tillstånd. Det kan ta upp till 30 minuter att skapa en instans av en ny slutpunkt med hjälp av dina anpassade modeller. När statusen för distributionen ändras till Slutför är slutpunkten redo att användas.

När slutpunkten har distribuerats visas slutpunktsnamnet som en länk. Välj länken för att se information som är specifik för din slutpunkt, till exempel slutpunktsnyckel, slutpunkts-URL och exempelkod. Anteckna förfallodatumet och uppdatera slutpunktens modell före det datumet för att säkerställa oavbruten tjänst.

Visa loggningsdata

Loggningsdata är tillgängliga för export om du går till slutpunktens sida under Distributioner.

Anteckning

Loggningsdata är tillgängliga i 30 dagar på Microsoft-ägda lagringsenheter. Den tas bort efteråt. Om ett kundägt lagringskonto är länkat Cognitive Services prenumerationen tas loggningsdata inte bort automatiskt.

Nästa steg

Ytterligare resurser