Vad är Custom Speech?

Med Custom Speech kan du utvärdera och förbättra Microsofts noggrannhet för tal till text för dina program och produkter. Följ länkarna i den här artikeln för att börja skapa en anpassad tal till text-upplevelse.

Vad finns i Custom Speech?

Innan du kan göra något med Custom Speech behöver du ett Azure-konto och en speech-tjänstprenumeration. När du har ett konto kan du förbereda dina data, träna och testa dina modeller, inspektera igenkänningskvaliteten, utvärdera noggrannhet och slutligen distribuera och använda den anpassade tal till text-modellen.

Det här diagrammet visar de delar som utgör området Anpassat tal i Speech Studio. Använd länkarna nedan om du vill veta mer om varje steg.

Diagram som visar de komponenter som utgör området Anpassat tal i Speech Studio.

  1. Prenumerera och skapa ett projekt. Skapa ett Azure-konto och prenumerera på Speech-tjänsten. Den här enhetliga prenumerationen ger dig åtkomst till tal till text, text till tal, talöversättning och Speech Studio. Använd sedan speech-tjänstprenumerationen för att skapa ditt första Custom Speech-projekt.

  2. Upload testdata. Upload testa data (ljudfiler) för att utvärdera Microsofts tal till text-erbjudande för dina program, verktyg och produkter.

  3. Inspektera igenkänningskvaliteten. Använd Speech Studio för att spela upp uppladdat ljud och kontrollera taligenkänningskvaliteten för dina testdata. Kvantitativa mätningar finns i Granska data.

  4. Utvärdera och förbättra noggrannheten. Utvärdera och förbättra noggrannheten för tal till text-modellen. I Speech Studio du en Word-felfrekvens som du kan använda för att avgöra om ytterligare träning krävs. Om du är nöjd med precisionen kan du använda Api:er för Speech-tjänsten direkt. Om du vill förbättra noggrannheten med ett relativt genomsnitt på 5 % till 20 % använder du fliken Träning i portalen för att ladda upp ytterligare träningsdata, till exempel mänskligt märkta avskrifter och relaterad text.

  5. Träna och distribuera en modell. Förbättra noggrannheten för din tal till text-modell genom att tillhandahålla skriftliga avskrifter (10 till 1 000 timmar) och relaterad text (<200 MB) tillsammans med dina ljudtestdata. Dessa data hjälper till att träna tal till text-modellen. Testa igen efter träningen. Om du är nöjd med resultatet kan du distribuera din modell till en anpassad slutpunkt.

Konfigurera ditt Azure-konto

Du måste ha ett Azure-konto och en Speech-tjänstprenumeration innan du kan använda Speech Studio för att skapa en anpassad modell. Om du inte har något konto och en prenumeration kan du prova Speech-tjänsten utan kostnad.

Om du planerar att träna en anpassad modell med ljuddata väljer du någon av följande regioner som har dedikerad maskinvara tillgänglig för träning. Detta minskar den tid det tar att träna en modell och gör att du kan använda mer ljud för träning. I dessa regioner använder Speech-tjänsten upp till 20 timmars ljud för träning. i andra regioner kommer den bara att använda upp till 8 timmar.

  • Australien, östra
  • Kanada, centrala
  • Indien, centrala
  • East US
  • USA, östra 2
  • USA, norra centrala
  • Europa, norra
  • USA, södra centrala
  • Sydostasien
  • Storbritannien, södra
  • US Gov, Arizona
  • US Gov, Virginia
  • Europa, västra
  • USA, västra 2

När du har skapat ett Azure-konto och en Speech Service-prenumeration måste du logga in på Speech Studio och ansluta din prenumeration.

  1. Logga in på Speech Studio.
  2. Välj den prenumeration som du behöver för att arbeta i och skapa ett talprojekt.
  3. Om du vill ändra din prenumeration väljer du kuggknappen på den översta menyn.

Så här skapar du ett projekt

Innehåll som data, modeller, tester och slutpunkter är ordnade i projekt i Speech Studio. Varje projekt är specifikt för en domän och ett land/språk. Du kan till exempel skapa ett projekt för callcenter som använder engelska i USA.

Om du vill skapa ditt första projekt väljer du Tal till text/Anpassat tal och väljer sedan Nytt Project. Följ anvisningarna i guiden för att skapa projektet. När du har skapat ett projekt bör du se fyra flikar: Data, Testning, Träning och Distribution. Använd länkarna i Nästa steg för att lära dig hur du använder varje flik.

Viktigt

Den Speech Studio kallades tidigare "Custom Speech Portal" har nyligen uppdaterats! Om du har skapat tidigare data, modeller, tester och publicerade slutpunkter i CRIS.ai-portalen eller med API:er måste du skapa ett nytt projekt i den nya portalen för att ansluta till dessa gamla entiteter.

Livscykel för modell och slutpunkt

Äldre modeller blir vanligtvis mindre användbara med tiden eftersom den senaste modellen vanligtvis har högre noggrannhet. Därför kan både basmodeller och anpassade modeller och slutpunkter som skapats via portalen förfalla efter ett år för anpassning och två år för avkodning. Se en detaljerad beskrivning i artikeln Livscykel för modell och slutpunkt.

Nästa steg