Vad är anpassat tal?

Artikel
01/22/2024

Med anpassat tal kan du utvärdera och förbättra noggrannheten för taligenkänning för dina program och produkter. En anpassad talmodell kan användas för tal till text i realtid, talöversättning och batch-transkription.

Direkt använder taligenkänning en universell språkmodell som basmodell som tränas med Microsoft-ägda data och återspeglar vanligt talat språk. Basmodellen är förtränad med dialekter och fonetik som representerar olika vanliga domäner. När du gör en begäran om taligenkänning används den senaste basmodellen för varje språk som stöds som standard. Basmodellen fungerar bra i de flesta taligenkänningsscenarier.

En anpassad modell kan användas för att utöka basmodellen för att förbättra igenkänningen av domänspecifik vokabulär som är specifik för programmet genom att tillhandahålla textdata för att träna modellen. Det kan också användas för att förbättra igenkänningen baserat på programmets specifika ljudvillkor genom att tillhandahålla ljuddata med referensavskrifter.

Du kan också träna en modell med strukturerad text när data följer ett mönster, ange anpassade uttal och anpassa visningstextformatering med anpassad inverterad textnormalisering, anpassad omskrivning och anpassad svordomsfiltrering.

Hur fungerar det?

Med anpassat tal kan du ladda upp dina egna data, testa och träna en anpassad modell, jämföra noggrannhet mellan modeller och distribuera en modell till en anpassad slutpunkt.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Här är mer information om sekvensen med steg som visas i föregående diagram:

Skapa ett projekt och välj en modell. Använd en Speech-resurs som du skapar i Azure-portalen. Om du tränar en anpassad modell med ljuddata väljer du en Speech-resursregion med dedikerad maskinvara för att träna ljuddata. Mer information finns i fotnoter i regionstabellen.
Ladda upp testdata. Ladda upp testdata för att utvärdera tal till text-erbjudandet för dina program, verktyg och produkter.
Testigenkänningskvalitet. Använd Speech Studio för att spela upp uppladdat ljud och inspektera taligenkänningskvaliteten för dina testdata.
Testa modellen kvantitativt. Utvärdera och förbättra noggrannheten för tal till text-modellen. Speech-tjänsten tillhandahåller en kvantitativ ordfelfrekvens (WER), som du kan använda för att avgöra om mer utbildning krävs.
Träna en modell. Ange skriftliga avskrifter och relaterad text, tillsammans med motsvarande ljuddata. Att testa en modell före och efter träningen är valfritt men rekommenderas.

Kommentar

Du betalar för användning av anpassad talmodell och slutpunktsvärd. Du debiteras också för anpassad talmodellträning om basmodellen skapades den 1 oktober 2023 och senare. Du debiteras inte för träning om basmodellen skapades före oktober 2023. Mer information finns i Prissättning för Azure AI Speech och avsnittet Avgift för anpassning i migreringsguiden för tal till text 3.2.
Distribuera en modell. När du är nöjd med testresultaten distribuerar du modellen till en anpassad slutpunkt. Förutom batch-transkription måste du distribuera en anpassad slutpunkt för att använda en anpassad talmodell.

Dricks

En värdbaserad distributionsslutpunkt krävs inte för att använda anpassat tal med Batch-transkriptions-API:et. Du kan spara resurser om den anpassade talmodellen endast används för batch-transkription. Mer information finns i Priser för Speech-tjänsten.

Ansvarig AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.

Vad är anpassat tal?

Hur fungerar det?

Ansvarig AI

Nästa steg

Ytterligare resurser