Om du inte hittar svar på dina frågor i de här vanliga frågorna kan du läsa andra supportalternativ.
Allmänt
Vad är skillnaden mellan en baslinjemodell och en anpassad Tal till text modell?
En baslinjemodell har tränats med hjälp av Microsoft-ägda data och har redan distribuerats i molnet. Du kan använda en anpassad modell för att anpassa en modell så att den bättre passar en specifik miljö som har specifikt omgivande brus eller språk. Fabriksgolv, bilar eller brus på gator skulle kräva en anpassad akustisk modell. Ämnen som biologi, fysik, radiologi, produktnamn och anpassade förkortningar skulle kräva en anpassad språkmodell. Om du tränar en anpassad modell bör du börja med relaterad text för att förbättra igenkänningen av särskilda termer och fraser.
Var börjar jag om jag vill använda en baslinjemodell?
Skaffa först en prenumerationsnyckel. Om du vill göra REST-anrop till de fördeployerade baslinjemodellerna kan du gå till REST-API:erna. Om du vill använda WebSockets laddar du ned SDK:n.
Behöver jag alltid skapa en anpassad talmodell?
Nej. Om ditt program använder ett allmänt, dagsspråk behöver du inte anpassa en modell. Om ditt program används i en miljö där det finns lite eller inget bakgrundsbrus behöver du inte anpassa en modell.
Du kan distribuera baslinjemodeller och anpassade modeller i portalen och sedan köra noggrannhetstester mot dem. Du kan använda den här funktionen för att mäta noggrannheten för en baslinjemodell jämfört med en anpassad modell.
Hur vet jag när bearbetningen för min datauppsättning eller modell är klar?
För närvarande är status för modellen eller datauppsättningen i tabellen det enda sättet att veta. När bearbetningen är klar är statusen Lyckades.
Kan jag skapa mer än en modell?
Det finns ingen gräns för hur många modeller du kan ha i din samling.
Jag insåg att jag gjorde ett misstag. Hur gör jag för att avbryta min dataimport eller skapande av modell som pågår?
För närvarande kan du inte återställa en process för akustisk anpassning eller språkanpassning. Du kan ta bort importerade data och modeller när de är i ett terminaltillstånd.
Jag får flera resultat för varje fras med det detaljerade utdataformatet. Vilken ska jag använda?
Ta alltid det första resultatet, även om ett annat resultat ("N-Best") kan ha ett högre konfidensvärde. Speech-tjänsten anser att det första resultatet är bäst. Det kan också vara en tom sträng om inget tal identifierades.
De andra resultaten är förmodligen sämre och kanske inte har fullständig versaler och skiljetecken tillämpade. Dessa resultat är mest användbara i särskilda scenarier som att ge användarna möjlighet att välja korrigeringar från en lista eller hantera felaktigt identifierade kommandon.
Varför finns det olika basmodeller?
Du kan välja mellan mer än en basmodell i Speech-tjänsten. Varje modellnamn innehåller datumet då det lades till. När du börjar träna en anpassad modell använder du den senaste modellen för att få bästa möjliga noggrannhet. Äldre basmodeller är fortfarande tillgängliga under en viss tid när en ny modell görs tillgänglig. Du kan fortsätta att använda modellen som du har arbetat med tills den har dragits tillbaka (se Livscykel för modell och slutpunkt). Vi rekommenderar fortfarande att du växlar till den senaste basmodellen för bättre noggrannhet.
Kan jag uppdatera min befintliga modell (modellstapling)?
Du kan inte uppdatera en befintlig modell. Som en lösning kombinerar du den gamla datauppsättningen med den nya datauppsättningen och readapt.
Den gamla datauppsättningen och den nya datauppsättningen måste kombineras i en enda .zip (för akustiska data) eller i en .txt -fil (för språkdata). När anpassningen är klar måste den nya, uppdaterade modellen omdistribueras för att få en ny slutpunkt
Uppdateras distributionen automatiskt när en ny version av en basmodell är tillgänglig?
Distributioner uppdateras INTE automatiskt.
Om du har anpassat och distribuerat en modell förblir distributionen som den är. Du kan inaktivera den distribuerade modellen, läsa med den nyare versionen av basmodellen och omdistribuera för bättre noggrannhet.
Både basmodeller och anpassade modeller dras tillbaka efter en stund (se Modell- och slutpunktslivscykel).
Kan jag ladda ned min modell och köra den lokalt?
Du kan köra en anpassad modell lokalt i en Docker-container.
Kan jag kopiera eller flytta mina datauppsättningar, modeller och distributioner till en annan region eller prenumeration?
Du kan använda REST API för att kopiera en anpassad modell till en annan region eller prenumeration. Datauppsättningar eller distributioner kan inte kopieras. Du kan importera en datauppsättning igen i en annan prenumeration och skapa slutpunkter där med hjälp av modellkopiorna.
Loggas mina begäranden?
Som standard loggas inte begäranden (varken ljud eller transkription). Om det behövs kan du välja Alternativet Logga innehåll från den här slutpunkten när du skapar en anpassad slutpunkt. Du kan också aktivera ljudloggning i Speech SDK per begäran utan att skapa en anpassad slutpunkt. I båda fallen lagras ljud- och igenkänningsresultat för begäranden i säker lagring. För prenumerationer som använder Microsoft-ägd lagring är de tillgängliga i 30 dagar.
Du kan exportera de loggade filerna på distributionssidan i Speech Studio om du använder en anpassad slutpunkt med Logginnehåll från den här slutpunkten aktiverad. Om ljudloggning är aktiverat via SDK anropar du API:et för att få åtkomst till filerna.
Begränsas mina begäranden?
Hur debiteras jag för dubbla kanalljud?
Om du skickar varje kanal separat (varje kanal i en egen fil) debiteras du för varje fils varaktighet. Om du skickar en enda fil med varje kanal multiplexerad tillsammans debiteras du för den enskilda filens varaktighet. Mer information om priser finns på Azure Cognitive Services prissättningssidan.
Viktigt
Om du har ytterligare sekretessproblem som förbjuder att du använder den anpassade Speech-tjänsten kontaktar du någon av supportkanalerna.
Ökande samtidighet
Importera data
Vad är gränsen för storleken på en datauppsättning och varför är det gränsen?
Gränsen beror på begränsningen av storleken på en fil för HTTP-uppladdning. Se Speech Services-kvoter och -gränser för den faktiska gränsen. Du kan dela upp dina data i flera datauppsättningar och välja dem för att träna modellen.
Kan jag zippa mina textfiler så att jag kan ladda upp en större textfil?
Nej. För närvarande tillåts endast okomprimerade textfiler.
Datarapporten säger att det fanns misslyckade yttranden. Vad är problemet?
Att inte ladda upp 100 procent av yttrandena i en fil är inte ett problem. Om de allra flesta yttrandena i en akustisk datamängd eller språkdatamängd (till exempel mer än 95 procent) har importerats kan datauppsättningen användas. Vi rekommenderar dock att du försöker förstå varför yttrandena misslyckades och åtgärda problemen. De vanligaste problemen, till exempel formateringsfel, är enkla att åtgärda.
Skapa en akustisk modell
Hur mycket akustiska data behöver jag?
Vi rekommenderar att du börjar med mellan 30 minuter och en timme med akustiska data.
Vilka data ska jag samla in?
Samla in data som ligger så nära programscenariot och användningsfallet som möjligt. Datainsamlingen bör matcha målprogrammet och användarna vad gäller enhet eller enheter, miljöer och typer av talare. I allmänhet bör du samla in data från så många talare som möjligt.
Hur samlar jag in akustiska data?
Du kan skapa ett fristående program för datainsamling eller använda den startprogram för ljudinspelning. Du kan också skapa en version av ditt program som loggar ljuddata och sedan använder data.
Behöver jag transkribera anpassningsdata själv?
Ja. Du kan transkribera det själv eller använda en professionell transkriptionstjänst. Vissa användare föredrar professionella transkriberare och andra använder sig av massor eller själva transkriptionerna.
Hur lång tid tar det att träna en anpassad modell med ljuddata?
Att träna en modell med ljuddata kan vara en lång process. Beroende på mängden data kan det ta flera dagar att skapa en anpassad modell. Om den inte kan avslutas inom en vecka kan tjänsten avbryta träningsåtgärden och rapportera att modellen misslyckades.
Använd en av de regioner där dedikerad maskinvara är tillgänglig för träning. Taltjänsten använder upp till 20 timmars ljud för träning i dessa regioner. I andra regioner används bara upp till 8 timmar.
I allmänhet bearbetar tjänsten cirka 10 timmars ljuddata per dag i regioner med dedikerad maskinvara. Den kan bara bearbeta cirka en timmes ljuddata per dag i andra regioner. Du kan kopiera den fullständigt tränade modellen till en annan region med hjälp av REST API. Träning med bara text går mycket snabbare och slutförs vanligtvis inom några minuter.
Vissa basmodeller kan inte anpassas med ljuddata. För dem använder tjänsten bara texten i transkriptionen för träning och ignorerar ljuddata. Träningen går sedan mycket snabbare och resultatet blir detsamma som träning med bara text. Se Språkstöd för en lista över basmodeller som stöder träning med ljuddata.
Noggrannhetstestning
Vad är ordet felfrekvens (WER) och hur beräknas det?
WER är utvärderingsmåttet för taligenkänning. WER räknas som det totala antalet fel, vilket innefattar infogningar, borttagningar och ersättningar, dividerat med det totala antalet ord i referenstranskriskriptionen. Mer information finns i Utvärdera custom speech-noggrannhet.
Hur gör jag för att du om resultatet av ett noggrannhetstest är bra?
Resultatet visar en jämförelse mellan baslinjemodellen och den modell som du har anpassat. Du bör försöka slå baslinjemodellen för att göra anpassningen meningsfull.
Hur gör jag för att fastställa WER för en basmodell så att jag kan se om det fanns någon förbättring?
Offlinetestresultaten visar baslinjeprecisionen för den anpassade modellen och förbättringen jämfört med baslinjen.
Skapa en språkmodell
Hur mycket textdata behöver jag ladda upp?
Det beror på hur olika vokabulär och fraser som används i ditt program är från de första språkmodellerna. För alla nya ord är det bra att ge så många exempel som möjligt på användningen av dessa ord. För vanliga fraser som används i ditt program är det också användbart att använda fraser i språkdata eftersom det talar om för systemet att även lyssna efter dessa termer. Det är vanligt att ha minst 100 och vanligtvis flera hundra eller fler yttranden i språkdatamängden. Om vissa typer av frågor förväntas vara vanligare än andra kan du infoga flera kopior av vanliga frågor i datamängden.
Kan jag bara ladda upp en lista med ord?
När du laddar upp en lista med ord lägger du till orden i vokabulären, men det lär inte systemet hur orden vanligtvis används. Genom att tillhandahålla fullständiga eller partiella yttranden (meningar eller fraser av saker som användarna förmodligen kommer att säga) kan språkmodellen lära sig de nya orden och hur de används. Den anpassade språkmodellen är bra inte bara för att lägga till nya ord i systemet, utan även för att justera sannolikheten för kända ord för ditt program. Genom att tillhandahålla fullständiga yttranden kan systemet lära sig bättre.
Klientmodell (Anpassat tal med Microsoft 365 data)
Vilken information ingår i klientorganisationsmodellen och hur skapas den?
En klientorganisationsmodell byggs med hjälp av offentliga grupp-e-postmeddelanden och dokument som kan ses av alla i din organisation.
Vilka talupplevelser förbättras av klientorganisationsmodellen?
När klientorganisationsmodellen har aktiverats, skapats och publicerats används den för att förbättra igenkänningen för alla företagsprogram som skapats med hjälp av Speech-tjänsten. som även skickar en Azure AD-användartoken som anger medlemskap i företaget.
De inbyggda talupplevelserna i Microsoft 365, till exempel diktering och PowerPoint textning, ändras inte när du skapar en klientmodell för dina Speech-tjänstprogram.