Nyckelordsigenkänning

Nyckelordsigenkänning syftar på talteknik som identifierar förekomsten av ett ord eller en kort fras i en viss ljudström. Det kallas ofta för nyckelords spotting. Det vanligaste användningsfallet för nyckelordsigenkänning är röstaktivering av virtuella assistenter. Till exempel är "Hej Cortana" nyckelordet för Cortana-assistenten. Vid igenkänning av nyckelordet utförs en scenariospecifik åtgärd. I scenarier med virtuella assistenter är en vanlig resulterande åtgärd taligenkänning av ljud som följer nyckelordet .

I allmänhet lyssnar alltid virtuella assistenter. Nyckelordsigenkänning fungerar som en sekretessgräns för användaren. Ett nyckelordskrav fungerar som en grind som förhindrar att orelaterade användarljud passerar den lokala enheten till molnet.

För att balansera precision, svarstid och beräkningskomplexitet implementeras nyckelordsigenkänning som ett system med flera steg. För alla steg utöver den första bearbetas ljud endast om fasen innan den troddes ha identifierat nyckelordet av intresse.

Det aktuella systemet är utformat med flera faser som sträcker sig över gränsen och molnet:

Flera steg med nyckelordsigenkänning i gräns- och molnlösningen.

Noggrannheten för nyckelordsigenkänning mäts via följande mått:

  • Korrekt acceptfrekvens (CA) – Mäter systemets förmåga att känna igen nyckelordet när det talas av en slutanvändare. Detta kallas även för den sanna positiva frekvensen.
  • Frekvens för falska accepter (FA) – Mäter systemets förmåga att filtrera bort ljud som inte är nyckelordet som slutanvändaren talar. Detta kallas även för falska positiva resultat.

Målet är att maximera korrekt acceptfrekvens samtidigt som falska acceptfrekvens minimeras. Det aktuella systemet är utformat för att identifiera ett nyckelord eller en fras som föregås av en kort mängd tystnad. Det finns inte stöd för att identifiera ett nyckelord mitt i en mening eller ett uttryck.

Anpassat nyckelord för modeller på enheten

Med Anpassat nyckelord portal på Speech Studio du generera nyckelordsigenkänningsmodeller som körs vid gränsen genom att ange ett ord eller en kort fras. Du kan anpassa din nyckelordsmodell ytterligare genom att välja rätt uttal.

Prissättning

Det kostar inget att använda Anpassat nyckelord för att generera modeller, inklusive både Basic- och Advanced-modeller. Det kostar heller inte att köra modeller på enheten med Speech SDK.

Typer av modeller

Anpassat nyckelord kan du generera två typer av modeller på enheten för alla nyckelord:

Modelltyp Description
Basic Passar bäst för demonstrationer eller snabba prototyper. Modeller genereras med en gemensam basmodell och kan ta upp till 15 minuter att vara redo. Modeller kanske inte har optimala precisionsegenskaper.
Avancerat Passar bäst för produktintegrering. Modeller genereras med anpassning av en gemensam basmodell med simulerade träningsdata för att förbättra noggrannhetsegenskaperna. Det kan ta upp till 48 timmar innan modellerna är klara.

Ingen av modelltypen kräver att du laddar upp träningsdata. Anpassat nyckelord fullständigt hantera datagenerering och modellträning.

Uttal

När du skapar en ny modell Anpassat nyckelord automatiskt möjliga uttal av det angivna nyckelordet. Du kan lyssna på varje uttal och välja allt som nära motsvarar det sätt som du förväntar dig att slutanvändarna ska säga nyckelordet. Alla andra uttal bör inte väljas.

Det är viktigt att vara medveten om uttalen som du väljer för att säkerställa de bästa noggrannhetsegenskaperna. Om du till exempel väljer fler uttal än vad som behövs kan det leda till högre falska acceptfrekvenser. Om du väljer för få uttal, där inte alla förväntade variationer omfattas, kan det leda till lägre korrekta acceptfrekvenser.

Testa modeller

När modeller på enheten har genererats Anpassat nyckelord kan de testas direkt på portalen. Med portalen kan du tala direkt i webbläsaren och få resultat från nyckelordsigenkänning.

Nyckelordsverifiering

Nyckelordsverifiering är en molntjänst som minskar effekten av falska accepter från modeller på enheten med robusta modeller som körs i Azure. Det krävs ingen justering eller träning för att nyckelordsverifiering ska fungera med nyckelordet. Inkrementella modelluppdateringar distribueras kontinuerligt till tjänsten för att förbättra noggrannhet och svarstid, helt transparent för klientprogram.

Prissättning

Nyckelordsverifiering används alltid i kombination med tal till text och det kostar inget att använda nyckelordsverifiering utöver kostnaden för tal till text.

Nyckelordsverifiering och tal till text

När nyckelordsverifiering används används den alltid i kombination med tal till text. Båda tjänsterna körs parallellt. Det innebär att ljud skickas till båda tjänsterna för samtidig bearbetning.

Parallell bearbetning av nyckelordsverifiering och tal till text.

Att köra nyckelordsverifiering och tal till text parallellt ger följande fördelar:

  • Ingen ytterligare svarstid för tal-till-text-resultat – Parallell körning innebär att nyckelordsverifiering inte lägger till någon fördröjning, och klienten får tal till text-resultat lika snabbt. Om Nyckelordsverifiering avgör att nyckelordet inte fanns i ljudet avslutas tal-till-text-bearbetningen, vilket skyddar mot onödig tal till text-bearbetning. Bearbetningen av nätverks- och molnmodeller ökar dock den användarfördröjningen av röstaktiveringen. Mer information finns i Rekommendationer och riktlinjer.
  • Framtvingat nyckelordsprefix i tal till text-resultat – Tal till text-bearbetning ser till att de resultat som skickas till klienten föregås av nyckelordet . Detta möjliggör ökad noggrannhet i tal till text-resultaten för tal som följer nyckelordet .
  • Ökad timeout för tal till text – På grund av förväntad förekomst av nyckelordet i början av ljud tillåter tal till text en längre paus på upp till 5 sekunder efter nyckelordet, innan slut på tal och avslutande tal till text-bearbetning fastställas. Detta säkerställer att slutanvändarupplevelsen hanteras korrekt för <keyword> <pause> <command> både mellanspelade <keyword> <command> kommandon ( ) och kedjade kommandon ( ).

Överväganden för svar och svarstid för nyckelordsverifiering

För varje begäran till tjänsten returnerar nyckelordsverifiering ett av två svar: Godkänt eller Avvisat. Bearbetningssvarstiden varierar beroende på längden på nyckelordet och längden på det ljudsegment som förväntas innehålla nyckelordet . Bearbetningsfördröjning omfattar inte nätverkskostnad mellan klienten och Azure Speech-tjänster.

Svar från nyckelordsverifiering Description
Har godkänts Anger att tjänsten trodde att nyckelordet fanns i ljudströmmen som angavs som en del av begäran.
Avslagen Anger att tjänsten trodde att nyckelordet inte fanns i ljudströmmen som angavs som en del av begäran.

Avvisade ärenden ger ofta längre svarstider eftersom tjänsten bearbetar mer ljud än godkända fall. Som standard bearbetar nyckelordsverifiering högst två sekunders ljud för att söka efter nyckelordet. Om nyckelordet fastställs att det inte finns under de två sekunderna kommer tjänstens time out och signalera ett avvisat svar till klienten.

Använda nyckelordsverifiering med modeller på enheten från Anpassat nyckelord

Speech SDK underlättar sömlös användning av enhetsmodeller som genereras med hjälp Anpassat nyckelord med nyckelordsverifiering och tal till text. Den hanterar transparent:

  • Ljudinspelning till nyckelordsverifiering & taligenkänning baserat på resultatet av modellen på enheten.
  • Kommunicera nyckelordet till tjänsten Nyckelordsverifiering.
  • Kommunicera eventuella ytterligare metadata till molnet för orkestrering av hela scenariot.

Du behöver inte uttryckligen ange några konfigurationsparametrar. All nödvändig information extraheras automatiskt från den modell på enheten som genereras av Anpassat nyckelord.

Exemplet och självstudierna som är länkade nedan visar hur du använder Speech SDK:

Speech SDK-integrering och scenarier

Speech SDK underlättar enkel användning av anpassade modeller för nyckelordsigenkänning på enheten som genereras med Anpassat nyckelord och tjänsten Nyckelordsverifiering. Sdk stöder två scenarier för att säkerställa att dina produktbehov kan uppfyllas:

Scenario Beskrivning Exempel
Nyckelordsigenkänning från end-to-end med tal till text Passar bäst för produkter som använder en anpassad nyckelordsmodell på enheten från Anpassat nyckelord med Azure Speechs nyckelordsverifiering och tal till text-tjänster. Det här är det vanligaste scenariot.
Offline-nyckelordsigenkänning Passar bäst för produkter utan nätverksanslutning som använder en anpassad nyckelordsmodell på enheten från Anpassat nyckelord.

Nästa steg