Talarigenkänning

Artikel
07/19/2023

Talarigenkänning i Azure AI Services – Speech Service innehåller algoritmer som verifierar och identifierar talare med hjälp av deras unika röstegenskaper. Talarigenkänning används för att besvara frågan "vem talar?". Läs mer.

Röst har unika egenskaper som kan associeras med en individ. Vi tillhandahåller API:er för talarverifiering och API:er för talaridentifiering för två viktiga tillämpningar av tekniker för talarigenkänning.

Talarverifiering

Talarverifiering kan vara antingen textberoende eller textoberoende. Textberoende verifiering innebär att talarna måste välja samma lösenfras som ska användas under både registrerings- och verifieringsfaserna. Verifiering av både talinnehåll och röstsignatur underlättar ett scenario för multifaktorverifiering. Textoberoende verifiering innebär att talare kan tala dagligt språk i registrerings- och verifieringsfraserna.

Verifiering av textberoende talare

I talarregistreringsfasen spelas talarens röst in genom att säga en lösenfras från en uppsättning fördefinierade fraser. Röstfunktioner extraheras från ljudinspelningen för att bilda en unik röstsignatur medan den valda lösenfrasen känns igen. Tillsammans skulle röstsignaturen och lösenfrasen användas för att verifiera talaren.

I verifieringsfasen skickas det ID som är associerat med den person som ska verifieras till API:et för talarverifiering. Tjänsten för talarverifiering extraherar röstfunktioner och lösenfrasen från indatatalinspelningen. Sedan jämförs röstfunktionerna och lösenfrasen med registreringsprofilen för motsvarande talare.

Svaret returnerar "Acceptera" eller "Avvisa" med en likhetspoäng mellan 0 och 1. Svaret "Acceptera" eller "Avvisa" är ett resultat som kombinerar både resultatet av talarverifieringen och taligenkänningsresultatet, medan likhetspoängen endast mäter röstlikheten. Vi returnerar "Acceptera" när taligenkänningsresultatet matchar registreringsfrasen och röstlikhetspoängen är större eller lika med 0,5. Resultatet bör dock fastställas baserat på scenariot och andra verifieringsfaktorer som används. Vi rekommenderar att du experimenterar med dina egna data och fastställer tröskelvärdet för att åsidosätta "Acceptera" eller "Avvisa" svar efter behov.

I den aktuella versionen av API:et för textberoende talarverifiering tillhandahåller vi 10 engelska fraser som talarna kan välja mellan.

Jag ska ge honom ett erbjudande som han inte kan tacka nej till.
Houston vi har haft ett problem.
Min röst är mitt pass verifiera mig.
Apple juice smakar roligt efter tandkräm.
Du kan komma in utan ditt lösenord.
Du kan aktivera säkerhetssystemet nu.
Min röst är starkare än lösenord.
Mitt lösenord är inte ditt företag.
Mitt namn är okänt för dig.
Var dig själv alla andra är redan tagna"

Du kan skapa egna lösenfraser genom att skicka separata begäranden till API:et för textoberoende talarverifiering och tal till text-API:et. Genom att kombinera resultatet av talarverifieringen och taligenkänningsresultatet kan du fastställa talarens identitet.

API:erna är inte avsedda att avgöra om ljudet kommer från en liveperson, en imitation eller en inspelning av en registrerad talare. Att generera slumpmässiga fraser för talaren att läsa anses effektivt för att förhindra repetitionsattacker.

Verifiering av oberoende texttalare

Talarverifiering kan också vara textoberoende, vilket innebär att det inte finns några begränsningar för vad talaren säger i ljudet.

I registreringsfasen extraheras röstfunktioner från en högtalares ljud för att bilda en unik röstsignatur.

I verifieringsfasen skickas ljudet och det ID som är associerat med den person som ska verifieras till API:et för talarverifiering. Tjänsten för talarverifiering extraherar röstfunktioner från indatatalinspelningen. Sedan jämförs röstfunktionerna med röstsignaturen i registreringsprofilen för motsvarande talare.

Svaret returnerar "Acceptera" eller "Avvisa" med en likhetspoäng mellan 0 och 1. Svaret "Acceptera" returneras när likhetspoängen är större eller lika med 0,5. Resultatet bör dock fastställas baserat på scenariot och andra verifieringsfaktorer som används. Vi rekommenderar att du experimenterar med dina egna data och fastställer tröskelvärdet för att åsidosätta svaret "Acceptera" eller "Avvisa" efter behov.

API:erna är inte avsedda att avgöra om ljudet kommer från en liveperson, en imitation eller en inspelning av en registrerad talare.

Talaridentifiering

Talaridentifiering är uppgiften att fastställa identiteten för en okänd röst bland en uppsättning kandidattalare. API:et för talaridentifiering returnerar en lista över "bästa matchningar" baserat på likhetspoängen mot en angivna lista med ID:n. API:et för talaridentifiering är textoberoende eftersom det inte jämför vad som sades vid registreringen och igenkänningen.

Textoberoende talaridentifiering

Registrering för talaridentifiering är textoberoende, vilket innebär att det inte finns några begränsningar på vad talaren säger i ljudfilen. Ingen lösenfras krävs. I registreringsfasen spelas talarens röst in och röstfunktioner extraheras för att bilda en unik röstsignatur.

I identifieringsfasen extraherar talaridentifieringstjänsten röstfunktioner från indatatalinspelningen. Sedan jämförs funktionerna med röstsignaturerna i registreringsdata för en angiven lista med talare (upp till 50 kandidattalare i varje begäran). Svaret innehöll ett identifierat ID och fem topprankade ID:t med likhetspoäng mellan 0 och 1. Det identifierade ID:t bestäms baserat på likhetspoängen för den bäst matchade talaren. Om ingen av kandidattalarna returnerar en likhetspoäng på större eller lika med 0,5 returnerar svaret en sträng med noll för att representera "ingen matchning hittades". Resultatet bör dock fastställas baserat på ditt scenario och andra faktorer som används. Vi rekommenderar att du experimenterar med dina data och fastställer tröskelvärdet för att åsidosätta standardvärdet "matchning eller ingen matchning" efter behov.