Talarigenkänning

Azure Cognitive Service Talarigenkänning-tjänsten innehåller algoritmer som verifierar och identifierar talare med hjälp av deras unika röstegenskaper. Talarigenkänning används för att besvara frågan "vem talar?". Läs mer.

Rösten har unika egenskaper som kan associeras med en person. Vi tillhandahåller Talarverifiering API:er och Talaridentifiering-API:er för två viktiga program Talarigenkänning teknik.

Talarverifiering

Talarverifiering kan vara antingen textberoende eller textoberoende. Textberoende verifiering innebär att talare måste välja samma lösenfras som ska användas under både registrerings- och verifieringsfaserna. Verifiering av både talinnehåll och röstsignatur underlättar ett scenario med multifaktorverifiering. Textoberoende verifiering innebär att talare kan tala varje dag i registrerings- och verifieringsfraserna.

Textberoende Talarverifiering

I talarregistreringsfasen spelas talarens röst in genom att en lösenfras från en uppsättning fördefinierade fraser anges. Röstfunktioner extraheras från ljudinspelningen för att bilda en unik röstsignatur medan den valda lösenfrasen identifieras. Tillsammans används röstsignaturen och lösenfrasen för att verifiera talaren.

I verifieringsfasen skickas det ID som är associerat med den person som ska verifieras till API:et för talarverifiering. Talarverifieringstjänsten extraherar röstfunktioner och lösenfrasen från den inmatade talinspelningen. Sedan jämförs röstfunktionerna och lösenfrasen mot registreringsprofilen för motsvarande talare.

Svaret returnerar "Acceptera" eller "Avvisa" med en likhetspoäng mellan 0 och 1. Svaret "Acceptera" eller "Avvisa" är ett resultat som kombinerar både talarverifieringsresultatet och taligenkänningsresultatet, medan likhetspoängen endast mäter röstlikheten. Vi returnerar "Accept" när taligenkänningsresultatet matchar registreringsfrasen och röstlikhetspoängen är större än eller lika med 0,5. Resultatet bör dock fastställas baserat på scenariot och andra verifieringsfaktorer som används. Vi rekommenderar att du experimenterar med dina egna data och fastställer tröskelvärdet för att åsidosätta svaret "Acceptera" eller "Avvisa" efter behov.

I den aktuella versionen av API:et för textberoende talarverifiering tillhandahåller vi 10 engelska fraser som talarna kan välja mellan.

  • Jag ska ge honom ett erbjudande som han inte kan neka.
  • Houston, vi har haft problem.
  • Min röst är mitt pass – verifiera mig.
  • Apples juice smakar efter handpastej.
  • Du kan komma in utan ditt lösenord.
  • Du kan aktivera säkerhetssystemet nu.
  • Min röst är starkare än lösenord.
  • Mitt lösenord är inte ditt företag.
  • Mitt namn är okänt för dig.
  • Var dig själv, alla andra är redan upptagna"

Du kan skapa egna lösenfraser genom att skicka separata begäranden till API:et för textoberoende talarverifiering och API:et för tal till text. Genom att kombinera resultatet av talarverifieringen och taligenkänningsresultatet kan du fastställa talarens identitet.

API:erna är inte avsedda att avgöra om ljudet kommer från en live-person eller en banderoll eller en inspelning av en registrerad talare. Att generera slumpmässiga fraser för talaren att läsa anses effektivt för att förhindra återuppspelningsattacker.

Textoberoende Talarverifiering

Talarverifiering kan också vara textoberoende, vilket innebär att det inte finns några begränsningar för vad talaren säger i ljudet.

I registreringsfasen extraheras röstfunktioner från en talares ljud för att bilda en unik röstsignatur.

I verifieringsfasen skickas ljudet och ID:t som är associerat med den person som ska verifieras till API:et för talarverifiering. Talarverifieringstjänsten extraherar röstfunktioner från den inmatade talinspelningen. Sedan jämförs röstfunktionerna med röstsignaturen i registreringsprofilen för motsvarande talare.

Svaret returnerar "Acceptera" eller "Avvisa" med en likhetspoäng mellan 0 och 1. Svaret "Acceptera" returneras när likhetspoängen är större än eller lika med 0,5. Resultatet bör dock fastställas baserat på scenariot och andra verifieringsfaktorer som används. Vi rekommenderar att du experimenterar med dina egna data och fastställer tröskelvärdet för att åsidosätta svaret "Acceptera" eller "Avvisa" efter behov.

API:erna är inte avsedda att avgöra om ljudet kommer från en live-person eller en banderoll eller en inspelning av en registrerad talare.

Talaridentifiering

Talaridentifiering är uppgiften att fastställa identiteten för en okänd röst bland en uppsättning kandidattalare. Api:et Talaridentifiering returnerar en lista med "bästa matchningar" baserat på likhetspoängen mot en a provided list of IDs (lista med ANGIVNA-ID:er). Api:Talaridentifiering är textoberoende eftersom det inte jämför vad som sades vid registreringen och igenkänningen.

Textoberoende Talaridentifiering

Registrering för talaridentifiering är textoberoende, vilket innebär att det inte finns några begränsningar på vad talaren säger i ljudfilen. Ingen lösenfras krävs. I registreringsfasen registreras talarens röst och röstfunktioner extraheras för att bilda en unik röstsignatur.

I identifieringsfasen extraherar talaridentifieringstjänsten röstfunktioner från den inmatade talinspelningen. Sedan jämförs funktionerna med röstsignaturerna i registreringsdata för en angiven lista med talare (upp till 50 kandidattalare i varje begäran). Svaret innehöll ett identifierat ID och fem topprankade ID:n med likhetspoäng mellan 0 och 1. Det identifierade ID:t bestäms baserat på likhetspoängen för den bäst matchade talaren. Om ingen av kandidattalarna returnerar ett likhetspoäng på större eller lika med 0,5 returnerar svaret en sträng på noll som representerar "ingen matchning hittas". Resultatet bör dock fastställas baserat på ditt scenario och andra faktorer som används. Vi rekommenderar att du experimenterar med dina data och fastställer tröskelvärdet för att åsidosätta standardmatchningen efter behov.

API:erna är inte avsedda att avgöra om ljudet kommer från en live-person eller en banderoll eller en inspelning av en registrerad talare.

Se även