Vad är Talarigenkänning (förhandsversion)?

Tjänsten Talarigenkänning tillhandahåller algoritmer som verifierar och identifierar talare med hjälp av deras unika röstegenskaper med hjälp av röstbiometri. Talarigenkänning används för att besvara frågan "vem talar?". Du tillhandahåller träningsdata för ljud för en enda talare, vilket skapar en registreringsprofil baserat på de unika egenskaperna för talarens röst. Du kan sedan korskontrollera ljudröstexempel mot den här profilen för att kontrollera att talaren är samma person (talarverifiering) eller korskontrollera ljudröstexempel mot en grupp med registrerade talarprofiler för att se om den matchar någon profil i gruppen (talaridentifiering). Däremot grupperar talardiarisering segment av ljud efter talare i en batchåtgärd.

Talarverifiering

Talarverifiering effektiviserar processen med att verifiera en registrerad talaridentitet med antingen lösenfraser eller röstinmatning i fritt format. Den kan användas för att verifiera enskilda användare för säker, friktionsfri kundengagemang i en mängd olika lösningar, från kundidentitetsverifiering i kundtjänster till åtkomst till kontaktlösa platser.

Hur fungerar Talarverifiering?

Talarverifiering flödesschema.

Talarverifiering kan vara antingen textberoende eller textoberoende. Textberoende verifiering innebär att talare måste välja samma lösenfras som ska användas under både registrerings- och verifieringsfaserna. Textoberoende verifiering innebär att talare kan tala varje dag i registrerings- och verifieringsfraserna.

För textberoende verifiering registreras talarens röst genom att en lösenfras anges från en uppsättning fördefinierade fraser. Röstfunktioner extraheras från ljudinspelningen för att bilda en unik röstsignatur, medan den valda lösenfrasen också känns igen. Tillsammans används röstsignaturen och lösenfrasen för att verifiera talaren.

Textoberoende verifiering har inga begränsningar för vad talaren säger under registreringen eller i ljudexempel som ska verifieras, eftersom det endast extraherar röstfunktioner för att poänglikhet.

API:erna är inte avsedda att avgöra om ljudet kommer från en live-person eller en banderoll/inspelning av en registrerad talare.

Talaridentifiering

Talaridentifiering används för att fastställa en okänd talares identitet i en grupp med registrerade talare. Talaridentifiering kan du ge tal till enskilda talare och låsa upp värden från scenarier med flera talare, till exempel:

  • Supportlösningar för fjärrmötesproduktivitet
  • Skapa enhetsanpassning för flera användare

Hur fungerar Talaridentifiering?

Registrering för talaridentifiering är textoberoende, vilket innebär att det inte finns några begränsningar för vad talaren säger i ljudet. Precis som Talarverifiering registreras talarens röst i registreringsfasen och röstfunktioner extraheras för att bilda en unik röstsignatur. I identifieringsfasen jämförs indataröstprovet med en angiven lista över registrerade röster (upp till 50 i varje begäran).

Datasäkerhet och sekretess

Talarregistreringsdata lagras i ett skyddat system, inklusive talljud för registrering och funktioner för röstsignatur. Talljudet för registrering används bara när algoritmen uppgraderas och funktionerna måste extraheras igen. Tjänsten behåller inte talinspelningen eller de extraherade röstfunktionerna som skickas till tjänsten under igenkänningsfasen.

Du styr hur länge data ska behållas. Du kan skapa, uppdatera och ta bort registreringsdata för enskilda talare via API-anrop. När prenumerationen tas bort tas även alla talarregistreringsdata som är associerade med prenumerationen bort.

Precis som med alla Cognitive Services resurser måste utvecklare som använder tjänsten Talarigenkänning vara medvetna om Microsofts principer för kunddata. Du bör se till att du har fått rätt behörigheter från användarna för Talarigenkänning. Mer information finns på Cognitive Services påMicrosoft   Trust Center.

Vanliga frågor och lösningar

Fråga Lösning
Vilka scenarier kan Talarigenkänning användas för? Call center kundverifiering, röstbaserad patientkontroll, transkription för möte, anpassning av enheter för flera användare
Vad är skillnaden mellan identifiering och verifiering? Identifiering är processen att identifiera vilken medlem från en grupp talare talar. Verifiering innebär att bekräfta att en talare matchar en känd eller registrerad röst.
Vad är skillnaden mellan textberoende och textoberoende verifiering? Textberoende verifiering kräver en specifik lösenfras för både registrering och igenkänning. Textoberoende verifiering kräver ett längre röstexempel för registrering, men allt kan sägas, inklusive under igenkänning.
Vilka språk stöds? Engelska, franska, spanska, kinesiska, tyska, italienska, japanska och portugisiska
Vilka Azure-regioner stöds? Talarigenkänning är en förhandsversionstjänst och för närvarande endast tillgänglig i regionen USA, västra.
Vilka ljudformat stöds? Mono 16-bitars, 16kHz PCM-kodad WAV
Acceptera och avvisa svar stämmer inte. Hur finjusterar du tröskelvärdet? Eftersom det optimala tröskelvärdet varierar mycket beroende på scenarier avgör API:et om det ska "acceptera" eller "avvisa" helt enkelt baserat på ett standardtröskelvärde på 0,5. Avancerade användare rekommenderas att åsidosätta standardbeslutet och finjustera resultatet baserat på ditt eget scenario.
Kan du registrera en talare flera gånger? Ja, för textberoende verifiering kan du registrera en talare upp till 50 gånger. För textoberoende verifiering eller talaridentifiering kan du registrera med upp till 300 sekunders ljud.
Vilka data lagras i Azure? Registreringsljud lagras i tjänsten tills röstprofilen tas bort. Igenkänningsljudexempel bevaras eller lagras inte.

Nästa steg

  • Slutför artikeln Talarigenkänning grundläggande för en genomkörning av vanliga designmönster som du kan använda i dina program.
  • Se videokursen för textoberoende talarverifiering.