Wat is sprekerherkenning?

Artikel
01/23/2024

Sprekerherkenning kan helpen bepalen wie er spreekt in een audioclip. De service kan sprekers verifiëren en identificeren op basis van hun unieke spraakkenmerken, met behulp van spraakbiometrie.

U geeft audiotrainingsgegevens voor één spreker op, waardoor een inschrijvingsprofiel wordt gemaakt op basis van de unieke kenmerken van de stem van de spreker. Vervolgens kunt u audiostemvoorbeelden kruislings controleren op dit profiel om te controleren of de spreker dezelfde persoon is (sprekercontrole). U kunt audiostemvoorbeelden ook kruislings controleren op een groep geregistreerde sprekerprofielen om te zien of deze overeenkomt met een profiel in de groep (sprekeridentificatie).

Belangrijk

Microsoft beperkt de toegang tot sprekerherkenning. U kunt toegang aanvragen via de beperkte toegangsbeoordeling voor sprekerherkenning van Azure AI-services. Zie Beperkte toegang voor sprekerherkenning voor meer informatie.

Sprekerverificatie

Sprekercontrole stroomlijnt het proces van het verifiëren van een geregistreerde sprekeridentiteit met wachtwoordzinnen of vrije spraakinvoer. U kunt deze bijvoorbeeld gebruiken voor klantidentiteitsverificatie in callcenters of toegang tot contactloze faciliteiten.

Hoe werkt sprekerverificatie?

In het volgende stroomdiagram ziet u hoe dit werkt:

Flowchart that shows how speaker verification works.

Sprekercontrole kan tekstafhankelijk of tekstonafhankelijk zijn. Tekstafhankelijke verificatie betekent dat sprekers dezelfde wachtwoordzin moeten kiezen die tijdens zowel de registratie- als de verificatiefase moet worden gebruikt. Tekstonafhankelijke verificatie betekent dat sprekers in dagelijkse taal kunnen spreken in de inschrijvings- en verificatietermen.

Voor tekstafhankelijke verificatie wordt de stem van de spreker ingeschreven door een wachtwoordzin te zeggen van een set vooraf gedefinieerde woordgroepen. Spraakfuncties worden geëxtraheerd uit de audio-opname om een unieke spraakhandtekening te vormen en de gekozen wachtwoordzin wordt ook herkend. Samen worden de spraakhandtekening en de wachtwoordzin gebruikt om de spreker te verifiëren.

Tekstonafhankelijke verificatie heeft geen beperkingen voor wat de spreker zegt tijdens de inschrijving, naast de initiële activeringszin wanneer actieve inschrijving is ingeschakeld. Er zijn geen beperkingen voor het audiovoorbeeld om te worden geverifieerd, omdat hiermee alleen spraakfuncties worden geëxtraheerd om overeenkomsten te scoren.

De API's zijn niet bedoeld om te bepalen of de audio afkomstig is van een live persoon, of van een imitatie of opname van een ingeschreven spreker.

Sprekeridentificatie

Sprekeridentificatie helpt u bij het bepalen van de identiteit van een onbekende spreker binnen een groep geregistreerde sprekers. Met sprekeridentificatie kunt u spraak toewijzen aan afzonderlijke sprekers en waarde ontgrendelen uit scenario's met meerdere luidsprekers, zoals:

Ondersteunende oplossingen voor productiviteit van externe vergaderingen.
Persoonlijke instellingen voor apparaten met meerdere gebruikers bouwen.

Hoe werkt sprekeridentificatie?

Inschrijving voor sprekeridentificatie is tekstonafhankelijk. Er gelden geen beperkingen voor wat de spreker in de audio zegt, naast de initiële activeringszin wanneer actieve inschrijving is ingeschakeld. Net als bij sprekercontrole wordt de stem van de spreker opgenomen in de registratiefase en worden de spraakfuncties geëxtraheerd om een unieke spraakhandtekening te vormen. In de identificatiefase wordt het invoerstemvoorbeeld vergeleken met een opgegeven lijst met ingeschreven stemmen (maximaal 50 in elke aanvraag).

Gegevensbeveiliging en -privacy

Gegevens voor sprekerinschrijving worden opgeslagen in een beveiligd systeem, inclusief de spraakaudio voor inschrijving en de functies voor spraakhandtekening. De spraakaudio voor inschrijving wordt alleen gebruikt wanneer het algoritme wordt bijgewerkt en de functies opnieuw moeten worden geëxtraheerd. De service behoudt de spraakopname of de geëxtraheerde spraakfuncties die tijdens de herkenningsfase naar de service worden verzonden niet.

U bepaalt hoe lang gegevens moeten worden bewaard. U kunt inschrijvingsgegevens voor afzonderlijke sprekers maken, bijwerken en verwijderen via API-aanroepen. Wanneer het abonnement wordt verwijderd, worden ook alle registratiegegevens van de spreker die aan het abonnement zijn gekoppeld, verwijderd.

Net als bij alle Azure AI-services-resources moeten ontwikkelaars die gebruikmaken van de functie voor sprekerherkenning rekening houden met het Microsoft-beleid voor klantgegevens. Zorg ervoor dat u de juiste machtigingen van de gebruikers hebt ontvangen. Meer informatie vindt u in Gegevens en privacy voor sprekerherkenning. Zie de pagina Azure AI-services in het Vertrouwenscentrum van Microsoft voor meer informatie.

Veelgestelde vragen en oplossingen

Vraag	Oplossing
In welke situaties gebruik ik waarschijnlijk sprekerherkenning?	Goede voorbeelden zijn klantverificatie van het callcenter, spraakgebaseerde patiëntcontrole, transcriptie van vergaderingen en persoonlijke instellingen voor apparaten met meerdere gebruikers.
Wat is het verschil tussen identificatie en verificatie?	Identificatie is het proces waarmee wordt gedetecteerd welk lid van een groep sprekers spreekt. Verificatie is het bevestigen dat een spreker overeenkomt met een bekende, ingeschreven stem.
Welke talen worden ondersteund?	Zie taalondersteuning voor sprekerherkenning.
Welke Azure-regio's worden ondersteund?	Zie ondersteuning voor regio's voor sprekerherkenning.
Welke audio-indelingen worden ondersteund?	Mono 16-bits, 16 kHz PCM-gecodeerde WAV.
Kunt u één spreker meerdere keren inschrijven?	Ja, voor tekstafhankelijke verificatie kunt u een spreker maximaal 50 keer inschrijven. Voor tekstonafhankelijke verificatie of sprekeridentificatie kunt u zich inschrijven met maximaal 300 seconden audio.
Welke gegevens worden opgeslagen in Azure?	Inschrijvingsaudio wordt opgeslagen in de service totdat het spraakprofiel wordt verwijderd. Audiovoorbeelden voor herkenning worden niet bewaard of opgeslagen.

Verantwoorde AI

Een AI-systeem omvat niet alleen de technologie, maar ook de mensen die het gebruiken, de mensen die worden beïnvloed door het systeem en de omgeving waarin het wordt geïmplementeerd. Lees de transparantienotities voor meer informatie over verantwoord AI-gebruik en -implementatie in uw systemen.

Volgende stappen

Quickstart over sprekerherkenning