Was ist Sprechererkennung?What is Speaker Recognition?

Der Dienst „Sprechererkennung“ bietet Algorithmen, mit denen Sprecher anhand ihrer individuellen Stimmmerkmale mithilfe von Sprachbiometrie überprüft und identifiziert werden.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics using voice biometry. Die Sprechererkennung wird verwendet, um herauszufinden, wer spricht.Speaker Recognition is used to answer the question “who is speaking?”. Wenn Sie Audiotrainingsdaten für einen einzelnen Sprechers bereitstellen, wird basierend auf den eindeutigen Stimmmerkmalen des Sprechers ein Registrierungsprofil erstellt.You provide audio training data for a single speaker, which creates an enrollment profile based on the unique characteristics of the speaker's voice. Sie können anschließend Sprachbeispiele mit diesem Profil abgleichen, um zu überprüfen, ob es sich um denselben Sprecher handelt (Sprecherüberprüfung), oder Sprachbeispiele mit einer Gruppe von registrierten Sprecherprofilen abgleichen, um herauszufinden, ob es eine Übereinstimmung mit einem Profil gibt (Sprecheridentifikation).You can then cross-check audio voice samples against this profile to verify that the speaker is the same person (speaker verification), or cross-check audio voice samples against a group of enrolled speaker profiles, to see if it matches any profile in the group (speaker identification). Im Gegensatz dazu gruppiert die Sprecherdiarisierung Audiosegmente nach Sprecher in einen Batchvorgang.In contrast, Speaker Diarization groups segments of audio by speaker in a batch operation.

SprecherüberprüfungSpeaker Verification

Die Sprecherüberprüfung optimiert den Prozess für die Überprüfung einer registrierten Sprecheridentität mithilfe von Passphrasen oder einer Spracheingabe in Freiform.Speaker Verification streamlines the process of verifying an enrolled speaker identity with either passphrases or free-form voice input. Sie kann verwendet werden, um Kunden sicher und reibungslos für eine Vielzahl von Lösungen zu verifizieren – angefangen bei der Identitätsüberprüfung von Kunden in Callcentern bis hin zu kontaktlosem Zugang zu Gebäuden.It can be used to verify individuals for secure, frictionless customer engagements in a wide range of solutions, from customer identity verification in call centers to contact-less facility access.

Wie funktioniert die Sprecherüberprüfung?How does Speaker Verification work?

Sprecherüberprüfungs-Flussdiagramm.

Die Sprecherüberprüfung kann entweder textabhängig oder textunabhängig sein.Speaker verification can be either text-dependent or text-independent. Bei der textabhängigen Überprüfung müssen die Sprecher sowohl bei der Registrierung als auch bei der Überprüfung dieselbe Passphrase verwenden.Text-dependent verification means speakers need to choose the same passphrase to use during both enrollment and verification phases. Bei der textunabhängigen Überprüfung können Sprecher sowohl bei der Registrierung als auch bei der Überprüfung etwas beliebiges sagen.Text-independent verification means speakers can speak in everyday language in the enrollment and verification phrases.

Bei der textabhängigen Überprüfung wird die Stimme des Sprechers registriert, wenn er eine Passphrase aus vorgegebenen Phrasen spricht.For text-dependent verification, the speaker's voice is enrolled by saying a passphrase from a set of predefined phrases. Einerseits werden Stimmmerkmale aus der Audioaufzeichnung extrahiert, um eine eindeutige Stimmsignatur zu bilden, und andererseits wird die Passphrase erkannt.Voice features are extracted from the audio recording to form a unique voice signature, while the chosen passphrase is also recognized. Die Stimmsignatur und die Passphrase werden verwendet, um den Sprecher zu überprüfen.Together, the voice signature and the passphrase are used to verify the speaker.

Bei der textunabhängigen Überprüfung gibt es keine Vorgaben für den zu sprechenden Text bei der Registrierung oder für das Audiobeispiel, das überprüft werden soll, da nur Stimmmerkmale extrahiert werden, um die Ähnlichkeit zu bewerten.Text-independent verification has no restrictions on what the speaker says during enrollment or in the audio sample to be verified, as it only extracts voice features to score similarity.

Die APIs sind nicht dafür vorgesehen zu bestimmen, ob das Audio von einer echten Person oder einer Imitation oder Aufzeichnung eines registrierten Sprechers stammt.The APIs are not intended to determine whether the audio is from a live person or an imitation/recording of an enrolled speaker.

SprecheridentifikationSpeaker Identification

Die Sprecheridentifikation wird verwendet, um die Identität eines unbekannten Sprechers innerhalb einer Gruppe registrierter Sprecher zu ermitteln.Speaker Identification is used to determine an unknown speaker’s identity within a group of enrolled speakers. Sie ermöglicht es Ihnen, Spracheingaben einzelnen Sprechern zuzuordnen und einen Mehrwert aus Szenarios mit mehreren Sprechern zu ziehen:Speaker Identification enables you to attribute speech to individual speakers, and unlock value from scenarios with multiple speakers, such as:

  • Supportlösungen für die Produktivität bei RemotemeetingsSupport solutions for remote meeting productivity
  • Erstellen von Gerätepersonalisierung mit mehreren BenutzernBuild multi-user device personalization

Wie funktioniert die Sprecheridentifikation?How does Speaker Identification work?

Die Registrierung für die Sprecheridentifikation ist textunabhängig. Es spielt also keine Rolle, was der Sprecher in der Audioaufnahme sagt.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. Ähnlich wie bei der Sprecherüberprüfung wird in der Registrierungsphase die Stimme des Sprechers aufgezeichnet. Stimmmerkmale werden extrahiert, um eine eindeutige Stimmsignatur zu bilden.Similar to Speaker Verification, in the enrollment phase the speaker's voice is recorded, and voice features are extracted to form a unique voice signature. In der Identifikationsphase wird das Spracheingabebeispiel mit einer bestimmten Liste registrierter Stimmen verglichen (bis zu 50 in jeder Anforderung).In the identification phase, the input voice sample is compared to a specified list of enrolled voices (up to 50 in each request).

Datensicherheit und -schutzData security and privacy

Sprecheranmeldungsdaten werden in einem gesicherten System gespeichert, einschließlich der Sprachaudioinformationen für die Registrierung und der Sprachsignaturmerkmale.Speaker enrollment data is stored in a secured system, including the speech audio for enrollment and the voice signature features. Die Sprachaudiodaten für die Registrierung wird nur beim Upgrade des Algorithmus verwendet, und die Merkmale müssen noch einmal extrahiert werden.The speech audio for enrollment is only used when the algorithm is upgraded, and the features need to be extracted again. Der Dienst speichert weder die Sprachaufzeichnung noch die extrahierten Stimmmerkmale, die während der Erkennungsphase an den Dienst gesendet werden.The service does not retain the speech recording or the extracted voice features that are sent to the service during the recognition phase.

Sie steuern, wie lange Daten aufbewahrt werden sollen.You control how long data should be retained. Sie können über API-Aufrufe Registrierungsdaten für einzelne Sprecher erstellen, aktualisieren und entfernen.You can create, update, and delete enrollment data for individual speakers through API calls. Beim Löschen des Abonnements werden auch alle mit dem Abonnement verbundenen Sprecherregistrierungsdaten gelöscht.When the subscription is deleted, all the speaker enrollment data associated with the subscription will also be deleted.

Wie bei allen Cognitive Services-Ressourcen müssen Entwickler, die den Sprechererkennungsdienst nutzen, die Microsoft-Richtlinien zu Kundendaten beachten.As with all of the Cognitive Services resources, developers who use the Speaker Recognition service must be aware of Microsoft's policies on customer data. Sie müssen sicherstellen, dass Sie von den Benutzern die entsprechende Erlaubnis für die Sprechererkennung erhalten haben.You should ensure that you have received the appropriate permissions from the users for Speaker Recognition. Weitere Informationen finden Sie im Microsoft Trust Center auf der  Seite zu Cognitive Services .For more information, see the Cognitive Services page on the Microsoft Trust Center.

Häufige Fragen und LösungenCommon questions and solutions

FrageQuestion LösungSolution
Für welche Szenarien kann die Sprechererkennung verwendet werden?What scenarios can Speaker Recognition be used for? Kundenüberprüfung in Callcentern, sprachbasierter Check-In von Patienten, Besprechungstranskription, Personalisierung von Geräten mit mehreren BenutzernCall center customer verification, voice-based patient check-in, meeting transcription, multi-user device personalization
Was ist der Unterschied zwischen Identifizierung und Überprüfung?What is the difference between Identification and Verification? Identifikation ist der Prozess der Erkennung, welches Mitglied aus einer Gruppe von Sprechern spricht.Identification is the process of detecting which member from a group of speakers is speaking. Mit der Überprüfung wird bestätigt, dass ein Sprecher mit einer bekannten oder registrierten Stimme übereinstimmt.Verification is the act of confirming that a speaker matches a known, or enrolled voice.
Was ist der Unterschied zwischen textabhängiger und textunabhängiger Überprüfung?What's the difference between text-dependent and text-independent verification? Bei der textabhängigen Überprüfung ist eine bestimmte Passphrase für Registrierung und Erkennung erforderlich.Text-dependent verification requires a specific pass-phrase for both enrollment and recognition. Bei der textunabhängigen Überprüfung ist ein längeres Stimmbeispiel für die Registrierung erforderlich, wobei aber ein beliebiger Text gesprochen werden kann, auch während der Erkennung.Text-independent verification requires a longer voice sample for enrollment, but anything can be spoken, including during recognition.
Welche Sprachen werden unterstützt?What languages are supported? Englisch, Französisch, Spanisch, Chinesisch, Deutsch, Italienisch, Japanisch und PortugiesischEnglish, French, Spanish, Chinese, German, Italian, Japanese and Portuguese
Welche Azure-Regionen werden unterstützt?What Azure regions are supported? Sprechererkennung ist ein Vorschaudienst und derzeit nur in der Region „USA, Westen“ verfügbar.Speaker Recognition is a preview service, and currently only available in the West US region.
Welche Audioformate werden unterstützt?What audio formats are supported? Mono 16 Bit, 16 kHz PCM-codiertes WAVMono 16 bit, 16kHz PCM-encoded WAV
Die Antworten für Akzeptieren und Ablehnen sind nicht genau, wie optimieren Sie den Schwellenwert?Accept and Reject responses aren't accurate, how do you tune the threshold? Da der optimale Schwellenwert je nach Szenario stark schwankt, entscheidet die API einfach auf Grundlage eines Standardschwellenwerts von 0,5, ob „Akzeptiert“ oder „Abgelehnt“ wird.Since the optimal threshold varies highly with scenarios, the API decides whether to “Accept” or “Reject” simply based on a default threshold of 0.5. Erfahreneren Benutzern wird empfohlen, die Standardentscheidung außer Kraft zu setzen und das Ergebnis auf Grundlage ihres eigenen Szenarios zu optimieren.Advanced users are advised to override the default decision and fine tune the result based on your own scenario.
Können Sie einen Sprecher mehrmals registrieren?Can you enroll one speaker multiple times? Ja, bei der textabhängigen Überprüfung können Sie einen Sprecher bis zu 50-mal registrieren.Yes, for text-dependent verification, you can enroll a speaker up to 50 times. Bei der textunabhängigen Überprüfung oder der Sprecheridentifikation können Sie die Registrierung mit bis zu 300 Sekunden Audioeingabe durchführen.For text-independent verification or speaker identification, you can enroll with up to 300 seconds of audio.
Welche Daten werden in Azure gespeichert?What data is stored in Azure? Registrierungsaudiodaten werden im Dienst gespeichert, bis das Stimmprofil gelöscht wird.Enrollment audio is stored in the service until the voice profile is deleted. Erkennungsaudiobeispiele werden nicht aufbewahrt oder gespeichert.Recognition audio samples are not retained or stored.

Nächste SchritteNext steps

  • Lesen Sie den Artikel zu den Grundlagen der Sprechererkennung, um einen Überblick über gängige Entwurfsmuster zu erhalten, die Sie in Ihren Anwendungen verwenden können.Complete the Speaker Recognition basics article for a run-through of common design patterns you can use in your applications.
  • Weitere Informationen finden Sie im Videotutorial zur textunabhängigen Sprecherüberprüfung.See the video tutorial for text-independent speaker verification.