Sprechererkennungs-API: VorschauversionSpeaker Recognition API - Preview

Bei Sprechererkennungs-APIs handelt es sich um cloudbasierte APIs, die hochentwickelte Algorithmen zur Sprecherüberprüfung und -identifikation bereitstellen.Speaker Recognition APIs are cloud-based APIs that provide the advanced AI algorithms for speaker verification and speaker identification. Die Sprechererkennung ist in zwei Kategorien unterteilt: Sprecherüberprüfung und Sprecheridentifikation.Speaker Recognition is divided into two categories: speaker verification and speaker identification.

SprecherüberprüfungSpeaker Verification

Die Stimme hat unverwechselbare Eigenschaften, die einem Individuum zugeordnet werden können.Voice has unique characteristics that can be associated with an individual. Anwendungen können in Szenarien wie Callcentern und Webdiensten die Stimme als zusätzlichen Faktor für die Überprüfung nutzen.Applications can use voice as an additional factor for verification, in scenarios like call centers and web services.

Sprecherüberprüfungs-APIs dienen als intelligentes Tool, um Benutzer anhand ihrer Stimme und gesprochenen Passphrase zu überprüfen.Speaker Verification APIs serve as an intelligent tool to help verify users using both their voice and speech passphrases.

RegistrierungEnrollment

Die Registrierung für die Sprecherüberprüfung ist textabhängig. Das bedeutet, dass sich Sprecher für eine bestimmte Passphrase entscheiden und diese sowohl in der Registrierungs- als auch der Überprüfungsphase verwenden müssen.Enrollment for speaker verification is text-dependent, which means speakers need to choose a specific passphrase to use during both enrollment and verification phases.

In der Sprecherregistrierungsphase wird die Stimme des Sprechers mit einer bestimmten Aussage aufgezeichnet.In the speaker enrollment phase, the speaker's voice is recorded saying a specific phrase. Stimmmerkmale werden extrahiert, um eine eindeutige Stimmsignatur zu bilden, während die gewählte Aussage erkannt wird.Voice features are extracted to form a unique voice signature while the chosen phrase is recognized. Diese Sprecherregistrierungsdaten werden anschließend verwendet, um den Sprecher zu überprüfen.Together, this speaker enrollment data would be used to verify the speaker. Die Sprecherregistrierungsdaten werden in einem abgesicherten System gespeichert.The speaker enrollment data are stored in a secured system. Der Kunde bestimmt, wie lange sie aufbewahrt werden sollen.The Customer controls how long it should be retained. Kunden können über API-Aufrufe Registrierungsdaten für einzelne Sprecher erstellen, aktualisieren und entfernen.Customers can create, update, and remove enrollment data for individual speakers through API calls. Beim Löschen des Abonnements werden auch alle mit dem Abonnement verbundenen Sprecherregistrierungsdaten gelöscht.When the subscription is deleted, all the speaker enrollment data associated with the subscription will also be deleted.

Kunden müssen sicherstellen, dass sie von den Benutzern die entsprechende Erlaubnis für die Sprecherüberprüfung erhalten haben.Customers should ensure they have received the appropriate permissions from the users for speaker verification.

ÜberprüfungVerification

In der Überprüfungsphase muss der Kunde die Sprecherüberprüfungs-API mit der ID der zu überprüfenden Person aufrufen.In the verification phase, the Customer should call the speaker verification API with the ID associated with the individual to be verified. Der Dienst extrahiert Stimmmerkmale und die Passphrase aus der Sprachaufzeichnung der Eingabe.The service extracts voice features and the passphrase from the input speech recording. Anschließend vergleicht der Dienst die Merkmale mit den entsprechenden Elementen der Sprecherregistrierungsdaten für den Sprecher, den der Kunde zu überprüfen versucht, und bestimmt etwaige Übereinstimmungen.Then it compares the features against the corresponding elements of the speaker enrollment data for the speaker the Customer is seeking to verify and determines any match. Als Antwort wird „Akzeptieren“ oder „Ablehnen“ mit unterschiedlichen Konfidenzniveaus zurückgegeben.The response returns "accept" or "reject" with different confidence levels. Der Kunde bestimmt dann, wie er die Ergebnisse nutzen möchte, um zu entscheiden, ob es sich bei dieser Person um den registrierten Sprecher handelt.The Customer then determines how to use the results to help decide whether this person is the enrolled speaker.

Der Schwellenwert des Konfidenzniveaus muss abhängig vom Szenario und anderen verwendeten Überprüfungsfaktoren festgelegt werden.The threshold confidence level should be set based on the scenario and other verification factors that are being used. Es wird empfohlen, mit dem Konfidenzniveau zu experimentieren und die für die jeweilige Anwendung geeignete Einstellung zu wählen.We recommend you experiment with the confidence level and consider the appropriate setting for each application. Die APIs dienen nicht zum Bestimmen, ob das Audio von einer echten Person oder einer Imitation oder Aufzeichnung eines registrierten Sprechers stammt.The APIs are not intended to determine whether the audio is from a live person or an imitation or a recording of an enrolled speaker.

Der Dienst speichert weder die Sprachaufzeichnung noch die extrahierten Stimmmerkmale, die während der Überprüfungsphase an den Dienst gesendet werden.The service does not retain the speech recording or the extracted voice features that are sent to the service during the verification phase.

Weitere Informationen zur Sprecherüberprüfung finden Sie unter Speaker Recognition API (Sprechererkennungs-API).For more details about speaker verification, please refer to the API Speaker - Verification.

SprecheridentifikationSpeaker Identification

Anwendungen können mithilfe der Stimme feststellen, wer in einer Gruppe registrierter Sprecher spricht.Applications can use voice to identify "who is speaking" given a group of enrolled speakers. Sprecheridentifikations-APIs können in Szenarien wie Produktivität von Besprechungen, Personalisierung und Transkription im Callcenter verwendet werden.Speaker Identification APIs could be used in scenarios like meeting productivity, personalization, and call center transcription.

RegistrierungEnrollment

Die Registrierung für die Sprecheridentifikation ist textunabhängig. Es spielt also keine Rolle, was der Sprecher im Audio sagt.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. Eine Passphrase ist nicht erforderlich.No passphrase is required.

In der Registrierungsphase wird die Stimme des Sprechers aufgezeichnet. Stimmmerkmale werden extrahiert, um eine eindeutige Stimmsignatur zu bilden.In the enrollment phase, the speaker's voice is recorded, and voice features are extracted to form a unique voice signature. Die extrahierten Stimmmerkmale werden in einem abgesicherten System gespeichert.The speech audio and features extracted are stored in a secured system. Der Kunde bestimmt, wie lange sie aufbewahrt werden sollen.The Customer controls how long it is retained. Kunden können über API-Aufrufe Registrierungsdaten für einzelne Sprecher erstellen, aktualisieren und entfernen.Customers can create, update, and remove this speaker enrollment data for individual speakers through API calls. Beim Löschen des Abonnements werden auch alle mit dem Abonnement verbundenen Sprecherregistrierungsdaten gelöscht.When the subscription is deleted, all the speaker enrollment data associated with the subscription will also be deleted.

Kunden müssen sicherstellen, dass sie von den Benutzern die entsprechende Erlaubnis zur Sprecheridentifikation erhalten haben.Customers should ensure they have received the appropriate permissions from the users for speaker identification.

IdentifikationIdentification

In der Identifikationsphase extrahiert der Sprecheridentifikationsdienst Stimmmerkmale in der Sprachaufzeichnung der Eingabe.In the identification phase, the speaker identification service extracts voice features from the input speech recording. Anschließend werden diese Merkmale mit den Registrierungsdaten in der angegebenen Sprecherliste verglichen.Then it compares the features against the enrollment data of the specified list of speakers. Wenn eine Übereinstimmung mit einem registrierten Sprecher gefunden wird, enthält die Antwort die ID des Sprechers mit einem Konfidenzniveau.When a match is found with an enrolled speaker, the response returns the ID of the speaker with a confidence level. Andernfalls wird von der Antwort „Ablehnen“ zurückgegeben, wenn kein Sprecher mit einem registrierten Sprecher übereinstimmt.Otherwise, the response returns "reject" when no speaker is a match to an enrolled speaker.

Der Schwellenwert des Konfidenzniveaus muss abhängig vom Szenario festgelegt werden.The threshold confidence level should be set based on the scenario. Es wird empfohlen, mit dem Konfidenzniveau zu experimentieren und die für die jeweilige Anwendung geeignete Einstellung zu wählen.We recommend you experiment with the confidence level and consider the appropriate setting for each application. Die APIs dienen nicht zum Bestimmen, ob das Audio von einer echten Person oder einer Imitation oder Aufzeichnung eines registrierten Sprechers stammt.The APIs are not intended to determine whether the audio is from a live person or an imitation or a recording of an enrolled speaker.

Der Dienst speichert weder die Sprachaufzeichnung noch die extrahierten Stimmmerkmale, die während der Identifikationsphase an den Dienst gesendet werden.The service does not retain the speech recording or the extracted voice features that are sent to the service for the identification phase.

Weitere Informationen zur Sprecheridentifikation finden Sie unter  Speaker Recognition API (Sprechererkennungs-API).For more details about speaker identification, please refer to the API Speaker - Identification.