Interfejs API rozpoznawania osoby mówiącejSpeaker Recognition API

Interfejsy API rozpoznawania osoby mówiącej usługi Azure Cognitive Services — Zapraszamy!Welcome to the Azure Cognitive Services Speaker Recognition APIs. Interfejsy API rozpoznawania osoby mówiącej to chmurowe interfejsy API oferujące najbardziej zaawansowane algorytmy do weryfikacji oraz identyfikacji osoby mówiącej.Speaker Recognition APIs are cloud-based APIs that provide the most advanced algorithms for speaker verification and speaker identification. Rozpoznawanie osoby mówiącej można podzielić na dwie kategorie: weryfikację osoby mówiącej oraz identyfikację osoby mówiącej.Speaker Recognition can be divided into two categories: speaker verification and speaker identification.

Weryfikacja osoby mówiącejSpeaker Verification

Głos ma unikatowe cechy, które mogą służyć do identyfikowania osoby, podobnie jak ma to miejsce w przypadku odcisku palca.Voice has unique characteristics that can be used to identify a person, just like a fingerprint. Korzystanie z głosu do kontroli dostępu i scenariuszy uwierzytelniania okazało się nowym innowacyjnym narzędziem —zasadniczo oferuje ono wyższy stopień bezpieczeństwa, co ułatwia klientom uwierzytelnianie.Using voice as a signal for access control and authentication scenarios has emerged as a new innovative tool –essentially offering a level up in security that simplifies the authentication experience for customers.

Interfejsy API weryfikacji osoby mówiącej mogą automatycznie weryfikować i uwierzytelniać użytkowników przy użyciu ich głosu lub mowy.Speaker Verification APIs can automatically verify and authenticate users using their voice or speech.

RejestracjaEnrollment

Rejestracja do weryfikacji osoby mówiącej jest zależna od tekstu, co oznacza, że osoby mówiące muszą wybrać określone hasło, które będzie używane w fazach rejestracji i weryfikacji.Enrollment for speaker verification is text-dependent, which means speakers need to choose a specific pass phrase to use during both enrollment and verification phases.

Podczas rejestracji jest nagrywany głos osoby mówiącej w trakcie wypowiadania określonej frazy, następnie zostaje wyodrębniona pewna liczba cech i wybrana fraza zostaje rozpoznana.In enrollment, the speaker's voice is recorded saying a specific phrase, then a number of features are extracted and the chosen phrase is recognized. Wyodrębnione cechy i wybrana fraza wspólnie tworzą unikatowy podpis głosowy.Together, both extracted features and the chosen phrase form a unique voice signature.

WeryfikacjaVerification

Podczas weryfikacji głos i fraza wejściowa są porównywane z podpisem głosowym i frazą z rejestracji — aby zweryfikować, czy pochodzą od tej samej osoby i czy zawierają prawidłową frazę.In verification, an input voice and phrase are compared against the enrollment's voice signature and phrase –in order to verify whether or not they are from the same person, and if they are saying the correct phrase.

Aby uzyskać więcej informacji na temat weryfikacji osoby mówiącej, zapoznaj się z artykułem dotyczącym interfejsu API  weryfikacji osoby mówiącej.For more details about speaker verification, please refer to the API Speaker - Verification.

Identyfikacja osoby mówiącejSpeaker Identification

Interfejsy API identyfikacji osoby mówiącej mogą automatycznie identyfikować osobę mówiącą w pliku audio po podaniu grupy potencjalnych osób mówiących.Speaker Identification APIs can automatically identify the person speaking in an audio file, given a group of prospective speakers. Dane wejściowe w postaci głosu są porównywane z podaną grupą osób mówiących. Po znalezieniu dopasowania jest zwracana tożsamość osoby mówiącej.The input audio is paired against the provided group of speakers, and in the case that there is a match found, the speaker’s identity is returned.

Wszystkie osoby mówiące powinny najpierw przejść proces rejestracji, aby ich głos został zarejestrowany w systemie i została utworzona ich próbka głosu.All speakers should go through an enrollment process first to get their voice registered to the system, and have a voice print created.

RejestracjaEnrollment

Rejestracja w celu identyfikacji osoby mówiącej jest niezależna od tekstu, co oznacza, że nie ma żadnych ograniczeń w zakresie słów wypowiadanych przez osobę mówiącą na nagraniu dźwiękowym.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. Po nagraniu głosu osoby mówiącej następuje wyodrębnienie pewnej liczby cech i utworzenie unikatowego podpisu głosowego.The speaker's voice is recorded, and a number of features are extracted to form a unique voice signature.

RozpoznawanieRecognition

Podczas rozpoznawania należy dostarczyć nagranie dźwiękowe nieznanej osoby mówiącej oraz potencjalną grupę osób mówiących.The audio of the unknown speaker, together with the prospective group of speakers, is provided during recognition. Głos wejściowy jest porównywany ze wszystkimi osobami mówiącymi w celu ustalenia, do kogo należy głos, a po znalezieniu dopasowania zostaje zwrócona tożsamość osoby mówiącej.The input voice is compared against all speakers in order to determine whose voice it is, and if there is a match found, the identity of the speaker is returned.

Aby uzyskać więcej informacji na temat identyfikacji osoby mówiącej, zapoznaj się z artykułem dotyczącym interfejsu API  identyfikacji osoby mówiącej.For more details about speaker identification, please refer to the API Speaker - Identification.