Co je služba Azure rozpoznávání mluvčího?What is the Azure Speaker Recognition service?

Služba rozpoznávání mluvčího poskytuje algoritmy pro ověřování a identifikaci mluvčích podle jejich jedinečných vlastností hlasu.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Rozpoznávání mluvčího slouží k zodpovězení otázky "kdo se mluví?".Speaker Recognition is used to answer the question “who is speaking?”. Zadáváte data o školeních zvuku pro jeden mluvčí, který vytváří profil zápisu na základě jedinečných vlastností hlasu mluvčího.You provide audio training data for a single speaker, which creates an enrollment profile based on the unique characteristics of the speaker's voice. Potom můžete zkontrolovat ukázky zvukového hlasu proti tomuto profilu, abyste ověřili, že je mluvčí stejná osoba (ověření mluvčího), nebo ukázky zvukového hlasu pro skupinu zaregistrovaných profilů mluvčího, abyste viděli, jestli se shoduje s jakýmkoli profilem ve skupině (identifikace mluvčího).You can then cross-check audio voice samples against this profile to verify that the speaker is the same person (speaker verification), or cross-check audio voice samples against a group of enrolled speaker profiles, to see if it matches any profile in the group (speaker identification). Naproti tomu mluvčí Diarization seskupuje segmenty zvuků pomocí mluvčího v operaci Batch.In contrast, Speaker Diarization groups segments of audio by speaker in a batch operation.

Ověření mluvčíhoSpeaker Verification

Ověření mluvčího zjednodušuje proces ověření zapsané identity mluvčího buď pomocí přístupových hesel, nebo hlasového vstupu ve volném formátu.Speaker Verification streamlines the process of verifying an enrolled speaker identity with either passphrases or free-form voice input. Dá se použít k ověřování jednotlivců pro zajištění bezpečných a bezproblémových zapojení zákazníků v rámci široké škály řešení, od ověření identity zákazníků ve voláních centra k přístupu k zařízení bez kontaktování.It can be used to verify individuals for secure, frictionless customer engagements in a wide range of solutions, from customer identity verification in call centers to contact-less facility access.

Jak Ověření mluvčího funguje?How does Speaker Verification work?

Vývojový diagram Ověření mluvčího.

Ověřování mluvčího může být závislé na textu nebo nezávislé na textu.Speaker verification can be either text-dependent or text-independent. Ověřování závislé na textu znamená, že reproduktory musí zvolit stejné heslo, které se má použít při registraci i ověřovací fázi.Text-dependent verification means speakers need to choose the same passphrase to use during both enrollment and verification phases. Ověřování nezávislé na textu znamená, že reproduktory můžou hovořit v každodenním jazyce v rámci frází pro zápis a ověření.Text-independent verification means speakers can speak in everyday language in the enrollment and verification phrases.

Pro ověřování závislé na textu je hlas mluvčího zaregistrovaný pomocí přístupového hesla ze sady předdefinovaných frází.For text-dependent verification, the speaker's voice is enrolled by saying a passphrase from a set of predefined phrases. Funkce hlasu jsou extrahovány ze záznamu zvuku, aby bylo možné vytvořit jedinečný podpis hlasu, zatímco zvolené heslo je také rozpoznáno.Voice features are extracted from the audio recording to form a unique voice signature, while the chosen passphrase is also recognized. Společně se signatura hlasu a přístupové heslo slouží k ověření mluvčího.Together, the voice signature and the passphrase are used to verify the speaker.

Ověřování nezávislé na textu nemá žádné omezení na to, co mluvčí říká během registrace, nebo v ukázce zvukového testu, protože extrahuje jenom funkce hlasu, které se zaměří na podobnost.Text-independent verification has no restrictions on what the speaker says during enrollment or in the audio sample to be verified, as it only extracts voice features to score similarity.

Rozhraní API nejsou určena k určení, zda je zvuk od živé osoby nebo napodobeniny/záznamu zaregistrovaného mluvčího.The APIs are not intended to determine whether the audio is from a live person or an imitation/recording of an enrolled speaker.

Identifikace mluvčíhoSpeaker Identification

Identifikace mluvčího slouží k určení identity neznámého mluvčího v rámci skupiny zaregistrovaných mluvčích.Speaker Identification is used to determine an unknown speaker’s identity within a group of enrolled speakers. Identifikace mluvčího vám umožní přidružit řeč k jednotlivým reproduktorům a odemknout hodnotu ze scénářů s více mluvčími, například:Speaker Identification enables you to attribute speech to individual speakers, and unlock value from scenarios with multiple speakers, such as:

  • Podpora řešení pro produktivitu vzdálené schůzkySupport solutions for remote meeting productivity
  • Sestavování přizpůsobení zařízení pro více uživatelůBuild multi-user device personalization

Jak Identifikace mluvčího funguje?How does Speaker Identification work?

Registrace pro identifikaci mluvčího je nezávislá na textu, což znamená, že neexistují žádná omezení toho, co mluvčí ve zvukovém zařízení říká.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. Podobně jako u Ověření mluvčího ve fázi registrace je zaznamenán hlas mluvčího a jsou extrahovány funkce hlasu, aby bylo možné vytvořit jedinečný podpis hlasu.Similar to Speaker Verification, in the enrollment phase the speaker's voice is recorded, and voice features are extracted to form a unique voice signature. Ve fázi identifikace se vstupní hlasový vzorek porovnává se zadaným seznamem zaregistrovaných hlasů (až 50 v každé žádosti).In the identification phase, the input voice sample is compared to a specified list of enrolled voices (up to 50 in each request).

Zabezpečení dat a ochrana osobních údajůData security and privacy

Data zápisu mluvčího se ukládají do zabezpečeného systému, včetně zvukového zvuku pro zápis a funkce hlasového podpisu.Speaker enrollment data is stored in a secured system, including the speech audio for enrollment and the voice signature features. Zvuk řeči pro zápis se používá pouze v případě, že je tento algoritmus upgradován a funkce je třeba extrahovat znovu.The speech audio for enrollment is only used when the algorithm is upgraded, and the features need to be extracted again. Služba neuchovává záznam řeči ani extrahované funkce hlasu, které se do služby odesílají během fáze rozpoznávání.The service does not retain the speech recording or the extracted voice features that are sent to the service during the recognition phase.

Určujete, jak dlouho se mají uchovávat data.You control how long data should be retained. Můžete vytvářet, aktualizovat a odstraňovat registrační data pro jednotlivé reproduktory prostřednictvím volání rozhraní API.You can create, update, and delete enrollment data for individual speakers through API calls. Po odstranění odběru se odstraní také všechna data registrace mluvčího, která jsou přidružená k tomuto předplatnému.When the subscription is deleted, all the speaker enrollment data associated with the subscription will also be deleted.

Stejně jako u všech Cognitive Servicesch prostředků musí vývojáři, kteří používají službu rozpoznávání mluvčího, znát zásady společnosti Microsoft týkající se zákaznických dat.As with all of the Cognitive Services resources, developers who use the Speaker Recognition service must be aware of Microsoft's policies on customer data. Měli byste se ujistit, že jste obdrželi příslušná oprávnění od uživatelů pro rozpoznávání mluvčího.You should ensure that you have received the appropriate permissions from the users for Speaker Recognition. Další informace najdete na stránce Cognitive Services   na webu Microsoft Trust Center.For more information, see the Cognitive Services page on the Microsoft Trust Center.

Běžné dotazy a řešeníCommon questions and solutions

OtázkaQuestion ŘešeníSolution
K jakým scénářům se dá rozpoznávání mluvčího použít?What scenarios can Speaker Recognition be used for? Ověření zákazníka centra volání, ohlášení hlasu pacientům, přepis schůzky, přizpůsobení zařízení pro více uživatelůCall center customer verification, voice-based patient check-in, meeting transcription, multi-user device personalization
Jaký je rozdíl mezi identifikací a ověřováním?What is the difference between Identification and Verification? Identifikace je proces zjišťování, který člen ze skupiny mluvčích mluví.Identification is the process of detecting which member from a group of speakers is speaking. Ověření je potvrzení, že mluvčí odpovídá známému nebo zaregistrovanému hlasu.Verification is the act of confirming that a speaker matches a known, or enrolled voice.
Jaký je rozdíl mezi ověřováním závislým na textu a nezávislým na textu?What's the difference between text-dependent and text-independent verification? Ověřování závislé na textu vyžaduje konkrétní předávací frázi pro zápis i rozpoznávání.Text-dependent verification requires a specific pass-phrase for both enrollment and recognition. Ověřování nezávislé na textu vyžaduje pro registraci delší ukázku hlasu, ale může se jednat o cokoli, co je třeba při rozpoznávání.Text-independent verification requires a longer voice sample for enrollment, but anything can be spoken, including during recognition.
Jaké jazyky se podporují?What languages are supported? Angličtina, francouzština, španělština, italština, němčina, italština, japonština a portugalštinaEnglish, French, Spanish, Chinese, German, Italian, Japanese and Portuguese
Jaké oblasti Azure jsou podporované?What Azure regions are supported? Rozpoznávání mluvčího je služba ve verzi Preview, která je aktuálně dostupná jenom v Západní USA oblasti.Speaker Recognition is a preview service, and currently only available in the West US region.
Jaké formáty zvuku jsou podporovány?What audio formats are supported? Mono 16 bitů, 16kHz WAV s kódováním PCMMono 16 bit, 16kHz PCM-encoded WAV
Odpovědi přijmout a odmítnout nejsou přesné, jak tuto prahovou hodnotu vyladit?Accept and Reject responses aren't accurate, how do you tune the threshold? Vzhledem k tomu, že se optimální prahová hodnota značně liší u scénářů, rozhraní API rozhoduje, jestli se má "přijmout" nebo "zamítnout" jednoduše na základě výchozí prahové hodnoty 0,5.Since the optimal threshold varies highly with scenarios, the API decides whether to “Accept” or “Reject” simply based on a default threshold of 0.5. Pokročilým uživatelům se doporučuje přepsat výchozí rozhodnutí a vyladit výsledek na základě vašeho vlastního scénáře.Advanced users are advised to override the default decision and fine tune the result based on your own scenario.
Můžete jeden mluvčí zaregistrovat několikrát?Can you enroll one speaker multiple times? Ano, u ověřování závislého na textu můžete zaregistrovat mluvčí až 50 časů.Yes, for text-dependent verification, you can enroll a speaker up to 50 times. V případě ověření nezávislého na textu nebo identifikace mluvčího se můžete zaregistrovat až po 300 sekund zvuk.For text-independent verification or speaker identification, you can enroll with up to 300 seconds of audio.
Jaká data jsou uložená v Azure?What data is stored in Azure? Zvuk registrace je uložený ve službě, dokud se hlasový profil neodstraní.Enrollment audio is stored in the service until the voice profile is deleted. Zvukové vzorky rozpoznávání nejsou uchovávány nebo uloženy.Recognition audio samples are not retained or stored.

Další krokyNext steps

  • Seznamte se s rozpoznávání mluvčího základy běžných vzorů návrhu, které můžete použít ve svých aplikacích, dokončete v tomto článku .Complete the Speaker Recognition basics article for a run-through of common design patterns you can use in your applications.
  • Prohlédněte si kurz videa pro ověřování mluvčí nezávislé na textu.See the video tutorial for text-independent speaker verification.