Co je rozpoznávání mluvčího?

Článek
01/23/2024

Rozpoznávání mluvčího může pomoct určit, kdo mluví ve zvukovém klipu. Služba může ověřovat a identifikovat mluvčí podle jejich jedinečných hlasových charakteristik pomocí hlasové biometry.

Poskytnete data o trénování zvuku pro jednoho mluvčího, která vytvoří registrační profil na základě jedinečných charakteristik hlasu mluvčího. Potom můžete křížově zkontrolovat zvukové ukázky v tomto profilu a ověřit, že mluvčí je stejná osoba (ověření mluvčího). Můžete také křížově zkontrolovat zvukové ukázky ve skupině zaregistrovaných profilů mluvčího a zjistit, jestli odpovídá jakémukoli profilu ve skupině (identifikaci mluvčího).

Důležité

Microsoft omezuje přístup k rozpoznávání mluvčího. Můžete požádat o přístup prostřednictvím kontroly omezeného přístupu pro rozpoznávání mluvčího služby Azure AI. Další informace naleznete v tématu Omezený přístup k rozpoznávání mluvčího.

Ověření mluvčího

Ověření mluvčího zjednodušuje proces ověření zaregistrované identity mluvčího pomocí přístupových hesel nebo hlasového vstupu ve volném formátu. Můžete ho například použít k ověření identity zákazníka v call centrech nebo v přístupu k bezkontaktnímu zařízení.

Jak funguje ověření mluvčího?

Následující vývojový diagram poskytuje vizuál, jak to funguje:

Flowchart that shows how speaker verification works.

Ověření mluvčího může být závislé na textu nebo nezávislé na textu. Ověření závislé na textu znamená, že mluvčí musí zvolit stejné heslo, které se má použít ve fázích registrace i ověřování. Ověření nezávislé na textu znamená, že mluvčí můžou v zápisu a ověřovacích frázích mluvit v každodenním jazyce.

V případě ověření závislého na textu se hlas mluvčího zaregistruje tím, že řekne přístupové heslo ze sady předdefinovaných frází. Hlasové funkce se extrahují ze zvukového záznamu, aby vytvořily jedinečný hlasový podpis, a zvolené heslo se také rozpozná. Hlasová signatura a heslo se společně používají k ověření mluvčího.

Ověření nezávislé na textu nemá žádná omezení týkající se toho, co mluvčí během registrace říká, kromě počáteční aktivační fráze, když je aktivní registrace povolená. Nemá žádná omezení pro ověření ukázky zvuku, protože extrahuje jenom hlasové funkce pro určení podobnosti.

Rozhraní API nejsou určená k určení, jestli je zvuk od živé osoby, nebo z imitace nebo záznamu zaregistrovaného mluvčího.

Identifikace mluvčího

Identifikace mluvčího vám pomůže určit identitu neznámého mluvčího ve skupině zaregistrovaných mluvčích. Identifikace mluvčího umožňuje přiřazovat řeč jednotlivým mluvčím a odemykat hodnotu ze scénářů s více mluvčími, například:

Podpora řešení pro produktivitu vzdálených schůzek
Vytváření přizpůsobení zařízení s více uživateli

Jak funguje identifikace mluvčího?

Registrace k identifikaci mluvčího je nezávislá na textu. Neexistují žádná omezení týkající se toho, co mluvčí říká ve zvuku, kromě počáteční aktivační fráze, když je aktivní registrace povolená. Podobně jako při ověřování mluvčího se hlas nahrává ve fázi registrace a hlasové funkce se extrahují, aby vytvořily jedinečný hlasový podpis. Ve fázi identifikace se vstupní hlasová ukázka porovná se zadaným seznamem zaregistrovaných hlasů (až 50 v každé žádosti).

Zabezpečení a ochrana osobních údajů

Data registrace mluvčího jsou uložená v zabezpečeném systému, včetně hlasového zvuku pro registraci a funkcí hlasového podpisu. Zvuk řeči pro registraci se používá jenom při upgradu algoritmu a funkce je potřeba znovu extrahovat. Služba nezachová záznam řeči ani extrahované hlasové funkce, které se posílají do služby během fáze rozpoznávání.

Určujete, jak dlouho se mají uchovávat data. Data registrace pro jednotlivé mluvčí můžete vytvářet, aktualizovat a odstraňovat prostřednictvím volání rozhraní API. Po odstranění předplatného se odstraní také všechna data registrace mluvčího přidružená k předplatnému.

Stejně jako u všech prostředků služeb Azure AI musí vývojáři, kteří funkci rozpoznávání mluvčího používají, znát zásady Microsoftu týkající se zákaznických dat. Měli byste zajistit, abyste uživatelům obdrželi příslušná oprávnění. Další podrobnosti najdete v datech a ochraně osobních údajů pro rozpoznávání mluvčího. Další informace najdete na stránce služeb Azure AI v Centru zabezpečení Microsoftu.

Časté dotazy a řešení

Otázka	Řešení
Jaké situace s největší pravděpodobností používám rozpoznávání mluvčího?	Mezi dobré příklady patří ověření zákazníka v call centru, přihlášení pacientů na základě hlasu, přepis schůzky a přizpůsobení zařízení s více uživateli.
Jaký je rozdíl mezi identifikací a ověřením?	Identifikace je proces zjištění, který člen skupiny mluvčích mluví. Ověření je potvrzení, že mluvčí odpovídá známému, zaregistrovanému hlasu .
Jaké jazyky jsou podporovány?	Viz podpora jazyka rozpoznávání mluvčího.
Jaké oblasti Azure se podporují?	Viz podpora oblasti rozpoznávání mluvčího.
Jaké jsou podporované zvukové formáty?	Mono 16bitová, 16 kHz PCM kódovaná WAV.
Můžete registrovat jednoho mluvčího vícekrát?	Ano, pro ověření závislé na textu můžete zaregistrovat mluvčího až 50krát. Pro ověření nezávislé na textu nebo identifikaci mluvčího se můžete zaregistrovat až s 300 sekundami zvuku.
Jaká data jsou uložená v Azure?	Zvuk registrace se uloží do služby, dokud se hlasový profil nesmažou. Rozpoznávání zvukových ukázek se neuchovává ani neukládá.

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Další kroky

Rychlý start pro rozpoznávání mluvčího