你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

说话人识别

项目
03/10/2024

Azure AI 服务 - 语音服务说话人识别提供算法，用于根据说话人的独特语音特征来验证和识别说话人。说话人识别用于回答“谁在说话？”的问题。了解详细信息。

语音具有可与个人关联的独特特征。我们为说话人识别技术的两个主要应用提供说话人验证 API 和说话人识别 API。

说话人验证

说话人验证可以依赖于文本，也可以独立于文本。依赖于文本的验证意味着说话人需要选择相同通行短语以在注册和验证阶段进行使用。验证语音内容和语音签名有助于实现多重验证方案;独立于文本的验证意味着说话人可以在注册和验证短语中用日常语言说话。

文本依赖说话人验证

在说话人注册阶段，通过说出一组预定义短语中的通行短语来录制说话人的声音。语音功能从音频录制中提取，以在识别所选通行短语时形成唯一的语音签名。语音签名和通行短语将一起用于验证说话人。

在验证阶段，与要验证的个人关联的 ID 将发送到说话人验证 API。说话人验证服务从输入录音中提取语音功能和通行短语。然后，它将语音功能和通行短语与相应说话人的注册配置文件进行比较。

响应返回“Accept”或“Reject”，其相似性分数范围为 0 到 1。 “接受”或“拒绝”响应是结合了说话人验证结果和语音识别结果的结果，而相似性分数仅衡量语音相似性。当语音识别结果与注册短语匹配且语音相似性分数大于或等于 0.5 时，我们将返回“Accept”。但是，应根据方案以及正在使用的其他验证因素来确定结果。建议根据自己的数据进行试验，并确定阈值，以根据需要替代“接受”或“拒绝”响应。

在当前版本的依赖于文本的说话人验证 API 中，我们提供 10 个英语短语供说话人选择。

我要给他一个他不能拒绝的提议。
休斯顿我们有问题。
我的声音是我的护照验证我。
苹果汁在牙膏后味道很有趣。
无需密码即可进入。
现在可以激活安全系统。
我的声音比密码强。
我的密码不是你的业务。
你不知道我的名字。
做你自己，其他人已经采取”

可以通过向独立于文本的说话人验证 API 和语音转文本 API 发送单独的请求来创建自己的通行短语。结合说话人验证结果和语音识别结果，可以确定说话人的身份。

这些 API 并不旨在用于确定音频是来自真实的个人、模仿内容，还是已注册的说话人的录音。生成随机短语供说话人阅读被视为有效防止重播攻击。

文本独立说话人验证

说话人验证也可以独立于文本，这意味着说话人在音频中说出的内容没有限制。

在注册阶段，将从说话人的音频中提取语音功能，以形成唯一的语音签名。

在验证阶段，与要验证的个人关联的音频和 ID 将发送到说话人验证 API。说话人验证服务从输入录音中提取语音功能。然后，它将语音功能与相应说话人注册配置文件中的语音签名进行比较。

响应返回“Accept”或“Reject”，其相似性分数范围为 0 到 1。当相似性分数大于或等于 0.5 时，将返回“Accept”响应。但是，应根据方案以及正在使用的其他验证因素来确定结果。建议对自己的数据进行试验，并确定阈值，以根据需要替代“接受”或“拒绝”响应。

这些 API 并不旨在用于确定音频是来自真实的个人、模仿内容，还是已注册的说话人的录音。