你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是 Whisper 模型?

Whisper 模型是 OpenAI 中的语音转文本模型,可用于听录音频文件。 该模型是在英语音频和文本的大型数据集上训练的。 该模型已针对包含英语语音的音频文件进行了优化。 该模型还可用于听录包含其他语言的语音的音频文件。 该模型的输出为英语文本。

通过 Azure OpenAI 服务或 Azure AI 语音提供 Whisper 模型。 这些产品/服务的功能不相同。 在 Azure AI 语音中,Whisper 只是你可使用的多个语音转文本模型中的一个。

你可能会问:

  • Whisper 模型是否适合我的方案,还是 Azure AI 语音模型更好? 这两种类型的模型的 API 之间有怎样的差异?

  • 如果我想要使用 Whisper 模型,应通过 Azure OpenAI 服务还是 Azure AI 语音使用它? 哪些方案可指导我使用其中某个方法?

Whisper 模型或 Azure AI 语音模型

Whisper 模型或 Azure AI 语音模型都是适合的,具体取决于你的方案。 如果决定使用 Azure AI 语音,可以从多个模型(包括 Whisper 模型)中进行选择。 下表比较了推荐入门的选项。

方案 Whisper 模型 Azure AI 语音模型
音频和视频的实时听录、描述文字和字幕。 不可用 建议
预先录制的音频和视频的听录、描述文字和字幕。 建议通过 Azure OpenAI 使用 Whisper 模型来快速处理单个音频文件。 建议通过 Azure AI 语音 使用 Whisper 模型来批处理大型文件。 有关详细信息,请参阅通过 Azure AI 语音还是 Azure OpenAI 服务来使用 Whisper 模型? 建议用于批处理大型文件、分割和字级时间戳。
电话录音的脚本和分析,例如通话摘要、情绪、关键主题和自定义见解。 可用 建议
实时听录和分析,帮助呼叫中心代理解决客户问题。 不可用 建议
会议录制的脚本和分析,例如会议摘要、会议章节划分和操作项提取。 可用 建议
通过语音听写进行实时文本输入和文档生成。 不可用 建议
联系中心语音代理:在呼叫中心实现呼叫路由和交互式语音响应。 可用 建议
语音助手:适用于机顶盒、移动应用、车载设备和其他方案的应用程序特定的语音助理。 可用 建议
发音评估:评估说话人语音的发音。 不可用 建议
将实时语音从一种语言翻译成另一种语言。 不可用 建议通过语音翻译 API 使用
将预录制的音频从其他语言翻译为英语。 建议 可通过语音翻译 API 使用
将预录制的音频翻译为英语以外的语言。 不可用 建议通过语音翻译 API 使用

通过 Azure AI 语音还是 Azure OpenAI 服务来使用 Whisper 模型?

如果决定使用 Whisper 模型,你有两个选项。 你可以选择通过 Azure OpenAIAzure AI 语音来使用 Whisper 模型。 在任一情况下,听录文本的可读性都是相同的。 可以输入混合语言的音频,输出为英语。

通过 Azure OpenAI 服务使用 Whisper 模型可能最适合以下场景:

  • 快速听录音频文件,一次一个
  • 将其他语言的音频翻译为英语
  • 向模型提供提示以指导输出
  • 支持的文件格式:mp3、mp4、mpweg、mpga、m4a、wav、webm

通过 Azure AI 语音使用 Whisper 模型可能最适合以下场景:

  • 听录大于 25MB 的文件(最大 1GB)。 Azure OpenAI Whisper 模型的文件大小限制为 25 MB。
  • 听录大批音频文件
  • 分割,以区分参与对话的不同说话人。 语音服务提供有关哪个说话人正在说出转录语音的特定部分的信息。 通过 Azure OpenAI 的 Whisper 模型不支持分割。
  • 字级时间戳
  • 支持的文件格式:mp3、wav、ogg
  • 定制 Whisper 基础模型以提高方案的准确度(即将推出)

区域支持是另一个考虑因素。

  • 通过 Azure OpenAI 服务使用的 Whisper 模型在以下区域提供:美国东部 2、印度南部、中北部、挪威东部、瑞典中部和西欧。
  • 通过 Azure AI 语音使用的 Whisper 模型在以下区域提供:澳大利亚东部、美国东部、美国中北部、美国中南部、东南亚、英国南部和欧洲西部。

后续步骤