OpenAI发布新一代语音模型,开启个性化语音agent新时代
新一代语音模型发布情况
2025年3月21日凌晨,OpenAI发布了3款全新语音模型。继2022年推出首个音频模型Whisper后,此次发布旨在让基于文本的agent在交互方式上更加直观,超越纯文本输入,支持自然语音交流。目前,这3款全新语音模型已经上线API,开发者可基于此打造更强大、更具个性化的语音agent,还能为文本到语音(TTS)模型设定语音风格,比如让AI以富有同理心的客户服务代表风格进行交流,这使得语音agent能提供更具温度和表现力的语音体验,可广泛应用于个性化客服、故事讲述等领域。
新语音模型的技术优势
先进的构建技术
使用真实音频数据集预训练:全新音频模型以GPT - 4o和GPT - 4o - mini架构为基础,在专门的音频数据集上进行了广泛的预训练。这种有针对性的方法能更深入地洞察语音的细微差别,并在与音频相关的任务中实现强大性能1。
增强的蒸馏方法:增强的蒸馏技术实现了从最大音频模型到更小、更高效模型的知识转移。利用先进的自我博弈方法,其蒸馏数据集能有效捕捉真实的会话动态,复制真正的用户助手交互,有助于小型模型提供出色的对话质量和响应能力。
强化学习:OpenAI采用强化学习将全新语音模型的转录准确性提升到SOTA水平。这种方法大大提高了精确度,减少了幻觉,使新的语音到文本解决方案在复杂的语音识别场景中更具竞争力。
性能显著提升
相较于原有的Whisper,新语音模型在词错误率(WER)、语言识别能力和准确性方面均有显著提升。在多项基准测试中,新语音模型的WER均低于现有Whisper模型,且在主要语言的评测中,gpt - 4o - transcribe和gpt - 4o - mini - transcribe超过了市场上的其他领先模型,为多语言语音应用提供了更可靠的技术支持。此外,OpenAI推出的gpt - 4o - mini - tts具有增强的语音可控性(steerability),不过这些文本到语音模型仅限于人工预设语音,OpenAI会对其进行监控,以确保它们始终与合成预设语音相匹配。
开发者使用建议
对于已经使用基于文本的模型构建对话体验的开发人员来说,添加新的语音到文本和文本到语音模型是构建语音agent的最简单方法,OpenAI将发布与Agents SDK的集成,以简化这一开发流程;对于希望构建低延迟语音到语音体验的开发人员,可以使用实时API中的语音到语音模型进行构建。
未来发展计划
未来,OpenAI计划继续提高音频模型的智能性和准确性,帮助开发者使用自己的自定义语音来构建更加个性化的体验,以及开发其他模态(包括视频)的agent