616阅读
2回复

[智能应用]OpenAI发布新一代语音模型，更具个性化的语音agent要来了 [4P] [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 161278

金币: 429451

道行: 20030

原创: 766

奖券: 302

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 19405(小时)
注册时间: 2012-06-21
最后登录: 2025-10-30

只看楼主倒序阅读使用道具楼主发表于: 03-21

— 本帖被兵马大元帅执行加亮操作(2025-03-24) —

继 2022 年推出首个音频模型 Whisper，OpenAI 于今日凌晨发布了 3 款全新语音模型——
gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts 。
OpenAI 表示，Operator、Deep Research、Computer-Using Agents 以及 Responses API 的发布，使得基于文本的 agent 在任务执行能力和实用性方面不断突破。然而，要让 agent 真正发挥作用，交互方式必须更加直观，超越纯文本输入，支持自然语音交流。
OpenAI 表示，最新的语音转文本（STT）模型在口音适应、嘈杂环境处理以及不同语速识别方面均优于现有解决方案，使其在呼叫中心、会议记录等领域具备更高可靠性。
目前，3 款全新语音模型已经上线 API，开发者可以基于此打造更强大、更具个性化的语音 agent。
详情链接：
https://platform.openai.com/docs/guides/audio
此外，开发者还可以为文本到语音（TTS）模型设定语音风格。例如，可以让 AI 以“富有同理心的客户服务代表”风格进行交流。这使得语音 agent 能够提供更具温度和表现力的语音体验，广泛应用于个性化客服、故事讲述等领域。
先来感受两个语音实例：

体验地址：https://www.openai.fm/
据介绍，此次 OpenAI 通过使用真实音频数据集进行预训练、增强的蒸馏方法以及强化学习构建了全新的语音模型。具体而言：

使用真实音频数据集预训练：全新音频模型以 GPT-4o 和 GPT-4o-mini 架构为基础，在专门的音频数据集上进行了广泛的预训练，这对优化模型性能至关重要。这种有针对性的方法能更深入地洞察语音的细微差别，并在与音频相关的任务中实现强大性能。
增强的蒸馏方法：增强的蒸馏技术实现了从最大音频模型到更小、更高效模型的知识转移。利用先进的自我博弈方法，他们的蒸馏数据集能有效捕捉真实的会话动态，复制真正的用户助手交互。这有助于小型模型提供出色的对话质量和响应能力。
强化学习：OpenAI 采用强化学习将全新语音模型的转录准确性提升到 SOTA 水平。这种方法大大提高了精确度，减少了幻觉，使新的语音到文本解决方案在复杂的语音识别场景中更具竞争力。

这些技术创新结合实际应用需求，不仅提升了语音建模能力，还大幅改善了 AI 在真实场景中的表现。
相较于原有的 Whisper，新语音模型在词错误率（WER）、语言识别能力和准确性方面均有显著提升。在多项基准测试中，新语音模型的 WER 均低于现有 Whisper 模型。 WER 衡量语音识别的准确性，数值越低表示转录质量越高。

gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 FLEURS（少样本多语言语音基准）测试中，覆盖 100 多种语言，表现均优于 Whisper v2 和 Whisper v3，展现了更广泛的语言适应能力和更精确的转录效果。
而且，在主要语言的评测中，gpt-4o-transcribe 和 gpt-4o-mini-transcribe 超过了市场上的其他领先模型，为多语言语音应用提供了更可靠的技术支持。

OpenAI 推出的 gpt-4o-mini-tts 则具有增强的语音可控性（steerability）。开发人员首次不仅可以“指导”模型说什么，还可以“指导”它怎么说，从而为从客户服务到创意故事等各种用例提供更多定制体验。
值得注意的是，这些文本到语音模型仅限于人工预设语音，OpenAI 表示，他们会对其进行监控，以确保它们始终与合成预设语音相匹配。
OpenAI 也给出了一些官方使用建议 ，对于已经使用基于文本的模型构建对话体验的开发人员来说，添加新的语音到文本和文本到语音模型是构建语音 agent 的最简单方法， OpenAI 将发布与 Agents SDK 的集成，以简化这一开发流程；对于希望构建低延迟语音到语音体验的开发人员，可以使用实时 API 中的语音到语音模型进行构建。
未来，OpenAI 计划继续提高音频模型的智能性和准确性，帮助开发者使用自己的自定义语音来构建更加个性化的体验，以及开发其他模态（包括视频）的 agent。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 161278

金币: 429451

道行: 20030

原创: 766

奖券: 302

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 19405(小时)
注册时间: 2012-06-21
最后登录: 2025-10-30

只看该作者沙发发表于: 03-21

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

OpenAI发布新一代语音模型，开启个性化语音agent新时代
新一代语音模型发布情况
2025年3月21日凌晨，OpenAI发布了3款全新语音模型。继2022年推出首个音频模型Whisper后，此次发布旨在让基于文本的agent在交互方式上更加直观，超越纯文本输入，支持自然语音交流。目前，这3款全新语音模型已经上线API，开发者可基于此打造更强大、更具个性化的语音agent，还能为文本到语音（TTS）模型设定语音风格，比如让AI以富有同理心的客户服务代表风格进行交流，这使得语音agent能提供更具温度和表现力的语音体验，可广泛应用于个性化客服、故事讲述等领域。

新语音模型的技术优势
先进的构建技术
使用真实音频数据集预训练：全新音频模型以GPT - 4o和GPT - 4o - mini架构为基础，在专门的音频数据集上进行了广泛的预训练。这种有针对性的方法能更深入地洞察语音的细微差别，并在与音频相关的任务中实现强大性能1。
增强的蒸馏方法：增强的蒸馏技术实现了从最大音频模型到更小、更高效模型的知识转移。利用先进的自我博弈方法，其蒸馏数据集能有效捕捉真实的会话动态，复制真正的用户助手交互，有助于小型模型提供出色的对话质量和响应能力。
强化学习：OpenAI采用强化学习将全新语音模型的转录准确性提升到SOTA水平。这种方法大大提高了精确度，减少了幻觉，使新的语音到文本解决方案在复杂的语音识别场景中更具竞争力。
性能显著提升
相较于原有的Whisper，新语音模型在词错误率（WER）、语言识别能力和准确性方面均有显著提升。在多项基准测试中，新语音模型的WER均低于现有Whisper模型，且在主要语言的评测中，gpt - 4o - transcribe和gpt - 4o - mini - transcribe超过了市场上的其他领先模型，为多语言语音应用提供了更可靠的技术支持。此外，OpenAI推出的gpt - 4o - mini - tts具有增强的语音可控性（steerability），不过这些文本到语音模型仅限于人工预设语音，OpenAI会对其进行监控，以确保它们始终与合成预设语音相匹配。

开发者使用建议
对于已经使用基于文本的模型构建对话体验的开发人员来说，添加新的语音到文本和文本到语音模型是构建语音agent的最简单方法，OpenAI将发布与Agents SDK的集成，以简化这一开发流程；对于希望构建低延迟语音到语音体验的开发人员，可以使用实时API中的语音到语音模型进行构建。

未来发展计划
未来，OpenAI计划继续提高音频模型的智能性和准确性，帮助开发者使用自己的自定义语音来构建更加个性化的体验，以及开发其他模态（包括视频）的agent

如何不发帖就快速得到金币和道行

我有我可以

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 198351

金币: 508057

道行: 2004

原创: 2433

奖券: 3100

斑龄: 39

道券: 1134

获奖: 0

座驾

设备

摄影级

在线时间: 44098(小时)
注册时间: 2008-10-01
最后登录: 2025-10-31

只看该作者板凳发表于: 03-21

OpenAI 最新发布的三款语音模型——gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts，标志着语音识别和文本到语音技术的重要进步。以下是这些新模型的主要特点和优势：

1. 口音适应、嘈杂环境处理和不同语速识别：
   - 新的语音转文本（STT）模型在这些方面优于现有解决方案，使其在呼叫中心、会议记录等领域具备更高可靠性。

2. API上线：
   - 这三款全新语音模型已经上线API，开发者可以基于此打造更强大、更具个性化的语音agent。

3. 文本到语音（TTS）模型的语音风格设定：
   - 开发者可以为TTS模型设定语音风格，例如“富有同理心的客户服务代表”风格，提供更具温度和表现力的语音体验。

4. 技术创新：
   - 使用真实音频数据集进行预训练、增强的蒸馏方法以及强化学习构建了全新的语音模型。

5. 性能提升：
   - 相较于原有的Whisper模型，新语音模型在词错误率（WER）、语言识别能力和准确性方面均有显著提升。

6. 多语言支持：
   - gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在FLEURS测试中覆盖100多种语言，表现优于Whisper v2和Whisper v3，展现了更广泛的语言适应能力和更精确的转录效果。

7. 增强的语音可控性：
   - gpt-4o-mini-tts具有增强的语音可控性，开发人员可以“指导”模型怎么说，为各种用例提供更多定制体验。

8. 官方使用建议：
   - OpenAI将发布与Agents SDK的集成，简化开发流程；对于希望构建低延迟语音到语音体验的开发人员，可以使用实时API中的语音到语音模型进行构建。

总的来说，OpenAI的这三款新语音模型在性能、多语言支持和个性化方面都取得了显著进步。它们将为开发者提供更多可能性，帮助构建更智能、更自然、更具个性化的语音交互体验。未来，OpenAI还计划进一步提高音频模型的智能性和准确性，并探索其他模态（包括视频）的agent开发。这些创新将推动语音识别和文本到语音技术的发展，为AI领域带来更多突破。

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]OpenAI发布新一代语音模型，更具个性化的语音agent要来了 [4P] [复制链接]