OpenAI新模型o3和o4 - mini:首次实现“图像思维”并可利用ChatGPT工具
新模型发布情况
当地时间4月16日,OpenAI发布了最新的推理模型o3和o4 - mini,这延续了去年9月首个推理模型o1问世的发展脉络。此次发布的o3是主要的新型推理模型,o4 - mini则是更小型的模型,两款模型现已向OpenAI付费用户开放,即日起,ChatGPT的Plus、Pro会员以及Team用户可直接体验o3、o4 - mini和o4 - mini - high 。
“图像思维”能力
真正的视觉推理
OpenAI o3/o4 - mini首次具备真正的视觉推理能力,不再局限于简单的看图识图,还能够进行看图思考,将视觉信息直接整合进推理链条之中。例如,当用户上传一张倒着拍的手写笔记照片时,模型在推理过程中能够借助工具,对图像进行缩放、旋转或裁剪,最终识别出笔记上的手写内容 。
多模态处理
这两款模型能同时处理文本、图像和音频,为用户提供更丰富、更全面的交互体验 。
可利用ChatGPT工具及工具使用训练
自动调用工具
o3和o4 - mini能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式,在解决复杂的多步骤问题时更加高效,并朝着自主执行任务的方向迈出了真正一步 。
工具使用训练
通过强化学习,OpenAI训练了o3/o4 - mini如何使用工具,它们不仅知道如何用、何时用工具,还能以正确格式快速生成可靠答案 。
性能表现
数学竞赛准确率
测试结果显示,o3和o4 - mini(无工具版本)在AIME2024数学竞赛题目中的准确率分别达91.6%和93.4%,远超前代o1的74.3%。在AIME2025题目中,两者准确率分别达88.9%和92.7% 。
编程竞赛评分
在Codeforces编程竞赛评分中,支持终端工具的o3和o4 - mini分别取得了2706和2719的ELO分数,领先o1的1891和o3 - mini的2073。o3在SWE - bench verified测试中表现达到了当前最先进的水平(不使用自定义结构),得分为69.1%,o4 - mini的得分也相当出色,达到68.1%。作为对比,OpenAI此前最好的模型o3 - mini在该测试中得分为49.3%,而Anthropic的Claude 3.7 Sonnet得分为62.3% 。
市场竞争与未来规划
市场竞争压力
目前OpenAI面临着来自中国新兴企业DeepSeek、Anthropic以及马斯克旗下xAI等公司的巨大压力,这些公司不断推出一系列具备类似前沿能力的AI模型。编程已成为生成式AI应用中增长最快的领域之一,也是OpenAI的一个关键竞争战场,其他公司都大力宣传其新一代AI系统的编程能力 。
未来规划
为在竞争激烈的市场中更具优势,OpenAI周三宣布推出CodexCLI,这是一款旨在与如o3等模型协同工作的AI代理,可帮助用户完成编程任务。未来几周内还将推出o3 - pro,这是o3的一个升级版本,使用更多计算资源生成回答,仅向ChatGPT Pro订阅用户开放。而奥特曼此前曾表示,o3和o4 - mini可能是OpenAI在GPT - 5发布之前推出的最后一批独立推理模型