78阅读
2回复

[智能应用]OpenAI发新模型！首次实现“图像思维”，可利用所有ChatGPT工具 [4P] [复制链接]

上一主题下一主题查看指定楼层

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 128905

金币: 123301

道行: 20023

原创: 757

奖券: 68

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 13891(小时)
注册时间: 2012-06-21
最后登录: 2025-04-19

只看楼主正序阅读使用道具楼主发表于: 前天 09:09

OpenAI周三发布新款AI模型o3和o4-mini，模仿人类的推理过程，解决复杂编程和视觉任务的推理。同时，该公司也发布开源AI agent CodeX CLI，用于帮助用户执行编程任务，从而改善市场竞争能力。
OpenAI此次推出的主要新型推理模型名为o3，同时还发布了一款更小型的模型，命名为o4-mini。这一发布延续了去年9月OpenAI首个推理模型o1的问世，当时o1主要专注于解决复杂问题，并通过多步骤的方式进行思考和作答。
该公司表示，新发布的o3模型在响应用户提示之前会花费更多时间进行计算，目标是解决与科学、数学和编程相关的更复杂的多步骤问题。借助o3，用户可以上传白板笔记、草图和其他图像内容，让AI进行分析与讨论。这些模型还能对图像进行旋转、缩放等编辑操作。
跑分进步首次实现“图像思维”
据最新测试结果，o3和o4-mini（无工具版本）在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%，远超前代模型o1的74.3%。在AIME 2025题目中，两者准确率分别达88.9%和92.7%。在Codeforces编程竞赛评分中，支持终端工具的o3和o4-mini分别取得了2706和2719的ELO分数，显著领先于o1的1891和o3-mini的2073，显示出在复杂数学与代码任务中的强大推理与执行能力。

同时，o3（无工具）在博士水平科学问答中的准确率为83.3%，高于前代模型o1的78.0%，而o4-mini（无工具）也紧随其后，达81.4%。在右图所示的“人类最后的考试”高难度跨学科题目中，开启Python与浏览工具的o3模型准确率达24.9%，显著优于o1-pro的8.12%和o3-mini的13.4%，显示出多工具组合在处理复杂问题上的巨大潜力。值得注意的是，Deep Research实验系统在该测试中表现最佳，准确率达26.6%。这进一步突显OpenAI新模型在推理链、跨模态理解和工具协同方面的持续进步。

在多模态推理方面，OpenAI新发布的o3和o4-mini模型在多项视觉推理测试中全面超越前代模型o1。在MMMU大学级视觉问题解决任务中，o3的准确率达82.9%，领先于o1的77.6%；o4-mini表现相近，为81.6%。在MathVista视觉数学推理测试中，o3取得86.8%的成绩，远高于o1的71.8%；而o4-mini则达84.3%。在CharXiv科学图表推理测试中，o3的准确率为78.6%，大幅领先o1的55.1%，o4-mini则达到72%。整体来看，o3在处理图像与文本结合任务中展现出强大能力，o4-mini则在保持高性能的同时提升了响应速度与成本效率，展现出OpenAI多模态模型在复杂视觉任务中的显著进展。

与此同时，o4-mini则提供了价格、速度和性能之间的“有竞争力的平衡”，这是开发者在选择AI模型为其应用提供支持时经常考虑的三大因素。两款模型现已向OpenAI付费用户开放。

OpenAI在公告中写道，o3和o4-mini是首批能够“图像思维”的AI模型：

“这是我们首次推出能够独立使用全部ChatGPT工具的推理模型——包括网页浏览、Python编程、图像理解和图像生成能力。这使得它们在解决复杂的多步骤问题时更加高效，并朝着自主执行任务的方向迈出了真正一步。”

该公司解释称，这意味着“它们不仅能看图，还能将视觉信息直接整合进推理链条之中”。

OpenAI表示，o3在SWE-bench verified测试中表现达到了当前最先进的水平（不使用自定义结构），该测试主要评估编程能力，o3的得分为69.1%。o4-mini的得分也相当出色，达到68.1%。作为对比，OpenAI此前最好的模型o3-mini在该测试中得分为49.3%，而Anthropic的Claude 3.7 Sonnet得分为62.3%。

DeepSeek压力下 OpenAI也想开源了？
OpenAI在2022年底推出ChatGPT，引发了生成式人工智能的热潮。当时这款产品搭载的是GPT-3.5模型。此后，该公司陆续发布了多个日益复杂的系统，包括多个推理模型。但OpenAI目前面临着来自中国新兴企业DeepSeek、Anthropic以及马斯克旗下xAI等公司的巨大压力，这些公司不断推出一系列具备类似前沿能力的AI模型。
分析认为，编程已成为生成式AI应用中增长最快的领域之一，也是OpenAI的一个关键竞争战场。Anthropic和谷歌母公司Alphabet都大力宣传其新一代AI系统的编程能力。其他创业公司，如Cursor的开发商Anysphere，也凭借面向程序员的AI工具获得了广泛关注。
为在这个竞争激烈的市场中更具优势，OpenAI周三宣布推出Codex CLI，这是一款旨在与如o3等模型协同工作的AI代理，可帮助用户完成编程任务。该产品是开源的，意味着将免费向用户开放，并可直接在用户的计算机终端程序中运行。
奥特曼此前曾表示，公司正在开发一个开源版本的推理模型，计划在未来几个月内发布，此举是为了回应DeepSeek旗下开源系统R1走红后的市场影响。
OpenAI还表示，未来几周内将推出o3-pro，这是o3的一个升级版本，使用更多计算资源生成回答，仅向ChatGPT Pro订阅用户开放。而奥特曼此前曾表示，o3和o4-mini可能是OpenAI在GPT-5发布之前推出的最后一批独立推理模型。GPT-5预计将融合传统模型（如GPT-4.1）与推理模型，实现统一发展方向。

山庄提示：道行不够，道券不够？---☆点此充值☆

我有我可以

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 144801

金币: 90667

道行: 1985

原创: 2391

奖券: 2610

斑龄: 33

道券: 936

获奖: 0

座驾

设备

摄影级

在线时间: 33785(小时)
注册时间: 2008-10-01
最后登录: 2025-04-19

只看该作者板凳发表于: 前天 10:12

　　OpenAI在4月16日发布了两款新型AI模型o3和o4-mini，这些模型模仿人类的推理过程，专注于解决复杂的编程和视觉任务。o3是主要的新型推理模型，而o4-mini是更小型的版本。它们延续了之前o1模型的推理能力，并着重提升了处理复杂问题的能力。

　　o3模型在响应用户提示前会进行更多计算，以解决更复杂的科学、数学和编程问题。用户可以上传图像内容供AI分析和讨论，模型还能对图像进行编辑操作。o4-mini在价格、速度和性能之间取得了平衡，提供了一个有竞争力的选择。

　　这两款模型首次实现了“图像思维”，能够独立使用全部ChatGPT工具，包括网页浏览、Python编程、图像理解和图像生成能力。这意味着它们不仅能看图，还能将视觉信息直接整合进推理链条之中。

　　在性能测试中，o3和o4-mini在多个领域表现出色，包括数学竞赛题目、编程竞赛评分和科学问答等。它们在视觉推理测试中也全面超越了前代模型o1。

　　同时，OpenAI还发布了开源AI agent CodeX CLI，用于帮助用户执行编程任务，改善市场竞争能力。CodeX CLI旨在与如o3等模型协同工作，可免费向用户开放，并可直接在用户的计算机终端程序中运行。

　　未来几周内，OpenAI还将推出o3的升级版本o3-pro，仅供ChatGPT Pro订阅用户使用。o3和o4-mini可能是OpenAI在GPT-5发布之前推出的最后一批独立推理模型。GPT-5预计将融合传统模型（如GPT-4.1）与推理模型，实现统一发展方向。

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 128905

金币: 123301

道行: 20023

原创: 757

奖券: 68

斑龄: 0

道券: 0

获奖: 0

座驾

设备

摄影级

在线时间: 13891(小时)
注册时间: 2012-06-21
最后登录: 2025-04-19

只看该作者沙发发表于: 前天 09:10

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

OpenAI新模型o3和o4 - mini：首次实现“图像思维”并可利用ChatGPT工具
新模型发布情况
当地时间4月16日，OpenAI发布了最新的推理模型o3和o4 - mini，这延续了去年9月首个推理模型o1问世的发展脉络。此次发布的o3是主要的新型推理模型，o4 - mini则是更小型的模型，两款模型现已向OpenAI付费用户开放，即日起，ChatGPT的Plus、Pro会员以及Team用户可直接体验o3、o4 - mini和o4 - mini - high 。

“图像思维”能力
真正的视觉推理
OpenAI o3/o4 - mini首次具备真正的视觉推理能力，不再局限于简单的看图识图，还能够进行看图思考，将视觉信息直接整合进推理链条之中。例如，当用户上传一张倒着拍的手写笔记照片时，模型在推理过程中能够借助工具，对图像进行缩放、旋转或裁剪，最终识别出笔记上的手写内容。

多模态处理
这两款模型能同时处理文本、图像和音频，为用户提供更丰富、更全面的交互体验。

可利用ChatGPT工具及工具使用训练
自动调用工具
o3和o4 - mini能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式，在解决复杂的多步骤问题时更加高效，并朝着自主执行任务的方向迈出了真正一步。

工具使用训练
通过强化学习，OpenAI训练了o3/o4 - mini如何使用工具，它们不仅知道如何用、何时用工具，还能以正确格式快速生成可靠答案。

性能表现
数学竞赛准确率
测试结果显示，o3和o4 - mini（无工具版本）在AIME2024数学竞赛题目中的准确率分别达91.6%和93.4%，远超前代o1的74.3%。在AIME2025题目中，两者准确率分别达88.9%和92.7% 。

编程竞赛评分
在Codeforces编程竞赛评分中，支持终端工具的o3和o4 - mini分别取得了2706和2719的ELO分数，领先o1的1891和o3 - mini的2073。o3在SWE - bench verified测试中表现达到了当前最先进的水平（不使用自定义结构），得分为69.1%，o4 - mini的得分也相当出色，达到68.1%。作为对比，OpenAI此前最好的模型o3 - mini在该测试中得分为49.3%，而Anthropic的Claude 3.7 Sonnet得分为62.3% 。

市场竞争与未来规划
市场竞争压力
目前OpenAI面临着来自中国新兴企业DeepSeek、Anthropic以及马斯克旗下xAI等公司的巨大压力，这些公司不断推出一系列具备类似前沿能力的AI模型。编程已成为生成式AI应用中增长最快的领域之一，也是OpenAI的一个关键竞争战场，其他公司都大力宣传其新一代AI系统的编程能力。

未来规划
为在竞争激烈的市场中更具优势，OpenAI周三宣布推出CodexCLI，这是一款旨在与如o3等模型协同工作的AI代理，可帮助用户完成编程任务。未来几周内还将推出o3 - pro，这是o3的一个升级版本，使用更多计算资源生成回答，仅向ChatGPT Pro订阅用户开放。而奥特曼此前曾表示，o3和o4 - mini可能是OpenAI在GPT - 5发布之前推出的最后一批独立推理模型

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]OpenAI发新模型！首次实现“图像思维”，可利用所有ChatGPT工具 [4P] [复制链接]