切换到宽版
  • 25阅读
  • 2回复

[数码讨论]OpenAI推理之父掀桌:AI真·满血的样子,你没钱见 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
257432
金币
988505
道行
2006
原创
2473
奖券
3665
斑龄
46
道券
1615
获奖
0
座驾
设备
摄影级
在线时间: 53356(小时)
注册时间: 2008-10-01
最后登录: 2026-06-15
只看楼主 倒序阅读 楼主  发表于: 06-12
— 本帖被 兵马大元帅 执行加亮操作(2026-06-15) —

文章配图-1

新智元报道

【新智元导读】OpenAI o1推理模型核心缔造者Noam Brown发长文炮轰整个行业:用单一跑分评价AI模型,从2024年就过时了。GPT-5.5看起来只比5.4强一点?控制推理预算后再看,那叫一个天壤之别。

OpenAI的Noam Brown,刚刚发了一篇长文,对着整个AI行业开了一炮。

文章标题叫「大规模推理计算的启示」,核心论点只有一个,你现在看到的所有AI跑分排行榜,给你的信息基本上是错的。

原因很简单。

同一个模型,给它一块钱想事情和给它一万块钱想事情,跑出来的分数天差地别。但现在所有的排行榜,都不告诉你这个模型花了多少钱跑出来的成绩。

文章配图-1

文章配图-1

GPT-5.5的成绩单是「假的」?

4月23日,GPT-5.5发布。

OpenAI甩出benchmark表格,社区照例逐行比对。结论是:还行,比5.4好一点,但也没好到哪去。

文章配图-2

然后几个小时过去了。

波兰数学家Bartosz Naskręcki用一条prompt,让GPT-5.5在11分钟内搭出一个代数几何可视化应用。

Ruby on Rails之父DHH更是感慨,用完5.5再切回Opus 4.7,像倒退了一个时代。

同一个模型。benchmark说「还行」,人说「炸裂」。为什么?

原因很简单,5.5和5.4根本不是在同一个计算预算下被测试的。

这就好比两个学生考同一张卷子,一个给了30分钟,一个给了3小时。你拿两份成绩来比,说「差距不大」,这不是比较,这是搞笑。

但benchmark表格上,这两个模型被当成同一个量级来比较,完全忽略了推理预算的差异。一旦控制token预算,GPT-5.5在网络安全评估上大幅拉开GPT-5.4。

Brown在文中展示了两张图。左边是传统benchmark视角,5.5比5.4好一点。右边x轴换成token数量,5.5的曲线远远甩开5.4。

同一场考试。换个维度看,结论完全不同。

文章配图-1

这不是个案。

MMLU这个曾经最主流的评测基准,前沿模型全部挤在88%以上,分数差异在统计上已经没有意义。你看到的不是「谁更聪明」,是噪声。

MRCR v2在100万token长度上的测试,GPT-5.4得36.6%,GPT-5.5得74.0%——翻了一倍。但这个维度在标准benchmark表格里根本不存在。

文章配图-1

三万美元对两毛钱,同一场考试——「谁排名更高」这个问题本身就已经失效了。

当模型的能力是推理计算量的函数时,一个没有x轴的benchmark分数,就是一个没有单位的物理量。它什么都没告诉你。

在Brown看来,正确的做法是画一条曲线:性能 vs 推理计算量。

x轴可以是token数、美元或耗时,各有优劣。但可以肯定的是,任何一条曲线,都比一个标量数字强。

文章配图-1

或者,你也可以设一个明确的预算上限,告诉模型「你就这么多钱,给我答案」。

这恰好是人类考试的逻辑,SAT给固定时间,国际数学奥赛也给固定时间。

只有AI评测,在2026年了,还在假装「给多少钱想事情」这个变量不存在。

文章配图-1

被忽略的x轴

为什么这个问题现在才爆发?

因为两年前,推理时计算只是o1的专属概念。

而o1的核心贡献者,正是Brown。

此前,他在卡耐基梅隆做出Libratus和Pluribus(击败顶级扑克职业选手,后者登上Science封面),在Meta FAIR做出CICERO(第一个在策略游戏《外交》中达到人类水平的AI)。

从不完美信息博弈到推理模型,他一直在同一条线上:让AI学会想更久、想更深。

2024年的o1让「推理时间换准确率」进入公众视野。到了2026年,推理时计算已经是所有前沿模型的标配。

GPT-5.5 Pro不是一个独立模型,它是GPT-5.5同一个底座加了并行推理时计算:遇到难题跑多条推理链,综合出结果。

Claude有extended thinking,Gemini有Deep Think,几乎每家前沿实验室都在往同一个方向跑。

对此,学术界也给出了量化关系。覆盖率与采样次数呈对数线性关系。

也就是,给AI双倍的「想事情时间」,它不会变聪明一倍,但确实会变聪明一点。收益是对数级递减的。

但Brown引用了Karpathy和AI Safety Institute的一个关键发现——

越强的模型,在更长时间跨度上的收益越大。性能的高原期被推远了,甚至可能消失。

弱模型多想两分钟,可能已经到顶了。但强模型多想两个小时,曲线还在往上走。

文章配图-1

每一代模型发布时,如果你只在某个固定的推理预算下跑benchmark,你看到的就只是冰山一角。真正的能力上限,在你测不起的那片水域。

用Brown的话说就是:「我们可能根本不知道现代LLM的能力天花板在哪里,因为测量成本太高了。」

文章配图-1

Brown的三张药方

针对这一问题,Brown给了三条建议。

第一,实验室发布新模型时公布性能-推理计算量曲线,至少标明分数对应的推理预算。

GPT-5.5的82.7% Terminal-Bench 2.0,你不知道花了多少钱跑出来的。你拿它和另一个模型比,你也不知道对方花了多少钱。

这就像两家公司比营收,一家报的是年收入,一家报的是季度收入,但都不标注时间跨度。

第二,benchmark排行榜追踪推理用量,或设定明确预算上限。

ARC-AGI已经在这么做了,但不是行业标准。

文章配图-1

第三, 安全准备框架和负责任扩展政策显式纳入推理计算量。

安全评估不能只测「默认状态」——国家级攻击者完全可以在单个任务上砸1000万美元推理预算。

以Gemini 3 Deep Think为例。

Deep Think本质上就是Gemini 3 Pro加了外部调用框架,任何人花同样推理费就能复现。

真正该问的是,为什么所有模型卡都没把能力作为推理预算的函数来展示?

文章配图-1

Brown理想中的安全评估应该是一张图。

但他也承认一个棘手的问题,长期评估可能无法靠外推解决。要评估一个AI agent跑一年会不会出问题,可能真得让它跑一年。

而AI实验室很快将面临荒诞局面——agent的运行周期超过了新模型的开发周期。你还没评估完上一代的长期行为,下一代就已经发布了。

文章配图-1

超级智能是道算术题

所有前面的讨论都指向同一个问题。

如果模型的能力是推理计算量的函数,而且越强的模型高原期越远,那「超级智能」到底是什么?

传统理解里,ASI是一个质变的拐点:某天某个模型突然在所有认知任务上全面超越人类。

顺着这个逻辑往下想——ASI可能不是一个时刻,而是一条曲线。

前面的数字已经说得很清楚:同一类任务,两毛钱和三万美元的推理预算,买到的是完全不同的结果。但这些还只是已经测过的区间。

没人测过。Brown说了,测不起。

文章配图-1

但对数线性的scaling关系告诉你,曲线还没到顶。而且越强的模型,高原期越远。

ASI可能不需要一个全新的架构突破。它需要的可能只是:足够的钱和足够的时间。

一个运行一整年、消耗数亿美元推理预算的AI agent,在这一年里表现出的能力,可能已经在特定领域超越了人类个体的一生积累。

文章配图-1

决赛的真实比分

过去十年,整个AI行业习惯了一种评估方式:一个模型,一个分数,排个名次。从ImageNet到MMLU到Chatbot Arena,谁的数字大谁就赢。

如今,跑分的「二维时代」正在开场。

模型的能力从一个点变成了一条曲线,评估从一个分数变成了一张图。y轴是表现,x轴是你愿意花多少钱让它想。

每个「第一」还要再乘以一个变量:推理预算。

文章配图-1

2026年,全球科技巨头在AI基础设施上的投入预计接近7000亿美元。这些钱买的不只是更大的模型,还有更长的推理、更多的采样、更快的inference。

文章配图-1

当「智能」变成一种可以用美元标价的连续函数,「超级智能」也不再是一个是非题。

谁先适应这个二维坐标系,谁就先看清楚ASI决赛的真实比分。

参考资料:

编辑:摩西

秒追ASI

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
257432
金币
988505
道行
2006
原创
2473
奖券
3665
斑龄
46
道券
1615
获奖
0
座驾
设备
摄影级
在线时间: 53356(小时)
注册时间: 2008-10-01
最后登录: 2026-06-15
只看该作者 沙发  发表于: 06-12
单一跑分彻底失效!OpenAI o1核心缔造者炮轰行业:AI能力是推理预算的函数
来源:新智元
核心导读
OpenAI o1推理模型核心研发者Noam Brown发布长文《大规模推理计算的启示》,直指当下全行业通用的单数值AI基准跑分存在根本性缺陷:不标注推理token、算力成本、思考时长的排行榜完全具备误导性。同一模型投入不同推理预算,最终任务表现天差地别;仅靠单一分数横向对比不同大模型,如同给两名考生分别30分钟、3小时答题后直接比对成绩,不具备公平参考价值。2024年o1问世后,“用算力换深度思考”已成前沿模型标配,传统一维跑分体系早已过时。

一、案例佐证:GPT-5.5单看跑分提升微弱,控制推理预算后断层领先
GPT-5.5发布之初,官方放出标准Benchmark表格,行业横向对比得出结论:相较GPT-5.4仅有小幅提升,迭代幅度有限。
但真实落地场景却呈现完全相反的感受:
1. 波兰数学家仅一条提示词,就让GPT-5.5在11分钟内完整搭建代数几何可视化程序;
2. Ruby on Rails之父DHH实测反馈,从GPT-5.5切回旧版Opus 4.7,体验如同倒退一个时代。

核心矛盾在于标准评测未统一推理计算预算:
- 常规榜单测试中,两款模型分配的思考token、推理成本不对等,抹平了真实差距;
- 一旦固定算力预算变量绘制性能曲线,GPT-5.5优势彻底拉开:在网络安全、超长文本任务上实现翻倍级提升。典型如MRCR v2百万token长文本测试,GPT-5.4得分36.6%,GPT-5.5高达74%。

而老牌通用基准MMLU早已失效,头部模型分数全部挤在88%以上,微小差值仅为数据噪声,无法区分真实智力差距。

Noam Brown比喻:脱离推理成本的跑分,等同于没有单位的物理量,无法传递有效信息。合理评测标准应当是性能—推理计算量二维曲线,横轴为token消耗、推理耗时或算力成本,纵轴为任务准确率,一条曲线远胜于孤立数字。

二、行业现状:深度推理已成标配,算力收益规律彻底改写评测逻辑
1. 技术背景:推理时计算全面普及
两年前,长时深度推理还只是o1独有的技术路线,而2026年所有顶尖模型均标配该能力:
- GPT-5.5 Pro:同底座叠加并行多链推理,难题同步多条思路汇总答案;
- Claude Extended Thinking、Gemini Deep Think:各家推出专属长思考机制。

该技术路线源自Noam Brown长期研究脉络:早年在CMU攻克不完全信息博弈,研发击败职业扑克选手的Libratus、登上《Science》的Pluribus;后于Meta FAIR打造策略博弈达到人类水平的CICERO,核心思路始终是延长思考周期、多路径推演提升决策精度。

2. 算力收益核心规律
学术界量化得出性能与采样次数呈对数线性关系:翻倍推理资源,性能不会同步翻倍,但稳定小幅提升;
关键分层结论:模型基础能力越强,长时推理收益上限越高。弱模型短时间思考便触及性能天花板,顶级大模型即便投入海量算力,性能曲线仍持续上行。
这也带来一个行业盲区:我们至今无法探明当前LLM真实能力天花板,高算力长周期推理评测成本极高,实验室无力全覆盖测试。

三、Noam Brown给出三大行业整改方案
1. 模型发布规范:强制公示性能—算力曲线,标注跑分对应推理预算
当前厂商仅抛出单一得分,不说明该成绩消耗的token与成本,跨模型对比完全失真。类比企业财报,只披露营收数字却不区分季度/年度,失去对比意义。新发布模型必须配套完整二维性能曲线。

2. 第三方Benchmark改革:统一算力上限,或全程追踪推理消耗
仅有ARC-AGI少量基准先行落地该规则,尚未成为全行业通用标准。所有排行榜需要设定统一推理预算门槛,消除变量干扰。

3. AI安全评估升级:将推理计算量纳入安全框架
现有安全测试仅局限模型默认推理配置,但现实攻击场景中,攻击者可单任务投入千万级算力预算放大模型风险。安全评估不能只测“轻量思考模式”,必须覆盖高算力长推理场景。
同时存在长期评估悖论:AI智能体长期行为测试周期极长,甚至超过新一代模型研发迭代周期,评估速度永远追赶不上模型更新速度。

四、深层推论:超级智能ASI不是质变节点,而是算力连续曲线
传统认知将超级智能视作突变拐点:某一日全新架构模型全方位超越人类。而从推理算力的底层逻辑推导,ASI更偏向一条连续变化的性能曲线:
1. 同等任务下,两毛钱与三万美元推理预算能产出完全不同质量的结果;
2. 越强的模型,性能饱和高原区间越靠后,算力投入始终有正向增益;
3. 无需颠覆性新架构,仅依靠持续加码推理时长、海量算力,长期运行的AI智能体就能够在垂直领域超越人类终身积累的认知水平。

五、行业变革:AI评测进入二维时代,算力投入决定真实能力
过去十年行业固化“单一分数排名”的评价体系,ImageNet、MMLU、Chatbot Arena均以数字高低论强弱。如今这套一维标准彻底淘汰:
模型能力不再是固定数值,而是随推理算力变化的连续函数;任何模型排名,都必须叠加「推理预算」这一核心变量。

2026年全球头部企业AI基建投入逼近7000亿美元,巨额资金不仅用于扩大模型参数量,更用于支撑海量长时推理、多路径采样。当“智能”成为可以用美元量化购买的资源,超级智能不再是是非判断题。
未来能够理解、适配这套二维评测坐标系的企业与研究者,才能看清大模型真实能力的差距与行业长期发展边界。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
188355
金币
689974
道行
20100
原创
769
奖券
545
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 23961(小时)
注册时间: 2012-06-21
最后登录: 2026-06-15
只看该作者 板凳  发表于: 06-12
OpenAI o1推理模型核心缔造者Noam Brown近期发表长文《大规模推理计算的启示》,对当前AI行业主流的“单一跑分评测体系”发起猛烈抨击,核心观点可概括为:“AI真正的能力上限,藏在付不起的推理预算里”,引发行业对AI评测逻辑、能力边界的深度反思。以下是事件核心脉络与行业影响:

一、核心争议:现有AI跑分排行榜“基本是错的”
Brown指出,当前行业主流的AI模型评测(如MMLU、ARC-AGI等)存在致命缺陷——完全忽略“推理预算”(计算量/成本)变量,导致评测结果无法反映AI的真实能力:

“跑分”与“真实能力”的割裂
同一模型在不同推理预算下,性能差异巨大。例如GPT-5.5与GPT-5.4 Pro对比:  

传统benchmark显示5.5仅“比5.4好一点”;
但一旦放开推理预算(允许模型“想更久”),5.5在网络安全评估等任务上大幅拉开差距,曲线远超5.4。
这就像“给学生30分钟和3小时考同一张卷子”,直接对比分数毫无意义

评测结果的“噪声化”
主流评测如MMLU,前沿模型分数全部挤在88%以上,差异在统计上无意义——用户看到的不是“谁更聪明”,而是“评测体系的噪声”

极端案例:OpenAI的o3在ARC-AGI评测中单题推理成本高达3万美元,而NVARC团队用40亿参数小模型以0.2美元/题的成本拿到24%准确率,“谁排名更高”的问题本身已失效


二、行业现状:推理时计算已成“标配”,但评测未跟上
Brown作为o1推理模型的核心贡献者(曾主导Libratus扑克AI、CICERO外交AI等项目),指出“推理时计算”(让模型花更多计算量深度思考)已从o1的专属技术,变为行业标配:

Claude推出“extended thinking”、Gemini上线“DeepThink”,几乎所有前沿实验室都在通过增加推理预算提升模型能力

学术界的量化结论:模型性能与推理计算量呈对数线性关系——给模型双倍“思考时间”,性能提升幅度递减,但强模型(如GPT-5.5)的“性能高原期”被大幅推远,甚至可能消失

Brown直言:“我们可能根本不知道现代LLM的能力天花板在哪里,因为测量成本太高了”——AI的“真·满血状态”,藏在用户付不起的推理预算里。

三、Brown的“三张药方”:重构AI评测与行业规范
针对现有问题,Brown提出三条行业改进建议:

强制披露“性能-推理预算”曲线
实验室发布新模型时,需公布“分数对应的推理成本”(如token数、美元、耗时),而非仅展示单一跑分。类比“两家公司比营收,必须标注时间跨度”,否则对比无意义


benchmark排行榜纳入推理用量追踪
主流评测机构需明确标注模型的推理预算,或设定“固定预算上限”(如“仅允许100美元推理成本”),让评测结果回归“性价比”本质


安全评估纳入推理预算变量
当前安全测试仅针对“默认推理状态”,但国家级攻击者可在单任务上砸1000万美元推理预算突破防御。未来的安全框架需明确:“模型在极端预算下的风险边界”


四、延伸动态:OpenAI核心成员的“技术路线分歧”
与Noam Brown的“评测批判”并行,另一位OpenAI推理核心成员Jerry Tworek(o1主导研发者之一)已离职创业,瞄准“持续学习”赛道:

新公司Core Automation计划融资10亿美元,目标是构建“不依赖静态预训练、可在真实使用中持续进化”的AI模型,解决当前“训完就上线、无法吸收新经验”的行业痛点

这一动向与Brown的“推理预算”批判形成呼应:两者都指向**“现有AI技术路线的局限性”**——前者质疑“评测逻辑”,后者挑战“训练模式”,共同推动行业从“静态模型”向“动态进化”转型。
行业影响:从“跑分内卷”到“价值回归”
Brown的言论直击AI行业“唯跑分论”的泡沫,推动行业从“谁分数高”转向“谁性价比更高、谁更安全可靠”:

开发者需重新评估模型选择逻辑:不再盲目追求“最高分”,而是关注“在预算内能达到的最优性能”;
企业级应用将更重视“推理成本可控性”:例如金融、医疗等场景,需在“安全性”与“计算成本”间找到平衡点;
学术界与产业界需共建“标准化评测框架”:避免“各说各话”的评测乱象,推动AI技术从“实验室数据”走向“真实场景价值”。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个