25阅读
2回复

[数码讨论]OpenAI推理之父掀桌：AI真·满血的样子，你没钱见 [复制链接]

上一主题下一主题查看指定楼层

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 257432

金币: 988505

道行: 2006

原创: 2473

奖券: 3665

斑龄: 46

道券: 1615

获奖: 0

座驾

设备

摄影级

在线时间: 53356(小时)
注册时间: 2008-10-01
最后登录: 2026-06-15

只看楼主倒序阅读楼主发表于: 06-12

— 本帖被兵马大元帅执行加亮操作(2026-06-15) —

文章配图-1

新智元报道

【新智元导读】OpenAI o1推理模型核心缔造者Noam Brown发长文炮轰整个行业：用单一跑分评价AI模型，从2024年就过时了。GPT-5.5看起来只比5.4强一点？控制推理预算后再看，那叫一个天壤之别。

OpenAI的Noam Brown，刚刚发了一篇长文，对着整个AI行业开了一炮。

文章标题叫「大规模推理计算的启示」，核心论点只有一个，你现在看到的所有AI跑分排行榜，给你的信息基本上是错的。

原因很简单。

同一个模型，给它一块钱想事情和给它一万块钱想事情，跑出来的分数天差地别。但现在所有的排行榜，都不告诉你这个模型花了多少钱跑出来的成绩。

文章配图-1

GPT-5.5的成绩单是「假的」？

4月23日，GPT-5.5发布。

OpenAI甩出benchmark表格，社区照例逐行比对。结论是：还行，比5.4好一点，但也没好到哪去。

文章配图-2

然后几个小时过去了。

波兰数学家Bartosz Naskręcki用一条prompt，让GPT-5.5在11分钟内搭出一个代数几何可视化应用。

Ruby on Rails之父DHH更是感慨，用完5.5再切回Opus 4.7，像倒退了一个时代。

同一个模型。benchmark说「还行」，人说「炸裂」。为什么？

原因很简单，5.5和5.4根本不是在同一个计算预算下被测试的。

这就好比两个学生考同一张卷子，一个给了30分钟，一个给了3小时。你拿两份成绩来比，说「差距不大」，这不是比较，这是搞笑。

但benchmark表格上，这两个模型被当成同一个量级来比较，完全忽略了推理预算的差异。一旦控制token预算，GPT-5.5在网络安全评估上大幅拉开GPT-5.4。

Brown在文中展示了两张图。左边是传统benchmark视角，5.5比5.4好一点。右边x轴换成token数量，5.5的曲线远远甩开5.4。

同一场考试。换个维度看，结论完全不同。

文章配图-1

这不是个案。

MMLU这个曾经最主流的评测基准，前沿模型全部挤在88%以上，分数差异在统计上已经没有意义。你看到的不是「谁更聪明」，是噪声。

MRCR v2在100万token长度上的测试，GPT-5.4得36.6%，GPT-5.5得74.0%——翻了一倍。但这个维度在标准benchmark表格里根本不存在。

文章配图-1

三万美元对两毛钱，同一场考试——「谁排名更高」这个问题本身就已经失效了。

当模型的能力是推理计算量的函数时，一个没有x轴的benchmark分数，就是一个没有单位的物理量。它什么都没告诉你。

在Brown看来，正确的做法是画一条曲线：性能 vs 推理计算量。

x轴可以是token数、美元或耗时，各有优劣。但可以肯定的是，任何一条曲线，都比一个标量数字强。

文章配图-1

或者，你也可以设一个明确的预算上限，告诉模型「你就这么多钱，给我答案」。

这恰好是人类考试的逻辑，SAT给固定时间，国际数学奥赛也给固定时间。

只有AI评测，在2026年了，还在假装「给多少钱想事情」这个变量不存在。

文章配图-1

被忽略的x轴

为什么这个问题现在才爆发？

因为两年前，推理时计算只是o1的专属概念。

而o1的核心贡献者，正是Brown。

此前，他在卡耐基梅隆做出Libratus和Pluribus（击败顶级扑克职业选手，后者登上Science封面），在Meta FAIR做出CICERO（第一个在策略游戏《外交》中达到人类水平的AI）。

从不完美信息博弈到推理模型，他一直在同一条线上：让AI学会想更久、想更深。

2024年的o1让「推理时间换准确率」进入公众视野。到了2026年，推理时计算已经是所有前沿模型的标配。

GPT-5.5 Pro不是一个独立模型，它是GPT-5.5同一个底座加了并行推理时计算：遇到难题跑多条推理链，综合出结果。

Claude有extended thinking，Gemini有Deep Think，几乎每家前沿实验室都在往同一个方向跑。

对此，学术界也给出了量化关系。覆盖率与采样次数呈对数线性关系。

也就是，给AI双倍的「想事情时间」，它不会变聪明一倍，但确实会变聪明一点。收益是对数级递减的。

但Brown引用了Karpathy和AI Safety Institute的一个关键发现——

越强的模型，在更长时间跨度上的收益越大。性能的高原期被推远了，甚至可能消失。

弱模型多想两分钟，可能已经到顶了。但强模型多想两个小时，曲线还在往上走。

文章配图-1

每一代模型发布时，如果你只在某个固定的推理预算下跑benchmark，你看到的就只是冰山一角。真正的能力上限，在你测不起的那片水域。

用Brown的话说就是：「我们可能根本不知道现代LLM的能力天花板在哪里，因为测量成本太高了。」

文章配图-1

Brown的三张药方

针对这一问题，Brown给了三条建议。

第一，实验室发布新模型时公布性能-推理计算量曲线，至少标明分数对应的推理预算。

GPT-5.5的82.7% Terminal-Bench 2.0，你不知道花了多少钱跑出来的。你拿它和另一个模型比，你也不知道对方花了多少钱。

这就像两家公司比营收，一家报的是年收入，一家报的是季度收入，但都不标注时间跨度。

第二，benchmark排行榜追踪推理用量，或设定明确预算上限。

ARC-AGI已经在这么做了，但不是行业标准。

文章配图-1

第三，安全准备框架和负责任扩展政策显式纳入推理计算量。

安全评估不能只测「默认状态」——国家级攻击者完全可以在单个任务上砸1000万美元推理预算。

以Gemini 3 Deep Think为例。

Deep Think本质上就是Gemini 3 Pro加了外部调用框架，任何人花同样推理费就能复现。

真正该问的是，为什么所有模型卡都没把能力作为推理预算的函数来展示？

文章配图-1

Brown理想中的安全评估应该是一张图。

但他也承认一个棘手的问题，长期评估可能无法靠外推解决。要评估一个AI agent跑一年会不会出问题，可能真得让它跑一年。

而AI实验室很快将面临荒诞局面——agent的运行周期超过了新模型的开发周期。你还没评估完上一代的长期行为，下一代就已经发布了。

文章配图-1

超级智能是道算术题

所有前面的讨论都指向同一个问题。

如果模型的能力是推理计算量的函数，而且越强的模型高原期越远，那「超级智能」到底是什么？

传统理解里，ASI是一个质变的拐点：某天某个模型突然在所有认知任务上全面超越人类。

顺着这个逻辑往下想——ASI可能不是一个时刻，而是一条曲线。

前面的数字已经说得很清楚：同一类任务，两毛钱和三万美元的推理预算，买到的是完全不同的结果。但这些还只是已经测过的区间。

没人测过。Brown说了，测不起。

文章配图-1

但对数线性的scaling关系告诉你，曲线还没到顶。而且越强的模型，高原期越远。

ASI可能不需要一个全新的架构突破。它需要的可能只是：足够的钱和足够的时间。

一个运行一整年、消耗数亿美元推理预算的AI agent，在这一年里表现出的能力，可能已经在特定领域超越了人类个体的一生积累。

文章配图-1

决赛的真实比分

过去十年，整个AI行业习惯了一种评估方式：一个模型，一个分数，排个名次。从ImageNet到MMLU到Chatbot Arena，谁的数字大谁就赢。

如今，跑分的「二维时代」正在开场。

模型的能力从一个点变成了一条曲线，评估从一个分数变成了一张图。y轴是表现，x轴是你愿意花多少钱让它想。

每个「第一」还要再乘以一个变量：推理预算。

文章配图-1

2026年，全球科技巨头在AI基础设施上的投入预计接近7000亿美元。这些钱买的不只是更大的模型，还有更长的推理、更多的采样、更快的inference。

文章配图-1

当「智能」变成一种可以用美元标价的连续函数，「超级智能」也不再是一个是非题。

谁先适应这个二维坐标系，谁就先看清楚ASI决赛的真实比分。

参考资料：

编辑：摩西

秒追ASI

山庄提示：道行不够，道券不够？---☆点此充值☆

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 257432

金币: 988505

道行: 2006

原创: 2473

奖券: 3665

斑龄: 46

道券: 1615

获奖: 0

座驾

设备

摄影级

在线时间: 53356(小时)
注册时间: 2008-10-01
最后登录: 2026-06-15

只看该作者沙发发表于: 06-12

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

单一跑分彻底失效！OpenAI o1核心缔造者炮轰行业：AI能力是推理预算的函数
来源：新智元
核心导读
OpenAI o1推理模型核心研发者Noam Brown发布长文《大规模推理计算的启示》，直指当下全行业通用的单数值AI基准跑分存在根本性缺陷：不标注推理token、算力成本、思考时长的排行榜完全具备误导性。同一模型投入不同推理预算，最终任务表现天差地别；仅靠单一分数横向对比不同大模型，如同给两名考生分别30分钟、3小时答题后直接比对成绩，不具备公平参考价值。2024年o1问世后，“用算力换深度思考”已成前沿模型标配，传统一维跑分体系早已过时。

一、案例佐证：GPT-5.5单看跑分提升微弱，控制推理预算后断层领先
GPT-5.5发布之初，官方放出标准Benchmark表格，行业横向对比得出结论：相较GPT-5.4仅有小幅提升，迭代幅度有限。
但真实落地场景却呈现完全相反的感受：
1. 波兰数学家仅一条提示词，就让GPT-5.5在11分钟内完整搭建代数几何可视化程序；
2. Ruby on Rails之父DHH实测反馈，从GPT-5.5切回旧版Opus 4.7，体验如同倒退一个时代。

核心矛盾在于标准评测未统一推理计算预算：
- 常规榜单测试中，两款模型分配的思考token、推理成本不对等，抹平了真实差距；
- 一旦固定算力预算变量绘制性能曲线，GPT-5.5优势彻底拉开：在网络安全、超长文本任务上实现翻倍级提升。典型如MRCR v2百万token长文本测试，GPT-5.4得分36.6%，GPT-5.5高达74%。

而老牌通用基准MMLU早已失效，头部模型分数全部挤在88%以上，微小差值仅为数据噪声，无法区分真实智力差距。

Noam Brown比喻：脱离推理成本的跑分，等同于没有单位的物理量，无法传递有效信息。合理评测标准应当是性能—推理计算量二维曲线，横轴为token消耗、推理耗时或算力成本，纵轴为任务准确率，一条曲线远胜于孤立数字。

二、行业现状：深度推理已成标配，算力收益规律彻底改写评测逻辑
1. 技术背景：推理时计算全面普及
两年前，长时深度推理还只是o1独有的技术路线，而2026年所有顶尖模型均标配该能力：
- GPT-5.5 Pro：同底座叠加并行多链推理，难题同步多条思路汇总答案；
- Claude Extended Thinking、Gemini Deep Think：各家推出专属长思考机制。

该技术路线源自Noam Brown长期研究脉络：早年在CMU攻克不完全信息博弈，研发击败职业扑克选手的Libratus、登上《Science》的Pluribus；后于Meta FAIR打造策略博弈达到人类水平的CICERO，核心思路始终是延长思考周期、多路径推演提升决策精度。

2. 算力收益核心规律
学术界量化得出性能与采样次数呈对数线性关系：翻倍推理资源，性能不会同步翻倍，但稳定小幅提升；
关键分层结论：模型基础能力越强，长时推理收益上限越高。弱模型短时间思考便触及性能天花板，顶级大模型即便投入海量算力，性能曲线仍持续上行。
这也带来一个行业盲区：我们至今无法探明当前LLM真实能力天花板，高算力长周期推理评测成本极高，实验室无力全覆盖测试。

三、Noam Brown给出三大行业整改方案
1. 模型发布规范：强制公示性能—算力曲线，标注跑分对应推理预算
当前厂商仅抛出单一得分，不说明该成绩消耗的token与成本，跨模型对比完全失真。类比企业财报，只披露营收数字却不区分季度/年度，失去对比意义。新发布模型必须配套完整二维性能曲线。

2. 第三方Benchmark改革：统一算力上限，或全程追踪推理消耗
仅有ARC-AGI少量基准先行落地该规则，尚未成为全行业通用标准。所有排行榜需要设定统一推理预算门槛，消除变量干扰。

3. AI安全评估升级：将推理计算量纳入安全框架
现有安全测试仅局限模型默认推理配置，但现实攻击场景中，攻击者可单任务投入千万级算力预算放大模型风险。安全评估不能只测“轻量思考模式”，必须覆盖高算力长推理场景。
同时存在长期评估悖论：AI智能体长期行为测试周期极长，甚至超过新一代模型研发迭代周期，评估速度永远追赶不上模型更新速度。

四、深层推论：超级智能ASI不是质变节点，而是算力连续曲线
传统认知将超级智能视作突变拐点：某一日全新架构模型全方位超越人类。而从推理算力的底层逻辑推导，ASI更偏向一条连续变化的性能曲线：
1. 同等任务下，两毛钱与三万美元推理预算能产出完全不同质量的结果；
2. 越强的模型，性能饱和高原区间越靠后，算力投入始终有正向增益；
3. 无需颠覆性新架构，仅依靠持续加码推理时长、海量算力，长期运行的AI智能体就能够在垂直领域超越人类终身积累的认知水平。

五、行业变革：AI评测进入二维时代，算力投入决定真实能力
过去十年行业固化“单一分数排名”的评价体系，ImageNet、MMLU、Chatbot Arena均以数字高低论强弱。如今这套一维标准彻底淘汰：
模型能力不再是固定数值，而是随推理算力变化的连续函数；任何模型排名，都必须叠加「推理预算」这一核心变量。

2026年全球头部企业AI基建投入逼近7000亿美元，巨额资金不仅用于扩大模型参数量，更用于支撑海量长时推理、多路径采样。当“智能”成为可以用美元量化购买的资源，超级智能不再是是非判断题。
未来能够理解、适配这套二维评测坐标系的企业与研究者，才能看清大模型真实能力的差距与行业长期发展边界。

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 188355

金币: 689974

道行: 20100

原创: 769

奖券: 545

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 23961(小时)
注册时间: 2012-06-21
最后登录: 2026-06-15

只看该作者板凳发表于: 06-12

OpenAI o1推理模型核心缔造者Noam Brown近期发表长文《大规模推理计算的启示》，对当前AI行业主流的“单一跑分评测体系”发起猛烈抨击，核心观点可概括为：“AI真正的能力上限，藏在付不起的推理预算里”，引发行业对AI评测逻辑、能力边界的深度反思。以下是事件核心脉络与行业影响：

一、核心争议：现有AI跑分排行榜“基本是错的”
Brown指出，当前行业主流的AI模型评测（如MMLU、ARC-AGI等）存在致命缺陷——完全忽略“推理预算”（计算量/成本）变量，导致评测结果无法反映AI的真实能力：

“跑分”与“真实能力”的割裂
同一模型在不同推理预算下，性能差异巨大。例如GPT-5.5与GPT-5.4 Pro对比：

传统benchmark显示5.5仅“比5.4好一点”；
但一旦放开推理预算（允许模型“想更久”），5.5在网络安全评估等任务上大幅拉开差距，曲线远超5.4。
这就像“给学生30分钟和3小时考同一张卷子”，直接对比分数毫无意义
。
评测结果的“噪声化”
主流评测如MMLU，前沿模型分数全部挤在88%以上，差异在统计上无意义——用户看到的不是“谁更聪明”，而是“评测体系的噪声”
。
极端案例：OpenAI的o3在ARC-AGI评测中单题推理成本高达3万美元，而NVARC团队用40亿参数小模型以0.2美元/题的成本拿到24%准确率，“谁排名更高”的问题本身已失效
。

二、行业现状：推理时计算已成“标配”，但评测未跟上
Brown作为o1推理模型的核心贡献者（曾主导Libratus扑克AI、CICERO外交AI等项目），指出“推理时计算”（让模型花更多计算量深度思考）已从o1的专属技术，变为行业标配：

Claude推出“extended thinking”、Gemini上线“DeepThink”，几乎所有前沿实验室都在通过增加推理预算提升模型能力
。
学术界的量化结论：模型性能与推理计算量呈对数线性关系——给模型双倍“思考时间”，性能提升幅度递减，但强模型（如GPT-5.5）的“性能高原期”被大幅推远，甚至可能消失
。
Brown直言：“我们可能根本不知道现代LLM的能力天花板在哪里，因为测量成本太高了”——AI的“真·满血状态”，藏在用户付不起的推理预算里。

三、Brown的“三张药方”：重构AI评测与行业规范
针对现有问题，Brown提出三条行业改进建议：

强制披露“性能-推理预算”曲线
实验室发布新模型时，需公布“分数对应的推理成本”（如token数、美元、耗时），而非仅展示单一跑分。类比“两家公司比营收，必须标注时间跨度”，否则对比无意义
。

benchmark排行榜纳入推理用量追踪
主流评测机构需明确标注模型的推理预算，或设定“固定预算上限”（如“仅允许100美元推理成本”），让评测结果回归“性价比”本质
。

安全评估纳入推理预算变量
当前安全测试仅针对“默认推理状态”，但国家级攻击者可在单任务上砸1000万美元推理预算突破防御。未来的安全框架需明确：“模型在极端预算下的风险边界”
。

四、延伸动态：OpenAI核心成员的“技术路线分歧”
与Noam Brown的“评测批判”并行，另一位OpenAI推理核心成员Jerry Tworek（o1主导研发者之一）已离职创业，瞄准“持续学习”赛道：

新公司Core Automation计划融资10亿美元，目标是构建“不依赖静态预训练、可在真实使用中持续进化”的AI模型，解决当前“训完就上线、无法吸收新经验”的行业痛点
。
这一动向与Brown的“推理预算”批判形成呼应：两者都指向**“现有AI技术路线的局限性”**——前者质疑“评测逻辑”，后者挑战“训练模式”，共同推动行业从“静态模型”向“动态进化”转型。
行业影响：从“跑分内卷”到“价值回归”
Brown的言论直击AI行业“唯跑分论”的泡沫，推动行业从“谁分数高”转向“谁性价比更高、谁更安全可靠”：

开发者需重新评估模型选择逻辑：不再盲目追求“最高分”，而是关注“在预算内能达到的最优性能”；
企业级应用将更重视“推理成本可控性”：例如金融、医疗等场景，需在“安全性”与“计算成本”间找到平衡点；
学术界与产业界需共建“标准化评测框架”：避免“各说各话”的评测乱象，推动AI技术从“实验室数据”走向“真实场景价值”。

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[数码讨论]OpenAI推理之父掀桌：AI真·满血的样子，你没钱见 [复制链接]