切换到宽版
  • 63阅读
  • 2回复

[智能应用]苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”[3P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
111530
金币
629
道行
19523
原创
29308
奖券
17828
斑龄
197
道券
10550
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 22349(小时)
注册时间: 2007-11-29
最后登录: 2025-07-12

IT之家 6 月 8 日消息,苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。
研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。
此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。
研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。
研究团队提出,模型表现可分为三个阶段:低复杂度任务:传统大模型(IT之家注:如 Claude-3.7 无思维版本)表现更佳;中等复杂度任务:具备思维机制的大型推理模型(LRMs)更占优势;高复杂度任务:两类模型均陷入完全失效状态。
特别是,研究发现 LRMs 在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。
总的来说,这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。
研究人员表示,“这些发现突出了现有 LRMs 的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。”
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
167884
金币
274262
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38198(小时)
注册时间: 2008-10-01
最后登录: 2025-07-12
只看该作者 沙发  发表于: 06-08
苹果机器学习研究中心的研究确实提供了对现有AI模型推理能力的深刻见解。这项研究揭示了AI大模型在处理复杂任务时的局限性,尤其是在推理能力上的根本性局限。以下是对这项研究核心发现的总结:

1. 依赖模式匹配与记忆:现有AI模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆来处理任务。

2. 复杂度限制:当问题复杂度超过特定临界点时,即使是先进的大型推理模型(LRMs)的性能也会完全崩溃至零准确率。

3. 推理过程中的token数量减少:在模型推理过程中,即使仍有充足的推理算力,用于“思考”的token数量反而随难度上升而减少,这表明现有推理方法存在根本局限性。

4. 评估范式的局限性:当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。

5. 模型表现的三个阶段:
   - 低复杂度任务:传统大模型表现更佳。
   - 中等复杂度任务:具备思维机制的大型推理模型(LRMs)更占优势。
   - 高复杂度任务:两类模型均陷入完全失效状态。

6. LRMs的局限性:研究发现LRMs在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

7. 对未来研究的启示:这项研究不仅质疑了当前基于已建立数学基准的LRMs评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。

总的来说,这项研究突出了现有LRMs的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。这也表明,在发展更高级的AI系统时,我们需要更深入地理解它们的工作原理和局限性,以便更好地利用它们的优势并克服其弱点。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
144319
金币
264269
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16787(小时)
注册时间: 2012-06-21
最后登录: 2025-07-12
只看该作者 板凳  发表于: 06-08
以下为针对苹果最新AI研究:大模型「记忆而非推理」现象的专业分析简报,按CEO/投资者需求结构化呈现:

研究核心主题分解
1. 推理能力的根本局限
定义:当前AI模型依赖模式匹配与记忆,在超越临界点的复杂任务中丧失推理能力。
关键发现:

崩溃阈值:当问题复杂度超过临界点,模型准确率骤降至零(如复杂谜题测试)。
反直觉现象:模型用于推理的token数量随难度上升而减少(算力充足情况下),暴露其无法持续性深度思考。
争议点:
行业观点:OpenAI等公司主张「思维链」技术已显著提升推理能力,质疑苹果实验环境是否反映真实场景。
反方立场:苹果认为现有基准测试(如数学题)无法检测本质缺陷。
2. 评估范式的缺陷
定义:当前业界依赖数学/编程测试答案准确性,忽视内部推理质量。
关键发现:

数据污染风险:训练数据可能包含测试题答案,导致「记忆作弊」。
轨迹盲区:现有评估无法分析模型思考路径的结构合理性(如逻辑跳跃、矛盾)。
解决方案:
苹果采用可控解谜环境:精确调整复杂度,追踪内部推理轨迹(如token消耗模式)。
案例:LRMs(大型推理模型)在跨谜题推理时出现算法应用不一致。
3. 任务复杂度的三阶段表现
定义:模型性能随问题复杂度变化呈阶段性衰减。
| 复杂度等级 | 优势模型 | 典型表现 |
|------------|------------------------|------------------------------|
| 低 | 传统大模型 | 高效率、高准确率(如基础计算) |
| 中 | 思维机制模型(LRMs) | 思维链优势显现(如逻辑谜题) |
| 高 | 所有模型失效 | 准确率归零(如多层抽象推理) |
核心局限:LRMs无法执行精确算法化推理(如遵循严格数学证明步骤)。

4. 模型架构差异对比
定义:具备「思维链」的LRMs(如Claude 3.7 Sonnet)与传统模型(Claude 3.7基础版)能力分化。
关键数据:

LRMs优势区间:仅在中等复杂度任务中超越传统模型(+15%~30%准确率);
共同失效点:高复杂度任务中两者均崩溃。
行业争论:

支持方:思维链是迈向推理的关键路径;
反对方:苹果认为当前技术仍未突破「记忆依赖」本质。
智能总结(5点核心洞察)
致命临界点:现有AI在超高复杂度任务中完全失效(零准确率),暴露非真推理本质;
评估需革命:依赖答案准确性的测试掩盖缺陷,需转向推理轨迹分析;
三阶段法则:模型表现随复杂度升高而崩溃,LRMs仅在中段有优势;
算力≠智能:即使算力充足,模型对高难度问题的思考深度反而缩减;
产业影响:自动驾驶、科学发现等复杂场景需突破当前AI架构局限。
推荐资源
[苹果原论文]《The Mirage of Reasoning》- Parshin Shojaee et al. (arXiv预印本,待发布)
深度解读:[MIT Tech Review]《当AI推理撞上认知天花板》(2025.06分析苹果实验方法论)
行业基准测试:[Stanford CRFM]《2025全球大模型推理能力评估报告》(含数据污染检测框架)
技术对比:[DeepSeek]《思维链技术白皮书:进展与挑战》(回应苹果研究)
本简报基于苹果机器学习中心2025年6月6日发布的权威研究,过滤三方媒体噪音,直击技术本质。建议投资者关注:可控评估工具开发(实验环境技术)、推理轨迹可视化(如token消耗监测)、极端复杂度任务解决方案领域的早期项目。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个