反思AI发展:从算力堆砌到多元创新
过去十年,AI领域创新似乎被简化成“更多参数、更多数据、更多算力”的公式,然而未来突破是否仍只能依赖训练算力并不明晰。这一问题至关重要,因为“算力驱动进步”的信念已深刻改变研究文化,学术界因算力缺乏被边缘化,巨额资本投入也使发表传统愈发封闭。前谷歌大脑研究员Sara Hooker在其文章《On the slow death of scaling》中,深入探讨了这一现象,为AI未来发展指明新方向。
一、算力驱动的困境与局限
(一)模型规模收益递减
过去十年,模型参数量呈爆炸式增长,从早期Inception的2300万增至Qwen3 - 235B的2350亿。尽管更大模型带来性能提升,但额外参数与泛化能力关系不明。训练结束后可删除大部分权重且不损失性能,说明存在大量冗余,反映出深度学习技术本身的低效。增大模型规模学习长尾分布成本极高,深度神经网络学习效率低,训练大部分算力消耗在记忆长尾数据上,如同“搭梯子登月”般低效。
(二)Scaling Law的局限性
Scaling Law试图用算力规模推断预训练损失变化或预测下游能力,但现实复杂。它流行源于人们过度相信算力是推动进步的核心变量,常被用于为巨额投资和政策决策背书。然而,它几乎从未准确预测性能提升,在科学上难以站住脚。其对预训练测试损失的预测有一定可复现性,但面对真实下游任务表现混乱且不一致,“涌现能力”的出现也表明其无法预测未来。此外,不同领域Scaling Law可靠性差异大,在长期受控环境下有一定价值,但拉长时间尺度难以检验,过度依赖它的前沿AI公司可能低估其他创新方向价值。
二、突破算力局限的关键因素
(一)数据质量降低计算资源依赖
在质量更高的数据上训练的模型不需要那么多计算资源。改进训练语料库,如去重、数据修剪或数据优先级排序,可弥补模型规模不足。这表明可学习参数数量并非提升性能绝对限制因素,对更高数据质量投入能减少对计算资源等的需求。
(二)新算法技术弥补计算量不足
过去几年AI进展得益于算法改进和计算能力提升。指令微调、模型蒸馏、思维链推理、增加上下文长度、检索增强生成、偏好训练等新技术,弥补了对大量权重或长时间训练的需求,能在相同计算量下显著提升模型性能。
(三)架构决定可扩展性
架构在确定单位计算量下整体性能回报率和进步上限方面至关重要。新架构设计引入可改变计算量与性能关系,使现有Scaling Law变得无关紧要。
三、未来AI发展的前进方向
(一)优化空间根本性重塑
未来更有价值的进展来自对优化空间的根本性重塑,即范式层面的转变。计算机科学家需同时优化的“工具箱”大幅扩展,影响时间分配和“发现”方式。
(二)新的优化空间探索
1. 推理阶段计算投入:如今越来越多计算花在训练之外、推理之中。通过在推理时投入更多算力,用搜索、工具调用、多智能体协作或自适应计算提升表现,不必改动模型本身,且大多不依赖梯度更新,可能带来数倍甚至一个数量级性能提升,所需算力远低于重新预训练成本。
2. 数据空间可塑性:数据不再是不可触碰的“静态背景”。随着合成数据成本大幅下降,数据空间可塑,可生成、引导和放大稀少却关键的分布区域,动摇机器学习中关于IID样本的基础假设。
3. 智能系统核心转变:智能系统核心从“更强的模型”转向“更会与世界互动的系统”。交互方式、界面设计以及多组件系统协同成为决定智能上限的重要因素,曾经小众的UX或人机交互问题走到研究正中央。
(三)突破现有架构限制
在以Transformer为核心架构的前提下,继续扩大计算规模意义不大。现有架构已出现边际收益递减,投入算力难以换来成比例进步。下一次真正的跃迁需要全新架构,以避免灾难性遗忘等关键挑战,实现持续学习和知识分化。
(四)关注AI环境影响
训练算力“scaling退潮”不等于AI环境影响减轻。算力与性能关系变化不等于整个AI系统计算开销下降,模型上线后的生产化与大规模服务阶段才是能耗大头,即使单个模型更轻量,总体能耗仍可能持续上升。
AI发展不能仅依赖算力堆砌,而应关注数据质量、算法创新、架构优化等多方面因素,探索新的优化空间,实现范式层面的转变。只有这样,才能突破现有局限,引领AI走向新的发展阶段,同时关注其环境影响,实现可持续发展。