关于蚂蚁集团自研2900亿参数大模型采用国产AI芯片训练并实现低成本的技术进展,结合公开信息整理如下:
一、模型概况与核心参数
模型架构
蚂蚁集团研发的百灵系列MoE(混合专家)模型包括Ling-Lite(168亿参数)和Ling-Plus(2900亿参数)。后者是目前国内已披露参数规模最大的开源模型之一,但相比行业标杆如GPT-4.5(1.8万亿参数)和DeepSeek-R1(6710亿参数)仍有一定差距。
训练成本与效率
通过优化硬件系统和算法,预训练总成本降至508万元人民币,较同类模型降低约20%。例如,使用高性能硬件配置(如英伟达H800)训练1万亿token的成本约为635万元,而蚂蚁通过低规格硬件优化后显著缩减成本。
二、技术优化路径
硬件适配与异构计算
采用国产AI/GPGPU芯片(可能包括阿里、华为、壁仞、天数、寒武纪等厂商产品)构建异构计算平台,并与AMD芯片混合使用,降低对英伟达高端GPU的依赖。
开发统一分布式框架DLRover和轻量级调试工具XPUTimer,减少90%内存占用,并通过弹性分布式训练(EDiT)缩短66.1%的训练时间。
算法与存储优化
构建9万亿token的高质量语料库,结合多阶段训练策略应对瞬时负载尖峰问题。
通过存储与训练协同设计,将检查点写入延迟降低50%,节点峰值内存消耗减少60%。
三、性能与行业意义
基准测试表现
在中文任务中,Ling-Plus和Ling-Lite性能优于DeepSeek同类模型,且在安全性与错误拒绝率平衡上表现更优。
英语理解任务中,Ling-Lite超越Meta的Llama3.1-8B模型。
行业影响
首次验证了在低规格国产硬件上训练超大规模MoE模型的可行性,为资源受限场景提供经济高效的开发路径。
加入中美AI技术竞争,推动国产芯片生态与开源模型社区发展。
四、争议与挑战
国产芯片性能瓶颈
尽管成本优势显著,但国产芯片在复杂任务处理中仍需与高性能GPU(如英伟达H800)配合,长期依赖进口技术的风险仍存。
商业化前景
蚂蚁选择开源模型路线,需平衡技术共享与商业回报,未来需验证其在企业级场景的落地能力。
如需进一步了解技术细节,可参考蚂蚁团队发布于Arxiv的论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》