切换到宽版
  • 46阅读
  • 1回复

[智能应用]蚂蚁自研2900亿大模型用国产AI芯片训练,计算成本508万元低于DeepSeek [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
124258
金币
82167
道行
20019
原创
752
奖券
34
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 13028(小时)
注册时间: 2012-06-21
最后登录: 2025-03-28
— 本帖被 兵马大元帅 执行加亮操作(2025-03-26) —

(图片来源:钛媒体AGI编辑林志佳拍摄)
随着DeepSeek引发 AI 算力优化热潮,蚂蚁集团全面发力 AI 技术,基于中国AI芯片进行Infra,实现了模型技术突破。
3月24日消息,钛媒体AGI获悉,近日,蚂蚁集团CTO、平台技术事业群总裁何征宇带领Ling Team团队,利用AI Infra技术,开发了两个百灵系列开源MoE模型Ling-Lite 和 Ling-Plus,前者参数规模168亿,Plus基座模型参数规模高达2900亿,相比之下,AI行业估计GPT-4.5参数量1.8万亿,DeepSeek-R1参数规模达6710亿。
同时,论文显示,蚂蚁团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,达508万元人民币,最终实现与阿里通义Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat相当的性能。
目前,相关技术成果论文发表在预印版Arxiv平台上。据彭博,该模型在训练阶段使用的是国产AI/GPGPU芯片产品,并非完全使用英伟达芯片,但最终得到的结果与英伟达芯片(如H800)的结果相似。
这是蚂蚁集团首次详细披露其在AI算力层面的进展,第一次揭秘了自身如何以远低于DeepSeek、OpenAI等强大模型所需的计算成本,完成AI大模型技术的训练并将其开源,从而加入了中美 AI 科技竞争热潮中。

近年来,大语言模型发展迅速,尤其是DeepSeek热潮,引发学界和业界对通用人工智能(AGI)的广泛讨论,而混合专家(MoE)模型在特定任务中表现优异,但训练依赖高性能计算资源,成本高昂,限制了其在资源受限环境中的应用。
蚂蚁Ling团队认为,虽然MoE模型训练对高性能AI芯片(如H100和H800)需求大,且资源供应,但低性能加速器更易获取且单位成本效益高,因此,模型需要能在异构计算单元和分布式集群间切换的技术框架。同时在AI Infra部分,在跨集群、跨设备的兼容和可靠层面进行性能优化。该公司设定的目标是“不使用高级GPU”来扩展模型。
具体来说,蚂蚁Ling团队在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面都进行优化和落地。
其中在预训练层面,蚂蚁构建约9万亿 token 的高质量语料库,采用创新的MoE架构,分析缩放规律确定超参数,多阶段训练并应对瞬时尖峰问题,并且通过优化模型架构和训练策略,如选择匹配架构、集成训练框架、开发XPUTimer和EDiT策略等,提高训练效率。
论文显示,在AI异构计算平台上,技术人员们将多个训练框架集成到统一的分布式深度学习框架中,即开源项目DLRover。同时,为了利用各种平台的具体特性,团队开发了轻量级调试工具XPUTimer,有助于快速、高效进行任务性能分析,并将内存使用量减少90%。而EDiT(弹性分布式训练)则在各种配置下,训练时间最多可减少66.1%。
此外,在存储优化中,通过存储与训练流程的协同设计,提升MoE场景下的I/O效率,通过5000个加速器 MoE 训练任务,将检查点写入延迟降低了50%,减少一半的时间消耗,同时还将训练节点上的峰值内存消耗降低了60%。
蚂蚁技术团队表示,利用Ling-Plus,在五种不同的硬件配置上对9万亿个token进行预训练,其中,使用高性能硬件配置(配置D)训练1万亿token的预训练成本约为635万元人民币,但蚂蚁的优化方法将使用低规格硬件将成本降至508万元左右,节省了近20%的成本。

蚂蚁表示,这一结果证明了在性能较弱的硬件上训练最先进(SOTA)的大规模 MoE 模型的可行性,使得在计算资源选择方面为基础模型开发提供更灵活、更经济的方法。
根据蚂蚁论文提供的FLOPS峰值,钛媒体AGI认为,这些 AI 加速器产品中可能包括壁仞、天数、寒武纪的算力芯片技术。
这与英伟达的初衷背道而驰。英伟达CEO黄仁勋认为,即使 DeepSeek 的 R1 等更高效的模型出现,计算需求仍将增长,AI大模型需要更好的芯片来创造更多收入,而不是更便宜的芯片来削减成本。他坚持打造具有更多处理核心、晶体管和更大内存容量的高性能GPU芯片和“AI 工厂”。
结果显示,在英语理解方面,蚂蚁论文中表示,Ling-Lite模型在一项关键基准测试中的表现优于 Meta的Llama 3.1-8B模型。在中文基准测试中,Ling-Lite 和 Ling-Plus 模型均优于 DeepSeek 的同类模型。
“Ling-Plus 和 Qwen2.5-72B-Instruct 在安全性方面表现突出,且Ling-Plus在错误拒绝方面表现更佳。DeepSeek系列模型的错误拒绝现象最少,但部分安全性较低。而Ling-Plus 在安全性和拒绝率之间表现出更好的整体平衡,在这些指标的平均值方面取得了最好的结果。”论文表示。
据悉,蚂蚁百灵大模型Ling-Plus 和 Ling-Lite将计划开源,并应用于医疗、金融等行业领域。
目前,蚂蚁拥有三款 AI 助手管家产品——生活助手“支小宝”、AI金融管家“蚂小财”,以及刚刚发布的 AI 医生助手等产品和解决方案。
不过,蚂蚁也在论文中表示,大模型训练是一个具有挑战性且资源密集的过程,经常伴随着各种技术困难,错误和异常很常见,有些相对容易解决,而有些则需要大量时间和精力。而Ling系列模型在训练阶段面临挑战,包括稳定性,即使是硬件或模型结构的微小变化也会导致问题,包括模型错误率的大幅上升。
针对这份论文,彭博行业研究高级 BI 分析师Robert Lea表示,蚂蚁的这一成果强调了中国 AI 创新能力不断增强,以及技术进步的步伐加快。如果内容得到证实,这将凸显出中国正在朝着 AI 自给自足的方向迈进,因为中国正在转向成本更低、计算效率更高的模型,以绕过英伟达芯片的出口管制
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
124258
金币
82167
道行
20019
原创
752
奖券
34
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 13028(小时)
注册时间: 2012-06-21
最后登录: 2025-03-28
只看该作者 沙发  发表于: 03-24
关于蚂蚁集团自研2900亿参数大模型采用国产AI芯片训练并实现低成本的技术进展,结合公开信息整理如下:

一、模型概况与核心参数
模型架构
蚂蚁集团研发的百灵系列MoE(混合专家)模型包括Ling-Lite(168亿参数)和Ling-Plus(2900亿参数)。后者是目前国内已披露参数规模最大的开源模型之一,但相比行业标杆如GPT-4.5(1.8万亿参数)和DeepSeek-R1(6710亿参数)仍有一定差距。

训练成本与效率
通过优化硬件系统和算法,预训练总成本降至508万元人民币,较同类模型降低约20%。例如,使用高性能硬件配置(如英伟达H800)训练1万亿token的成本约为635万元,而蚂蚁通过低规格硬件优化后显著缩减成本。

二、技术优化路径
硬件适配与异构计算
采用国产AI/GPGPU芯片(可能包括阿里、华为、壁仞、天数、寒武纪等厂商产品)构建异构计算平台,并与AMD芯片混合使用,降低对英伟达高端GPU的依赖。
开发统一分布式框架DLRover和轻量级调试工具XPUTimer,减少90%内存占用,并通过弹性分布式训练(EDiT)缩短66.1%的训练时间。
算法与存储优化
构建9万亿token的高质量语料库,结合多阶段训练策略应对瞬时负载尖峰问题。
通过存储与训练协同设计,将检查点写入延迟降低50%,节点峰值内存消耗减少60%。
三、性能与行业意义
基准测试表现
在中文任务中,Ling-Plus和Ling-Lite性能优于DeepSeek同类模型,且在安全性与错误拒绝率平衡上表现更优。
英语理解任务中,Ling-Lite超越Meta的Llama3.1-8B模型。
行业影响
首次验证了在低规格国产硬件上训练超大规模MoE模型的可行性,为资源受限场景提供经济高效的开发路径。
加入中美AI技术竞争,推动国产芯片生态与开源模型社区发展。
四、争议与挑战
国产芯片性能瓶颈
尽管成本优势显著,但国产芯片在复杂任务处理中仍需与高性能GPU(如英伟达H800)配合,长期依赖进口技术的风险仍存。

商业化前景
蚂蚁选择开源模型路线,需平衡技术共享与商业回报,未来需验证其在企业级场景的落地能力。

如需进一步了解技术细节,可参考蚂蚁团队发布于Arxiv的论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个