
图片系AI生成
人工智能的战场,正从“云端算力垄断”转向“终端智能觉醒”,这是一场更多人能参与、更多变数存在的普遍竞争。
过去数月,大模型行业的认知快速刷新,在DeepSeek之前,终端设备受制于功耗、散热和存储空间,只能运行轻量化模型,而且效果和体验并不好。当DeepSeek通过"小参数大智能"的技术路径,将百亿级模型压缩进终端芯片时,整个行业开始意识到,端侧AI的底层逻辑已发生质变。
从资本市场上相关概念股业绩表现和走势也可窥见一斑。端侧AI概念龙头移远通信、美格智能业绩表现亮眼,广和通市场关注度同步提升。其中,移远通信预计2025年一季度归母净利润2亿元,同比增长265.19%,主要受益于物联网需求复苏及车载、AIoT场景的拓展,边缘计算模组及大模型技术加速落地。美格智能预计一季度净利润范围取中值为4600万元,同比增长611%,高算力AI模组在智能汽车、无人机等领域出货量激增,海外业务占比提升至32%。广和通虽未明确披露一季度净利润,但其股价区间涨幅达25.11%,显示市场对其5G模组及车载业务前景的乐观预期。
从云端算力来看,头部大模型厂商的门槛是万卡集群,甚至十万卡集群也在规划,大模型开始趋于集中,但这部分头部厂商的预训练需求不会缩减,反而会增加。与此同时,更多AI公司正在投入后训练、推理算力的布局,产业逐渐达成共识,未来AI算力特别是推理算力会出现千倍的增长,网络带宽会出现百倍增长,存储需求也会出现千倍增长。
2025年或是端侧AI的爆发元年,算力行业加速竞逐推理算力。
DeepSeek效应,大模型重心转向推理
“端侧AI目前处在一个最好的时代”,爱簿智能CEO孙玉昆表示,我们认为大模型的开源给端侧和边缘AI的发展带来了巨大的发展机遇。从端侧芯片的发展来看,不管是算力还是内存带宽都有创新和提升,从模型能力来看,适合端侧运行的模型能力突飞猛进,端侧智能会越来越好,从AI普及水平来看,越来越多的人正在使用端侧和边缘部署大模型的推理,个性化需求越来越多,这些需求在端侧也更容易得到满足。
DeepSeek的模型迭代(如V1到V3)仍遵循Scaling Law,通过增加参数规模(如从千亿到万亿级)和训练数据量提升性能。这一路径在早期AI发展中普遍存在,例如GPT系列模型的参数爆炸式增长。但随着模型规模接近物理极限(如算力、数据获取瓶颈),单纯依赖参数扩张的边际收益递减,技术重心逐渐转向推理优化和多模态应用,典型代表就是DeepSeek-R1通过模型蒸馏降低推理成本。
DeepSeek推出的NSA(NativeSparseAttention)机制,通过优化稀疏注意力机制与硬件适配能力,显著提升了长上下文任务的训练和推理速度。在保持与完全注意力模型相当性能的前提下,NSA降低了预训练成本,并在指令推理任务中表现更优。这一技术进展为复杂任务的端侧部署提供了可能性。
阿里云智能集团资深副总裁、公共云事业部总裁刘伟光表示,阿里云开发新模型最重要的两个方向,一个在Reasoning推理,一个在全模态融合。在推理方面,大模型未来一定会向越来越强的推理能力演化,强化学习不断提升思维链的能力,伴随着模型内生的任务规划、工具使用能力不断增强,大模型会越来越智慧,可以不断思考更难更高问题,完成更复杂任务,这是一个重要方向,
“特别需要强调一下强化学习,2025年我们发现一个新的重要趋势,很多客户都在利用更为强大的基础大模型做基于强化学习的后训练,同时强化学习后训练反过来为推理提供重要能力补充,我相信未来会有更多客户基于强化学习做后训练,基于更强大的基模会开发出更新的、更有价值的AI原生应用以及AI Agent。”他说。

中科曙光方面对钛媒体App表示,DeepSeek正在引发算力产业链式反应,不仅大大激发了模型后训练、推理环节算力需求,加快改变AI算力结构,同时也有助于打破市场对高算力GPU的路径依赖,为国产GPU加速卡带来重大机遇。
无论是面向云端智算中心,还是面向端侧的大模型一体机,针对GPU加速卡进行软硬件协同设计优化,实现芯片-算法-模型深度耦合,已成为AI基础设施的重要创新方向。
“今年已经是AI大模型商业应用元年了。”京华信息科技股份有限公司副总裁李思伟认为,“去年我们很纠结,行业存在一个‘不可能三角’。我们想用大模型更好的智能,就需要付出比较大的成本做部署和训练,但是央国企等客户优先考虑的是安全问题,想要安全就必须私有化部署,私有化部署成本又受不了,部署小参数的模型又有一点鸡肋。前两年我们为客户所做的AI项目都会遇到这样的问题,很多项目因此拖延到现在。”
为什么DeepSeek在B端或者G端落地受政府和企业的欢迎,就是因为解决了“不可能三角”的问题,但DeepSeek的应用还是有很多门槛,比如安全问题,国产化技术路线等,这不是通过简单部署可以一次性解决的问题,目前很多一体机遍地开花,但一体机一般只能服务于一个应用或者一个业务。
端侧AI,越接近上层应用问题越多
基础设施的稳定和高效,是端侧AI生态赖以生长的基础。大模型仍处于产业发展的早期阶段,技术的演进呈现出上下影响、交替迭代的趋势,AI应用爆发对模型性能和模型之下的基础设施,以及AI应用开发工具,都提出了非常高的要求,这三大均处于高速演进过程当中,
以中科曙光为例,2025年2月,中科曙光推出DeepAI深算智能引擎方案,集成了GPU开发工具套件、AI基础软件栈和大模型应用开发平台,目的是为了让国产AI算力更适用、更好用,赋能从十亿级模型端侧推理到千亿级模型云端训练全场景需求。
通过全面兼容CUDA、Rcom双栈生态,DeepAI深算智能引擎支持2000+算子,对标CUDA的算子覆盖度已超99%,并可通过手动算子优化、编译优化和汇编指令级优化,国产GPU单卡训推性能提升可达1倍以上。
刘伟光表示,全世界的大语言模型几乎以每两周为一个时间单位演进,基础模型仍然是整个AI应用生态最核心的引擎,通过提供深度的推理能力、多模态理解和交互能力,支持多样化、高质量服务,基于不同类型尺寸模型满足复杂、轻型以及更多探索型需求。
“很多客户在探索AI应用过程中发现,支撑大语言模型的基础设施能力,特别是推理服务能力,是保障AI应用服务顺畅、平滑、稳定、高效运行的重要基础设施,云计算也在慢慢为AI所改变,让所有AI训练、推理、应用能够在云基础设施上进行更稳定平滑高效运行。”
他还表示,当模型能力足够强大,AI应用呼之欲出的时候,更多客户需要更完整、更完备的工具链基于模型进行AI应用开发,AI开发工具是连接大语言模型和真实应用的重要桥梁,客户需要功能齐全、生态丰富、灵活部署的工具,加速应用开发。

中科曙光DeepAI深算智能引擎也内置了DAP企业级全栈AI应用开发平台,提供多模型开放纳管、高性能推理服务、知识融合增强、智能体可视化编排、智能数据分析等功能,企业客户在国产AI算力底座可一站式跑通DeepSeek、阿里QwQ等大模型应用。
孙玉昆认为,面向AI的开发者面临着两大核心挑战:一是算力不足,成本高。好的模型可能需要万卡或者更大规模的集群,现在海外算力基本上不行,国内算力生态还在共同培养。二是开发工具链支持不足,开发环境配置复杂。端侧和云端的环境不统一,难以满足大模型、智能体等应用快速迭代的需求。
他补充表示,部署开发环境流程烦琐,很多初学者就倒在了做人工智能开发的第一关,大模型都是基于Linux开源又稳定的系统服务器训练出来的,很多人工智能的开发框架基于Linux开发,在实际开发中,开发者首先是要完成跨平台开发,通常需要在其他操作系统上通过虚拟化方式运行Linux,这个过程就会面临很多问题,比如安装配置复杂,兼容性问题,工具链和依赖库的版本差异,这些工具不好导致的问题,不仅增加了开发的复杂性,开发者也消耗了很多无谓的精力。
此外,即使开发者辛万苦地把环境配置好了,但性能和原生Linux相比也有差异,不仅是CPU计算性能,GPU的模型训练也有一些损失,用Windows电脑做小模型训练的性能不达标,用原生Linux系统则能实现更高的性能水平,所以做人工智能开发必须掌握Linux。
爱簿智能也推出了自己的AIBOOK 算力本,该产品以50TOPS端侧算力为核心,有意将AI算力本和市场已有的AI PC区分开。
在孙玉昆看来,不同于AIPC,AI算力本是基于原生Linux开发环境的端侧AI开发工具,与市面主流AIPC的主要差异包括基于Linux内核的AI原生操作系统,预装了各种实用AI应用,还预置了编程开发环境和工具,做到AI的“开箱即用”,同时具备“端云一体”的AI算力,端侧是指AIBOOK本地计算,云侧是摩尔线程夸娥云计算,端云一体组合覆盖从大模型部署到应用、微调及训练的AI开发全场景。
云还是端,没有绝对的好与坏
算力在云还是在端,取决于客户的业务需求,相较于以往端侧推理的限制,目前大量高质量小模型的涌现,让推理工作负载再次受到关注,云端算力和终端算力生态将长期持续演进,两者并不矛盾,更多是扮演大模型产业的不同角色,不少厂商也在布局端云一体。
杰文斯悖论告诉我们,技术效率提升反而会刺激需求扩张。例如,DeepSeek通过FP8混合精度训练、动态稀疏算法等技术将单次训练成本降低53%(至557.6万美元),但头部企业因此增加并行实验次数(从年均3次跃升至28次),反而推高全球算力芯片采购量。类似现象在能源领域也曾出现(如蒸汽机效率提升后煤炭消耗激增)。在AI领域,推理成本降低将加速应用场景泛化(如金融、医疗、智能制造),最终导致算力总需求增长。
黄仁勋在英伟达GTC2025上表示:ChatGPT是靠预测下一个tokens、大概率出现幻觉的生成式AI,而现在已经走进了Deep Research、Manus这样的agentic AI应用,上一个token是下一个token生成时输入的上下文、是感知、规划、行动的一步步推理,由于每一层计算都不同,所需要的tokens会百倍增长。推理模型需要更多的计算,因为模型更复杂。R1的尺寸是6800亿个参数,它的下一代版本可能有数万亿个参数。Agentic AI应用是无数次调用类似DeepSeek-R1做推理的过程,需要的计算只会更多。
高通发布的白皮书也提到,AI推理功能在终端侧的广泛普及赋能打造了丰富的生成式AI应用和助手。文档摘要、AI图像生成和编辑以及实时语言翻译现在已成为常见功能。影像方面的应用可以利用AI进行计算摄影、物体识别和实时场景优化。
这之后迎来了多模态应用的发展,这类应用结合多种数据类型(文本、视觉、音频和传感器输入),以提供更丰富、更具情境感知能力且更加个性化的体验。高通AI引擎结合了定制NPU、CPU和GPU的能力,能够在终端侧优化此类任务,使AI助手能够在不同沟通模式间切换,并生成多模态输出。
智能体AI(Agentic AI)是下一代用户交互的核心。AI系统能够通过预测用户需求,并在终端和应用内主动执行复杂工作流,进行决策和管理任务。一些实时AI处理任务的智能体,可在终端侧安全运行,同时依靠个人知识图谱准确定义用户偏好和需求,无需依赖云端。
爱簿智能看好AI端侧的发展。但认为不会颠覆云计算主导的AI开发范式,孙玉昆提到,端云协同是未来的主流趋势,AI计算正经历从纯云端向"云-边-端"协同的范式转移,5G、边缘计算等技术使分布式计算延迟降低到可接受范围,端侧AI芯片算力已达50TOPS及以上,可承担更复杂任务,而模型压缩技术(如蒸馏、量化)使7B这类小参数模型在端侧达到接近云端13B模型的能力水平。
“通过轻量化模型突破端侧算力瓶颈,结合端云一体架构实现能力的弹性扩展,正在定义AI算力的新范式。在这一架构下,用户将获得AI的‘无缝体验’,日常场景由端侧快速响应,复杂任务延伸至云端,二者协同工作升级智能体验。”他说
刘伟光则表示,AI应用构建方式非常多样化,既可以在公共云上进行开发部署,阿里云也支持本地化服务,为了更好服务本地服务,特别满足部分政企客户监管性要求,阿里云推出了百炼专署版,支持一云多芯异构计算等客户需求,
他表示,从算力资源到组件调用,直接影响AI实际应用的效果,阿里云内部提出了全栈AI,不仅是大模型,也不仅是云下技术架构层,包含底层的异构算力、模型服务平台、百炼平台,以及上面所有面向客户服务,技术架构层面计算资源需求日益增长,GPU需求增长速度远远高于传统CPU增长,遍布全球AI计算集群会成为未来新的刚需,这些集群支持大规模的训练任务,并且同时满足实时的推理应用的需求。(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)