在2025年3月的英伟达GTC大会上,黄仁勋发布了三代突破性AI芯片及个人超算产品,并透露DeepSeek成为此次技术革新的重要受益者。以下是关键信息整理:
一、三代AI芯片发布
Blackwell Ultra(GB300)
定位:接棒B200,成为新一代“全球最强AI芯片”,支持训练、推理及物理AI(如机器人、自动驾驶)。
性能参数
FP4推理性能:1.1 ExaFLOPS(每秒百亿亿次运算)
FP8训练性能:1.2 ExaFLOPS
内存:288GB HBM3e,20TB HBM3(前代1.5倍)
带宽:14.4TB/s CX8(前代2倍)
集成方案:与Spectrum-X以太网、Quantum-X800 InfiniBand平台结合,单GPU吞吐量达800Gb/s,优化AI工厂及数据中心效率。
DGX Spark(个人超算)
核心配置:搭载GB10 Grace Blackwell芯片,每秒提供1000万亿次AI计算,支持本地大模型微调和推理(如Cosmos Reason、GR00TN1机器人模型)12。
合作伙伴:华硕、戴尔、惠普等将推出DGX Station,DGX Spark已开放预订。
下一代芯片Rubin(2026年发布)
性能飞跃
FP4推理性能:3.6 ExaFLOPS
内存带宽:13TB/s HBM4
互联技术:260TB/s NVLink6(前代2倍)
应用场景:支持更复杂AI模型训练与推理,配备88核Veru CPU,单核支持176线程。
二、AI行业变革:推理效率成核心
黄仁勋强调,未来AI竞争焦点从“模型规模”转向推理成本与效率。Blackwell Ultra和Rubin通过内存优化、高带宽互联及多精度计算,显著降低单位token生成成本,使企业能以更低成本部署大规模AI应用。
三、DeepSeek为何成赢家?
推理成本优势:Blackwell Ultra的FP4推理能力(1.1 ExaFLOPS)和HBM3e内存优化,使DeepSeek等企业能高效运行复杂AI模型,降低服务成本1
生态适配:DGX Spark个人超算支持本地化部署,DeepSeek可快速迭代模型,减少对云端算力的依赖。
行业趋势:英伟达转向“AI工厂”模式,推动智能体(Agentic AI)和物理AI发展,与DeepSeek的技术路线高度契合。
四、市场影响与合作伙伴
数据中心支出:2028年预计突破1万亿美元,Blackwell芯片已获美国四巨头360万块订单。
跨界合作:通用汽车将采用英伟达技术开发自动驾驶,T-Mobile等合作开发6G AI网络。
通过三代芯片迭代和超算产品布局,英伟达正构建从数据中心到个人设备的全栈AI生态,而DeepSeek凭借推理效率优化和本地化部署能力,成为这一生态中的关键受益者。