端到端AI智驾进入“造世界”阶段,本质是从“模仿人类驾驶”向“理解并预测世界变化”的跃迁,核心是通过世界模型补全端到端模型的认知短板,实现更安全的泛化能力。以下是关键进展与行业动态:
一、技术背景:端到端模型的瓶颈与“造世界”的必要性
端到端模型将感知、决策、控制整合为统一神经网络,虽提升了泛化效率,但存在三大缺陷:
黑盒决策:难以解释决策逻辑,调试成本高;
数据依赖强:迁移到新场景需重训,泛化能力有限;
概率决策风险:面对复杂场景仅输出“最可能方案”,易忽略关键细节。
世界模型的核心价值,是为AI构建“脑内模拟”能力——通过预测未来场景、虚拟试错,理解“动作与世界的因果关系”,从而解决端到端模型的泛化瓶颈。
二、世界模型的核心能力:从“感知”到“推演”
世界模型并非简单生成“类道路视频”,而是通过多视角一致的视频仿真,回答“若执行某动作,世界会如何变化”的核心问题。以小鹏X-World为例,其技术突破体现在:
动作可控:同一场景下,可生成右转、左转、变道等不同驾驶动作的未来画面,支持反复测试策略后果;
场景可编辑:可插入突发骑行者、临时封路等Corner Case,验证系统应对能力;
多视角一致:通过跨视角几何一致性建模,保证前视、侧视、后视画面的车辆、道路关系完全匹配,避免“画面漂移”。
三、行业落地:头部车企的技术路线与量产进展
2025-2026年,全球头部车企加速世界模型量产落地,技术路线呈现“VLA+世界模型”双轨并行的趋势:
小鹏:第二代VLA模型(学习“如何行动”)+ 世界模型(学习“行动后果”),X-World已支持24秒多摄像头长序列生成,实现复杂场景的虚拟试错;
蔚来:自研世界模型NWM已在NT2-3平台车型推送,通过“世界模型+闭环强化学习”解决Corner Case,城区NOP+的泛化能力显著提升;
吉利:G-ASD智驾方案采用“世界模型+强化学习”提升上限,搭配车端VLA模型增强通用感知,算力达1400TOPS,覆盖L2-L4全场景;
华为:乾昆WEWA采用“云+端”分体架构,通过世界模型构建“可解释、可预测”的世界认知结构,支持临时交通政策的即时调整。
四、行业趋势:从“技术竞争”到“认知升级”
世界模型的普及标志着智驾行业从“感知能力竞赛”转向“认知能力升级”:
技术融合:VLA(视觉-语言-行动模型)与世界模型不再是路线之争,而是互补关系——VLA负责“快速决策”,世界模型负责“安全推演”;
成本下降:通过虚拟仿真测试替代部分实车路测,智驾研发成本显著降低,推动“智驾平权”落地;
场景泛化:世界模型可自动学习临时交通政策、罕见场景规律,实现跨城市、跨国家的快速适配。