在比亚迪、奇瑞等车企争相于推进高阶智驾功能的普惠化时,聚焦于智驾技术前沿的科技巨头们,已经开始向新的方向攻进——世界模型。
2023年,特斯拉在CVPR上向公众介绍了一款新的端到端模型,它由完整的4D神经网络构成,能够理解世界运行的规律;在2025 CES上,英伟达宣布将推出世界模型Cosmos,其专为理解物理世界打造,可和生成“物理感知”的视频。
而在国内,2024年7月27日,NIO IN 2024蔚来创新科技日上,蔚来正式发布中国首个智能驾驶世界模型 NWM,即可以全量理解信息、生成新的场景、预测未来可能发生的多元自回归生成模型。
理想则紧随其后,在NVIDIA GTC 2025上发布了MindVLA,这款基于自研的重建+生成的云端统一世界模型,能够深度融合重建模型的三维场景还原能力与生成模型的新视角补全及未见视角预测能力,构建接近真实世界的仿真环境。
特斯拉、英伟达布局,理想、蔚来快速跟进,显而易见的是,世界模型已经成为智能驾驶领域绕不开的新技术趋势,甚至在“AI教母”李飞飞World Labs、谷歌DeepMind入局后,世界模型的意义已经被看做是整个AI领域的关键节点。
由此便产生了一系列疑问,以智驾为技术落地形式的车企与科技巨头,为何集体选择了世界模型?这一全新技术架构究竟是灵丹妙药,还是又一个技术噱头?它究竟能为当下智能驾驶带来何种提升?
为什么我们需要世界模型
世界模型诞生的初衷,实际是为解决AI领域的痛点的。
以智能驾驶为例,2024年特斯拉曾对外发表一段声明称,启用特斯拉Autopilot的车辆每行驶763万英里发生一起车祸,而未使用Autopilot的驾驶员则每行驶95.5万英里就会发生一起车祸。作为佐证,美国国家公路交通安全管理局和联邦公路局的数据显示,在美国平均情况下每行驶67万英里就会发生一起车祸。这表明特斯拉的智能驾驶技术确实降低了事故发生率。
然而,尽管特斯拉发布了一系列有关智能驾驶的安全报告,仍未能完全消除公众对其安全性的疑虑。例如在2016年,一辆特斯拉Model S就曾在Autopilot状态下与白色半挂卡车相撞,导致驾驶员不幸身亡。此外,2022年林志颖也在驾驶一辆特斯拉Model X时发生了碰撞事故,虽然事故原因仍无明确的官方定论,但坊间仍有部分人认为,此次碰撞与可能发生在Autopilot状态下。
对智能驾驶安全性的质疑不仅来自于消费者,自2022年至今,因担心特斯拉智能驾驶技术可能导致撞车事故,美国管理机构已下令多次召回——这无疑会对智驾技术的发展带来严重影响,因为智驾技术与企业赖以生存的数据与盈利皆来自于规模化量产,而消费者与监管机构的不信任必然会削减来自下游主机厂的订单。
市场对智能驾驶的不信任体现在不安全,而不安全在技术层面则体现在感知算法的空间理解能力——事实上,智能驾驶自2020年至今,所发布的多项技术架构均与提升空间理解能力有关。
例如2021年,特斯拉正式提出了BEV+Transformer的技术范式,其中BEV算法能够将特斯拉环绕车身的8个摄像头提供的视觉特征拼接为时序序列,并做到跨摄像头的空间关联,接下来再将通过Transformer生成的每个位置的语义和几何信息映射到一个鸟瞰图空间中,进而智驾提供一张计算机视角下的环境地图。