首页   

智能驾驶,怎么让车变成你的“家人”?

ZEALER  · 科技媒体  · 2 天前

主要观点总结

文章介绍了理想汽车的下一代自动驾驶架构MindVLA,其基于端到端+VLM双系统架构的最佳实践,并自研了VLA模型。MindVLA利用海量数据进行自监督训练,提升了下游任务性能,并且采用创新技术实现了模型参数规模与实时推理性能之间的平衡。文章还提到了MindVLA在汽车智能体中的应用,如理解并执行语音指令、自主寻找车位、通过照片搜寻位置等。最后,文章指出MindVLA将重新定义自动驾驶,并有望赋能多个行业协同发展。

关键观点总结

关键观点1: MindVLA是基于端到端+VLM双系统架构研发的新一代自动驾驶模型。

它具备强大的3D空间理解能力、逻辑推理能力和行为生成能力。

关键观点2: MindVLA采用MoE混合专家架构和Sparse Attention(稀疏注意力)技术,实现了模型的稀疏化。

这保证了模型规模增长的同时,不降低端侧的推理效率。

关键观点3: MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升了在复杂交通环境中的博弈能力。

采用Ordinary Differential Equation(常微分方程)采样器解决了Diffusion模型效率低的问题。

关键观点4: MindVLA的应用使汽车成为能与用户沟通、理解用户意图的智能体。

汽车能听得懂人话、找得到地方、看得见环境,成为一个真正意义上的“专职司机”。

关键观点5: MindVLA将重新定义自动驾驶,并有望赋能多个行业协同发展。

未来汽车作为物理人工智能的最佳载体,将探索出物理世界和数字世界结合的范式。


正文





【1、智能驾驶进入终局?不,刚刚开始。】


启动拼音输入法,然后在键盘上连敲三次“D”键。排第一的候选词是什么?我相信所有关注智能汽车相关技术的人,都会看到“端到端”,它在过去十二个月里,以极高的频率,出现在每一家追求高阶智能驾驶的车企的PPT或文稿中。



这种狂热很好理解。进入端到端阶段之前,大家得用有限的人工规则,去面对无限的边缘场景,以有穷应对无穷,有人觉得自动驾驶永远没法实现。而转机出现在端到端架构量产之后,人工规则退到次要位置,智能驾驶自己就能学习人类驾驶行为。Scaling Law 也提示我们,训练数据量与模型性能通常呈正相关。



端到端让智能驾驶真正进入了 AI 的节奏,更高阶段的自动驾驶,也没那么遥不可及了。接下来的问题是,为了让这天更快到来,现有的智能驾驶大模型还应该做些什么?除了让车辆负责驾驶行为,自动驾驶阶段的大模型还有哪些可能性?



在今年3月中旬NVIDIA GTC 2025 技术大会上,理想自动驾驶技术研发负责人贾鹏给大家介绍了理想的下一代自动驾驶架构MindVLA以及它的工程化、应用场景和拓展方向。这个叫做 MindVLA 的“新事物”,也许能回答上面两个问题。


【2、从端到端+VLM 到 MindVLA,从智能驾驶到“机器人大模型”。】


基于端到端+VLM双系统架构的最佳实践,及对前沿技术的敏锐洞察,理想自研VLA模型——MindVLA。VLA是机器人大模型的新范式,其将赋予自动驾驶强大的3D空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。



MindVLA不是简单地将端到端模型和VLM模型结合在一起,所有模块都是全新设计。3D空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组Action Token(动作词元),Action Token指的是对周围环境和自车驾驶行为的编码,并通过Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。



MindVLA打破自动驾驶技术框架设计的传统模式,使用能够承载丰富语义,且具备出色多粒度、多尺度3D几何表达能力的3D高斯(3D Gaussian)这一优良的中间表征,充分利用海量数据进行自监督训练,极大提升了下游任务性能。



理想从0开始设计和训练了适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。基座模型训练过程中,理想加入大量3D数据,使模型具备3D空间理解和推理能力。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。


LLM基座模型获得3D空间智能的同时,还需要进一步提升逻辑推理能力。理想训练LLM基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。为了把NVIDIA Drive AGX的性能发挥到极致,MindVLA采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。至此,MindVLA实现了模型参数规模与实时推理性能之间的平衡。


MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。同时Diffusion可以根据外部条件,例如风格指令,动态调整生成结果。为了解决Diffusion模型效率低的问题,MindVLA采用Ordinary Differential Equation(常微分方程)采样器,实现了2-3步就能完成高质量轨迹的生成。面对部分长尾场景,理想建立起人类偏好数据集,并且创新性地应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使MindVLA能够学习和对齐人类驾驶行为,显著提升安全下限。



MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。源于世界模型的技术积累与充足计算资源的支撑,MindVLA实现了基于仿真环境的大规模闭环强化学习,即真正意义上的从“错误中学习”。过去一年,理想自动驾驶团队完成了世界模型大量的工程优化,显著提升了场景重建与生成的质量和效率,其中一项工作是将3D GS的训练速度提升至7倍以上。



理想通过创新性的预训练和后训练方法,让MindVLA实现了卓越的泛化能力和涌现特性,其不仅在驾驶场景下表现优异,在室内环境也展示出了一定的适应性和延展性。


有了这套新的模型架构,智能驾驶会有哪些变化?


【3、“Agent”的诞生:汽车将能听得懂人话、理解世界,是一个真正意义上的“专职司机”。】


从用户体验方面来看,最直观的感受就是,有MindVLA赋能的汽车不再只是一个简单的驾驶工具,而是一个能与用户沟通、理解用户意图的智能体,是一个真正意义上的司机Agent或者叫“专职司机”。


首先是“听得懂”,用户可以通过语音指令改变车辆的路线和行为,例如用户在陌生园区寻找超市,只需要通过理想同学对车辆说:“带我去找超市”,车辆将在没有导航信息的情况下,自主漫游找到目的地;车辆行驶过程中,用户还可以跟理想同学说:“开太快了”“应该走左边这条路”等,MindVLA能够理解并执行这些指令。



其次是“找得到”,车辆还会利用强大的空间推理能力自主寻找车位,即便遇到死胡同,车辆也会自如地倒车,重新寻找合适的车位停下,整个过程不依赖地图或导航信息,完全依赖MindVLA的空间理解和逻辑推理能力。



再者是“看得见”,MindVLA具备强大的通识能力,不仅能够认识星巴克、肯德基等不同的商店招牌,当用户在陌生地点找不到车辆时,可以拍一张附近环境的照片发送给车辆,拥有MindVLA赋能的车辆能够搜寻照片中的位置,并自动找到用户。



一个原来需要人类监督工作的智能驾驶系统,以后会变成能与用户沟通、理解用户意图的智能体。所以难怪,理想一直说智能驾驶即将迎来“iPhone 4时刻”。


不得不说,MindVLA的到来,将重新定义自动驾驶。且对于人工智能领域而言,汽车作为物理人工智能的最佳载体,未来将探索出物理世界和数字世界结合的范式,也将有望赋能多个行业协同发展。



『热门推荐』

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com