首页   

VLA是特斯拉V13的对手吗?

36氪  · 科技媒体  · 1 周前

主要观点总结

本文介绍了特斯拉FSD在中国市场的表现及其引发的行业反响,重点阐述了VLA技术的出现及其在国内智能驾驶领域的影响。文章还分析了不同车企在VLA技术方面的布局和进展,以及元戎启行等企业在VLA技术方面的优势。

关键观点总结

关键观点1: 特斯拉FSD在中国市场的表现引发关注

特斯拉FSD在中国市场的表现存在差异化,一方面展现出优秀的常规驾驶能力,另一方面存在对特殊道路规则的理解不足等'智驾迷惑行为'。

关键观点2: VLA技术的出现解决了部分问题

VLA技术可以解决端到端的短板问题,通过融合视觉、语言和动作,赋予车辆类似人类的思维链,使车辆在复杂的驾驶环境中表现出更高的适应性和安全性。

关键观点3: 国内车企在VLA技术方面的布局和进展

目前已有部分国内企业在布局VLA技术,如理想、奇瑞、吉利和元戎启行等。其中,元戎启行已经走到了量产阶段,与高通合作,有望将VLA模型应用到更多芯片平台。

关键观点4: 车企对特斯拉FSD进入中国市场的反应

特斯拉FSD进入中国市场引发了国内车企的集体焦虑。由于特斯拉的基础能力和学习能力强大,一旦补齐在中国的数据短板,可能会对中国市场造成冲击。

关键观点5: 未来展望

随着国内搭载VLA技术的车型逐步上路,以及更多企业在VLA技术方面的布局和进展,未来国内智能驾驶领域的竞争将更加激烈。这将推动技术的持续创新和行业的快速发展。


正文

VLA本土化破局。

2月底,特斯拉FSD入华了,国内全体智驾企业绷紧了脊背。

3月,特斯拉FSD“翻车”和“丝滑”同时出现,大佬们的笑容虽然回到了脸上,但心里的焦虑就不得而知了。

回顾特斯拉FSD入华后的表现,有一种将《智驾迷惑行为大赏》和《智驾优秀生演示稿》放在一起排排坐的割裂感。一方面在上海陆家嘴,FSD把公交车道当超车道狂飙;广州塔底下,导航明明显示绿灯,车子却因为把“前方施工”的警示牌看成了广告牌突然来了个急刹。一方面,它在常规驾驶中,展现出了老司机的水准,能够准确避让非机动车,毫不迟疑地完成掉头、转弯等动作,给到用户熟练丝滑的体验。

FSD在常规驾驶中表现丝滑

造成这样场面的理由也很简单,特斯拉的底层AI技术积累雄厚,可以支撑智能驾驶在常规使用过程中的丝滑体感,但由于搭载了端到端模型(对比传统模块化的智能驾驶模型,端到端模型虽然在感知、决策、控制等过程不会产生信息的损耗,但本质上仍是依照指令实施相应的操作,不能理解潮汐车道等特殊路况的行驶规则)缺乏中国数据训练系统,导致FSD并不了解中国复杂的人车博弈场景,看不懂特殊道路的行驶规则,这也演变出了特斯拉的“智驾迷惑行为大赏”。

而大佬们的集体焦虑症结也在于此,因为其强大的底层逻辑能力,特斯拉一旦补齐了国内短板,势必会给国内车企造就一片“乌云”。

在这时候,VLA出现了。

一个好消息和一个坏消息

好消息是,VLA模型可以解决端到端的“短板”,融合了看、想、做三个动作,分别使用摄像头+激光雷达收集路况信息,相当于给车装上了24k大眼睛;大语言模型通过解决交通标志、行人意图等分析接下来的路况,不夸张的说连“行人要闯红灯”都get到,潮汐车道、公交车道也应付得了;根据看到的和思考的,VLA可以为车辆做出最优路线并控制车辆,还能贴心解释决策逻辑,如“减速是因为前方有儿童突然冲出”......

简单来说就是VLA融合了视觉、语言和动作,给车辆赋予了“类人思维链”,从端到端的“看图说话”演变成了“阅读理解”。

既然VLA可以解决端到端的技术短板,那为什么国内车企对特斯拉FSD进入中国还会感到焦虑?其实很容易理解,特斯拉FSD的基础能力与学习能力是强大的,仅靠在互联网上寻找中国道路的视频片段来训练,就能让系统展现出老司机的一面,一旦特斯拉补齐在中国的数据,克服在中国遇到的“水土不服”,它或许将成为中国市场最好的智驾之一。 在前几天的百人会上元戎启行CEO周光与博世中国区总裁吴永桥也直言,FSD V13在端到端智驾技术上领先国内高阶智驾系统一个代差。

那么,底层技术的参差是国内VLA可以跨越的吗?FSD V13跟VLA在业界都被视为智驾大模型阶段的产物。在周光看来,VLA的能力使其成为“通才系统”,即在垂直领域内具备广泛的场景适应性。

“VLA则能补齐端到端模型的短板,是一位驾驶通才,看得懂语义信息,能理解特殊车道的驾驶规则。只有先成为驾驶通才,才能成为驾驶领域的专家,即实现完全自动驾驶。”周光将VLA架构视为走向L5的转折点,他认为VLA的本质是构建时空统一的认知框架,这为实现L5级自动驾驶提供了底层支撑。 

简而言之,周光认为元戎启行推的VLA是在保留核心AI能力的基础上,向L5进发的较优方案,既满足了技术追求也能满足商业化。

好消息足够令人振奋,坏消息就让人多少有些不安了——那就是目前还没有完全VLA车型落地。但是先别急,已经在做了。

四条路线的“逆袭”之路
现在国内市面上明确布局VLA的玩家有四个,分别是数据“狂魔”理想、“合资”大户奇瑞、“买买买专业户”吉利以及激进派选手元戎启行。

理想用的是“MindVLA”,融合了3D高斯编码、MoE混合专家架构这些高大上的技术,复杂路况决策准确率确实领先同行。但关键问题是他们得同时养着端到端和VLM两套系统,虽然数据(底气)充足——动态数据湖覆盖密度全行业第一,豪言要在2025年实现“数据自由”,但研发成本直线上升,马上覆盖一个造车新势力的成本了。

合资大户奇瑞的诀窍是朋友多,拉上华为、英伟达做出一个猎鹰智驾,计划VLA模型在猎鹰900上实现,但它的世界模型(WM)预测能力还没有达标,落地时间也定在了2027年。

“买家专业户”吉利则是以“千里浩瀚”智驾系统为矛头,祭出“全域AI+天地一体”的组合拳,试图用生态碾压单一技术。

激进派的元戎启行则和前三者有着本质的区别,它不仅是极少数投入研发VLA的智驾方案供应商,而且已经把前者甩在身后走进了量产阶段。不出意外,年中就可以看到搭载元戎VLA的车型上路。

别人刚开始研究,元戎已经在量产了?其实仔细看看元戎启行的发展路线,就能发现其实TA一直在默默处于前列。2020年元戎启行提出“无图”智驾,到了2024年无图的风才刮起来;2024年车企大肆谈论端到端的时候,元戎启行的端到端已经落地量产;2025年都在抢占端到端市场份额的时候,元戎的下一代VLA已经量产进行中了。

周光曾直言自己是国内智能驾驶技术的“启蒙老师”,现在再来看,确实也不必惊讶。

在任何行业里,落后就要挨打都是一个共识,智能驾驶行业不外乎。车企都想自己是“最”领先,这个时候,选择一个“成熟稳重”第三方的优势就体现了。

已经实现量产的企业先一步建成了技术护城河:凭借VLA技术所支持的长时间推理与全局决策能力,将显著提升城区NOA的实际使用频率,进而为企业积累更大规模、更高质量的真实场景数据;基于Scaling Law(规模律),数据规模的提升将反哺算法性能迭代,进一步提升用户体验。

譬如元戎启行,不但已经进行到了量产阶段,而且还已经跟高通达成了合作。通过在算子开发层面的深研,未来有机会把VLA模型释放到更多芯片平台,支持纯视觉和激光雷达版本,这意味着作为一个第三方元戎已经生动演绎了什么叫“活儿好,事儿少,跟谁都搭。”

当然,后来者想居上也不是没可能。但这意味着不仅要耗费大量的资金和资金,最怕的就是,废了九牛二虎之力做成了的时候,别人可能迭代到第3代甚至第4代了,白白错失最佳发展的“黄金窗口期”。

总结一句,出力不讨好。就像文学家张岱说的“不能为了喝一口奶去养一头牛”。因为已经有了成熟的牧场,养殖(底层逻辑)-护理(AI技术的延展能力)-出品(量产能力)都已经成熟,实在没必要。

当2023年宣布FSD BetaV12(完全自动驾驶测试版)全面转向端到端架构时,在一定程度上颠覆了行业的认知。当特斯拉将未满血版的V13同步到中国时,国内智驾行业再起波澜,车企高管们时刻警惕着自己的心脏能否承担起特斯拉的数据量补齐后对自家产品带来的冲击。

当下,国内智驾领域的头部企业都已实现量产,各家的工程化能力都处于同一水平段。

智能驾驶的竞争也由工程化能力切换为AI模型的底层能力。可以预料的是,当今年国内搭载VLA技术的车型逐步上路时,或许特斯拉FSD和国内VLA孰强孰弱将有一个新的答案。

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com