欢迎来到苏州腾斯凯电子科技有限公司网站!高压线束测试仪、充电枪测试仪、阻抗分析仪、充电枪老化试验厂家
网站首页    |    在线留言 
更多 联系我们
联系我们

地址:苏州市吴中区木渎镇金枫南路1330号联动U谷国际科创园5幢7楼

联系人:臧先生

电话:0512-66551311     0512-68071390


VLA,是完全自动驾驶的必经之路?

2025/6/18 8:44:49 点击数:28
电子发烧友网报道 (文/梁浩斌)最近,智驾领域又出现多个“新名词”,比如蔚来推出的NWM、多家车企和智驾供应商都在宣传的VLA。实际上,从各家的路线来看,随着更大算力的芯片,比如小鹏、蔚来自研的智驾芯片,以及英伟达Thor的上车,越来越多的智驾方案选择VLA的路径。

那么本文就梳理一下当前智驾领域集中主流的大模型技术路线,以及各家厂商实现方式的区别和发展。

VLA和VLM

VLA即Vision-Language-Action,视觉-语言-动作模型。简单来说,VLA是一种结合视觉感知、语言理解和动作决策的多模态AI模型。VLA通过统一空间智能、语言智能和行为智能,使自动驾驶系统能够更全面地理解复杂环境并执行任务。

VLA的核心能力主要是三种,包括BEV、激光雷达等视觉输入;理解自然语言指令或场景描述等语言处理能力;以及对车辆控制动作输出的能力。最终通过这三种能力,实现从感知到决策的端到端闭环。

VLM即Vision-Language Model,视觉-语言模型,从名字上看,VLA就是在VLM的基础上增加了动作的能力,事实也确实如此。

VLA在VLM核心的多模态推理和理解能力上,增加了动作生成的能力,将VLM的输出,比如将“在这个路口要转左”的指令输出直接转化为车辆的控制信号,包括油门、方向盘角度、刹车力度等。

一般来说,VLA通常也是基于预训练的VLM基座模型,利用VLM具备的视觉和语言能力,引入动作预测模块进行扩展,使其适应各种任务,包括机器人,自动驾驶等。

具体到自动驾驶的应用中,VLA可以直接调用VLM生成的语义理解结果,比如识别视频画面中的交通标志、场景描述等,结合实时感知数据来生成车辆的控制指令。同时,VLA的执行结果,也可以反向优化VLM的场景理解能力,优化决策选择。

简单总结下来,VLM是倾向于认知的一个模型,它通过自然语言来描述出当前车辆前方的场景,以及“看到”哪些内容,并能够输出一些车辆控制指令的文本;VLA是侧重于动作控制,在获得场景的自然语言信息后,解决车辆应该如何继续行驶,比如作出避让、变道等动作,并直接输出油门、方向盘角度、刹车力度等具体的控制指令。

小鹏、理想、元戎落注VLA,但实现方式略有不同

目前小鹏、理想、元戎启行等车企和智驾公司,都展示了其VLA的技术布局,并表示即将量产。

元戎启行CEO周光在最近的2025年火山引擎Force原动力大会就宣布,将携手火山引擎,基于豆包大模型,共同研发VLA等前瞻技术,元戎骑行VLA模型将在2025年第三季度推向消费者市场。

理想汽车此前则透露VLA模型将在今年三季度搭载于理想L9/L8改款车型。

小鹏汽车在最近小鹏G7发布会上表示,将行业首发本地端VLA+VLM大模型。小鹏在车端实现VLA的方式大致是,采用超大参数云端大模型,训练出世界模型基座,再通过蒸馏的方式产出适配车端算力的小模型,最大限度地保留云端模型基座的核心能力。

今年4月,小鹏汽车对外宣布正在研发参数规模达到720亿的云端大模型,即“小鹏世界基座模型”。该基座模型是以大语言模型为骨干网络,使用海量优质驾驶数据训练的VLA大模型(视觉-语言-行为大模型),具备视觉理解能力、链式推理能力(CoT)和动作生成能力。目前,小鹏汽车已经在后装算力的车端上用小尺寸的基座模型实现了控车。在没有任何规则代码托底的情况下,新的“AI大脑”展现出令人惊喜的基础驾车技能,能够丝滑地加减速、变道绕行、转弯掉头、等待红绿灯等等。

在上周的计算机视觉顶会CVPR 2025上,小鹏汽车也分享了其基础模型的进展。小鹏世界基座模型负责人刘先明博士表示,小鹏汽车已经在云上训练了10亿、30亿、70亿、720亿等多个参数的模型,并且持续向模型“投喂”更大规模的训练数据。目前,小鹏世界基座模型累计“吃下”2000多万条视频片段(每条时长30秒)。

在这一过程中,研发团队清晰地看到了规模法则(Scaling Law)的显现。也就是说,模型的参数量越大、模型学习的数据越多,模型的性能越强。这是AI大模型浪潮以来,行业内首次明确验证规模法则在自动驾驶VLA模型上持续生效。

理想汽车的VLA路线则略有不同,是先对基座模型进行蒸馏,产出车端的蒸馏模型,然后再进行强化学习,实现“司机Agent”。

蔚来世界模型NWM

蔚来近期推送了其最新的NWM首个版本,据蔚来的介绍,蔚来世界模型NWM是一个多元自回归生成模型,具备空间认知和时间认知能力,能进行长时序决策与推演。蔚来世界模型 NWM同样是多模态输入输出,输入的多模态数据包含图像、语言,输出的多模态数据则包含图像和行动。

所以NWM其实是包含了VLA的所有特征,但不同之处在于,NWM对于空间理解的能力,以及长时序的建模能力会更强。

蔚来用停车场自主寻路的功能来展示NWM的认知、理解与推理能力。例如,当车辆在行驶过程中看到“15-20号楼→”的标牌时,它就能理解18号楼应当向右转;在上一个路口看到“出口直行”字样,当前路口却没有标牌,车辆也能推理出出口应该继续直行。

写在最后

元戎启行认为,VLA是通往完全自动驾驶的必经途径。当前VLA确实已经成为智驾的主流发展方向,而VLA对于车端的算力需求,还将会带动智驾芯片算力的需求爆发。

文章转自电子发烧友,作者:安森美,目的在于传播更多信息,如有侵权请联系删除。

联系人:臧先生 18913599816          传真:0512-62395297  
E-mail:Sales@tsk-test.com       地址:苏州市吴中区木渎镇金枫南路1330号联东U谷国际科创园5幢701
版权所有:苏州腾斯凯电子科技有限公司   苏ICP备14001140号-1    技术支持:仕德伟科技