理想汽车高管就宇树王兴兴的质疑作出回应:VLA是自动驾驶领域最优的模型方案

发布时间:2026-02-17 15:55:06admin

12月10日消息,今年8月举办的世界机器人大会(WRC)期间,宇树科技创始人王兴兴针对VLA(视觉语言动作模型)发表的质疑言论,在行业内引发了广泛讨论。

王兴兴称,对于当前机器人大火的VLA路线,他持有一定的怀疑态度,并直言称“这是一个相对傻瓜式的架构”。

原因是当VLA模型与真实世界交互的时候,背后的数据质量、数量,并不太够用。

而今日,理想汽车自动驾驶研发高级副总裁@ 郎咸朋在微博发长文,回应了此事。

郎咸朋称,当时未阐述个人看法,一方面是理想VLA司机大模型尚未正式推出,缺乏实际依据;另一方面是我们对于具身机器人领域,仍处在持续关注的阶段。

我和王兴兴的核心分歧在于:他更看重模型架构的重要性,而我则认为模型的关键在于能否与整个具身智能系统相适配,在这个前提之下,数据才起着决定性的作用。

从今年9月VLA正式发布,到12月6日OTA 8.1推送,历经两个多月的实践验证,我有两点深刻体会:其一,VLA堪称自动驾驶领域最优的模型方案;其二,具身智能的核心竞争力最终取决于整体系统能力的强弱。

郎咸朋表示,理想中的VLA从本质上来说属于生成式模型,它采用GPT的思路来研发自动驾驶技术,区别仅在于生成的Token并非文本形式,而是轨迹信息与控制信号。

从当前用户的使用反馈来看,在部分场景中,理想的VLA已展现出对物理世界的认知涌现现象。具体体现为用户会愈发频繁地察觉到此前端到端模式下未出现过的拟人化行为。

而且,世界模型更适合扮演“考场”的角色而非“考生”。在自动驾驶领域,脱离海量真实数据去谈论模型架构无异于空中楼阁。我们之所以坚持VLA,正是因为我们拥有由数百万辆车搭建起的数据闭环,这使得我们能够在现有算力条件下,将驾驶水平提升至接近人类的程度。

在具身智能领域,若要推进自动驾驶技术的发展,需将其视为一个完整的具身智能系统来构建,研发过程中各环节需协同配合,才能充分释放其价值。理想汽车的自动驾驶团队与基座模型、芯片、底盘等团队紧密协作,共同打造了一体化的自动驾驶系统。

同时,模型的核心在于与整个具身智能系统相适配,在此前提下,数据起着决定性作用。机器人领域的数据获取难度较大,不过在自动驾驶领域,尤其是那些具备数据闭环能力的车企,这并非难题。

理想不仅可以从过去几年积累的10几亿公里的存量数据里进行挖掘和筛选,更可以通过150万车主的日常使用源源不断的获取新的数据。

此外,李想前两天明确提到,未来五到十年,具身机器人核心将有两种形态:汽车类的具身机器人、人形类的具身机器人。

理想的VLA不仅服务于现在的理想各类汽车产品形态,也将服务于未来的汽车类具身机器人。