小鹏第二代VLA:从智驾到物理AI的范式跃迁
光锥智能 | 03-06
21283
2025年,智能驾驶行业迎来关键转折。端到端大模型成为行业共识,城市NOA开始向10万级车型下放,高阶智驾正从豪华车的专属配置逐渐走向全民标配。在这一背景下,小鹏汽车于3月2日举办第二代VLA(Vision-Language-Action)媒体体验日,正式对外展示了其在自动驾驶领域的技术突破与战略思考。受访嘉宾小鹏汽车董事长CEO何小鹏与通用智能中心负责人刘先明,就技术路线、组织架构、行业趋势等话题进行了深入分享。

跳过L3:一场关于责任主体与技术范式的重新思考
在群访中,何小鹏首次系统阐述了“跳过L3”的建议逻辑。他认为,L4开始就会有新的责任主体,而在当前全球科技发展的情况下,“基本上从L2的下一个台阶就是L4,中间专门加一个L3实际对于硬件、软件、法律法规都是挑战”。
这一判断背后,是小鹏对自动驾驶技术本质的重新认知。何小鹏坦言,去年去硅谷试驾特斯拉FSD时,原本以为是“换道超车”,却发现对方“原来已经切换了”。“FSD V13和V14是质的改变。V13很多人都开过,实际上还是一个L2级别的能力。”这种技术范式的转变,让小鹏更加坚定了从AI而非传统软件工程角度重新定义自动驾驶的决心。
关于第二代VLA的能力边界,刘先明表示:“目前还没有完全说自己能达到百分之百的L4,但是现在整个VLA2.0搭建了一套非常通用并且高效的架构,基本上每天都会有新的版本出来,不停地去迭代新的问题,而且进步速度也是超乎我们想象的。”何小鹏给出的判断是1-3年内有望达到L4水平,而刘先明则补充道:“如果我们一直维持这个状态的话,我相信会很快。”
通用智能中心:跨域融合的组织进化
值得关注的是,刘先明的职位已从智能驾驶负责人变更为“通用智能中心负责人”,智能座舱与智能驾驶正式合并。这一组织架构调整,被何小鹏解读为汽车行业“跨域融合”趋势的体现。
“我相信汽车领域很快会迎来跨域融合。”何小鹏分析道,“从机器人领域可以看到,机器人甚至可以没有底盘,它的全身控制、全身动力、全身的线束和汽车不完全一致。汽车行业正在进入新的跨域阶段:自动驾驶是整车运动,智能座舱是整车大脑,再加上动力、底盘,我们认为这四个域都在进行跨域融合中。”
刘先明坦承“压力更大了”,但同时也看到了更多机会。“当历史转折点摆在面前时,每个人都会很兴奋。能有机会参与这件事,是每个技术人的梦想。”他进一步表示:“我有信心,能在自动驾驶上验证过的AI能力,可以大规模迁移到座舱上,让整车真正成为一个有机的智能体,而不是割裂的一个东西。”
基座模型:L4时代的必修课
在谈及基座模型的重要性时,刘先明给出了一个鲜明的判断:“做好基座模型,是一家做L4公司的必修课。不做这件事,就可能在这次技术转型中落在后面。”
他分析指出,过去Waymo等L4公司的技术路线“上限很低”,只能不停往前卷,导致ODD(运行设计域)概念的出现——“车辆到底能运行在什么地方,只能取决于铺了多少车、采了多少数据、建了多少地图”。这种“成本极高、泛化性很差”的技术路线,正在被基座模型的新范式所替代。
何小鹏则从另一个角度强调了基座模型的战略价值:“我只知道它投入很大,去年就花了几十个亿,今年更多。做基座模型不仅投入资金多、以及优秀的人力,但必须往前推进,否则上限会非常低,做到一定阶段就很难再突破。所以真的只有依靠强大的基座模型,未来才能泛化到多种具身智能体中。”
“让妈妈放心”:产品哲学的温度表达
采访中,何小鹏多次提到“让妈妈放心”这一产品理念。这一理念的诞生,源于他带母亲体验自动驾驶的真实经历。
“最开始在几年前我带着我的妈妈,她是乘坐自动辅助驾驶,在那个时候她非常担心。”何小鹏回忆道,“随着到了现在,我再次让她体验我们整个VLA,她才感觉到真正是丝滑,她放心。”这段经历让他意识到:“如果L4或者Robotaxi应该是所有的人,不管你开车还是不开车,不管你擅长开车或者是一个新手司机,都敢开。”
为此,小鹏专门向公司“妈妈厨房”的食堂阿姨们请教:“敢不敢开?愿意不愿意开?有没有驾照?”调研结果显示,妈妈们“不敢开,不愿碰”的顾虑普遍存在。何小鹏认为,“要让一个好的技术在中国,在全球都能够很好地落地,政策法规是基础,技术可行也是基础,但是要让大家有信心,很放心,很安心,更是真正能够把技术推到所有人的一个基础。”
算力效率:拒绝军备竞赛的技术理性
面对行业内愈演愈烈的“算力军备竞赛”,刘先明表达了不同的看法:“算力不只是名义上的数字好看,更重要的是把算力用好,这是核心问题。”
他以英伟达为例说明:“你看NVIDIA,就是在GPU和CUDA时代做这件事——把算力用好,比单纯说算力提升多少倍更有价值。”刘先明进一步指出:“大算力一定需要更高信息密度的输入、更大的模型来匹配,否则算力就是空转。这些因素合在一起就意味着:如果只是搞算力军备竞赛、单纯堆高数值,消费者是感受不到明显的体感提升的。”
全栈自研的价值在这一逻辑下更加凸显。“如果没有全栈自研,大家就看不到现在这么丝滑、安心的体验,这套能力也不可能真正部署上车。”刘先明总结道,“全栈自研最大的好处,就是我们从硬件层、软件层、模型层从头重新定义整套体系,让它完全服务于我们的应用场景和最终上车落地的模型。”
数据与强化学习:Scaling Law的边界探索
关于人类数据的价值,何小鹏给出了一个令人深思的判断:“以前我觉得有10万台、100万台车跑了多少公里就够了,现在我觉得远远不够。”他强调:“如何收集有质量、有价值、超大规模的数据,我觉得是非常困难的一点。不论是汽车还是机器人,这件事上都远远没有看到头。”
刘先明补充道:“数据每天都可以收上来,但存储成本高,而且很多也用不上。所以怎么挖掘真实世界里真正好用的数据,是一个会一直被探索的问题。”
对于强化学习(RL)的定位,刘先明给出了理性的判断:“强化学习不是万金油。它一定需要一个非常强的基座模型——至少能采样到解决这个问题的可行解。如果连这个能力都没有,强化学习就没办法继续提升。但强化学习是效率特别高、能定向解决问题,并且能持续探索长尾问题的一种学习方式。”
物理AI与未来:从汽车到具身智能
采访中,何小鹏多次提到“物理AI”这一概念。他认为,“汽车正在从软件时代进入AI时代,从软硬件独立发展走向跨域融合,从原来的、简单的智能新能源车升级为可主动服务的高阶智能Agent。”
这一判断的时间表是:“1-3年全自动驾驶会落地、3-5年所有汽车都会成为强力超级智能体。”更重要的是,这套基座模型不仅可以赋能汽车,还可以“跨域赋能机器人和飞行汽车,就是不同形态的具身智能的终端”。
何小鹏解释了背后的逻辑:“机器人最大的一个问题就是它的模型和数据,智能被锁死在特定的形态里面,它很难泛化。”而小鹏的基座模型之所以能够跨产品和跨场景复用,核心在于“通过怎样的底层逻辑和方案实现这种泛化”——“这个世界的规则太多种了,原来的L2靠软件完全无法做到。”
结语:代际差与黄金十年
“2026年是未来无人驾驶黄金十年的新起点。”何小鹏在采访中如此判断。
关于“代际差”的定义,刘先明给出了深刻的解读:“不只是单一指标的差距,更关键是有没有切换整套做事思路,迭代速度有没有质变。我们现在追求的是不仅跑得快,加速度还在持续变大,因为我们在构建底层通用能力体系,这才是真正的代际差,而非单点指标领先。”
何小鹏透露了小鹏的终极目标:“千公里级接管,而非百公里级。”他补充道:“在多个城市、多个高难度时段的对比测试中——难度大致在85分到99分之间,我们相对于第一阵营已经有了数倍提升。更重要的是,用户坐在我们的车里真的会感到放心和放松。”
从L2到L4,从汽车到机器人,从软件工程到物理AI——小鹏正在尝试“一种没有人走过的一套逻辑”。正如何小鹏所言:“大部分人都是跟随,尝试创新、探索出一条全新的道路,这是我们这一代科技创业者、科学家应该去做的事情。”