对话小鹏智驾负责人:想做好智驾,必须要做基座大模型
文 Liu Junhong
编|王一粟
“AI大模型让我们看到自动驾驶比任何时候都接近于落地的实现。”
在中国汽车智驾能力竞争愈发激烈的当下,小鹏汽车自动驾驶副总裁李力耘发掘到了智驾通往自动驾驶的大门。
针对去年车企们热衷的端到端智驾训练模式,李力耘认为智驾模型还能做得更大,要突破过去端到端模型的“一亩三分地”,实现更为广泛和深入的智能驾驶应用。
端到端的模型在做智驾的好处,李力耘解释称:“使用端到端的模型实现自动驾驶,我认为有两个核心优势:一是确保信息的完整性不受损害。另一个是减少整个车辆的延迟,让自动驾驶的功能更加敏捷、高效和人性化。”
然而,直接学习人类行为的端到端,其上限只是接近人类。在大量的数据和训练中,智驾逐渐形成类似于人类日常驾驶的能力和习惯。但是,在真正遇到极端场景时,智驾厂商几乎无法获取这部分数据。其一是因为场景发生的频次非常少,另一方面是人类自己都反应不过来,根本就没有“可以参考的答案”。
如何让端到端智驾变得更强?小鹏给出的答案是用云端大模型蒸馏并辅以强化学习的方式,跳出之前车端思路做智驾模型的“一亩三分地”。
事实上,过往的自动驾驶技术并没有真正地体现“大模型”的应用。与去年云端模型的演进相比,AI的基本逻辑遵循了Scaling Law的规律,即“规模越大,能力越大”。
“基于当前主流的车端芯片,车端模型的尺寸通常在1亿到5亿之间。最近,VLA模型引发了业界的广泛关注,参数规模约在20亿左右。这是因为自动驾驶模型其实是一个复杂的系统,需要同时考虑视觉、推理和动作输出等多方面的因素。但是,云端大模型可以真正规避这些限制,整个参数量可以达到主流车端模型的35倍以上。”李力耘介绍道。
为了搭建云端足够强大的大模型,本次小鹏首次披露了正在研发的720亿参数的超大规模自动驾驶大模型,即「小鹏世界基座模型」。
小鹏将通过云端蒸馏小模型的方式,将基模部署到车端,赋予“AI汽车”一颗全新的智能大脑。
小鹏从2024年开始搭建AI基础设施(AI Infra),当前已建立起万卡规模的智能算力集群,这是目前国内汽车行业最大的自动驾驶算力集群。
如今,小鹏的算力储备已经达到10EFLOPS,集群利用率长期保持在90%以上,甚至在高峰期达到98%,充分发挥了其计算能力的优势。
“我们为什么要投入巨大的资源来构建云端基座模型呢?如果我们仅仅局限在车端算力的狭隘领域,我们的模型大小将受到限制,能够真正消化的数据也将受到限制。只有超越车端芯片算力的限制,真正使用更大的模型、更丰富的数据,通过简洁的思路把驾驶这件事做到极致,我们才能真正实现车端的智能。”李力耘介绍说。
如何让车端模型拥有云端大模型的能力?李力耘借用了去年云端模型的两个最重要的进化,“一个是知识的蒸馏,另一个是强化学习”,将其应用于车端模型,实现了云端大模型的能力。
Deepseek 在数字世界中证明了蒸馏和强化学习技术可以大幅增强大模型的能力,小鹏现在正尝试将其应用于具身物理世界,实现实际落地。
知识的蒸馏是通过在云端大模型中实现深度思考(CoT思维链)的能力,然后将这些能力蒸馏到车端模型上。在云端训练中,大模型能够形成对每一个场景的逻辑思维链条,这些链条不仅符合训练数据,还可能超越训练数据本身的边界。然后,这些思维链条将被转化为操作,并以合适的频率控制自动驾驶系统。
引入思维链之后,智驾大模型展现出了极其强大的泛化能力,能够在香港未正式开放XNGP功能的情况下,仍然能够按照导航驾驶我们的车。李力耘介绍说,这表明,在拥有真正大模型能力赋能的情况下,通过蒸馏可以期待自动驾驶真正具备自己的灵魂、自己的大脑。
在蒸馏后的步骤中,强化学习的应用将有助于打破智驾大模型的上限,实现比人驾更安全的效果。在危急情况下,人类的紧张和思维惯性可能会干扰判断,但AI却能够保持冷静。通过强化学习,AI可以自由地探索一切可能的操作,突破人类固有的认知局限,寻找危险场景的可行解决方案,从而最大化确保行车安全。
根据小鹏世界基座模型负责人刘博士的介绍,小鹏选择从三个方面入手搭建整个奖励机制。
小鹏首先设计了奖励函数,采取最为简单的规则,例如合规、安全、舒适等,这些参数直接决定了行车体验。这些规则的设计和出发点来自小鹏前期的智驾研发过程中积累的丰富经验。这些规则作为大模型强化学习的开始,小鹏的智驾大模型在起步之初就打好了基础能力。
其次是设计奖励模型。奖励模型的设计旨在让智驾模型获得更加连续、更加泛化和更加多维的奖励信息。换言之,就是向智驾模型传达“什么是好的”,并以此鼓励智驾模型寻找方法实现这些表现。这部分小鹏更关心智驾模型对接管和市场反馈数据的响应,奖励模型将让智驾模型尽量避免接管,或者根据市场建议来改进“开车习惯”。
作为当前智能驾驶技术的前沿方案,世界模型在行业内扮演着关键角色,通过仿真来实现端到端智能驾驶的泛化能力。在小鹏的观点中,世界模型不仅仅是现实世界的“模拟器”。为了充分发挥世界模型的作用,需要将其作为智能驾驶模型的闭环“训练场”。世界模型需要具备能力根据智能驾驶模型的动作输入,模拟出真实的场景,并生成其他智能体的响应,从而构建闭环的训练网络。
刘博士指出,理解世界模型应该具有的能力,需要考虑一个例子,即智驾遇到前面有辆车,选择绕行的场景。智驾的行为不仅仅是简单的模拟空间,而是基于常识和对环境的理解。对过的车辆看见我们正在绕行,它也会根据常识和环境的理解,采取避开一点空间的措施,而不是继续保持直行。因此,世界模型本身的运行应该符合常识,而不是“生硬死板”的模拟空间。刘博士总结说,世界模型更像是一个生成式的想象系统,要理解这个世界以及如何去完成动作。
“在这个时代,我们真的感到非常幸运,因为大模型的赋能让我们真正地看到自动驾驶技术离我们前所未有的近一步。”
回忆起从事自动驾驶开发的经历,李力耘感慨良多。一路走来,小鹏汽车经历了硬件算力的稀缺期,走过了不停写规则、完善智驾的艰辛,也体验了端到端加速智驾研发的惊喜。面对自动驾驶的“高峰”,李力耘在研发中越来越充满信心。
“功成不必在我,但功成必定有我。我们小鹏汽车自动驾驶团队将坚定不移地继续深耕这条道路,一定会把真正的自动驾驶带给广大群众。”
以下是润色后的单段内容: 小鹏AI大模型技术沟通会问答环节实录(经光锥智能编辑整理),在这次的交流中,小鹏汽车自动驾驶副总裁李力耘和小鹏汽车自动驾驶产品高级总监袁婷婷共同与小鹏AI大模型技术进行了深入的探讨和沟通。
小鹏的AI模型开发与特斯拉具有相似之处,皆是将人工智能技术应用于车辆领域,实现自动驾驶和智能驾驶功能。但是,小鹏的AI模型开发也存在一些不同之处,例如小鹏的模型更多地集成了深度学习算法,能够更好地处理复杂的环境和场景。
李力耘:我认为,应该是“英雄所见略同”。首先,我们都是面向C端的公司,都拥有C端落地的产品,因此我们都拥有海量的数据。其次,我们都拥有非常高的算力储备和AI能力。我认为,很多问题可能就不需要多加解释了,如果AI能力只是为了从车端训练小的模型,那显然不是一个终极方案。区别部分是小鹏的基座模型不仅仅是对世界的理解,更重要的是需要它像人一样,既有快速的思考能力,又有渐进的分析能力,从而实现与现实世界的交互。
袁婷婷:现在,可能大部分人想使用世界模型来进行仿真,但显而易见,这种模型不仅仅局限于仿真。我们还将其应用于训练Agent(智能体)的反馈机制和博弈关系,以及确定其下一步动作。
基于以往的规则,可以被理解为是一种托底。世界模型生成的规则是否可能与以往设定的规则产生冲突?许多人都在提基座模型、VLA,看起来好像都是语言、视觉或者说动态的、多模态的概念,这些区别到底在哪里?
李力耘:我认为最关键的区别在于超越车端芯片算力的“一亩三分地”,我们的模型真正体现了“大道至简”的精髓。我们不需要考虑部署的问题,可以先通过最简单的模型、最纯真的模型架构、最庞大的优质数据,达到超越的、未曾预想到的能力爆发效果。
语言是一种复杂的表征形式,不仅仅局限于人类语言的形式。我们通过结合大语言模型和独特的多模态视频编码器的输入,结合动作解码器的输出,并实施强化学习的方式来实现语言表征。我们的基座模型旨在为物理世界交互提供坚实的基础。语言模型的预训练可以为模型提供一定的推理能力,但更关键的是让模型具备推理和思维能力。在云端验证了这些能力后,这些能力才是我们值得精心蒸馏的核心内容。
在规则时代,小鹏无疑是领先的,我们的规则积累深入骨髓。这些规则,过去可能被看作是一个负担,但现在,我们感到自豪和高兴,因为这些规则正在转化成我们的资本。我们成功完成了许多核心研发同学从规则化到AI化的转型,尤其是在强化学习的早期,规则实际上是积累好的经验和老师,规则不断沉淀,AI才能更高效地成长。没有以前规则的积累,我们可能不知道如何去教AI。只有规则和强化学习的积累到一定程度,我们才能实现从Reward Model(奖励模型)到World Model(世界模型)的转变。
袁婷婷:我认为我们的云端基座大模型与其他云端训练至少存在三处不同之处。
我们的训练方式是我们从去年11月份就提出的,首先在云端训练一个庞大的模型,然后将其蒸馏到车端的流程。今年1月,我们看到DeepSeek公开的论文,显示他们也在使用蒸馏方式,这使我们感到非常相似。通过这种方式,可以超越车端模型的能力限制,改变云端参照车端算力的做法,搭设模型规模。
第二点是架构和性能表现的显著区别。我们正在训练的模型已经达到了72亿参数的规模。更大的模型能够承载更大量的训练数据,我们当前使用的是2000万个Clips,预计到年底将达到2亿个Clips。这些领先行业的训练数据量将转化为模型性能上的巨大优势。
第三点是我们的基础能力。我们从 scratch 开始构建了AI Infra,这些AI基础设施绝不可能在短时间内从0到1生成。我们甚至还创建了整个自动驾驶行业内首个万卡集群。如何最大化发挥这些算力训练的效率,以及如何仅需12小时就能训练出一版模型,这些都体现了我们今天在行业中的领先优势。
LLM(Large Language Model)的幻觉问题是指模型在生成文本时,可能会出现与实际情况不符的信息,例如生成的文本中包含非真实的信息、事件或人物等。解决这个问题,可以通过以下几种方法: 第一,规则兜底:可以使用规则和算法来检测和过滤模型生成的文本,例如使用 fact-checking algorithm 来验证文本中的信息是否真实。 第二,数据增强:可以通过数据增强技术,例如数据augmentation 和数据editing,来增加模型的训练数据,并提高模型的泛化能力和抗噪能力。 第三,模型改进:可以通过改进模型的架构和训练方法,例如使用 attention 机制、使用多任务学习等,来提高模型的性能和抗幻觉能力。 第四,post-processing:可以使用 post-processing 技术,例如使用 natural language processing algorithms 和 human evaluation,来检测和修复模型生成的文本。 模型蒸馏到自研芯片上,相比使用常见芯片,效率方面有所不同。自研芯片可以提供更
李力耘:确实,大模型的预训练过程中偶尔会出现一些幻觉或模态坍塌,这些情况很难通过类似写损失函数的方式来解决问题。但是,我们通过后训练微调和强化学习的方式来打磨,旨在让AI不仅达到非常高的上限,还能对下限进行兜底。与现在的车端端到端模型不同的是,车端模型尺寸较小,有些信息确实很难学习进去。但是,云端大模型则具备掌握真正灵魂和智能的能力,这是我们坚定的发展方向。
在云端世界模型、仿真和实车验证能力后,可以将其蒸馏到不同的车端芯片上。只有在确认云端能力后,车端芯片才能确定承载能力。我们旨在通过自研芯片和软硬一体优化,带来事半功倍的效果,为大家提供更高效的解决方案。
袁婷婷:我认为第二个问题的关键就在于两点。首先,蒸馏方法的应用必然能够提高上限。因此,我们使用云端的基座模型蒸馏到车端的方式,远远超过了现在直接在车端训练的双Orin或将来的我们自己的芯片。无论哪种方式都是加码,这是一个确定性的结论。
第二点,我们即将推出新车。新的微芯片算力将明显超过当前车端算力,具有数倍的提高。假设自动驾驶是一个人,需要拥有超级聪明的大脑和锐利的眼睛,以面对世界并做出判断。这个过程中,最核心的部分一定是聪明的大脑。大脑的规模越大,处理速度越快,一定更加强大,这也是一个简单易解的常识性问题。因此,无论是今天的双Orin车型还是来自研芯片的车型,都遵循Scaling Law的进化原则。
安全对汽车而言是生命线,AI技术未来在安全中将发挥更大的作用。在当前,我们已经思考了一些最新的方案,旨在通过更多的规则和控制方式来保障底线。
李力耘指出,安全的首要之处在于拥有雪亮的眼睛、聪明的大脑,以及灵敏的身手和反应。安全是我们最重要的一环,我们也在努力朝着这三个方向前进。
雪亮的眼睛,仿佛是我们眼观六路,耳听八方;在传感器的覆盖上,我们高度重视的每一个细节。当然,更重要的是,我们认为你需要拥有聪明的大脑,这样才能实现许多预防性的安全措施。最后,身手也需要好,无论是整个车端的端到端,还是通过云端的基座模型蒸馏出来的端到端,都是一体式的,这样可以确保最小的延时,使用最多的信息,以最敏捷的方法去帮助我们实现更好的安全。
袁婷婷:首先,AI汽车无疑是安全汽车。AI汽车的出现标志着AI安全的确立,这是一种确定性,而且在小鹏核心战略中,AI的安全性是核心和不容退让的一步。
第二,从端到端走向L3、L4的过程中,AI的首要步骤是端到端,它是一种极致地模仿人类行为的方式。人类的操作方式是:我开,你开;同样地,AI也可以和人类一样地开,展现出其高昂的舒适性、体验和灵活性。但是,当我们想超越人类时,强化学习一定会带来新的惊喜。这也是为什么我们会使用云端基座模型蒸馏的方式突破云端的上限,用强化学习既突破云端基座的上限,又突破车端的上限。
大家都非常担心AI的幻觉,担心下限守不住。首先,我想说我们现在可以看到的是,随着AI介入越来越多,其实安全性的表现是越来越好的,而未来这个表现应该还会持续得更好,并且会远远超出人类现在驾驶行为能够带来的安全。因此,我们可以期待在更多的极限场景中,AI将给大家超出预期外的安全,甚至在概率极低的0.0001%的情况下,也能够发挥出更好的实力。如果我们想要达到L3、L4的标准,就一定要在这些极限场景中,展示出更出色的性能。
探索自研基座模型的必要性,需要首先理解其他基座模型的限制。这些模型虽然能够在某些领域取得不错的效果,但是在特定的应用场景下,仍然存在一定的局限性。例如,其他基座模型可能缺乏特定领域的知识或经验,导致在该领域中的性能不佳。此外,其他基座模型也可能存在某些固有的缺陷,例如过拟合或欠拟合,影响其在实际应用中的效果。 小鹏平台的自研基座模型正是为了解决这些问题而诞生的。通过自研基座模型,小鹏平台能够更好地适应特定的应用场景,提高模型的泛化能力和鲁棒性。同时,小鹏平台也可以根据实际需求进行模型的调整和改进,从而更好地满足用户的需求。 对模型开源的理解是,开源模型可以让更多的人参与模型的开发和改进,从而促进模型的发展和完善。同时,开源模型也可以让用户更好地理解模型的工作原理和性能,提高模型的可靠性和
袁婷婷:实际上,大家首先需要LLM作为核心骨干,实现自动驾驶需要将大量的现实世界数据叠加到上面。物理AI世界非常复杂,与文本的比特世界不同。物理世界会遇到现实的速度、控制、人类和运动等非常不同的状况。我们添加了自动驾驶数据后,又使用CoT推理链一步步地理解和推导出整个现实世界的脉络和物体的运动。这些区别当然是存在的,但我们也拥有一个LLM的底层骨干网络。
我认为小鹏自动驾驶也好、智能座舱也好,在AI开源浪潮中都受益匪浅。无论是通用千问还是DeepSeek这些非常出色的、非常优秀的AI公司,都让我们受益匪浅,我们对未来的发展也抱着开放的态度和积极的期待。也许有一天,我们也能看到自动驾驶的一部分通过开放的方式,给世界和行业一些反馈,这也是我们对未来的期待和期望,但今天肯定还没有到这个时候。