21世纪经济报道记者 吴晓宇 见习记者焦文娟 报道
今年年初,特斯拉正式在北美推送FSD V12版本之后,中国自动驾驶行业许多CEO和高管都前去体验。
小鹏汽车CEO何小鹏也是其中一员。经过几次体验后,何小鹏很是振奋,他主动向自动驾驶副总裁李力耘说起感受,“丝滑感显著、拟人感提升,可以明显感受到FSD在思考”,并希望团队骨干成员尽快去美国体验一次。
FSD的快速迭代,让小鹏自动驾驶团队对端到端大模型路线更为笃定。
小鹏汽车是“智驾老兵”。2017年9月,小鹏便开始自研智能驾驶软件算法,分别领先华为和理想1年8个月、3年5个月。之后,小鹏完整地经历了高速辅助驾驶、城区辅助驾驶阶段,还在今年年初的开城竞速赛中率先落地200城。
端到端的布局和预研,要追溯到2022年。李力耘告诉21世纪经济报道记者,小鹏自动驾驶团队曾做过几次探索:起初,是用各种小模型。小鹏当时“堆了”几十个优秀的算法工程师,希望通过规则牵引去解决问题,但最终却无法摆脱传统的规则限制。
2023年3月,OpenAI发布GPT4,不久后,Sora、o1新模型诞生,AI大爆发,这些重要事件启发了小鹏。2023年年初,小鹏开始探索如何将端到端大模型运用到自动驾驶领域,随后,小鹏又开始向云端大模型迈进。
而中国绝大多数车企则是在特斯拉FSD V12版本之后才坚定地拥抱端到端(End-to-End)大模型的。
今年以来,蔚来、理想、零跑等车企都围绕端到端成立了研发团队,他们希望借此获得弯道超车的新机会。“当进入一个新的、以特斯拉为引领的技术周期,我们不能以传统的时间去估算新技术产生的时间。不要认为,别人花多久,我们就花多久。”一位从业10余年的智驾人士告诉21世纪经济报道记者。
为了见效快,有的车企选择了One piece端到端模式。而在智驾上积累7年的小鹏,被质疑采用了分段式端到端,“路线保守”。
李力耘否认了小鹏是分段式端到端,“我们和华为类似,XNet、XBrain、XPlanner分别扮演人类眼睛、大脑和小脑角色,三者是互相重叠、互相耦合的。”
在他看来,车端一个One piece 大模型,有一定副作用——未来,随着数据量的增加,车上的有限算力吃不下这么多数据。而小鹏的解决方案是云端大模型,“云端大模型的参数会是现在车端的 80 ~ 100 倍,这是彻底的One piece智能体。”李力耘说。
研发无图的过程中,随着端到端渗透率的提升,小鹏自动驾驶团队还调整了组织结构:新组建了 AI 模型开发、AI 应用交付、AI 效能三个部门。小鹏没有裁员算法工程师,而是帮助他们完成端到端转型。“小鹏的智能驾驶团队一直稳定在2000人左右,跟随业务有序增长。”李力耘说。
李力耘将端到端视为“热兵器时代”,过去的辅助驾驶时代则是“冷兵器时代”。冷兵器时代,只要凑齐了武林高手就可以打。但热兵器时代需要更大的算力、更多的数据、让算力和数据流转起来的机制(数据飞轮体系)和工程能力。
“紧跟趋势转型的企业可能会成功,但总体而言,热兵器时代会系统性地拉开第一梯队和第二梯队的差距,弯道超车更难了。”李力耘认为。
以下是21世纪经济报道与小鹏自动驾驶副总裁李力耘、自动驾驶产品高级总监袁婷婷的对话:
21世纪经济报道:你之前有L4背景,曾是百度美国无人车研发团队的创始核心成员、担任京东硅谷研发中心X实验室架构师,你为什么不继续L4研发,而在2019年选择加入乘用车公司小鹏?
李力耘:我是2019年6月加入小鹏的。虽然我以前一直做偏L4的自动驾驶,但我其实是一个坚定的渐进式信仰者,我认可自动驾驶的终极形态一定是做真正的无人化,但一步到位、直接做无人很难。
我很喜欢车,是一个非常有产品热情的人。我自己开的就是小鹏,以前我开P7,现在开G6 Max,能够看到自己的代码跑在自己的产品上,并把这个产品买回去天天开、看着它不断进化,我觉得这件事非常酷。
21世纪经济报道:你加入小鹏时,何小鹏说了什么打动了你?
李力耘:我先在美国见到了吴新宙(时任小鹏自动驾驶负责人),当时他去小鹏已有半年,团队已经有一些人了,接着回国见到了何小鹏。何小鹏说:“我们是一定要做自动驾驶。”他对自动驾驶十分笃定、坚定智能化能带来改变,非常打动我。
为了能在一线体验产品,不用飞来飞去,2020年,我把家从美国搬回了广州。
21世纪经济报道:在辅助驾驶方面,特斯拉今年年初推出了FSD V12版本,引领了端到端的方向,小鹏是受到特斯拉影响吗?
李力耘:我们早在 2021、2022年,便开始积极布局和预研端到端了,本着数据驱动的理念,用轻雷达、轻地图,现在行业更习惯用去激光雷达和无高精度地图这两个词。
特斯拉一直也是本着数据驱动的理念来做。我们非常尊敬特斯拉,目前只有小鹏和特斯拉能做到既不依赖高清地图,也不依赖激光雷达,用一套软件适配高阶辅助驾驶车型。
21世纪经济报道:2017年9月,小鹏开始自研智能驾驶软件算法,分别领先华为和理想1年8个月、3年5个月,完整地经历了高速NOA、有图城区辅助驾驶、无图城区辅助驾驶和目前的端到端阶段。和之前的阶段相比,端到端最大的不同是什么?
李力耘:以前的辅助驾驶好像冷兵器时代,我们需要很多武林高手,万军之中取上将首级——他们懂驾驶场景、懂业务、懂数学、又懂一两个小模块,他们能够所向披靡。但事实上,找到很多武林高手非常难。即使找到了,我们面临的复杂场景千变万化,相当于敌人的数量更多。
端到端时代,好似从冷兵器时代来到热兵器时代,不依赖人力,而是通过“火药”、排兵布阵的方式赢得胜利。“火药”相当于数据、算力和算法,将这些原料在工厂里变成模型后,再通过训练模型解决问题。
21世纪经济报道:小鹏端到端的海量数据从哪里来?
李力耘:与自动驾驶L4企业相比,作为主机厂的小鹏有自己的车,在数据收集上,我们具备更好的定义能力。
与起步晚的车企相比,小鹏之前积累的优秀工程素质能帮我们更高效地收集数据,原来的规则可以给 AI 提供一些引导、会当老师。
最后,小鹏的车型丰富,从轿车、 SUV 到MPV,从A级、B级到C级都有涉及,这保证了我们的数据的多样性和丰富性。
21世纪经济报道:积累数据是端到端的难关吗?车企拥有了数据和算力,是否就意味着能实现端到端大模型的落地?
李力耘:在原来的规则时代,系统连接了十几个摄像头,进入端到端时代后,这些传感器的数据量和之前没有发生变化。
规则时代,解决问题前,我们会先看问题是由感知,还是预测,还是两组问题共同导致的。我们会通过这两组算法工程师设计场景、数学模型和规则,去解决问题、回归场景。只是这样的细节问题太多了,还会牵扯更多模块。
变成端到端后,打法不同了,整个链条变得很长。车企需要收集用于解决场景问题的大量数据,甚至将无监督的数据做好标注、清洗,给自己当模型。这个模型可以先预训练再联合训练,也可以是一个大模型来做训练。训练好后,看训练出来的模型的质量能否完成量化、部署、仿真验证、上车,整个链条非常长。
数据收集之外,工程能力还体现在大数据体系的建设、算力部署能力,这都不是一件容易的事。
21世纪经济报道:小鹏在冷兵器时代积累的那么多“武林高手”用不上了吗,过去的积累能发挥哪些优势?
李力耘:要想收集高效数据,最重要的一条是自动驾驶团队需要在车端做很多工作,否则收了大量数据回来,却进入存储中,就变成了成本。
如果不是无限资源的话,车端数据的收集需要很强的算法能力、甚至是AI能力。这和我们之前的积累一脉相承。比如用规则去监督数据收集,比如AI出的路径,可能在几何上非常不合理,明显不像是人会开的,可以通过规则快速识别出来。
与传统的技术方案相比,端到端往往被认为上限高、下限低。但这可能是我们做得很有特色的地方。我们在上一个时代,建立了充分大量的仿真数据集,这些仿真数据集,都是经过规则校正的,当AI的新模型上限的时候,会去跑这些数据集,我们就能够快速发现模型的下限的不合理,进行对模型的快速校正。我们过去积累的规则为 AI 兜底了。
另外,目前只有小鹏和特斯拉能做到,既不依赖高清地图,也不依赖激光雷达,用一套软件适配所有高阶智驾车型。
21世纪经济报道:为什么其他车企做不到,他们差在哪里?
李力耘:一是小鹏数据采集的效率更高;二是小鹏有很强的平台化工程能力。在AI端到端时代,有无激光雷达、无论怎样的车型,对我们来说都是一套智能驾驶解决方案。
21世纪经济报道:特斯拉V12之后,很多车企拥抱端到端,希望借此弯道超车,弯道超车更容易了还是更难了?
李力耘:原来工程化能力拼的是招募和堆砌各种方向的冷兵器高手,只要凑齐了他们就可以打。
热兵器时代需要更大的算力、更大的数据,在这背后,能让这么多算力、数据流转起来的机制,还要把这些东西布置到车上,并且上车过程中,特斯拉和我们都不否认,偶尔有一些时候都是需要一些规则兜底。紧跟趋势转型的企业,我觉得也可能有成功,但总体而言,会系统性拉开第一梯队和第二梯队的差距。
袁婷婷:在工程上,我们投入了非常多的精力在 AI Infra 上(即人工智能基础设施,连接算力和应用的AI中间层基础设施)。打个比方,要炒一份菜,你可以用很好的灶、柴火和果木,也可以用酒精灯、上面放一个小铝锅,看起来好像都能很快端出一盘菜来,但长期来看是完全不一样的。
做端到端,就像是十月怀胎。十月怀胎,就是真的需要十个月的充分的营养和照料,它才能有呱呱坠地的那一刻。它不是我打算做了,我投入足够多的钱,所以我用十个人,就能一个月“生”出来。它需要足够扎实的基础,付出足够扎实的努力,才能获得最终的收获。
21世纪经济报道:小鹏最早试水端到端是什么时候?当时端到端是什么形态、表现如何?
李力耘:2022年9月,小鹏城区辅助驾驶落地广州,成为第一家量产城市导航辅助驾驶的车企,但我们整个研发是在2022年上半年就完成了,时间花在了审图上,那时候我们认为高精地图是一个拐杖。要想做好城区导航辅助驾驶,我们需要用更泛化、更好的技术方案,去适应各种各样的路况。我们便开始向无图方案切换。
起初,无图的方案需要更复杂的算法,它要检测三轮车、电动车等各样的车,远不如定义一个模型将之泛化便利,因此,我们当时尝试了小模型堆砌的方式,堆了几十个非常优秀的算法工程师,通过一些规则的耦合去解决问题。
但人为定义规则的接口,意味着这些模型仍然没有摆脱算法规则,另外堆更多优秀的算法工程师上去,也是一件难事。
21世纪经济报道:小模型最难解决的问题是什么?当时碰到哪些特殊案例?
李力耘:通过各个小模型规则的耦合是无法解决问题的,因为模型之间本身要传递更多信息。
小模型时期,环岛、窄路、小路、调头、大路口等场景非常难,我们可能要花3~5 个月。
比如有些城市的路口很复杂,驾驶员在一个路口要左转,但发现前面一条路是上桥、一条路是去辅路、旁边还有一条路,系统可能直接减速为0。
而端到端大模型很聪明的,它解决了两大问题:一是特殊场景从不能开到能开;二是提升拟人性。比如驾驶员在上述路口,系统不会停下来,也不会换到另一个车道,而是会像人类一样犹豫,稍微减速后笃定地选一条路走过去。稍许的感觉就像大厨烧菜,加稍许盐,味道就刚刚好。这种变化非常拟人,非常有“端味”。
在数据和大模型的加持下,我们大概一两个月就可以把上述场景做好。
21世纪经济报道:什么契机让团队开始思考需要向大模型转型?
要想成为全球顶尖AI企业,盯紧最前沿的AI技术发展不可少。2023年3月,OpenAI发布GPT4。之后,从OpenAI发布Sora、o1的新模型的诞生,AI大爆发,这些重要事件牵引了我们的思考。
我们之前有数据积累、架构积累,去年年初,我们开始思考如何将大模型运用到自动驾驶领域。今年年初,我们又开始探索从大模型转型至云端大模型。
我觉得云端大模型更有魅力,未来,在一个路口,系统甚至可以更加笃定地直接按照记忆去选一个更好的路,它可以降维打击大模型、赋能智能驾驶。
21世纪经济报道:今年5月,小鹏宣布量产了端到端智驾大模型,成为继特斯拉后全球唯二、国内首家量产端到端智驾大模型的车企。当时智驾大模型的设计思路和今天有哪些不同?
李力耘:第一版上车的端到端智驾大模型是按照场景逐步上车的过程。在小鹏即将发布的AI 天玑XOS 5.4.0系统,我们不分场景、全量使用了端到端大模型,整体的拟人性会上一个大的台阶。
21世纪经济报道:在端到端方案的选择上,目前主流的观点有两种:One-model 端到端和分段式端到端,小鹏被归为分段式端到端,你认可这种观点吗?
李力耘:分段式端到端是人为造出来的概念,小鹏不是分段式端到端。
在小鹏自动驾驶系统中,分别扮演人类眼睛、大脑和小脑角色的XNet、XBrain和 XPlanner是互相重叠、互相耦合的。深度学习时,三个大网络会对各个部分做预训练,之后再联合训练。
21世纪经济报道:为什么要这样设计?
李力耘:两个方面的原因。第一个很重要的原因是,我觉得我们站在一个认知的高地,因为我们从很早就开始投入端到端的研发,并且本着完全拟人的原则设计了XNet、XBrain和 XPlanner。而在这背后更重要的是我们有云端大模型或者叫foundation model,为了可解释性以及算力的合理分配和部署,才把它预训练成三个网络。
其实华为的端到端架构中也有一个感知网络、一个规控网络,以及一个本能安全网络。我们和华为在模型认知上有相似之处,即在端到端本质下,我们更在意信息的无损传输、信息保留的最大化,而不会刻意追求one piece的训练、部署。
另一方面,让 AI 去开车这件事本身非常激进。在端到端大模型设计时,如果采取循序渐进的方式,三个网络既有侧重又有联合,既可以增加更多可解释性、可管控性,算力的分配和部署也将更合理。至少在调试过程中,我们更容易知道什么地方出了问题。
21世纪经济报道: One piece端到端有自己的优势吗,又有哪些挑战?
李力耘:车端一个 One piece 大模型,可能见效很快,因此外界会觉得其有弯道超车的潜力。但它却有很大的副作用——未来,随着数据量的增加,车上的有限算力其实吃不下这么多数据,便可能会带来很多挑战。
21世纪经济报道:三个网络去联合训练不如One piece那么快,小鹏怎么解决这个问题?
李力耘:在方法论上,慢就是快。我现在更认同类似 Open AI 这样的云端大模型,这是彻底的One piece的智能体。所以我们会布局云端的大模型,并且会去考虑车端可解释性的安全兜底。
虽然见效是一个逐步的过程,但我们不用做重复建设,上限会更高。云端模型参数会是现在车端的 80 ~ 100 倍,2025 年底,我们的云端算力会达到 10EFlops 以上,相比 2024 年的规划增加 2.6 倍。
21世纪经济报道:今年5月小鹏宣布完成100%无图化。有种观点认为,小鹏将无图做到极致后,智驾大部队才去研发端到端,路线比较保守。
李力耘:一开始研发无图,我们就有一些端到端预埋在里面。想要实现真正的无图,无图意味着要泛化,意味着车企要具备一定的理解能力,所以从无图之初我们就开始(端到端),无图化的过程,就是端到端逐步上升的过程。
只不过无图化走完了, 端到端仍然没有走完。因为我们最终的目标是以L2的成本实现类似L3的体验,进一步走向自动驾驶和无人驾驶。
21世纪经济报道:何小鹏在今年7月的“AI智驾技术发布会”上说,小鹏今年在智驾上投入了35亿元,还招了4000人。特斯拉的智驾团队规模自始至终也没超过1000人,小鹏为什么需要这么多人?
李力耘:我们团队规模持续跟随业务的变化在增长,但一直稳定在2000人左右。招募4000人,是指整个大AI方面。
小鹏立志成为中国甚至全球的 top AI 企业,所以围绕整个 AI 的业务进行团队布局,汽车制造、语音座舱、机器人、自动驾驶都是AI,并不是仅仅指自动驾驶。
因为相信,所以看见。小鹏对于智能化的投入是非常笃定的。我们不用去对比其他公司的人数,我们希望能以 L2 级的成本实现 L3 级的体验,最终走向自动驾驶跟无人驾驶。
21世纪经济报道:今年上半年小鹏智驾团队有5名老将离职,人才流动频繁,对你的心态有影响吗?
李力耘:这是一件正常的事,也是一件良性的事,人员的流动对整个行业都是有好处的。
21世纪经济报道:小鹏没有裁员算法工程师,那之前“冷兵器时代”的算法工程师现在去哪里了?
李力耘:我们特别注重人才,我觉得原来“冷兵器时代”优秀的算法工程师,就是那个时代非常聪明的人。
内部,我们会积极培养他们的转型;外部,我们会持续招聘优秀的人才,牵引他们的转型、激活人才。小鹏作为一个立志成为中国和全球 top 级的AI公司,我们非常珍惜人才、非常求贤若渴。
我们最近也对组织架构做了调整,我们把它叫做面向“热兵器时代”做的调整。
凡事都是变化的,团队人才的画像有一定的变迁,但演化是很正常的。原来优秀的同学我相信只要他们去努力学习,仍然会优秀。
21世纪经济报道:在小鹏之前,蔚来和理想都调整了自动驾驶团队的组织架构,为什么小鹏这么迟?有一种较为尖锐的观点认为,小鹏有包袱,因为如何安排在无图城区NOA时代立下战功的人是一个难题。你怎么看待这种说法?
李力耘:8月只是我们对外宣发的节点,调整是顺其自然、应运而生的。在无图的过程中,伴随着AI端到端的渗透率上升,我们便开始调整了团队的运作方式,逐步向AI的应用、AI的研发、AI的效率这几个方向转变,所以工作方式的变化其实很早就存在。
21世纪经济报道:具体的组织调整是怎样的,涉及多少规模?调整效果如何?
李力耘:原来,小鹏的技术部门分为规划、预测、控制、感知、融合各个组,我们的组织架构以AI为核心,新组建了 AI 模型开发、AI 应用交付、AI 效能三个部门,希望充分发挥 AI 的生产力,涉及百人规模。
调整之后,我们能够尽最快的速度实现全国都能开,而且在原来的弱势场景上,比如调头、窄路、博弈上,我们取得了长足的进步。这些都是我们调整组织架构带来的实打实的收益。
21世纪经济报道:从算法工程师向大模型转型,他们会有哪些不适应的地方?
袁婷婷:无论是在北美还是在国内,我跟大家聊起这件事情来,他们都是很开心的。这些同学具备了非常好的工程素养、基础算法能力,向大模型转型期,他们既拓展了自己能力的边界,还能为公司做出更大的贡献,又适配上了这个时代的趋势。
现在我们整个组织阵型的调整适配了我们现在生产力的发展。
21世纪经济报道:小鹏在德国路测是因为大众吗?
李力耘:和大众无关,是和产品节奏有关。我们和大众不只是一个简单的供应商关系,也是一个战略合作的关系,我们也是按平台化的思路来赋能大众的。
21世纪经济报道:何小鹏今年4月说,小鹏已经完成了在德国的高速领航辅助驾驶NGP路测。特斯拉FSD入华这么难,小鹏凭什么有信心智驾出海?
袁婷婷:小鹏作为一个面向全球的 AI 企业,出海是笃定去做的。
第一,我们坚守全程全球化的市场定位,是我们的长期主义。第二,我们要和本地共赢。第三,我们坚定走智能化科技的路线,而不是卖更便宜的车,我们要做中高端的车。
中国的场景相对比较复杂,比如有3亿小电驴、各种各样复杂的场景,是一个很好的练兵的场面,也对我们的AI 体系能力做了很多的锻炼,让我们摸到了端到端数据驱动的这条路。
通过数据驱动来对海外的市场做赋能,远比我们去每个国家找一组工程师去适配规则更高效,也对海外用户更加负责。我们有信心把海外市场做到很好。
21世纪经济报道:目前小鹏出海的进展如何?
袁婷婷:我们目前已经完成了两个 OTA 的海外核心版本的上线,这一部分也在海外客户里获得了好的口碑。我们相信在2025年、2026年,我们在海外的智驾一定会给大家带来更大的惊喜。