特斯拉删除99%代码,FSD却更好用了!智驾的终极答案竟然是它?

2024-08-09 24806阅读

前段时间,特斯拉“完全自动驾驶”FSD,推送了最新的V12版本

这次更新对整个智能驾驶行业发展来说,绝对算得上一次里程碑式的革命!

一般的智驾更新,基本上都是在原有的基础上增加几行代码,或是优化个参数,主打一个小修小补。

特斯拉倒好,不仅没在基础上做加法,反而大砍一刀:把FSD原本30多万行的C++代码砍到只剩3000行,缩减了99%!

你想想,假如一个人突然发生意外,挂掉了99%的脑细胞,即便能侥幸活下来,大概率也会变成植物人。

可反常理的是,只剩3000行代码的FSD V12,非但没有变成人工智障,反而比之前任何一个版本都要聪明!

在国外,不少长测FSD的博主都表示:“刹车和转向的停顿感减轻了很多,前所未有的舒适和丝滑,决策上也特别自信,就和真人开车一个样。

就比如在两边有大车遮挡视野的时候,老版本FSD会直接大胆地通过,有鬼探头了再来一脚AEB急刹;现在则会提前减速,像极了老司机的防御性驾驶。

再比如遇到多车通行的复杂路口,以前会直接刹停等待,直到路口人车没那么复杂再前进。现在则会不断低速蠕行,找到交通流中的一条缝隙再小心地钻缝通过。

开着FSD路上突然碰见一只猫,车还会和猫博弈争夺路权——先缓慢接近,直到猫咪跑开,它才会继续前进。

包括以前处理不好的环岛和掉头路段,现在也可以更丝滑的处理。甚至手动把车开到一个比较尴尬的复杂路段,再开启FSD,系统都可以做到正确接管。

中国自主品牌智驾头牌CEO之一的何小鹏,在听闻FSD这波史诗级更新之后,毅然决然的跑到美国亲自试驾了一波,完后发微博用“极好”二字对新版FSD赞叹不已。

虽说这次FSD更新相比老版本而言有了很明显的进步,但新的问题也随之而来——

有时候系统会显得有些“聪明过头”了,会自己随机产生一些意料之外的想法。

比如该按照导航直行的路段,车却自己并线到了左转车道,还顺利执行了左转。

再比如,有时候车会把用于警示作用的持续闪烁的红灯,错误的识别成红绿灯而刹停,即使有车从旁边经过也无动于衷。

不过让人匪夷所思的是,第二天同样还是遇到持续闪烁的红灯,车在刹停之后,前面的施工工人在朝车招了招手,示意可以向前开之后,车就像是读懂了工人的手势一样,竟然开始前进通过路口了!

现阶段FSD V12版本确实还存在不少BUG,就像薛定谔的猫一样神秘莫测。但总体上来说,新版本的表现要更加出色,有些时候还会展现出和人一样的决策能力。

可别忘了,新版本FSD的代码只有3000多行,和80年代“小霸王”上的热门游戏《坦克大战》的代码行数几乎一样!

虽说现在的智驾领域,已经不是代码越多越复杂、代码越多功能越强的年代了,毕竟还有一种叫做“祖传屎山代码”的东西。

但特斯拉只靠重建代码就能获得近乎完美的智驾体验,这确实大大出乎了所有人的想象。他们到底是怎么做到的?

这就不得不提到一个,最近在智驾圈子里炒的很热的一个新名词了——“端到端”。这也被很多业内人士认为,是智能驾驶的终极答案。

我第一次听说“端到端”这个词的时候,以为就是字面意思,“从A端到B端”,毕竟这是我认为自动驾驶的终极目标嘛。

后来才发现,端到端完全不是这个意思。

端到端的英文名叫“end to end”,如果指的是起点到终点,那应该叫“start to end”。

实际上,端到端指的是:根据摄像头等传感器的图像数据,直接生成车辆的转向、刹车和加速度信号去控制车辆,即“感知决策执行一体化”。

这个词有点晦涩,我再给大家打个比方。以前是三个人打配合,一个瞭望手负责看路,一个指挥官负责决策,一个操舵手负责驾车。


而特斯拉这次的FSD V12,不需要分三个人了,一个人就能全搞定!


看到这可能有人会说,现在车企做智驾不都是这个路数吗?其实不是的。

目前绝大部分智驾厂商,采用的都是串行的结构框架,也就是好几个人打配合的方案。

即先通过摄像头、雷达获取感知图像,再把感知图像处理成机器能看懂的数字信号,再把数字信号发送到智驾芯片做逻辑运算,处理成加减速、转向信号,再传递给电机和转向机执行控制,每一个环节都是由一个独立的模块去控制的。

具体来说,现在大部分头部智驾厂商,从感知到决策这一阶段,主流的都是用的BEV鸟瞰图+ Occupancy占用网络+ Transformer模型的组合。

BEV鸟瞰图,就是把雷达和图像信号,从正视图转化成俯视图的一种技术,为的是能更清楚地确定车的方位,也就是瞭望手站得更远,看得更清楚。

Occupancy占用网络,就是把二维的图像信号,转化成小方块状的三维空间,有点类似于《我的世界》,用来防止车辆磕碰障碍物。

Transformer,算是大模型的一种,前几年爆火的ChatGPT中的“T”,其实指的就是Transformer。

它的作用是能让机器在处理信号时,能筛选出重点信息重点计算,而不是一股脑的全部计算,提升算力的效率,也就是让指挥官更聪明、决策更快。

在串联式架构,配合上BEV+Occupancy+ Transformer,就构成了我们现在能接触到的所谓“高阶智驾”。

不过,现在这种主流的智驾方案,有几个难以规避的弊端。

首先,串联式架构这三个人传话本身是需要消耗时间的,会导致系统整体的反应速度偏慢,反映到智驾体验上就是感觉车会犹犹豫豫的。

毕竟从感知到决策再到执行,很可能要零点几秒甚至更久一些,在瞬息万变的车流中很难立刻进行调整,这就是很多智驾“不敢频繁变道”的根本原因。

其次,传话从第一个传到最后一个,很可能话在中途就变了味,也就是信息失真。尤其在复杂场景下,会增大事故的概率。

再有就是,传统智驾方案中,想要让系统更精确的应对更复杂的场景,采用的方式一般都是“做加法”,比如在原有的基础上多写几行if、else之类的逻辑代码。

久而久之,整套智驾系统就会变得越来越繁杂,就像你的手机系统,用久了肯定会卡。

而且即使加了越来越多复杂的判定逻辑,也没办法照顾周全,因为总有极端复杂到机器无法处理的场景。

真遇到这样的场景,就算把芯片算力拉满了也搞不定,有可能就直接把系统干崩溃了,也就是智驾圈子里常说的“corner case”。

相比之下,端到端智驾把感知、决策、执行这三个环节都整合到一个大模型中去做,只要输入摄像头和雷达信号,就能直接生成控制信号,控制车转向和加减速,省去了原本的逻辑判断过程。

可以简单认为,端到端智驾相当于把智驾系统的分析判断变成了和老司机一样的“本能行为”。就像是刷了无数遍题的学霸一样,只要把题读完就能写出正确答案。

前面所提到的FSD V12的3000行代码,其实并不是普通的代码,而是3000行神经网络代码。

它有点像动物的神经元细胞,能产生神经反射这样的快速响应。因此端到端智驾的运行速度,是远高于传统智驾方案的。

换句话来说,端到端更像生物的运行逻辑。人类在开车的时候,眼睛看到的图像本质上是二维的,但并不妨碍我们做出正确的驾驶操作,并不需要在脑子里先把“正视图”转化成“俯视图”,再做个“2D转3D”。这样太复杂了。

本质上来说,端到端智驾算法的横空出世,是对传统BEV+Occupancy算法的彻底颠覆,也是另一种形式的降维打击。

传统智驾系统需要精确识别并标记车、人、车道线、障碍物等元素;而端到端智驾会更注重识别宏观场景,比如天气好坏、鬼探头盲区等等,都会纳入到识别范围。

毕竟,传统智驾靠的是死板的逻辑,端到端智驾靠的是大数据喂出来的经验。

既然靠的是经验,那么想要保证智驾系统做出正确的抉择,就需要像“海量刷题”一样,将大量“行车视频+人类开车动作”的数据,投喂到大模型训练之中。

所以说,在端到端智驾时代,数据比码农要重要得多!

这也解释了为什么前段时间特斯拉在全球范围内大规模裁员,而理想在正式宣布进军端到端智驾的同时,也对原本的智驾部门人员进行了大刀阔斧的“优化”。

相比之下,算力就成了非常重要的资源,马斯克在今年7月份跟英伟达手里又买了35万张显卡,就是为了更快的处理数据。

虽说端到端从定性上来说,比传统智驾方案显得更高大上一些,但目前在体验上还不能保证100%优于传统智驾方案。

实际上,今年1月份特斯拉刚刚开启FSD V12版本推送时,其实用户的吐槽声是远多于点赞的,出现了各种各样以前闻所未闻的BUG。

马斯克第一次做FSD V12直播测试的时候,还险些闯了红灯。

直到半年时间更新了好几个小版本,特斯拉FSD V12才逐步展现出威力,给用户感觉FSD像自己在开车一样。

毕竟训练FSD端到端大模型的数据源本身,就来源于全球海量的特斯拉车主。所以表面上是FSD在开车,实际上是自己在开车,是全球特斯拉用户的集合在开车。

当然,这可能也是FSD V12有时候会随机产生“独立想法”的原因,毕竟人开车有时候也会犯错,投喂了“不干净”的数据,智驾模型也会变蠢。

这时,端到端智驾相比传统智驾方案的一大劣势,就会暴露出来。

以前靠修改代码就能修改的BUG,现在发现了问题没法及时修正,因为大模型本身就是个充满未知数的“黑盒子”,只能通过投喂更多数据的方式,尽可能的修正错误,降低犯错的概率。

虽说端到端起步比传统智驾更弱,但进化速度更快,理论上能力上限更高。

在大量数据堆砌下,几年之后端到端智驾会经过拐点,在能力上超越传统智驾,能达到无限接近人类驾驶水平的效果。

这也是为什么小鹏、华为、理想、蔚来等国内一线智驾玩家,都开始不约而同的宣布进军端到端。

毫无疑问,特斯拉直接把智驾底层逻辑完全改写为“端到端”,是非常激进的,这一定程度上可能也会成为FSD在国内“过审”的阻碍。

相比之下,国内已经宣布进军端到端智驾的车企,采用的都是“部分端到端”,没有特斯拉那么激进。

之所以保留了部分传统智驾的架构,大都是为了安全性“兜底”,防止系统误判导致极端事故的发生。

至于这几家的端到端具体有什么不同,今天受限于篇幅就不继续和大家聊了。等到下次,再单开一篇和大家好好分析分析。



写在最后


记得20年前,诺基亚在手机界一骑绝尘。

而安卓刚刚初露头角的时候,内核代码数只有1000多万行,仅为塞班系统的1/3。

虽然早期安卓应用少、不如诺基亚的塞班好用,但随着安卓应用生态体系指数级膨胀,诺基亚和塞班最终被淘汰,成为了历史的尘埃。

如今智驾端到端技术的出现,某种程度上预示着智能驾驶也将迎来新一轮的革命。

真正意义上的AI正在车上生根成长,势头已然无法阻挡。

文章版权声明:除非注明,否则均为顺平汽车网原创文章,转载或复制请以超链接形式并注明出处。