奔驰的无图L2++全场景高阶智能驾驶,底层逻辑是把BEV+transformer架构整合成了一个端到端AI大模型,主要变化是具备深度学习的功能,当然了,由于端到端是把以往感知端、决策端和执行端这三个独立的黑盒子融合在了一起,数据传输的速度肯定也变得更快了,话句话说,端到端这套系统需要大量数据分析学习,从而不断优化决策,理论上讲,就是跑的越多,系统就越接近人类驾驶员的驾驶习惯和风格。
这套系统的核心,是去掉了激光雷达,也不依赖高精地图,走的是摄像头+多传感器的技术方案,那该怎么理解奔驰的这套智驾系统呢?其实,端到端的思路到现在基本已经非常明确了,所谓的多传感器(含激光雷达)还是纯视觉技术方案,只是车企在数据感知端的硬件选择不同,无论是华为、理想、小鹏还是小米,他们的自动驾驶功能下一步要实现的阶段,就是做到类似特斯拉FSD的One Model形态,也就是用一个模型完成所有的感知、决策和执行,所以说白了端到端就是用大量的实测数据,去教会大模型如何安全驾驶。
那么,从BEV+transformer架构升级成端到端之后,奔驰的这套L2++系统好用吗?从今年8月初国内首次开启路测,到现在已经过去了差不多3个月,基本的城市NOA功能都可以实现,比如起步就能用,主辅路切换、进出环岛、U型调头、识别红绿灯、避让行人和自行车、无保护转弯、旁车博弈等等,基本覆盖了华为乾崑智驾ADS 3.0的智驾功能。
开启城市NOA之后,整套系统在城市道路中的驾驶风格,并没有刻意选择保守或者激进,比如在窄路面对同向行驶的非机动车,或者临停占道的机动车,系统的策略是进行合理避让,在安全距离内基本没有多余的避让动作,几乎是贴着障碍物通过,而小米SU7前不久在OTA1.4.0之后,同向避让的逻辑层面就存在停车等待或者主动降级问题,相比之下奔驰的这套系统明显是要更激进一些,而在面对错位路口,尤其是由于施工造成地面标线混乱的情况下,系统的决策就会变得偏保守,以礼让作为优先考虑,但基本的通行效率还是有一定的保证。
值得一提的是,奔驰这次的测试车全程几乎没有几次接管的情况,之前雷军本人在北京亲自测试小米SU7城市NOA时,将近50公里出现了4次接管,而奔驰这边唯独出现的一次接管,是因为社会车辆突然加速加塞抢道,出于安全考虑驾驶员主动接管干预,多打半圈方向避开了被剐蹭风险,这类相对的极限场景其实考验了两件事,一个是系统会不会和驾驶员抢方向盘,另一个是超过安全距离系统是否会降级,从实际情况来看,当人工介入且接管力度较大时,整套系统的控车力度明显是有所减弱的,人驾和智驾之间的过渡相对丝滑。
但是,这套系统要说细节上拟人、舒适,其实也并非全部工况都能实现,比如当识别到路口由绿灯转为黄灯闪烁时,系统会综合前后车距、到路口的距离、加减速的乘坐舒适性等因素,优先选择不闯黄灯的策略,避免因路口抢行造成的交通事故隐患,不过从实际场景来看,这里会出现一个特殊的情况,会导致车辆并不是每次都能温柔刹停,比如当绿灯即将结束,前车紧急制动,而系统按照设定,路口会综合跟车距离、信号灯指令作出判断,所以在还未出现黄灯前车就制动的情况下,系统同样会大脚制动,此时明显影响到驾乘舒适性。
同样,在处理鬼探头的情况时,系统的执行逻辑不是减速绕行,而是以紧急制动为主,通过实测片段就可以清楚看到,制动下前悬弹簧行程被大量压缩,刹车点头情况明显,如此一来,有关奔驰的这套端到端智驾效果,基本可以出一波结论了,接管率比现阶段的小米更低,市区复杂路口通行效率有保证,但是在舒适性细节仍有一些优化的空间,当然了,这个问题解决起来并不难,毕竟端到端的数据迭代速度已经可以实现周更级,所以关于这套智驾系统的舒适性的表现,我们可以期待一下后续版本的表现。
摆脱高精地图后,水平能排智驾第一梯队?奔驰用的这套端到端智驾系统,其实就是Momenta提供的技术方案,但是研发调教都是奔驰自己团队完成的,从硬件水平来看,除了没有用到激光雷达之外,芯片用到了英伟达orin Drive,单颗算力254TOPS,小米汽车和理想汽车用的也是这款芯片,不过,在外部感知硬件的性能上,可能会产生些区别,比如,小鹏在AI鹰眼智驾搭载了Lofic摄像头,可以识别大光比场景,小米则通过BEV变焦技术,可以更好的掌握探测精度,不过结合前面提到的整体效果来看,奔驰的端到端智驾表现,基本上都能实现华为乾崑智驾ADS 3.0的大多数功能,所以从某种程度上讲,这套系统的水平几乎是在智驾第一梯队的。
目前比较主流的几个智驾代表性方案,是华为的乾崑智驾ADS 3.0、小米汽车和理想汽车的E2E+VLM,小鹏的XNGP在全面切换到AI纯视觉路线之后,还需要大量的数据训练,所以参考价值比较高的,还是华为和理想采用的这两类技术,那么,奔驰端到端和他们比,有多少差距呢?
先来简单复盘一下这两条技术方案,首先,华为在ADS前两个版本中,一直是把BEV网络单独拿出的,而进化到3.0版本之后,BEV网络被融到了GOD网络之中,同时把负责决策规划的PDP网络也加了进去,形成了GOD一张大网的概念,这个逻辑其实就是和前面提到的特斯拉one model形态类似,只不过在硬件感知端,需要一颗192线束的激光雷达做实时扫图,这也是这套系统的立足根本,4D毫米波雷达通过强回波来构建三维立体数据,所以在数据层面,这两套硬件基本不会出现错判或漏判,小体积和不规则障碍物也能准确捕捉到,PDP网络算是针对无数未知case场景的兜底安全机制,总之,这套系统基本是非常靠近未来L3级的技术了。
其次,小米和理想用的E2E+VLM,本质上还是需要BEV给障碍物作数据立体坐标,大模型经过训练给出相应的处理决策,VLM主要是用来分析复杂场景,这也可以把E2E和VLM看作成一套快系统和一套慢系统,和小米汽车稍有不同的是,理想还用上一个叫云端世界的模型,这其实就是一套复杂记录并分析黑盒子场景的数据库,经过无数条未知场景的构建分析后,再把自主训练后的数据传给大模型,从某种程度上讲,这个和华为的PDP网络作用有些类似,都是兜底安全的机制。
对比下来,奔驰的端到端智驾,就没有前面提到的PDP和云端世界模型了,兜底安全机制的反而是传统的规则算法,这个该怎么理解?举个最简单的例子,在关于智能机器人的电影中,机器人经过大量数据分析和自我学习,甚至都进化到了具备像人类的“意识形态”,但是最底层的规则算法,是一串“不能伤害人类”的代码,如此一来,奔驰的这套智驾系统,在遇到从未见过的未知复杂场景时,很有可能就会出现BEV+transformer+占用网络的早期智驾效果,也就是出于安全的第一性考虑,主动降级、通行效率变低这类问题都可能会出现,解决的办法只有达到一定的数据量和训练学习,所以针对未知的复杂场景,华为、理想这类有云端数据库的智驾方案,迭代能力和周期可能会更强更快一些。