当前位置: 首页 » 资讯 » 智能车 » 正文

特斯拉带火的端到端,能被理想发扬光大吗?

IP属地 北京 编辑:朱天宇 出行一客 时间:2024-09-13 00:34:42

图源 IC

和通勤NOA这种在限定路线范围内的智驾方案相比,城市NOA要面对更复杂的路段、更多不确定的因素。在此之前,全行业的城市NOA基本都停留在demo(样本)阶段,很多车企连ODD区域(全称OperationalDesignDomain,即运行设计域,是指针对自动驾驶及相关功能专门设计的运行条件,包括但不限于道路类型、行驶区域、速度、环境等)都没跑明白。“如果只是在全国道路上吭吭咔咔地开起来,没什么难度,ACC(自适应巡航控制系统) 可以,LCC(车道居中辅助系统) 也可以,但如果想让城市NOA在全国道路上开得好,那很难。”小鹏汽车创始人何小鹏曾评价道。

从2023年开始,国内智驾头部车企的竞争转向传统的模块化技术架构下,以人海战术比拼开城速度。在此过程中,新造车企业的智驾团队无一例外地扩充到千人规模,星夜兼程地训练、测试、验证,并攻克极端情况。

城市NOA之所以能成为行业爆点,并演变为一场激烈的开城大战,很大程度上是因为智驾已成为消费者购买决策的主要因素之一。市场研究机构J.D.Power君迪发布的《2023中国新车购买意向研究》显示,智能化体验在购车决策中的影响权重上升到14%,成为继汽车质量和性能之后的第三大决策因素。

当然,理想狂补智驾作业不仅是为了刺激销量,还与李想本人对人工智能的执念有关。

在2023年初的内部信中,李想提到公司的愿景是“到2030年成为全球领先的人工智能企业”。久未露面的李想,在出席今年6月举办的中国汽车重庆论坛时,也分享了对于自动驾驶技术路线的新思考。

他认为,如果自动驾驶团队每天干的活都是靠人工去调试各种各样的cornercase(极端情况),那么人越多,cornercase就越多,离真正的自动驾驶就越遥远。而端到端+VLM+生成式的验证系统,会是未来整个物理世界机器人最重要的技术架构和技术体系。

在7月召开的智能驾驶夏季发布会上,理想首次公开展示了这一全新的自动驾驶架构。该架构主要由端到端模型、VLM视觉语言模型、世界模型三部分共同构成。为此,理想卧薪尝胆了一年,一边继续用NPN减少对高精地图的依赖,兑现去年“百城 NOA”的承诺;一边研发“无图 NOA”,同步进行端到端的预研。

今年7月,理想汽车向1000名内测车主推送了基于端到端模型+VLM的智驾版本。该版本可以达到L2+++的智驾水平,甚至足以支持L3级(有需要时驾驶员要接管)、L4(无需接管的自动驾驶)级自动驾驶产品。

在不到1个月的时间里,千人内测的城市NOA总行驶里程达到21.1万公里,单日城市NOA驾驶最长里程为391公里,单次城市NOA零接管最长里程81.6公里。在此过程中,系统对于司机驾驶数据的学习,让对于环岛、超车的处理能力得到明显提升。在8月成都车展上,理想又同步开启了万人内测,显然是期冀于全新自动驾驶技术架构成为弯道超车的利器。

回溯理想汽车的智驾技术路线,从高精地图方案到NPN(神经先验网络),再到无高精地图方案,再到如今的“端到端+VLM”,短短3年内,智驾团队尝试了多种方案。然而在技术架构快速更迭的过程中,智驾体验虽然更好了,但系统到底运用了司机掌握的哪些技巧和规则,端到端的不可解释属性,让工程师和使用者还无从得知。

在 L4级自动驾驶(高度自动驾驶) 真正实现之前,坐在驾驶位置的还是人,因此安全、可靠、稳定,才是用户对当前智能驾驶的检验标准。如何印证技术的安全性与先进性,是所有玩家无法回避的核心问题。

02 激进派PK保守派

智驾时代上半场,系统能力的上限取决于产品的设计能力,例如下匝道、超车变道、走ETC等能力,这需要逐一进行拆解和细化。进入到智驾时代下半场,端到端的应用能让系统能力的上限更高,在一些关键场景的表现更加拟人,更加灵活自如,摒弃了传统智能驾驶系统的生硬的“规则感”。

郎咸朋称,他们在训练了80万条数据量时,系统还不能通过环岛,但是在训练了100万条后,惊喜地发现系统可以做到了。

理想汽车智能驾驶研发副总裁郎咸朋

理想方面认为,端到端是真正用人工智能的方式去做自动驾驶了。只要用更多数据训练模型,系统就会不断变强,表现可能超过人类司机。

虽然端到端进化速度很快,但毕竟属于“黑盒”模式,对于其能力的评价和测试是不确定性的,很难测试和验证。当大模型遇到很多没学明白的地方时,就容易出现下限问题。比如特斯拉车主就遭遇过危险时刻,当十字路口的直行道排队较长,特斯拉的autopilot(自动驾驶)直接拐到左转道,然后红绿灯一亮,直接又加速斜插回直行道。差点和直行车撞上。所幸,驾驶员一脚踩住了刹车。

因此,类似场景既需要算法覆盖,用有优质的数据强化训练,让系统学会安全的驾驶习惯,同时还要有兜底的手段,比如驾驶者打算进行180°的急转向,理想智驾的控制模块就会对其进行约束。

为了让智驾的安全性得到保证,理想设置了安全兜底模块,确保系统有绝对的下限。今年7月,理想汽车正式推送全自动紧急转向AES(自动紧急转向)。AES在自动紧急制动系统AEB(自动紧急刹车)的基础上,将一维的纵向制动,升级到了二维的制动及转向,规划多条躲避路径并选择其中最优的进行避撞。“用算法、冗余一起来解决安全问题,是在最极端的情况下,最兜底的一种保证绝对安全的方式。”郎咸朋表示。

据了解,小鹏、极越等保守派玩家采用的是两段式端到端,即感知和规控分为两个模型来做。以小鹏汽车为例,其技术方案是感知神经网络XNet+规划神经网络XPlanner+侧重场景理解的视觉语言模型XBrain。

对此,激进派认为分段式端到端仍然没有摆脱传统方案的范畴,尽管感知与规划都实现了神经网络化,但一个关键点没有改变,即连接两个神经网络的依然是人类定义的接口,这意味着信息损失,以及大量人工标注,整个流程不利于全局最优,也不利于自动化。

不过,分段式端到端的优点也同样在此,有人类定义的接口,意味着会输出人类能看懂的中间结果,便于检查、定位问题,不至于牵一发而动全身。比如,感知出问题了不用把整张网络都重新训练一遍。更重要的是,分段式端到端更容易保住智驾表现的下限。

理想选择的一段式端到端,则是用传感器输入,模型推理完毕后直接给到轨迹规划用来控车的一体化端到端模式。

其对于坚持采用一段式端到端的解释是,这种方式能够解决中间信息的损失。倘若中间增加了人为的信息消化过程,分段式端到端的效率可能会所有降低,能力上限也会受到约束。

对于能力下限的解决方案,理想设计了一套多系统结构,即以端到端为基础,整合具备兜底和泛化能力的VLM视觉语言大模型和用于验证和强化学习的世界模型。

2024款理想L9

VLM视觉语言大模型擅长的是逻辑推理,能够去执行复杂的分析,在驾驶中给“端到端”系统提供更加符合逻辑、准确的驾驶决策。比如当车辆行驶到一个复杂的路段,同时又遇到一个水坑,这时候其会调用大脑系统2工作,处理复杂逻辑并推演,两个系统实时运行,相互配合协同,目的是让车辆更拟真人驾驶。

世界模型是智驾行业找到的最新方法论。它通过学习海量真实驾驶场景视频,可以预测并生成未来一定时间内的驾驶场景视频,做出正确的驾驶决策,本质上就是时空推演。在2023年人工智能顶级会议CVPR上,特斯拉展示了世界模型的研发成果。

使用世界模型比目前的端到端更进一步的是,它的核心任务不仅仅是给出规划路径,更有“预测驾驶场景的像素变化”。这个难度极高的任务,会逼迫模型不仅仅学习优秀驾驶员的行为,还必须广泛地学习交通知识与物理常识。

理想的世界模型是通过扩散模型技术和3DGS技术(即三维高斯溅射技术,是一种先进的三维建模和可视化技术),把曾经遇到过错题以及遇到过的场景,举一反三地形成模拟题,实现不断地测试模型能力,不断地优化各个城市表现。它相当于是一套题库,来源有两种:

一种是根据真实车主的数据,产品和整车的主观评价团队,与内部司机共同制定“老司机标准”,然后给理想车主的驾驶行为进行打分。如果在安全、法律法规等维度存在不安全、不合规的情况,模型就不能交付给用户。

另一种方式类似“错题库”,在正常的测试和开车过程中,用户的接管和退出就是“错题库”。

真题库和错题库都有了,理想还会再生成一些模拟题,根据现有的数据举一反三,比方说有个匝道总是出问题,那么匝道的场景,理想都会进行训练,再生成一些匝道的内容,这就是模拟题。

03 标配和免费,

理想能否坚持到底?

2024年1月,特斯拉开始大规模推送的FSD V12,带火了“端到端”,也让智能驾驶迎来了ChatGPT时刻。一时间,仿佛L4级别的智能驾驶呼之欲出。

图源 IC

相比于特斯拉,以理想、蔚来、商汤、元戎为代表的科技公司,其技术路线向端到端转移大多是从2023年底才开始。这意味着无论是模型的建立还是数据训练,中国车企与特斯拉之间始终存在着一定差距。

去年,理想对于智驾技术的判断是,只落后特斯拉半年。今年,这个差距可能还会再小一点。在郎咸朋看来,理想的技术架构和特斯拉相比代差不大,甚至更有优势,“因为我们有VLM,有系统2,特斯拉只是有系统1,端到端。”

郎咸朋表示,理想提出端到端+VLM的系统架构后,行业内很多企业也开始提及双系统理论的好处,无论是对于理想汽车来说,还是对于特斯拉来说,其实都是在向双系统方向发展。

从训练算力和训练数据方面来看,中国企业的相关布局也更胜一筹。“特斯拉应用数据的合规性会受到一些约束,训练算力的部署搭建也还需要时间。”郎咸朋认为,从这个层面上看,国内车企跟特斯拉的整体差距不会越拉越大。

目前,理想有80万车主、超过12亿公里的数据,五千张A100、A800等同的训练卡数量,训练算力达5.39EFLOPS,在行业内都属于头部。但这是一场昂贵的竞赛,招兵买马、购置 GPU、训练模型,这是巨额开支,需要有健康的利润来提供支持。

但外界认为,理想的智驾业务很激进,商业策略却相对保守。

李想在重庆汽车论坛上誓言,端到端+VLM会在3年内实现L4级别自动驾驶。但理想不但没有想过Robotaxi这门生意,甚至到目前为止仍没有表露出对智驾收费的兴趣。

从公司成立第一天开始,标配和免费就是理想进入智能驾驶就制定的策略。未来,“有监督的自动驾驶对所有AD Max的车主也是不收费的。”郎咸朋告诉我们,公司目前的交付量比较好且企业经营稳健,也有足够的资源投入智驾研发。

与小鹏、蔚来不同,理想的智驾KPI并不是取得经营收入,而是为销量服务。过去一年,理想直面鸿蒙智行,销量承压。而鸿蒙智行的最大卖点,就是华为的ADS智驾能力。理想免费的AD MAX智驾可以在最大程度上帮助抢下更多订单。

理想 L6

据理想汽车发布的数据显示,公司7月-8月交付量达到5.1万辆和4.8万辆,同比增长49.4%、37.8%。展望第三季度,理想汽车预计季度交付量达到14.50万辆至15.50万辆,同比增长38.0%至47.5%;收入总额预计达到394亿元至422亿元,同比增长13.7%至21.6%。根据指引,9月理想汽车将保持5万辆交付,并在10月实现累计交付百万辆。

郎咸朋表示,无图NOA全量推送之后,门店的试驾量和销量都有大幅度的提升。近两个月,专门进店试驾AD Max的数量翻了一倍。其中30万元以上的车型,AD Max超过AD Pro,占比提高到70%,理想L9 AD Max占比甚至达到90%以上。

如今,中国汽车行业已全面进入智驾时代,淘汰赛已然开始,智驾业务的烧钱程度很难再让新势力们一直保持“交个朋友”的状态。一张训练卡的成本10万元起跳,智驾千人团队的人力成本每年10亿元起步,理想汽车的端到端智驾最终能否收获同等回报,还需要等到全面交付时再下定论。

责编:秦琪

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。