当前位置: 首页 » 资讯 » 智能车 » 正文

百度汽车云3.0 ,为端到端自动驾驶量产落地提速

IP属地 北京 编辑:陆辰风 焉知科技 时间:2024-10-11 10:24:12

作者 | 陈康成

2024年9月25日至26日,2024百度云智大会在北京中关村国际创新中心成功举办。其中,“智能汽车论坛”由百度智能云和中国电动汽车百人会联合主办,该论坛以“车云协同,智能跃迁”为主题,吸引了来自汽车行业、科技行业以及交通行业的众多专家。他们围绕大模型、端到端自动驾驶等热点技术在智能汽车中的应用进行了深入的探讨和交流。

在“智能汽车论坛”的首个主题演讲中,百度智能云汽车业务部总经理高果荣发表了题为“汽车云3.0:助力端到端自动驾驶量产”的演讲。他重点介绍了汽车云3.0的新特性,并探讨了这些新特性将如何加速端到端自动驾驶技术的量产进程。

1.百度汽车云迭代历程

2021年,行业大部分自动驾驶云产品,主要是为客户提供自动驾驶功能从无到有的研发能力。针对研发阶段的问题,百度推出了汽车云1.0版本:1)具备百PB级别数据全生命周期托管能力;2)预标注模型准确率达到92%;3)算法经过了700多次的版本迭代。

然而,等到高阶自动驾驶的量产阶段,车企更关注自家算法从有到优。其中,核心要解决的是长尾问题。那么,自动驾驶就需要新的工具和服务。为此,在2023年,百度完成从汽车云1.0到汽车云2.0的产品升级,从主要服务于研发域转向服务量产域,致力于帮助车企构建自动驾驶量产能力框架,解决长尾问题,推动高阶自动驾驶系统快速量产落地。

大模型智能数据搜索

A.智能搜索

借助文心大模型,百度的自动驾驶“数据智能搜索引擎”将数据服务从繁琐的“流程式”操作向更为便捷的“检索式”体验升级。

百度智能云汽车业务部副总经理肖猛谈到:“端到端自动驾驶对数据的要求非常高,比如,我们如何从海量数据里面筛选出对自动驾驶训练有用的高质量数据。面对此需求,百度在工具链的数据管理平台上,增加了数据智搜的功能,支持以文搜图、以图搜图等。例如,我们想找一个路面有积水的场景,可以基于一张表达此场景的图片或者一段相关文字描述进行搜索,就可以把特征库中所有类似的特定场景搜索出来,以作为自动驾驶的训练数据。”

总之,基于文心大模型和特征数据库,百度大模型智搜平台支持以文搜图、以图搜图、文搜视频等多种模式,可以快速地从数据库中匹配到符合要求的场景,实现更准确、高效、低成本的数据利用,从而为端到端仿真提供丰富的数据支持。

2.0自动驾驶数据智能搜索引擎(检索式)

B.难例挖掘

基于十年积累的百亿帧数据,百度打造了智驾数据挖掘大模型,通过复杂文本检索、空间关系组合以及精细化搜索等多种方式,实现各种难例的定向挖掘。

过去,在自动驾驶研发过程中,经常需要一些定制化的场景进行问题的复现。传统的解决方法是根据需要的场景让研发人员写一些挖掘算法,然后再布置对应的任务工作流才能跑出来,通常需要一周左右的时间来完成。

但现在,通过百度的检索式数据挖掘能力使得车企能够通过精准定义数据场景,基于图片和文字进行更加精确的需求定义和检索,直接从海量数据中把所需数据搜索出来,将无序的数据变成宝贵的数据资源。

总之,通过难例挖掘,可以筛选出那些对于模型性能提升最为关键的数据,从而可以在端到端仿真中有针对性地使用这些数据进行更有效的训练。

2)低成本长尾数据合成

对于高阶智能驾驶量产落地而言,最大阻碍就是无穷无尽的Corner Case所带来的安全隐患。面对长尾数据的挑战,单纯依赖对真实数据的采集已难以满足高阶智驾研发迭代的需要。为解决这一难题,百度引入了NeRF与3DGS等先进技术,通过从海量原始数据中构建长尾场景,比如通过消除动态要素、调节主车视角、修改天气环境和叠加虚拟元素等方式,便能够以较低成本实现新的合成场景。

通过这一系列操作,百度实现了数据的自动化建模与Corner case的需求泛化,更好地满足了端到端的仿真测试对数据集的多样性需求。

智能场景数据生成

3)百城真实数据适配端到端仿真

百城真实数据适配端到端仿真

经过多年的不断积累和优化,百度已经可以为车企提供超过百城的真实路网、千万公里的场景数据。这些数据覆盖了智能驾驶在实际应用中可能遇到的、几乎所有的复杂环境和工况,极大地丰富了智能驾驶算法训练和测试的数据资源,从而使得在端到端自动驾驶仿真中可以更好的重现复杂城市环境。

另外,百度的云仿真平台不仅支持基于高精度地图的仿真场景引擎,还兼容开源与无图模式的仿真场景验证,全面支持从地图覆盖区域到自动化路网搭建,为车企提供开箱即用的云端仿真测试服务,极大地简化了智驾算法的验证流程。

因此,车企在云端便可轻松验证不同城市场景下的自动驾驶能力,有效避免在实车测试中因地理环境和路况差异所带来的一系列挑战。此外,云仿真服务能够释放出价值百亿的数据资源,帮助车企快速积累测试里程,从而显著降低研发成本。

百城地图、千万级仿真:依托百度地图全国城市的路网,预置千万场景,开箱即用。 城市交通流模型:7×24城市级仿真,验证算法稳定性,借助仿真提升运营效率。 端到端仿真:基于真实数据,端到端自动驾驶仿真中可更好地重现复杂城市环境。 无限运行&运营效率提升:分布式架构交通流引擎,支持交通流、自动驾驶车辆混合驾驶。

2.2 高效端到端训练

1)百度百舸4.0:主流异构多芯片训练

百度百舸4.0平台

虽然国内有一些车企已经构建了自己的智算中心,部署了GPU集群,但通常都是在数百台服务器级别,难以满足大模型训练所需的AI算力集群规模。

当前基础大模型训练所需要的AI算力集群规模,已经从单一集群千卡逐步提升至万卡量级。但是,目前市面上的GPU训练芯片在规格、算力水平上参差不齐,并且一些先进的国外GPU芯片被限制销售到中国市场,导致国内GPU训练芯片资源短缺。因此,现在的算力平台租赁、服务成本快速上涨,且大部分算力资源未能真正地有效的被共享和利用,如何降低算力成本和提高算力资源的利用率已经成为行业面临的重要挑战。

在已有AI算力集群的基础上,选择一个多芯混用的集群来为大模型训练提供更大的AI算力,进而减少对单一芯片的依赖,已成为必然的选择。

百度百舸4.0平台可以提供高性能的算力集群,全面适配异构芯片,比如英伟达GPU H800/H20/L40/4090全系列、百度的昆仑芯,以及同步支持各种国产算力芯片。目前,它可以实现万卡规模下的多芯混合训练,且能将万卡集群算力损失控制在3%以内。

百度百舸4.0作为整合异构算力资源的算力平台,实现了异构计算资源协同工作,并支持软硬件联合优化与中间件加速,进而提高算力利用率和优化算力成本。同时,它还能帮助企业摆脱对单一芯片的依赖,增强芯片供应链的安全。

2)训练和推理全链路优化

有了大规模的算力资源,接下来需要考虑的就是如何让大模型在集群上高效地训练和推理。在技术方案上,百度百舸4.0通过采用叠加多重优化技术,包括并行优化、显存优化、算子优化、存储优化和网络优化等,去实现训练和推理的全链路优化。

训练推理全链路优化

从表现效果上看:

A.在典型模型训练加速方面:实现了典型2D/3D/Lidar/融合类模型训练加速。比如,融合类模型 :Transfusion 模型训练加速142%,BEVFormer模型训练加速49%,CenterNet模型训练加速119%;3D类模型:FCOS3D模型训练加速88%等。

B.生产环境效能提升:在训练方面,70B的模型,1.4T语料,使用2000张A800卡,大概需要21天的训练时长,经过全链路优化后,节省算力资源23%,仅需要1538张卡。在推理方面,230QPS 日活500万的AI应用,以前需要178张A800卡支持,经过全链路优化后,节省算力资源55%,仅需80张卡。

AIAK推理加速引擎+AIAK训练加速引擎

据业内人士讲到,模型训练是整个自动驾驶云中最耗时间和成本的一个环节。从模型训练的过程来看,它其实分为数据加载、前向计算、参数更新等环节。任何一个环节出问题都会导致整个模型训练的性能受到影响。

整体来看,模型的训练性能主要受如下两个指标的影响:1)单卡本身的训练性能;2)多卡之间的并行效率。单卡本身的训练性能可以通过数据加载优化和模型计算优化等方式获得提升。多卡之间的并行效率可以通过多卡通信优化来提升。

另外,百度百舸异构计算平台还提供了其他多种优化工具和策略,如大模型训推加速镜像、大镜像预加载、P2P加速等,都可以进一步提升大模型训练和推理任务的效率。

3)稳定支持万卡超大集群

当前,端到端自动驾驶的大模型的训练,至少需要千卡,甚至万卡级别以上规模的训练集群,然而,保证集群的稳定性是非常有挑战的事情。因为当训练集群规模大了以后,硬件的故障在理论上是不可避免的。那么,即便在硬件出现故障的条件下,如何保证训练集群的不间断运行呢?

针对该挑战,百度智能云提供了涵盖了集群环境诊断调优、故障及时检测、自动的硬件容错和任务快速恢复在内的多种机制,可以做到在千卡任务的月级别训练过程中不中断的水平。具体措施如下:

多维故障感知:硬件故障快速感知、任务异常快速感知、多维日志和整体监控。 多维容错处理:节点热维修/秒级冷迁移恢复、自动故障硬件隔离、自动任务调度。 高可靠checkpoint处理:秒级Checkpoint写入、异步Checkpoint加速和分布式Checkpoint加速。

稳定支持万卡超大集群

高果荣讲到:“万卡规模下的AI集群中断频率将会变得非常高,‘任务无效训练时间 = 故障中断次数×(任务故障恢复时长+任务故障重算时长)+ 任务常态写Checkpoint总时长’,一旦某个点位产生故障,所造成的影响则是成千上万倍,恢复所需的时间也将被不断拉长。”

尤其是针对端到端自动驾驶大模型,模型参数量巨大,每次Checkpoint操作都会占用大量的存储和时间资源。传统的Checkpoint机制可能会成为训练效率的瓶颈。

而百度百舸AI异构计算平台通过Hang检测、慢节点检测等手段来实现秒级捕捉Checkpoint,快速定位和修复故障,最终实现分钟级任务恢复,确保了大模型的有效训练时长达到98.8%。

2.3 车路云协同

车路云协同是作为与单车智能并行的另一条技术路线,通过将车端与路端和云端打通,使得车辆不仅能通过自身传感器感知周围的环境,还能和道路、交通信号灯等边缘侧基础设施进行“交流”,通过网络从路端和云端获取更多路况和环境的实时信息,从而让汽车可以更安全、更高效地行驶。

车路云结合,首先就是要把路端的数据引入到车端。也就是说,自动驾驶汽车不仅需要从路端获取一些实时的路况信息去“指导”车辆运行,同时也需要把采集的这些路端数据上传到云端去训练车端的“大脑”,这些数据包括各种驾驶场景、天气条件和交通情况的图像、视频和传感器数据。

特别是一些极端工况下的数据尤为重要,比如真正发生碰撞或在突发状况前后,车辆如何进行决策和判断的数据,或者在无信号灯路口以及在雨雪雾霾天气中车辆如何通行的数据。采集、标注和维护以及使用这些数据都是非常大的挑战。

建立车路云联盟 - 路侧数据上车

高果荣介绍说:“不管是城市NOA,还是高速NOA,在突然遇到道路施工、气象灾害、抛洒物、交通事故等极端工况时候,依靠单车智能去应对都是非常有挑战的事情。”

“其实,我们的交通管理部门存有大量类似的工况数据,完全可以用起来。我们百度自己,包括与交通集团,以及很多主机厂,都在探索怎样能够形成一些准实时的数据,把道路的变化等一些相关的动态路况信息传递到车端,不管是应用在座舱也好,或者应用在智能驾驶也罢,都是通过利用数据去提升整个车辆的驾乘体验和安全。”

比如,有的车企就通过公交车的潮汐车道数据进行路径的合理规划,从而帮助用户可以巧妙避开堵塞路段,提升驾乘体验感。

3. 端到端自动驾驶量产的“加速器”

2023年,被认为是城市NOA元年。为了加速城市NOA进入市场,大家开始“攻城略地”,但此时高精地图的更新速度和成本成为城市NOA规模化落地的最大掣肘,因此,业界开始探索不依赖高精度地图的无图方案,如BEV+Transformer+OCC等技术,以加快城市NOA使用区域的快速覆盖。

到了2024年,解决城市NOA所面临的长尾问题成为行业关注的焦点。端到端自动驾驶技术因其在简化系统架构和提升系统性能方面的潜力,成为新的行业目标方向。端到端技术通过将感知、决策和控制等过程整合到一个统一模型中,减少了模块间信息传递过程中的误差积累,提升了算法的运行效率,也有利于通过大量数据训练来不断优化系统性能。

百度副总裁石清华表示,端到端自动驾驶是技术发展的必然趋势。百度在与众多车厂合作伙伴实践的过程中,发现行业已经将端到端列为必须要达成的目标。百度所提出的“智慧的车,聪明的路”理念,以及发布的百度汽车云3.0产品,正是对数据管理、仿真、训练、算力等多方面进行升级,为行业提供更强大、更高效的自动驾驶端到端技术方案。

百度汽车云3.0能够为自动驾驶研发的全过程提供支持:

模型训练阶段:百度提供强大的算力资源、稳定的云平台服务以及专业的训练优化工具,以确保模型训练的高效和准确。 模型验证阶段:百度通过提供高质量的数据生成服务、先进的仿真引擎和全面的数据分析平台,帮助用户有效地验证模型的性能和可靠性。 量产应用阶段:百度不仅提供车路云的协同能力,还通过实时数据反馈和持续的性能优化,确保自动驾驶系统在实际应用中的稳定性和安全性。

结语

百度汽车云3.0的发布,标志着百度在智能汽车领域的技术创新和深入布局。在自动驾驶技术从研发到量产的整个过程中,百度汽车云3.0可以为车企提供充沛的算力支持、算法优化适配能力、高质量场景仿真和车路协同等能力。

总之,百度汽车云3.0为端到端自动驾驶提供了全链路的解决方案,覆盖从车端到云端的全流程。这不仅增强了车企的研发效率,还为端到端自动驾驶技术的量产提供了坚实的后盾支持。

参考文章

1.自动驾驶下半场竞争的关键:数据驱动+车云一体

2.从研发域到量产域的自动驾驶工具链探索与实践

3.百舸AI异构计算平台4.0:在大模型时代发挥出AI大集群的有效算力

4.车路云一体化,“真市场”还是“伪需求”?

5.大模型加速智驾智舱变革, 2024百度云智大会智能汽车论坛成功召开

6.打造合规数据闭环,加速智驾量产落地

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新