Who、How and Why?
这三点,往往是一本侦探推理小说最大的乐趣。小说末尾,作者会问凶手到底是谁,预测凶手,把整部作品的精彩推向最高潮。
这和智驾大模型的逻辑,是一样的。推理凶手,需要对整本书有完整的理解,凶手判断难度越大,故事越精彩,正如预测下一个Token,内容越丰富,信息越多,难度越大,需要上千亿参数的大规模模型去完成。
上周,《》/《C次元》采访了商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚先生,他以侦探小说作比喻,引出了商汤绝影目前正在攻克的智驾端到端大模型难题。
刚结束的WAIC 2024世界人工智能大会,商汤绝影携多款最新智能驾驶和智能座舱产品亮相,这些产品均基于全新发布的商汤“日日新5.5”原生多模态大模型打造,同时,商汤绝影在业内率先实现原生多模态大模型的车端部署。
王晓刚认为,端到端大模型是智能驾驶领域的“ChatGPT时刻”,通用能力和涌现能力极强。真正的“端到端”大模型,实现难度很大,商汤绝影正走在难而正确的路上。
真正的“端到端”,究竟难在哪?
一是,演进阶段不同。
从感知端到端、两段式端到端、模块化端到端到单一神经网络模型的One Model端到端,难度递增,不同的企业,选择从不同的阶段切入,虽然都号称“端到端”,但做到单一端到端的玩家却极少。
二是,算力部署不同。
车企阵营,特斯拉DOJO智算中心可谓一骑绝尘,预计到2024年10 月,部署的总算力将达到10万PFLOPS,智驾供应商阵营,商汤算力优势明显,预计年底能达到2万PFLOPS。
三是,工程化能力不同。
对于车载大模型,只有好的技术和理念,没有扎实的工程化落地是不行的。和主机厂合作,验证工程化能力,也是大模型端到端综合实力的核心要素。
能都做到真正的One Model?算力是否足够?工程化能力和落地能力如何?这是“端到端”的三个难点,也是智驾供应商们待破的“三重门”。如何推开每一扇门,不仅考验团队管理层的格局,也考验团队研发的前瞻性思考。
01
难而正确的那条路
现阶段,特斯拉在内的汽车制造商都在探索端到端技术,以此作为智驾技术的制高点,但根据输入到输出的实现形式,方案和路径选择却各有不同——
在不同的演进阶段,端到端从广义到狭义,可以大致分为感知端到端、决策规划模型化、模块化端到端以及单一模型(One Model) 端到端,越往后,难度越大,能留在牌桌上的玩家也更少。
大部分企业目前在做的,是把自动驾驶各模块用神经网络替代,然后再把神经网络串联起来,进行联合优化。如两段式端到端,感知用一个模型,控制决策规划用一个模型,和整个能囊括输入到输出的单一大模型还有不少差距。
分段式端到端,有天然的短板。
一个,是信息损失。
王晓刚告诉《》/《C次元》,分段式端到端的每一个模块,都会出现大量的信息损失和过滤。“从感知传到决策规划,信息量已经是变得非常少了,那么用于做决策规划模型的体积,就比感知模型要小几倍,甚至一个数量级。”
信息传递有过滤和丢失,明面上虽然降低了难度,但也拉低了能力的上限。真正的One Model端到端,难度是非常高的,当然天花板也很高。
二是,训练方式差异。
严格意义上讲,分段式并非真正的大模型,且训练方式也传统,就算使用了庞大参数,也难以发挥其效用,和ChatGPT的训练方式有本质区别。
“大模型的能力,不仅在于其规模,更在于训练方式和任务。”实现这一点需要强大的基础设施能力,如特斯拉拥有10万块GPU,大部分主机厂GPU数量远不及此,存在2~3个数量级的差距。”
“这是被验证成功的唯一路径。”
在王晓刚看来,真正的端到端大模型,是通向自动驾驶ChatGPT的一个路径,且是被验证成功的唯一路径。
虽是唯一路径,并不是每一家主机厂都能把路走通。一方面,训练大模型需长时间积累,耗资巨大,如一次实验可能需几千张GPU卡,投入上亿,主机厂缺乏此方面的积累。
另一方面,即使主机厂未来尝试训练大模型,也可能不划算。商汤这样的智驾供应商,可以通过各行业分摊大模型成本,但主机厂训练的大模型只能自用。除非像特斯拉涉足多行业,否则,少有汽车主机厂能承担如此高昂的费用。
02
算力,竞速大模型的关键
主流的分段式端到端,如果后续想转成单网式,是有一定难度的。王晓刚认为,仅从训练方式看,二者所需要的基础设施完全不同。
“ChatGPT级任务,需大量数据准备与清洗,主机厂和部分智驾供应商,其现有的GPU总量远远不够。”未来,考虑到持续的大规模投入,通用大模型的竞争者将越来越少。
王晓刚透露,商汤2019年的算力规模为700 PFLOPS,今年年底原计划18000 PFLOPS,但从现阶段的实际部署看,最终可以达到20000 PFLOPS。
五年间,算力变化非常快。
王晓刚告诉《》/《C次元》,算力是被行业需求推动的,2022年ChatGPT横空出世,整个行业对尺度定律的认知、对算力的需求都出现爆发性的增长,且至今还没看到增长的尽头。
“大脑约有860亿个神经元,每个神经元有1000个突触,累计相当于百万亿到千万亿的参数量级。今天智驾大模型的参数,距离大脑链接还是差远了,尺度定律目前也还没有饱和,我们还没看到天花板,让算力的快速增长提供了可能。”
没有算力储备,谈大模型就像空中楼阁,现阶段,商汤人工智能超算中心目前有45000块GPU,峰值算力12000 PFLOPS。
这样的算力储备,已远超国内智驾供应商,对于商汤来说,面对这样的算力部署,还需考虑如何充分利用GPU效率——
并不是所有的GPU都必须满负荷运转,商汤需要设计合适的调度方案,让任务空闲中的GPU也能利用起来。“因为我们的基数体量大,具备规模化优势,几万块GPU,哪怕是10%-20%的空闲利用率,算下来也是非常可观的。”
基于庞大的算力部署,商汤绝影能够以云侧、端云结合、端侧等全栈方式灵活部署多模态大模型,让商汤原生多模态能力快速落地智能汽车。
03
算力中心=高投入
无论是智算中心,还是大模型,都是高投入的烧钱巨坑,且需长期的积累。商汤从2018年启动大模型研发,从刚开始,就意识到软硬件基础设施建设的重要性,后面累计用了6年的时间,做到现在的算力规模,投入非常庞大。
这引申出另一个话题:大模型时代的供应链范式。
何小鹏曾提过一个判断,大模型时代难有Tier1,王晓刚也认可这样的观点。他分析说,传统的Tier1集成不同功能模块,提供给主机厂,但大模型时代,自动驾驶前端和座舱已没有多模块诉求了,都在讲一体化,合作的模式,也将演变为主机厂、芯片厂商和AI厂商三者联动。
“特斯拉已经拥有10万块GPU,但目前很多车厂只有几百块、一千块的规模,小规模集群不够用,倒逼着不断新集群,更加集中化,去提升效率。”
考虑到大模型本身是长期投入的过程,车厂独立构建自己的智算中心,去做大模型基础研发,是难以持续的。在王晓刚看来,更好的模式是寻找AI公司合作,避免重复性投入,大家做各自擅长的事。
04
工程化能力护城河
智能汽车向大模型的方向发展,是很有价值的事情,但也是一个长跑的过程。这意味着,能不能伴随主机厂共同成长,持续在一条路上长久投入和突破,更是关键。
在商汤绝影的价值观里,扎实的工程化落地能力,并不亚于大模型研发的重要性。做智驾和座舱大模型,光有好的技术和好的理念,没有扎实的工程化落地是不行的。
商汤绝影脱胎于AI文化,过去几年深耕汽车行业,通过与主机厂的合作,工程化能力进步很快,这也构成了独一无二的护城河。
一方面,是人才。
王晓刚表示,通过与汽车制造商合作,商汤绝影补入一批汽车行业的专业人才,与原有的AI人才融合,补齐工程化能力。
另一方面,是趋势。
在商汤绝影看来,未来的车载大模型,车端的工程化会逐渐减弱,而后台的基础设施则会变得更重要。
“工程化能力,涵盖了数据的选择、清洗以及系统的稳定性等多个方面,这恰恰是不少车厂和供应商目前的短板所在。在大模型时代,我们面临各方面的新挑战,任何宣称自己具备工程化能力的企业,都需要踏实下来,明确具体是哪一方面的工程化能力。”
可以肯定的是,人才越来越重要。
王晓刚告诉我们,现阶段,推动大模型“上车”的参与方,主要是车厂、高校和科技公司,企业承担了大部分大模型科技成果转化工作。商汤绝影和商汤研究院联动,背后也关系到基础设施建设,但训练大模型的专业化人才,其实几十个人就够。
人才也需要自我迭代。
前段时间,蔚来智驾研发部完成架构调整,此前分为感知、规控和集成等部分,调整后,感知和规控团队合并为大模型团队,集成团队重组为交付团队。
这意味着,越来越多的车企,将放弃业界沿用多年的“感知-决策-规控”技术路线,更明确地探索端到端大模型实现高阶智能驾驶。
“新时代到来,大家都要做好准。”
王晓刚坦言,他自己是人工智能1.0时代的人,最初的业务模式,有智慧城市,也有手机等终端。
“当公司面临大模型转型,做研发、基础设施和数据准备,1.0时代的部门迅速收缩。即使到了2.0时代,市场上有很多精通大模型训练的人才,但本质上,这些精英都是靠不断拥抱变化、不断自我学习进步的,并不是天生就懂大模型。”
现阶段,商汤绝影大部分人力都铺在大模型业务,但规则算法作为智驾的保底,也是需要的,团队不能完全抛弃现有团队。一支强大的混合型团队,才是考验端到端上车的关键。
而冲破三重障碍的商汤绝影,已经为下一轮的角逐做好准备。