当前位置: 首页 » 资讯 » 智能车 » 正文

百人会论坛丨元戎启行周光: 实现物理AI是提升智驾能力的必经途径

IP属地 北京 编辑:唐云泽 汽车咖啡馆 时间:2025-04-01 17:00:34

编者按:2025年3月28-30日,中国电动汽车百人会年会论坛在钓鱼台国宾馆举办。作为战略合作媒体,搜狐汽车对本次论坛进行全程视频直播,以及短视频报道和参与企业嘉宾采访等环节。本次受访嘉宾是元戎启行CEO周光。

元戎启行CEO周光

出品 丨 搜狐汽车·

作者 丨 李德辉

“我们元戎一直在智驾领域希望能够做出最好的AI,我们对自己的定义也不是一家智驾公司,我们是一家物理AI公司。”元戎启行CEO周光认为,实现物理AI才是解决完全自动驾驶的必经之路。

智能驾驶,只不过是物理AI在汽车这个垂类领域的一个具体应用。周光强调元戎启行的技术远景和商业考量:“我们衍生的第一个产品可能是智驾,智驾也许是物理AI第一个大规模落地的场景,我们不停地去做更好的AI,直到真正实现AGI,物理世界的AGI。”

这也就解释了国内企业推出的智驾方案与特斯拉FSD之间的差距所在。

此次百人会论坛及特斯拉FSD进入中国市场之后,不少业界人士纷纷认为,相对于国内现有的智驾方案,特斯拉FSD领先一代。

周光也认同这个差距:“我觉得特斯拉V13就是要领先一个代差,但我觉得可能对不同的公司来讲这个代差是不一样的。”

差距所在,周光解释:“V12是第一个端到端,过去一年我相信各家都在追赶,部分公司可能也做到了V12的效果。特斯拉出来V13了,的确是有一个代差。”

端到端与大模型的区别,“端到端就是指你所有东西都是靠神经网络来决策。大模型天生就是端到端的。”其实两者之间的关系,更像是端到端是大模型的一个子集。

周光强调,只有做好大模型才能更好的解决垂类场景里的问题。以汽车为例,没有通用的移动能力,“今天的这套专家系统,它离开了路就不行了”。

只有更好的理解物理世界,才能完美的解决现实问题。周光举例:“如果说你不能理解什么叫作火车路,什么叫火车,是不安全的。我有典型的一个例子,在红绿灯,大家都在等红绿灯,这边车子在排队,正好排队的时候在铁轨上也可以排,这个车就排在铁轨上了。如果你缺乏了对通用世界的理解,这是安全的吗?你在铁轨上等红灯,一等两分钟,你怎么办?我觉得实现自动驾驶的终极目标,你不可能对普遍的物理世界没有一个通用的认知,它需要对很多东西有个通用认知的。”

与此同时,周光认为,数据质量和数量,对于智驾领域端到端的训练与迭代固然重要,但是在没有进入大模型时代之前,则不具备有效甚至高效使用数据的能力。

以下是采访速记(经编辑):

Q:在智能驾驶领域,各大车企现在在加大自研力度,作为第三方解决方案商,元戎启行如何应对这种趋势?咱们的核心竞争力在哪里?

周光:智驾各家都自研,这个趋势已经看到了。元戎的优势在于我们能够提供最头部的技术跟体验。目前来说自研趋势还是在中阶、低阶。在高阶,甚至在最新的VLA,我相信对于车厂来说还需要一定的时间。另外,这也并不是那么简单就可以自研出来的,有大量的人才knowhow、数据knowhow、训练knowhow。

我们元戎一直在智驾领域希望能够做出最好的AI,我们对自己的定义也不是一家智驾公司,我们是一家物理AI公司。我们希望元戎一直能在物理AI突破。我们衍生的第一个产品可能是智驾,智驾也许是物理AI第一个大规模落地的场景,我们不停地去做更好的AI,直到真正实现AGI,物理世界的AGI。这次我们也发布了自己的RoadAGI产品,希望我们的技术更从专家系统到通才系统这方面的转变。

Q:前段时间特斯拉入华,有自媒体文章写咱们国内智驾会落后于FSD一年以上。在您看来,真实的情况和特斯拉FSD相比是什么样子的?另外元戎相比特斯拉FSD我们的优势是什么?

周光:从技术层面,也不说什么太多商业话术,我觉得特斯拉V13就是要领先一个代差,但我觉得可能对不同的公司来讲这个代差是不一样的。V12是第一个端到端,过去一年我相信各家都在追赶,部分公司可能也做到了V12的效果。特斯拉出来V13了,的确是有一个代差。

但是优势在于你在中国,我们有中国特色的数据集,正常来说一个人工智能的学习应该是你发现有问题,你采集数据,再去数据闭环,这样可以让你的training set和test set尽量一致。特斯拉面对的问题是,他没办法在中国采集数据,就意味着他没有办法去更新他的training set,但是他每次在中国可以evaluate。你可以知道你test set的score,你去改变(英文),这是一个非常间接的方式去改善自己。这还是比较慢的,我觉得这个也就是仅此的优势。

我们开始也在做V13的架构,我们也希望我们能够快速地把V13这个架构推出来。

咱们都是做研究的人,工程师,说话还是要诚实一点,我们也许能够在中国率先把这个做出来,我们也希望我们可以,中国公司也有这个能力做出V13的这套效果。

Q:您觉得元戎今年的智驾方案还有没有降本空间?如果有的话大概是多少?

周光:智驾两个方向的发展,一个是追求AI的天花板,另外一个是把某一个表现的AI系统做极致降本,这是两个完全不同的方向。

之前元戎的形象一直在追求AI的天花板,比如我们走端到端,到无图。大家看到我们在国内第一个做的,去年我们提的是个新图,无图的时候更是对行业有一个冲击。我们2023年推无图,大家全都在说我们是假的,但是我觉得现在是一个时候了。我们既要追求AI的上限,同时也要追求规模化的商业化。我们今年也会有其他的一些solution出来,不同的芯片平台的支持,可以把成本进一步降低。

当然,还是要保证体验的情况之下去做降本。我们不是那种极致追求成本的概念,比如用一个非常低算力的芯片,可能你都不是按照AI的路径来做这个事。这个做法我们肯定是不喜欢的,因为有公司是这么做的。他也会找到自己的生态位置,总有一些客户会选择。因为他特别便宜,但是你可能会损失掉的是你持续的能力。我们还是追求AI上限,我们觉得做出来AGI,做出来物理世界AGI的意义对我们公司来讲使命更大,我觉得这是更有意思的。

同时,我们也要把商业化做好,不能商业化的AI也是没有价值的,我们也会把一些成熟的AI放到下一档的硬件里面去,也要做到好用。

Q:在您看来数据或者数据质量是不是制约端到端提升的核心瓶颈?您觉得算法、算力、数据里面哪个更重要?

周光:这个牵扯到你目前处于哪个阶段,我觉得都很重要。今天毕竟我们是在一个算力受限的平台上用的,我们不是大模型的,某公司钱多卡多,我参数是你的10倍,我也不在乎这个事。车上就是100瓦算力顶天了,功耗的限制,我觉得在未来三五年之内1000T就是极致了。在1000T下要做到这么多的事,你还要做大模型,我觉得这个对算法要求很高,不是大家想得那么简单,不是我的车多我就直接硬上就可以。

数据质量肯定非常重要,如何找到高质量的数据也是不容易的,不是拍脑袋,不是车多就出来的。高质量的数据怎么去训练,这其实都是跟着你的模型一步一步走过来的,甚至你不知道什么叫高质量的数据。

Q:第一个问题,咱们刚刚也发了一个VLA的视觉动作空间多模型,理想也发布了AD Pro,你们怎么对比?有什么评价?第二个问题,有供应商表示今年和主机厂可能会探讨一块谁来承担责任推出L3,今年L3很热,第一,咱们有没有在做这些准备,比如和保险公司;第二,有没有主机厂向咱们提出要求如何保障这一块?

周光:VLA是指一个上限问题,L3是指一个下限问题,这是两个截然不同的方向。

首先L3甚至都不需要端到端,都不需要这些先进的AI,你都可以做LG。我们也曾经看到,奔驰在德国有自己的L3,有很多限制,L3到底是限制你的功能场景,你极致的兜底。其实理论上来讲,你的AI越好,你需要兜的底就越少,你可释放的区间就越大,这两者虽然费用不同,但是你的AI能力上限提升会极大地简化你去做L3。我们也要看为什么特斯拉他没有强调自己要做L3,以及为什么特斯拉不强调自己要做车位到车位,这都是有深层次原因的。

我可以分享我的一些想法。目前来说,可能国内车位到车位都是建图到无图再到建图的过程,其实从技术层面来讲是没有价值的。前面后面都是靠高精度地图技术,通过工程能力去缝合起来,这是一个“缝合怪物”,AI能力没有长进。在AI的角度来说是没有什么作用的,但是在用户体验上来讲,可能用户觉得有一定的价值。我觉得像特斯拉这种公司他不做这个事,他不会为了取悦用户做这个。他们希望通过技术去解决,真正用AI的能力实现车位到车位,而不是通过用这种技术来实现,我相信我已经解释了。

但我认为这里面更重要的其实还是AI上限的提升,AI上限的提升我们觉得是更重要的。但我们也会迎合市场,我们也会为了这个市场而商业化,也会去做一些。比如我们也推出了车位到车位,也是“缝合怪物”,建个图,背下来,我们指的AI是不带这个东西的,但它也有商业价值。我们也不是一个轴的公司,我们也是要迎合商业的需求去做这样的产品。

Q:这个的核心是因为车企要转,想推出L3未来是一种竞争方式,比如现在有一种观点,深圳可能今年在9月份和6月份就会全城开辟L3试点,有的车企会不会要求,比如你是我的供应商,你就得给我承诺我也要达到L3。

周光:我觉得其实做L3之后就牵扯到保险理赔,到底多少钱能够赔得起来,这通过数学是可以算出来的,这也是保险公司的事,以及你的算法大概是在什么程度。你在深圳可以通过各种手段去提升你在这里MPCI的里程。如果说你所有的安全可能都没有交通责任,其实也是L3,比如说我就不管,我就怼上去,关我什么事,反正我也不担责。交给警察来讲,我一分责都不用担。L3更多还是工程问题,我觉得更多是工程问题,只不过AI能力做得越好,可能这个工程难度会降低。比如说以我们家的弱专家系统去做L3,你可能需要非常大量的工程,比如千人级的工程团队,比如说你用generalist。我们认为下一代的这套AI系统,可能你做这个兜底只需要百人,甚至你的体验可能也会更好。我觉得这是一个选择,但肯定是我们也会针对这个市场推出相应的产品。这还有商业上的考虑,也不能纯就是愿景。我觉得一个纯愿景的公司也不会成功,但你公司一定要有愿景,你要有你自己的AI追求,有自己的愿景,同时也是要去满足这个市场的需求。

Q:我有两个问题,有一种说法自从特斯拉不搞AI,国内厂商不知道怎么做了,你怎么看?另外,你刚才讲了下半年我们有能力达到类似V13的水平,我想知道是不是你已经看到了怎么追平的路径?还有一个问题,你觉得VLA到底能带来什么质的改变?

周光:我们去年也是第一个。我相信元戎还是很多国内的无图,或者端到端的启蒙老师。我们当时无图这套框架,各家公司现在用的跟我们第一代挺像的。怎么做无图,说实话,数据怎么生成,大家都是不知道的。因为我们做出来了,可能很多人都开始用类似的了,我肯定不能多说,还是给我们留点时间差。

Q:VLA呢?

周光:我觉得VLA是从specialist到generalist的。我认为是需要的,不是VLA无法做generalist,你无法做到通才。我觉得通才是实现L5的。如果我们不考虑商业化,我认为就不应该有L3,就应该是直接像特斯拉这样,从L2级尽可能追平L5。可能我限定一个区域,这是他们追求的。我说的是纯AI角度来讲是这样子的,但是商业角度上又不一样。我需要噱头,有了噱头才能卖更多的车,这又是另外一个考虑了。我觉得特斯拉在美国这么做也是因为他没有对手,也许他在中国这么卷,他可能也会搞一个车位到车位,实在是美国没有能打的,他想怎么玩怎么玩。

Q:去年底咱们的智驾上车数应该是3万,今年目标好像是20万,现在其实头部,比如华为和Momenta基本是百万辆级,对于包括您,包括中部、腰部企业共同的问题。你怎么看数量量级的差距对于算法迭代速度的影响?之后有没有什么具体的办法,比如扩大一下合作的速度和规模?

周光:我是这样子理解的,大家其实看过智驾数次的洗牌。我认为每次关键技术版本性的变化都会带来这个行业的变化,你一旦错失过某一代技术,现在有一句话叫作技术不能错过,可能一代技术错了,今天市场所谓的排位就荡然无存。今天的智驾远没有到大模型时代。

今天百人会上我也在说,我们现在是刚开始从specialist到generalist走,其实大家能理解,并不是你车多,今天还没有到那个时候。接下来我觉得会进入这个时代,我并没有看到像同行们,他们进入了这个架构。你不是这个架构何谈所谓的优势呢?它是不存在的。我们所谓的这种优势是指你已经全面进入了大模型时代,你又采用了更新的架构,你可以享受scaling law带来的优势,其实没有。你不在这个时代何谈这个?我觉得并没有进入这个时代,我认为这个还是很好玩的,接下来可能翻天覆地的变化还会出现。2024年其实有一波就是因为技术路线出了问题的公司,我觉得这根本不是问题,真的不是问题。

Q:您刚才说现在还没有进入真正的大模型时代,大概多长时间可以进入?并且您刚才提到的大模型时代的最大特点是什么?

周光:如果都还没有进入VLA何谈进入大模型时代呢?整个得以大模型的架构来做的自动驾驶才叫大模型时代,现在都是专家系统。你跟我说你讲规模效应,这不是很搞笑吗?

Q:今年春节期间大家感同身受的一件事就是DeepSeek的爆火,业内预期这个事情会对自动驾驶研发范式造成影响,比如昨天下午黑芝麻智能的CMO杨宇欣就说,他觉得云端训练的算力需求会下降,车端推理算力需求会增加。今天下午为旌科技CEO说云端和车端训练推理算力都会下降。您怎么看?比如我们以后是不是非得像特斯拉一样花100亿美元买英伟达芯片,是不是非得买英伟达“双芯”互联之后2000tops的智能驾驶芯片?

周光:还是刚才那个,其实是有sequence。今天的智驾还没进入大模型时代,我们就连大模型时期的scaling law都还没有享受到的时候,就要降低算力,我觉得算力接下来会涨得比较好。进入这个时代会涨得比较快的,谁先能够进入智驾大模型时代,谁可能就能享受这个红利,否则今天给你的数据,你的车辆都没有任何用处。

车端就看了,如果你想做更高安全等级,算力肯定是必需的,因为最终的目标我们还是希望做到L5级。L5级我觉得是强专家,像大模型的发展,我们先是很傻的专家系统,然后出现了GPT的通才,达到985、211的水平,接下来下一步在垂直领域快速达到博士级水平,发展是有这样一个倾向的。

Q:如果做到L4或者L5的话2000tops够吗?

周光:我觉得也不会像大模型那样子需要千张卡,那种级别倒不至于,之所以现在大家觉得scaling law没有用,还是因为大家根本就没进入那个时代,你今天这种就叫作machine learning base。

Q:你觉得特斯拉进入了您说的这个状态吗?

周光:他们V13是按大模型范式来做的。

Q:大模型和端到端是什么关系?

周光:端到端就是指你所有东西都是靠神经网络来决策。大模型天生就是端到端的。大模型有自己的预训练、后训练、alignment,它的数据偏好都不一样,它不是以前那个范式在做了。我觉得这个变化还蛮大的,大家现在喊口号都喊我叫智驾大模型。喊口号谁都能喊,我也喊我要做出GPT-6,喊口号谁不会喊。

Q:理想之前也说过,可能对于AGI早期两年商业不太看好,想问问你的观点,包括元戎在实现RoadAGI这条路上怎么平衡好短期内高昂的研发投入所带来的盈利波动问题?

周光:我们做RoadAGI更多是,我们觉得你在实现strong specialist之前,需要让你的系统能通用。我觉得这是不矛盾的。你如果没有GPT-4这样的通才系统,也很难做出来今天的o1这种专家系统。AI For Science,这是必须的。我们做通才系统的目的是提升AI的智商,我可以认为是这样,这个不冲突的。我认为只有做这个东西,大家一直瞄着车,一直瞄着这一个场景,我觉得是不够的,因为现实世界中你想开好车,你不可能对物理世界其他东西视而不见。

Q:有什么具体的例子?

周光:如果说你不能理解什么叫作火车路,什么叫火车,是不安全的。我有典型的一个例子,在红绿灯,大家都在等红绿灯,这边车子在排队,正好排队的时候在铁轨上也可以排,这个车就排在铁轨上了。如果你缺乏了对通用世界的理解,这是安全的吗?你在铁轨上等红灯,一等两分钟,你怎么办?我觉得实现自动驾驶的终极目标,你不可能对普遍的物理世界没有一个通用的认知,它需要对很多东西有个通用认知的。如果你只在车这个场景堆是不够的。我认为要做出来一个,我们也不像大模型这样追求985的专家系统,我们追求一个幼儿园级的专家系统。说实话,真正的智驾系统对其他场景理解是0,是0理解。我们对物理世界除了路上的车道线,几辆车、人,一些障碍物的理解,我们是0理解,塑料口袋跟一个石头能一样吗?这些我们是什么做法呢?我们的专家系统就是雇一堆专家专门标一下塑料袋,标一下箱子,再标一下石头。你按照这个做法永远是不行的,一定得让你的系统通用化。今天大模型表现出来的对各类场景都能理解,这个通用的能力让我们觉得这是实现L5级自动驾驶必需的,也不是你一直堆就堆得出来的,不是的,一定是要有一个由专到广的过程,最后才能实现L5。

这是我们对AI的认知,不冲突的,没有任何冲突。因为你不这么做,我认为你是做不出来的,你绕不开一个通用的东西。

Q:您的意思是RoadAGI本来就是要做这些东西,不用增加额外的成本?

周光:对,不用增加什么额外成本。如果我们做的东西是需要增加非常多额外成本,说明我们做错了,只能说明我们走错了。

Q:它只增加一点点额外成本,能增加的商业化场景你有想过吗?

周光:我们做这个还是觉得,最终的机器人,我认为手可能占了它80%、 70%的作用,腿也是剩下20%、30%,你不可能扫个图过去,SLAM一下过去,这也不现实,它也不叫AI。你觉得一个SLAM的东西,它有AI吗?它没有AI,它没有任何读取的能力,如果说我们真的会花特别大量的成本在这种场景,只能说明这是一个错误的走向。你应该做到一个通才系统,你可能会增加一些数据的成本,但绝对不是大量的成本,你做到了这个,相信才有可能做出L5级,这说明你对物理世界有一个广泛普遍的认知,然后你再收敛到这个垂类场景。我们对这个垂类场景最终进行一个对齐,我觉得那个时候可能才是真正的L5到来的时候。

Q:现在除了汽车,你还有规划其他的垂类场景吗?

周光:没有,我们只是移动能力,我们指的是移动能力,所有的moving object,我觉得都应该有一个通用的移动能力。比如人,我们就有一个通用的移动能力,哪怕把你头接到马上,你也知道怎么走,这不存在的,你骑自行车也会,你各种都应该会。你没有一个通用的能力是做不到的,今天的这套专家系统,它离开了路就不行了,它不是一个通才系统。

Q:你现在在往大模型时代去的过程当中有没有可能会路走错的情况?

周光:当然会走错了,没有人是能够100%对的。我只是说大模型经历了一个专家系统到通才系统,到真正强专家系统的阶段。我认为这是一个AI发展的阶段。我觉得智驾、机器人会经历同样的阶段,它也是弱的到通用的,再到强的,强的才是我们人类需要的。现在还是在弱阶段,我认为接下来要做通才,不做这个也实现不了最后的。

你要跳出来车的领域看这个事,现在至少语言这一块已经证明了就是这么过来的。今天的车子是不是要走同样的范式?我们现在从端到端开始做大模型,不应该follow同样的范式吗?还是回到那句话,都还没有进入那个时代,规模没有任何用,你不是在这个时代的。

Q:您认同waymo吗?

周光:waymo属于是专家系统。大家知道,其实就是有轨电车,等于那个轨道是invisible,invisible train。大家都知道火车早就实现自动驾驶了,它就是invisible的轨道,路线是在你的图里面,只不过这个汽车是一个基于图的汽车属于是有invisible real,但是还有人在走,只是它是开放世界,但是它invisible的轨道在里面,真正的火车是一个封闭世界,有一个轨道在里面的,真正物理世界做的都得是开放世界,没有预埋的轨道,我觉得这才是一个正常的做法。

Q:通用不仅仅是适应汽车,机器人?咱们这套系统VLA。

周光:我们只是对移动能力的通才。我觉得手跟腿差距还是很大的。我认为手才是机器人的灵魂,毕竟你干活,光走过去,一个没有手的人他能干什么,他只能给你送东西,他什么也干不了。就是一个狗,它咬东西给你递过来,什么也干不了。能拧螺丝吗?能送衣服吗?手才是精华,80%我认为都是在手上,手的突破还有比较长的时间。像人手上,光是传感器,我们手上的感应器类型就三种,可能有上万个传感器在上面,非常精准,我觉得这个还挺难的。物理层面没有突破,很难去把手做到能够现实世界大量干活,现在都是抓钢体,大家知道,抓的都是硬的,抓软的怎么办?我们手能抓铅球,也能抓豆腐,我们能抓移动物理,你见过今天谁在抓移动物体?没有。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新