最近微信推荐机制调整了,可能有些朋友会收不到我们的推送,大家别忘了给 报告研究所,以免错过更多精彩内容和最新报告
背景:2.20日Figure AI发布Helix VLA大模型引爆市场关注,但我们发现市场对于具身智能大模型的认知还相当粗浅,本文希望通俗易懂的讲明白,我们需要什么样的具身智能大模型?我们离真正的具身智能大模型还有多远?
问题一:具身智能大模型(VLA)是什么?
VLA(Vision-Language-Action)大模型指的是视觉-语言-动作大模型,能够让机器人通过理解环境和语言指令,并通过执行模块输出为动作。
问题二:VLA大模型中分层和端到端模式的区别?业界目前的选择是什么?
VLA模型在执行过程中,一般有三个步骤——1)接收并理解语音和图像输入;2)根据接收的信息做推理决策;3)根据决策生成动作指令并控制机器人运动。简单来说,如果这三个步骤是在一个模型中完成的,则被是端到端大模型,如果这三个步骤分别是调用三个不同的模型完成,则是分层模型。
端到端模式的优缺点:1)优点在于反应速度快+规模化+能够实现智能涌现;2)缺点在于难度高+需要大量训练数据+短期难以落地。
结论&现实情况:短期视角来看,目前国内初创人形机器人企业多采用分层模式,主要是为了快速商业化落地;仅有少数企业例如特斯拉、星动纪元等坚持端到端模型,但从长期视角来看,端到端模式是最终实现具身智能涌现的必要条件。
问题三:为何我们无法训练出好用的端到端具身智能大模型——瓶颈在于数据。
1)数据量差距巨大:相较于VLM大模型亿条级别的数据量,目前机器人实际单一场景的训练数据量仅仅在千条和万条级别,差距百倍。
2)机器人数据获取难度极高:相较于互联网上常见的语料供VLM大模型训练,机器人训练数据获取难度极高。目前有两种数据获取模式:
①真实数据遥操采集:问题在于成本极高,目前动捕设备一套价格在几十万区间,初创企业如果要靠动捕设备遥操采集数据,成本非常高;
②虚拟生成数据:例如银河通用发布的GraspVLA,通过虚拟仿真技术生成数据,用于机器人训练,但目前难以解决sim-to-real gap。简单来说,就是用虚拟仿真数据训练机器人效果很差,如果是简单的抓放搬运场景,虚拟数据相对可行,但如果涉及到柔性场景,比如说衣服被子等柔性物体,就很难运用。因为涉及到柔性物体形变的仿真,在物理层面本身就很难建模。
③真人数据映射:UMI和DexCap(斯坦福机器人团队)等正在探索真人数据映射(即采集真实人的数据,通过某种映射关系转化为机器人数据),但目前还比较早期。
3)遥操采集的数据本身存在毒性:①人在运动过程中会有额外的运动轨迹:例如简单的搬箱子,人在遥操录制过程中,可能会因为外界干扰停顿几秒,但这个停顿对于机器人来说就存在毒性,因为其无法理解人为什么要停顿。②人的运动轨迹和机器人不一致:目前市面上大量机器人都是以旋转关节为主,而人的上下肢是直线关节,因此同样是搬箱子的动作,人和机器人的运动轨迹就是不一致的,这时候用真人的数据去训练机器人本身就存在毒性。
4)机器人本体方案未收敛导致数据难以复用:例如用特斯拉本体采集的数据很难给智元的机器人来训练,因为本体方案不同。
问题四:数据端存在这么多问题,业界如何解决?
真实的情况是,业界目前还无法解决上述数据端的问题。但目前各家都选择在自己的方案上努力收集数据,先在单一场景下实现一定程度的泛化,从而让更多人形机器人投入实际运用。我们认为可能是3-5年后,当市场上有足够多的人形机器人数据,并且硬件方案逐步收敛,具身智能基础模型呈现出一定的智能涌现,才有可能实现真正的端到端具身智能大模型。
问题五:能否采用Deepseek的范式来加速具身智能大模型的发展?
Deepseek是通过pre-train+post-train(强化学习)的模式,并且导入高质量数据,来降低大模型的算力和数据量需求。但目前来看,这种范式对具身智能大模型来说,路径是正确的,但基本要素还不具备。一方面,具身智能大模型并没有一个强大的基础模型;另一方面,也不存在一个完善的强化学习流程。学界一直在推行所谓的模仿学习+后训练强化学习的方案(类似于deepseek的路线),就是通过模仿学习达成0-1,然后通过强化学习达成1-10,但目前来看必要条件还未达成。
问题六:Figure Helix大模型详解和局限点解析:
Helix的特点是准分层架构,用一个开源的70e参数的VLM作为大脑,然后下面结合一个Transformer架构的动作策略快系统,这个快系统实际只要用8000万参数去吸收500h的数据,然后使其泛化性变得足够强。
PS:简单理解就是大脑的思考完全交由VLM大模型,因为互联网上有很多家居的视频和数据,因此可以问题通过VLM大模型去进行解析,本身VLM大模型就已经有很好的泛化性。再讲解析出来的指令通过快系统去执行。
优劣点解析:
Helix的优点在于:1)快速商业化能力,能够用很小的数据量达到很好的泛化水平
Helix的劣势在于:1)Helix是一种纯模仿学习,还没有上强化学习;2)没法处理突发情况,例如一些碰撞和避障;3)互联网上海量的数据还是集中在生活场景多一些,工业数据很少,因此helix可能短期内更适用于家居场景,工业场景使用难度更高。
最近deepseek火爆,相关知识和要点层出不穷,涉及范围广泛。我们整理了deepseek最新相关的专业研报,已分享在知识星球圈子,有需要的朋友可扫描图片二维码进入下载