机器人行业的DeepSeek-R1,被智元机器人开发出来了?
华为天才少年计划的经历,带给了「稚晖君」彭志辉极高人气,也让他创办的智元机器人获得了行业顶级流量。但若技术实力与流量不匹配,最终这些流量难免化为舆论攻击——就像日前涉嫌营销用力过猛的Manus一样。
好在,智元机器人一次又一次展现出了自己的实力,日前其推出全球首个通用具身智能基座大模型智元启元大模型(Genie Operator-1,以下简称:GO-1),并计划第一季度末对核心用户开源,允许用户将其部署到自家机器人上。
(图源:智元机器人)
在DeepSeek-R1面世之后,全球多个AI公司将旗下的大模型开源,并承认开源方能加速推动AI行业进步。GO-1模型现阶段开源程度不如采用MIT开源协议的DeepSeek-R1,但此前智元机器人已将用于训练GO-1模型的AgiBot World数据集、工具链、预训练模型统统开源,未来很可能将GO-1核心代码和模型开源。
VLM+MoE,智元带领机器人奔向AI时代
模型开源智元机器人方能有机会成为机器人行业的DeepSeek,但开源却不代表一定能够获得媲美DeepSeek的地位,一切终究要实力说话。
智元机器人开发的GO-1模型基于Vision-Language-Latent-Action(ViLLA)架构,由多模态大模型(VLM)和混合专家(MoE)组合而成。VLM为具身基座大模型的主干网络,继承了上海人工智能实验室开发的开源大模型InternVL-2B的权重,可实现场景感知和语言理解,并利用互联网上的视频和图片数据训练自身。该模型还能融合多视角视觉、力觉信号,赋予自身通用场景理解能力,从而实现更多复杂的操作。
MoE则分为隐式规划器和动作专家两部分,隐式规划器可利用互联网上的人类或跨本体视频,基于VLM的中间层输出潜在动作令牌(Latent Action Tokens),形成规划链(Chain of Planning),实现通用的动作理解和规划。动作专家可借助仿真或真机数据,优化潜在动作令牌的生成和输出效率,并获得高精度动作的执行能力。
(图源:智元机器人)
其具备的动态调节机制,还能实现图像描述、OCR 解析等任务效率的提升,降低数据标注成本和优化资源分配。
基于ViLLA架构,GO-1模型构建了数字金字塔,最基础的互联网纯文本、图文数据,可帮助机器人理解通用知识和场景;第二层的大规模人类或跨本体视频,可帮助机器人学习人类或其他本体的动作操作模式;更高一层的仿真数据则能够增强机器人的泛用性;最后由真机示教数据帮助机器人训练精准动作执行能力。
在模型架构之外,用于训练模型的数据同样重要。最新版的AgiBot World包含1001552 条轨迹,覆盖了家庭、零售、工业、餐厅、办公五大关键场景,是目前全球最大的机器人真机示教数据集。
不同于普通轨迹不超过5秒的时间,AgiBot World中的轨迹跨度可达30秒左右,部分轨迹甚至长达2分钟。智元机器人官方数据显示,AgiBot World所采用的预训练模式,相较谷歌Open X-Embodiment训练策略平均性能提升30%,相较现有机器人大模型完成复杂操作的平均成功率提高了32%。
(图源:智元机器人)
与传统机器人模型相比,GO-1模型在架构、数据、预训练模式等方面均有所改进,提升了资源利用效率和模型的能力,能够大幅降低机器人训练和执行操作所需的成本,作用与DeepSeek-R模型较为相似。二者相比,GO-1模型差的可能只有开源模式。
NVIDIA CEO黄仁勋曾预言,两三年内机器人行业将迎来重大突破,未来会像汽车一样普及。在机器人技术从生涩走向成熟的今天,智元机器人也在不断推动产品量产,日前1000台机器人量产下线,已面向全球开源的灵犀X1也完成了首批交付,灵犀X2于3月11日在上海发布,功能更加强大。在未来机器人行业的竞争中,GO-1模型或将成为智元机器人的核心竞争力之一。
降低门槛,GO-1要做下一个DeepSeek-R1?
阿加犀智能科技有限公司CEO孙晓刚表示,按照目前机器人行业的发展进程,三五年内机器人的价格降到5万元以内没有问题。
5万元以内的机器人,已处于普通消费者可以接受的范围,但购买的前提是其功能足够强大,可以帮助我们处理一些生活琐事。决定机器人能力的关键,在于硬件和智能两方面,GO-1模型要做的就是提高机器人的智能程度。
ViLLA架构赋予了GO-1模型通过人类视频学习的能力,互联网上庞大的视频资源,都将成为机器人进化的「养料」,让机器人能够更高效地完成复杂操作。
其次,小样本快速泛化特性令GO-1模型可以在数据量极少,甚至零样本的情况下,泛化到新场景,无需庞大的数据,从而大幅减少训练成本,降低机器人行业的门槛。
最关键的是,GO-1属于「一脑多形」通用机器人模型,能够在两足、轮足等不同类型机器人之间迁移和快速适配。不同类型的机器人可能需要完全不同的AI大模型,用于适配机器人硬件的工作模式,是开发机器人企业的难点之一。GO-1模型打破常规,可以轻松适配各种机器人,无疑能够进一步降低机器人模型的开发、适配成本。
(图源:智元机器人)
另外,GO-1模型还具备持续进化能力,日常工作中遇到的问题,数据都会回流至系统,用于机器人的训练和功能升级。
尽管GO-1模型仅在本月底面向核心用户开源,但从功能特性不难看出,GO-1已经把「我会开源」写在了脸上,整个大模型几乎完全面向提升能力、降低成本两方面。小样本快速泛化和一脑多形能力,令实力底蕴不足的机器人企业,也能借助GO-1模型快速开发出适合机器人产品的AI系统,并借助国内日渐成熟的机器人供应链实现产品量产。
与新能源汽车行业类似,机器人时代的到来是一次机遇,比亚迪、小鹏、赛力斯等车企已纷纷入场,还有许多知名度不高的小企业加入,究竟哪些企业能够成长为头部品牌,暂时无法确定。赫赫有名的宇树科技有望成为机器人行业的比亚迪,开发GO-1模型的智元机器人则拥有成为「蔚小理」的机会。
同样的,机器人行业的发展之路,也会有许多企业掉队。不同的是,新能源汽车行业工业实力的重要性大于AI能力,而机器人领域AI能力的重要性至少持平工业实力,甚至更胜一筹。而且在机器人行业发展过程中,供应链将不断整合,硬件会收敛,机器人最终比拼的是智能化。
(图源:智元机器人)
正如智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青所言,对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。
智元机器人推出的远征、灵犀、绝尘等多品类机器人,无法发挥GO-1模型的全部价值,将其开源并允许其他企业修改、部署、商用,方能最大限度挖掘GO-1模型的价值,并起到推动机器人行业发展的作用。
向核心用户开源模型只是开始,未来GO-1模型很可能面向全行业开源,增强其他机器人企业的实力。开源后的GO-1模型,才能获得DeepSeek-R1的地位,成为行业发展的推动者。智元机器人自身也是硬件产品开发公司,借助GO-1的声望,或将进一步打响知名度,并提高产品销量,而非如现在一般,提到智元机器人和彭志辉,大家首先想到的是华为天才少年计划出身的身份。