星海系列:人形机器人与AI大模型之Robot+AI的Transformer之旅
报告共计:54页
本报告聚焦人形机器人与AI大模型结合领域,探讨Transformer模型演进,其从语言处理扩展到多模态任务,推动多模态大模型发展,虽面临异质化数据处理与训练挑战,但Scaling Law表明数据规模提升可优化模型。谷歌RT - 2通过视觉 - 语言 - 动作模型与联合微调实现机器人端到端控制,提升泛化能力;英伟达MimicGen自动化生成数据,助力机器人学习;谷歌RoboCat基于数据集快速适应任务,展示多任务具身智能。特斯拉FSD历经发展,FSD V12实现端到端自动驾驶,引入Transformer模型,感知决策一体化,引领行业变革。端到端算法在自动驾驶与人形机器人领域优势明显,可实现拟人化行为,但机器人端面临数据收集标注、合成数据使用、模型可解释性等问题。英伟达Robocasa构建模拟框架,生成厨房场景数据,促进机器人学习,实验论证real - sim - real可行性。李飞飞团队Rekep提出关系关键点约束,融入视觉 - 语言模型解决机器人操作任务;1x世界模型从原始数据学习构建模拟器,理解环境但存在不足;字节GR - 2通过预训练与微调具备高效动作预测和泛化能力,性能提升显著;数字表亲优化训练法,降低成本提高泛化能力,实现模拟到现实零样本迁移。
以下为报告节选内容