近日,具身智能公司「RoboScience」(北京机科未来科技有限公司)宣布完成数千万种子轮融资,由零一创投独家投资。本轮融资拟用于产品研发和团队搭建。
「RoboScience」成立于2024年,由前苹果技术主管田野与新加坡国立大学助理教授邵林共同创立,携手产业专家、顶尖高校科研人才打造全球领先的具身智能大小脑模型及产品。
前苹果技术主管与NUS助理教授携手,加速AI技术产业落地
公司创始人兼CEO田野,曾以专业第一从中科大物理系毕业,后赴斯坦福人工智能实验室深造,师从吴恩达。田野曾是苹果总部最年轻的主任工程师之一。在苹果的7年时间中,他作为技术主管,带领团队打造了苹果的机器学习平台,支撑了相机、Siri、Apple Intelligence等AI应用和CoreML、ARKit、Vision framework、NLP framework等AI生态框架,推出多项世界领先的端侧训练和推理技术,服务了数亿用户和数十亿设备,具有把AI技术落地到软硬件产品的丰富经验。
另一创始人兼首席科学家邵林,目前于新加坡国立大学担任助理教授,深耕具身智能领域。此前,邵林博士毕业于斯坦福大学,师从Jeannette Bohg和Leonidas J. Guibas教授。2023年,邵林合作发表的论文提出SAM-RL 方法,有效解决了对世界进行高效建模的问题,入围了国际机器人顶会RSS的最佳系统论文奖。2024年,邵林带领团队提出了 D(R,O) Grasp方法,通过创新性地建立机器手与物体在抓取姿态下的交互模型,成功实现了对机器手与物体几何形状的高度泛化能力,并极大提升了抓取速度,重塑了跨智能体灵巧手抓取,获得CoRL MAPoDeL Workshop最佳机器人论文。
D(R,O) Grasp 整体框架
已实现三个维度的高度泛化,多源海量数据助力模型迭代升级
相识于斯坦福校园,田野与邵林在过去数年间不断探索AI改造世界的方式。经过多年的思考与验证,两人发现大规模预训练的方式不仅可以在自然语言领域成功,也可以赋予机器人通用操作的能力。
2024年上半年,田野与邵林完成了思路验证,推出了Manipulation Foundation Model。该统一操作大模型成为了视觉语言大模型与物理世界的桥梁,完成了三个维度的泛化:指导任意的机器人,操作任意物体,完成任意任务。
比如,在抓取操作方面,与现有方法基于特定物体和特定机器手不同,该方法在操作成功率、姿态多样性以及计算速度方面均取得了显著提升,为灵巧抓取任务提供了新的解决方案。
以该方法为起点,RoboScience由此成立。
技术路线上,RoboScience从成立之初就坚定地选择做快慢脑分层模型,这与海外明星公司Figure的探索方向不谋而合。另一明星公司Physical Intelligence最新发布的模型也从端到端VLA模型转为了分层模型。田野直言,“尽管中间有很多别的技术方向都在出来,但我们一直坚持的就是快慢脑,也就是执行与规划分层、两者各自通用。最近各公司的新进展,一方面我们有了压力和动力,另一方面也让我们不断坚持的这个方向有了更多认同的声音。”
RoboScience对于自研模型的自信,还来源于他们在数据层面的不断突破。不同于大语言模型可以从网络上抓取数据,数据来源问题一直是具身智能发展的阻碍。RoboScience已建立规模化获取并使用仿真数据、视频数据和真实数据的系统,覆盖了日常生活中可见的各种类型及各种维度的物体和任务,提升了数据质量,降低了数据成本。
从实际场景需求出发,打造提升落地效率的软硬件适配产品
从实验室走向商业化,RoboScience有着清晰的规划。基于其技术的高度泛化能力,RoboScience的产品将根据落地场景的具体需求,高效适配不同配置和性能的硬件,拓展落地场景、提升落地效率。
之所以选择这样的开发路径,基于RoboScience团队对于市场的洞察。一是由于随着具身智能的发展,未来不同场景下需要不同的硬件设备,很难用一个统一的硬件来覆盖机器人需要完成的所有任务。二是背靠中国的供应链优势,硬件成本正在快速下降,此时推出通用操作的软件模型,有利于将供应链优势在具身智能领域快速发挥出来。三是由于软件研发迭代速度显著快于硬件,对于RoboScience这样在软件方面有丰富产业经验与学界技术支持的团队而言,与硬件厂商合作来做不同场景无疑是将优势最大化的选择。
“之前在苹果多年的工作经验,让我坚信要做有人文关怀的科技,将技术无缝融入生活,真正让用户受益。”展望未来,田野希望RoboScience能够站在技术和人文的交汇点上,成为人类的朋友和帮手。