人工智能正迅速渗透到几乎所有你能想到的科技领域,而谷歌的 Gemini站在最前沿。
这家科技巨头在推出搜索的 “AI模式”和 Gemini 日历集成后,似乎正在推出新的 “圈选搜索”调整。但相比之下,其 DeepMind AI 团队目标更为宏大。
该团队专门开发了 两个全新的 Gemini 模型,专为机器人设计。
Gemini Robotics:赋予机器人视觉、语言与动作能力
第一个模型名为 “Gemini Robotics”,它是一个先进的 视觉-语言-行动(VLA)大模型,基于 Gemini 2.0构建。它能够通过 物理运动来响应指令。
在近期由 The Verge参加的一场新闻发布会上,DeepMind 机器人领域的高级总监 Carolina Parada介绍道:“Gemini Robotics 汲取了 Gemini 的多模态世界理解能力,并通过 增加物理动作这一新模态,将其应用到现实世界。”
谷歌表示,该模型在 通用性、交互性和灵活性方面取得了重大突破。
Parada 进一步解释道:
“过去,我们在每个单独领域都取得了一定进展,但现在,我们通过 一个单一模型,在 这三个关键维度上实现了 性能的飞跃式提升。”
这项技术的推出,意味着机器人将更好地理解世界,并以更自然的方式与现实环境互动,为未来的 AI 机器人发展奠定了重要基础!