微软在官网开源了一款名为Magma的多模态AI Agent基础模型。与传统AI Agent相比,Magma具有跨越数字和物理世界的能力。它能够自动处理图像、视频、文本等多种类型的数据,实现不同领域的信息融合。
作为视觉语言动作(VLA)基础模型之一,Magma能够从海量的公开视觉和语言数据中学习知识,融合语言、空间和时间智能,应对数字和物理世界中的复杂任务和环境。Magmahai 内置了心理预测功能,这使得它能够更准确地预测视频中人物或物体的意图和未来行为,这一功能大大提高了AI对未来时空动态的理解能力。
这款模型的应用前景十分广阔。用户可以利用它自动下电商订单、查询天气,甚至操控实体机器人。在真实象棋游戏中,Magma也能为用户提供助力。此外,Magma还能够帮助AI驱动的助手或机器人更好地理解周围环境,并采取相应行动。例如,它可以帮助家用机器人学习整理新物品,或为虚拟助手生成用户界面导航说明。