当前位置: 首页 » 资讯 » 新科技 » 正文

测试 AI,就用超级马力欧

IP属地 北京 编辑:唐云泽 太平洋科技 时间:2025-03-04 16:33:58

“任天堂就是世界的主宰”,这句话在 AI 时代依然没错。

就在上个月,美国人工智能企业 Anthropic 在 Twitch 上用最新的 AI 模型 Claude 3.7 Sonnet 玩《宝可梦·红》,展现了当今 AI 技术的能力和人们对它的反应。

研究员测试了非常多的游戏,最后表示《宝可梦》是测试 Claude 3.7 Sonnet 的一个非常有用的基准,因为在游戏中确实可以看到 Claude 3.7 的“思考”——它赢得了三个道馆的徽章。

而今天研究人员发现,《超级马力欧兄弟》可能比《宝可梦》系列更适合测试 AI 工具。

加州大学圣地亚哥分校的研究机构 Hao AI Lab 在上周五设计了一个与 GamingAgent 框架集成的《超级马力欧兄弟》用来测试 AI 工具,GamingAgent 内为人工智能提供了一些基本指令,比如“如果附近有敌人或障碍物请向左或跳跃躲避”,同时也提供了一些游戏截图作为参考,再由人工智能以 Python 代码的形式生成输入来控制马力欧。

最终的结果是,Claude 3.7 表现最佳,其次是 Claude 3.5、Gemini 1.5 Pro、GPT-4o。

相比《宝可梦》可以停留思考、回合制对战,《超级马力欧兄弟》这种“时间就是一切”的游戏对推理模型来说更加困难,1 秒钟可能就意味着安全跳过或者坠落摔死。

用游戏来测试 AI 其实也由来已久,早在 2019 年,OpenAI 就举办了一场来展示 OpenAI Five 实力的比赛,它击败了一支由专业玩家组成的 Dota 2 队伍,公开发布后,更是在线击败了 99.4% 的选手。

不过在一段时间后,OpenAI 不再使用游戏当基准,转去研究自然语言以及其他方向,或许为游戏创建 AI 让人兴奋不已、也更容易商业化,但前 Salesforce 首席 AI 科学家 Richard Socher 认为:除了玩游戏,它们没有真正为世界创造价值。

游戏作为一个抽象、简单的世界,相比真实环境确实有缺陷,如果不能很好的适应新环境,就很难在时代变化中解决问题。哪怕是胜率高达 9 成的 OpenAI Five,也不过是会玩 Dota 2 里的 16 个角色罢了。

在 GPT-4.5 发布后,OpenAI 的研究科学员也提到了 AI 评测的“评估危机”。表示“我不知道看什么 AI 指标了”。

这确实也是如今 AI 领域研究者需要关注的话题,大家都说 GPT-4.5 很独特,很有人情味,但它的“taste”该如何评价呢?

但至少,我们今天可以看 AI 玩《超级马力欧》。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新