当前位置：首页 » 资讯 » 新科技 » 正文

测试 AI，就用超级马力欧

IP属地北京 编辑：唐云泽太平洋科技 时间：2025-03-04 16:33:58

“任天堂就是世界的主宰”，这句话在 AI 时代依然没错。
就在上个月，美国人工智能企业 Anthropic 在 Twitch 上用最新的 AI 模型 Claude 3.7 Sonnet 玩《宝可梦·红》，展现了当今 AI 技术的能力和人们对它的反应。
研究员测试了非常多的游戏，最后表示《宝可梦》是测试 Claude 3.7 Sonnet 的一个非常有用的基准，因为在游戏中确实可以看到 Claude 3.7 的“思考”——它赢得了三个道馆的徽章。
而今天研究人员发现，《超级马力欧兄弟》可能比《宝可梦》系列更适合测试 AI 工具。
加州大学圣地亚哥分校的研究机构 Hao AI Lab 在上周五设计了一个与 GamingAgent 框架集成的《超级马力欧兄弟》用来测试 AI 工具，GamingAgent 内为人工智能提供了一些基本指令，比如“如果附近有敌人或障碍物请向左或跳跃躲避”，同时也提供了一些游戏截图作为参考，再由人工智能以 Python 代码的形式生成输入来控制马力欧。
最终的结果是，Claude 3.7 表现最佳，其次是 Claude 3.5、Gemini 1.5 Pro、GPT-4o。
相比《宝可梦》可以停留思考、回合制对战，《超级马力欧兄弟》这种“时间就是一切”的游戏对推理模型来说更加困难，1 秒钟可能就意味着安全跳过或者坠落摔死。
用游戏来测试 AI 其实也由来已久，早在 2019 年，OpenAI 就举办了一场来展示 OpenAI Five 实力的比赛，它击败了一支由专业玩家组成的 Dota 2 队伍，公开发布后，更是在线击败了 99.4% 的选手。
不过在一段时间后，OpenAI 不再使用游戏当基准，转去研究自然语言以及其他方向，或许为游戏创建 AI 让人兴奋不已、也更容易商业化，但前 Salesforce 首席 AI 科学家 Richard Socher 认为：除了玩游戏，它们没有真正为世界创造价值。
游戏作为一个抽象、简单的世界，相比真实环境确实有缺陷，如果不能很好的适应新环境，就很难在时代变化中解决问题。哪怕是胜率高达 9 成的 OpenAI Five，也不过是会玩 Dota 2 里的 16 个角色罢了。
在 GPT-4.5 发布后，OpenAI 的研究科学员也提到了 AI 评测的“评估危机”。表示“我不知道看什么 AI 指标了”。
这确实也是如今 AI 领域研究者需要关注的话题，大家都说 GPT-4.5 很独特，很有人情味，但它的“taste”该如何评价呢？
但至少，我们今天可以看 AI 玩《超级马力欧》。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

海尔频繁收购背后

日播时尚2024年亏损近1.6亿元创新高，服装跨界“锂电”需警惕标的业绩下滑风险

第一款AI眼镜、国产Ray-Ban Meta，闪极的产品为什么闪崩？

全国人大代表、蜜雪集团赵红果：应加大对茶饮门店的日常监督，提升行业整体质量水平

董事长被查，好想来进入多事之秋

夏季防晒战先打起来了！卖冲锋衣的骆驼“杀”入美妆圈，今年GMV目标1.5亿元

港股“冻资王”首日开门红，雪王身上藏着大消费财富密码

不到1折出手！银行业加速出清不良资产，有银行转让超6亿信用卡不良贷款

读懂IPO|弘景光电业绩翻倍背后：来自单一客户的收入3年暴增28倍

新一代“国民小折叠”努比亚Flip 2，国补后到手价低至2899元！

林州重机拟终止工业机器人项目前期投入的5200万元“打水漂”?

iPhone 16e自研基带网速测试不及高通是否真被高估？

传菜鸟实施员工期权全量退出计划更换为长期现金激励

曝国产GPU独角兽沐曦股份上市前突击裁员20% 公司回应了

泽润新能提交招股书注册稿产品结构单一业绩增长放缓

联环药业终止定增转向申请研发贷款支持创新药项目

海天味业赴港IPO：市值缩水超六成 “酱油茅”风采不再

董明珠：建议将个税起征标准提高至1万元

京东眼镜生态仓开仓，携手暴龙、帕森等20余个品牌推出一站式配镜服务

下代AMD集显性能媲美RTX5070Ti 集成多达48个CU

脑机接口有望缩短25%入睡时间马斯克等大佬都在研发

iPhone 17 Air妥协太多！连底部扬声器都砍了

Nothing Phone（3a）/Pro 手机发布：12G + 256G 售 379 美元起

美报告：中国芯片研究论文以绝对优势处于领先地位

华为3月将发布多款新品小折叠是亮点

万辰集团董事长王健坤被留置及立案调查，其姐王丽卿代行职责

民营企业座谈会透露哪些重要信号

全站最新

海尔频繁收购背后

日播时尚2024年亏损近1.6亿元创新高，服装跨界“锂电”需警惕标的业绩下滑风险

第一款AI眼镜、国产Ray-Ban Meta，闪极的产品为什么闪崩？

全国人大代表、蜜雪集团赵红果：应加大对茶饮门店的日常监督，提升行业整体质量水平

董事长被查，好想来进入多事之秋

夏季防晒战先打起来了！卖冲锋衣的骆驼“杀”入美妆圈，今年GMV目标1.5亿元

港股“冻资王”首日开门红，雪王身上藏着大消费财富密码

不到1折出手！银行业加速出清不良资产，有银行转让超6亿信用卡不良贷款

热门推荐

海尔频繁收购背后

日播时尚2024年亏损近1.6亿元创新高，服装跨界“锂电”需警惕标的业绩下滑风险

第一款AI眼镜、国产Ray-Ban Meta，闪极的产品为什么闪崩？

全国人大代表、蜜雪集团赵红果：应加大对茶饮门店的日常监督，提升行业整体质量水平

董事长被查，好想来进入多事之秋

夏季防晒战先打起来了！卖冲锋衣的骆驼“杀”入美妆圈，今年GMV目标1.5亿元

港股“冻资王”首日开门红，雪王身上藏着大消费财富密码

不到1折出手！银行业加速出清不良资产，有银行转让超6亿信用卡不良贷款

读懂IPO|弘景光电业绩翻倍背后：来自单一客户的收入3年暴增28倍

新一代“国民小折叠”努比亚Flip 2，国补后到手价低至2899元！

林州重机拟终止工业机器人项目前期投入的5200万元“打水漂”?

iPhone 16e自研基带网速测试不及高通是否真被高估？

传菜鸟实施员工期权全量退出计划更换为长期现金激励

曝国产GPU独角兽沐曦股份上市前突击裁员20% 公司回应了

泽润新能提交招股书注册稿产品结构单一业绩增长放缓