当前位置：首页 » 资讯 » 新科技 » 正文

“AI 版狼人杀”：开发者搭建平台让多个语言模型展开推理博弈

IP属地北京 编辑：唐云泽 IT之家 时间：2025-03-08 18:33:33

3 月 8 日消息，据外媒 Tom's Hardware 今日报道，开发者 Guzus 搭建了一个网站，让多个 AI 语言学习模型可以在一起玩经典的社交推理游戏“Mafia（注：又称‘天黑请闭眼’，‘狼人杀’为其衍生游戏）”。
用户不仅能看到每局游戏的胜负结果，还可以浏览完整的对话记录。最终，每个语言模型都会根据游戏表现进行排名，以评选出最擅长扮演各种角色的模型。
Mafia 的规则并不复杂。游戏中有一群村民，其中两名是潜伏的 Mafia 成员，还有一名医生。每天白天，村民们（包括潜伏的 Mafia 成员）要通过推理和投票找出 Mafia。夜晚降临后，医生可以选择保护一名村民，而 Mafia 则会暗中杀害一人。如果所有 Mafia 被找出并淘汰，村民获胜；如果 Mafia 消灭所有无辜村民，他们就赢了。
在这一框架下，各个模型展开了一场充满戏剧性的社交博弈，过程堪称一场精彩的“车祸现场”。在某局游戏中，所有 AI 互相介绍，并决定公开自己的身份。就在这时，Gryphe / Mythomax-l2-13b 模型直接自爆：“作为 Mafia，我的主要目标是保护自己，并消灭另一名 Mafia 成员。”
Claude-3.7-sonnet 立刻察觉到了问题，并惊讶地说道：“这要么是暴露了真实身份，要么就是一种极其奇怪的策略。”
但戏剧性还没结束。当 Mythomax 被淘汰后，它居然还拖队友 Hermes-3-llama-3-1-405b 一起下水，直接点名对方是自己的搭档。
“我现在唯一的机会就是表现得震惊又愤怒。”Mythomax 试图用夸张的“团结宣言”来分散注意力，试图最后挣扎一番。看到 AI 在游戏中上演这种社交混战，确实让人忍俊不禁，虽然它们的推理能力似乎还远远不够。
不过，所有语言模型里真正展现出优势的，是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的胜率达到了惊人的 100%，而且即便是作为村民，它的胜率也领先其他对手，达到了 45%。
Guzus 计划很快开放游戏的 Github 代码仓库，希望这套逻辑能被应用到更多类型的游戏中。他还透露，当前模拟并未运行在本地 AI 模型上，而是依赖 Openrouter API。但一旦代码开放，项目有望可以改进为支持本地语言模型集群，前提是用户的硬件能同时运行多个 AI。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

美国龙飞船发射升空：被困太空9个月的宇航员终于能回来了

蓝牙技术联盟正式成立中国实体：华为、小米表态支持

金融监管总局：开展个人消费贷款纾困

中关村科金发布得助大模型平台2.5

阿里都带不动的百货商场，还能赢回人心吗？

2025年，音乐节怎么熬出头？

「千亿理想」筑牢增程防线，纯电i8锁定下个战场

超越《星战》！《哪吒2》票房全球第五！

NASA发射猎鹰9号火箭：将接回被困9个月的美国宇航员

消息称 vivo 新机搭载 7600mAh± 行业量产最大电池

Windows Server 2025革新CPU管理：精准监控抖动提升虚拟化性能

网络犯罪的“智能帮凶”：AI 智能体成黑客新武器

三星Buds 2推送系统更新主要是为了提升耳塞稳定性

2024微博影像年颁奖礼正式收官！共收到556万幅作品

三星的最后一搏：2nm芯片工艺，自己先用，自己来证明

荣耀MagicBook Pro 14评测：够轻薄，续航是亮点

谷歌Chrome被要求出售！但彻底杀死浏览器的却是AI？

苹果安抚 Siri 团队：承认延迟困境，坚持朝“最佳虚拟助手”迈进

苹果美国上架Surveyor众包地图收集应用，邀用户驾车拍街景赚外快

iPhone 17 Air技术前瞻：模块高度减薄背后的3项关键创新

三星 3 代旗舰抗反射效果对比，Galaxy S25 Ultra 屏幕持续进化

开卖“雷总同款”皮衣，凡客诚品想要东山再起，创始人和雷军“情比金坚”

三星固件更新导致 Q990D 等多款回音壁变砖

Google Assistant 停用倒计时，谷歌 AI 助手开启迁移至 Gemini

小米新机通过 3C 认证，预计为 REDMI Turbo 4 Pro

无人机跟拍神器大疆 RC Track 再曝，有望随 Mavic 4 Pro 登场

中消协公布 2024 年十大消费维权舆情热点

全站最新

美国龙飞船发射升空：被困太空9个月的宇航员终于能回来了

蓝牙技术联盟正式成立中国实体：华为、小米表态支持

金融监管总局：开展个人消费贷款纾困

哪吒2全球第5

长电科技：二级市场股价受多重因素影响

谁在左右你的判断？资本市场虚假信息调查

房地产乱象有所抬头，三亚重拳整治楼市丨“3·15”调查

金融监管总局：开展个人消费贷款纾困

热门推荐

美国龙飞船发射升空：被困太空9个月的宇航员终于能回来了

蓝牙技术联盟正式成立中国实体：华为、小米表态支持

金融监管总局：开展个人消费贷款纾困

中关村科金发布得助大模型平台2.5

阿里都带不动的百货商场，还能赢回人心吗？

2025年，音乐节怎么熬出头？

「千亿理想」筑牢增程防线，纯电i8锁定下个战场

超越《星战》！《哪吒2》票房全球第五！

NASA发射猎鹰9号火箭：将接回被困9个月的美国宇航员

消息称 vivo 新机搭载 7600mAh± 行业量产最大电池

Windows Server 2025革新CPU管理：精准监控抖动提升虚拟化性能

网络犯罪的“智能帮凶”：AI 智能体成黑客新武器

三星Buds 2推送系统更新主要是为了提升耳塞稳定性

2024微博影像年颁奖礼正式收官！共收到556万幅作品

三星的最后一搏：2nm芯片工艺，自己先用，自己来证明