当前位置：首页 » 资讯 » 新科技 » 正文

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

IP属地北京 编辑：冯璃月量子位 时间：2024-11-03 15:29:36

奇月发自凹非寺
| 公众号 QbitAI
一群大模型玩你画我猜，人类一旁围观超起劲儿。
就像下面这张图展示的，由Grok画长颈鹿，一堆大模型根据生成内容猜答案。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。
其实这是最近爆火的一种新的测试基准（doge）。
游戏结果一定程度上能反映出大模型能力，比如这组测试一共进行了6局游戏，表现最好的是 Claude：它赢了3次！
GPT-4o表现有点抽象。就它画的这龙卷风，人类也看不懂。
不止如此，在很多轮游戏中，其他模型都在认认真真地答题，而它的第一个回答经常是 Circle？？有点子抽象。
所以有人就说，这游戏可以当测试基准来用啊。
还有人表示，AI照这个速度发展，人类就只能当围观的瓦力了。
来看看更多有趣的例子
在比较简单的题目上，所有模型都在一两个回合中就猜对了答案，比如下面的房子：
还有非常简洁的草地、海洋：
动物主题相对复杂一些，模型们一般需要猜4-5轮，比如大象这题：
游戏整体效果非常棒，网友们也是好评如潮：
你画我猜项目起源
模型画画早已不是新鲜事，但让大模型玩你画我猜？这天才想法是怎么产生的？
首先，不得不提到Simon Willison的一次测试，他让所有模型绘制自行车上有一只鹈鹕主题的图像，然后进行效果对比。
随后Paul Calcraft看到测试，他产生了一个想法：这样一个个比对太慢了，效果也不好，既然都画同一个主题，为什么不让大模型玩你画我猜的游戏呢？
没想到这位小哥说干就干，1天后就发布了“你画我猜”的0.0.1版（这令人羡慕的执行力）。
游戏中，他设定回答的模型每2秒猜测一次，回答更快的模型会更快返回答案。
网友评价褒贬不一
不少网友表示，之前大模型在《我的世界》里面比赛盖楼，令人印象深刻，而你画我猜可能成为新的视觉benchmark！
还有人热心地提出了优化建议，比如以答对互相题目的速度作为评分准则，或者加入人类成绩作为参考。
还有人提议将游戏变成对抗式训练，这样大模型会进步更快。
不过，抛去趣味性，也有网友持负面观点，表示不理解这个项目的意义。
有网友调侃说，这个游戏的作用就是成为未来AI考古时的文物，帮助它们了解自己的起源。
好嘛，咱们AI有自己的洞穴壁画（doge）。
不过，游戏化学习（Learning through play）其实是教育理论和心理学中的一个重要术语。
多位网友表示，小孩子也是通过玩游戏来提升智力、学习技能的，或许这可以成为训练大模型的新方式。
虽然这次只有6轮游戏，参与的模型也有限，但确实是一次很有趣的实践。
作者Paul Calcraft也表示会继续更新这个游戏，包括分数显示、更多的游戏主题等等，期待更多后续！
参考链接：
[2]https://www.reddit.com/r/singularity/comments/1gcval0/llm_pictionary/
— 完—
评选征集中
「2024人工智能年度评选」
2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。
欢迎扫码报名评选！评选结果将于12月 MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。
点这里

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

一家中国团队在中东做语聊，不到半年收入接近600万美金，投放形式很“中国”

小鹏的今天，会是蔚来的明天吗？

小米汽车精英驾驶正在筹办，SU7 Ultra准车主预计12月进“驾校”

微软公布 Zero Day Quest 白帽安全竞赛

REDMI Watch 5超大屏惊艳亮相网友直呼小米手环9买早了

周鸿祎谈中国首富“看不起直播带货的企业家”：赞同，我们都应该向雷军学习！

新疆将首次开行贯通南疆东疆“复兴号”动车，单程运行距离 729km

消息称三星 Galaxy Z Flip FE 手机将搭载 Exynos 2400e

从乌镇携手出发，迈进更加美好的“数字未来”——来自2024年世界互联网大会乌镇峰会的观察

鸿蒙生态大会2024行业场景创新分论坛在深圳成功召开

微信PC版，迎来史诗级更新

被遗忘多年后，我也没想到小屏手机还能逆袭...

赵明回应荣耀 GT 系列独立，或将肩负再造荣耀目标

热衷“吃谷”的二次元，又奔向了IP主题餐厅

新一代擎天柱！米家空调Pro新品官宣：更大更广更远

索尼助力珠海航展，创新影像科技科技创新点亮航空盛会

L级HYBRID远摄变焦佳能RF70-200mm F2.8 L IS USM Z外观图赏

第五届“华为影像·金鸡手机电影计划”荣誉作品揭晓，见证移动影像共创之力

首发星穹柔光砂玻璃努比亚Z70 Ultra香珀配色图赏

索尼A7V或采用IMX366传感器？

索尼28-70mm f/2.0 GM镜头规格曝光

徕卡M11与Noctilux 50mm f/1.2黑漆版谍照曝光

新品发售 | Nanomorph 60mm T2.9 0.5X放大变宽微距上市！

多罗米蒂山区的摄影之旅

RF卡口再添新兵适马四剑客双雄30mm F1.4/56mm F1.4评测

vivo S20系列部分外观曝光采用金色纹理后盖设计

大疆Osmo 360全景相机即将到来？

全站最新

一家中国团队在中东做语聊，不到半年收入接近600万美金，投放形式很“中国”

小鹏的今天，会是蔚来的明天吗？

小米汽车精英驾驶正在筹办，SU7 Ultra准车主预计12月进“驾校”

微软公布 Zero Day Quest 白帽安全竞赛

REDMI Watch 5超大屏惊艳亮相网友直呼小米手环9买早了

周鸿祎谈中国首富“看不起直播带货的企业家”：赞同，我们都应该向雷军学习！

新疆将首次开行贯通南疆东疆“复兴号”动车，单程运行距离 729km

消息称三星 Galaxy Z Flip FE 手机将搭载 Exynos 2400e

热门推荐

一家中国团队在中东做语聊，不到半年收入接近600万美金，投放形式很“中国”

小鹏的今天，会是蔚来的明天吗？

小米汽车精英驾驶正在筹办，SU7 Ultra准车主预计12月进“驾校”

微软公布 Zero Day Quest 白帽安全竞赛

REDMI Watch 5超大屏惊艳亮相网友直呼小米手环9买早了

周鸿祎谈中国首富“看不起直播带货的企业家”：赞同，我们都应该向雷军学习！

新疆将首次开行贯通南疆东疆“复兴号”动车，单程运行距离 729km

消息称三星 Galaxy Z Flip FE 手机将搭载 Exynos 2400e

从乌镇携手出发，迈进更加美好的“数字未来”——来自2024年世界互联网大会乌镇峰会的观察

鸿蒙生态大会2024行业场景创新分论坛在深圳成功召开

微信PC版，迎来史诗级更新

被遗忘多年后，我也没想到小屏手机还能逆袭...

赵明回应荣耀 GT 系列独立，或将肩负再造荣耀目标

热衷“吃谷”的二次元，又奔向了IP主题餐厅

新一代擎天柱！米家空调Pro新品官宣：更大更广更远