当前位置: 首页 » 资讯 » 新科技 » 正文

阿里最新深度思考模型强不强?我们让它和Grok3比拼了下

IP属地 北京 编辑:冯璃月 机器之能 时间:2025-02-27 05:00:25

AI好好用报道

编辑:杨文

又来了一个深度思考模型。

昨天,阿里 Qwen 团队发了个博客,标题就是:

乍一看,还以为电脑卡出了乱码,但再往下一瞅,里头大有「乾坤」,因为这篇博客:

不是人写的。

而是出自阿里最新深度思考模型 QwQ-Max-Preview 之手。

没想到,浓眉大眼的阿里也开始搞抽象了。

QwQ-Max-Preview,是阿里 Qwen 家族的最新成果。

它基于 Qwen2.5-Max 构建,是即将发布的 QwQ-Max 的预览版。

该博客还表示,在不久之后,阿里将开源发布 QwQ-Max 以及 Qwen2.5-Max,推出 Qwen Chat APP。

嗯,啥意思?难道是在现有的通义千问 App 之外,再独立搞一个新 App?

至于 QwQ-Max-Preview 的功能,博客里是这么描述的:

它在数学、编程以及通用任务中展现了更强的能力,同时在与 Agent 相关的工作流中也有不错的表现。

自己说好不算好,大家说好才是真的好。

目前,QwQ-Max-Preview 可以免费体验。

链接直达:https://chat.qwen.ai/

接下来,我们就把它和「地表最强」Grok3 对比下,看看它的实力究竟如何。

-1-

深度思考

与 Grok3 类似,阿里 QwQ-Max-Preview 的页面也具有「深度搜索」和「联网搜索」两大功能。

先来个暗藏玄机的逻辑陷阱题。

1. 父亲和女儿的年龄加起来是 100 岁,父亲 50 岁,女儿多大?

看到这道题目,大部分人的第一反应就是女儿 50 岁。但在现实生活中,父亲和女儿不可能同岁。

所以只要抓住这一矛盾点,再进行延伸即可,比如父亲有一对双胞胎女儿……

阿里的 QwQ-Max-Preview 觉察出其中的逻辑漏洞,措辞相当严谨:

仅从数学角度出发,答案是 50 岁,但后面还加了个备注,不符合实际逻辑。

我们再来看看 Grok3 的回答。

Grok3 列了个方程得出 50 岁,同时也点出这在现实中并不常见。

我们在此基础上接着问:在不改变父亲年龄和总年龄的情况下,如何思考才能让这道题目符合实际逻辑?

QwQ-Max-Preview 跳出生物学亲子关系的常规假设,重新定义了「父女」关系,比如收养关系。

我们沿着它的思维链,还发现了更多假设。

科幻片中的经典桥段,存在时间旅行,或者是类似于电影《本杰明・巴顿奇事》中的逆生长等。

语言上的歧义,父亲可能是神父,女儿可能是教女。

思路一打开,这么理解好像也没啥毛病。

而 Grok3 的脑回路更清奇一些。一会假设「父亲」是祖父,「女儿」是孙女(差辈了

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新