当前位置：首页 » 资讯 » 新科技 » 正文

9.11比9.9大？马斯克声称“天下最聪明”的Grok 3“翻车了”

IP属地北京 编辑：钟景轩华夏时报 时间：2025-02-20 06:00:24

近日，埃隆·马斯克旗下人工智能公司xAI正式发布其最新人工智能模型Grok 3。马斯克称它是“地球上最聪明的人工智能”。
Grok 3引入了包括图像分析和问答在内的高级功能，支持社交媒体平台X上各种功能。马斯克称，Grok 3使用了拥有约20万个GPU的大型数据中心进行训练，其计算能力是上一代版本Grok 2的10倍，是“地球上最聪明的人工智能”和“最大程度寻求事实真相的人工智能”。马斯克称Grok 3将在一周后增加语音模式。
xAI称Grok 3在多个基准测试中的表现均优于美国开放人工智能研究中心（OpenAI）的GPT-4o，比如测试数学能力的AIME和评估科学知识的GPQA等。Grok 3系列还包括Grok 3mini版本，该版本可能牺牲了一些精确度，但响应速度更快。
xAI还推出了名为深度搜索的Grok 3智能搜索引擎，它在回应用户查询时能基于互联网和X平台上的搜索内容生成信息摘要。
然而据媒体报道，有人测试了最新的Beta版 Grok 3，并提出了那个经典的用来刁难大模型的问题：“9.11与9.9哪个大？”遗憾的是，在不加任何定语以及标注的情况下，号称目前最聪明的 Grok 3，仍然无法正确回答这个问题。
值得一提的是，用同样的问题询问DeepSeek时，无论是否开启深度思考（R1）模式，对方都给出了正确的答案：9.9大于9.11。
“9.11和9.9哪个大”是AI领域的一个经典问题。
艾伦研究机构（Allen Institute）成员林禹臣曾在社交媒体平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。
随后Scale AI的提示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是当时最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？这几家主流大模型通通答错，他也成功将此话题传播开来。
Grok 3发布会的背景板上，写着"our mission is to understand universe（我们的使命是了解宇宙）"。马斯克曾表示，xAI公司的目标就是“了解宇宙”。
在一周前，马斯克在直播中评论DeepSeek R1时，曾信心满满地表示“xAI即将推出更优秀的AI模型”。从现场展示的数据来看，Grok 3在数学、科学与编程的基准测试上已经超越了目前所有的主流模型，马斯克甚至宣称Grok 3未来将用于SpaceX火星任务计算，并预测“三年内将实现诺贝尔奖级别突破”。
xAI在X平台直播，马斯克到场。图源：中国新闻周刊
马斯克强调，Grok 3可以减少AI幻觉，方法是通过来回检查数据并尝试实现逻辑一致性。他还透露，训练Grok 3所使用的算力远多于此前的版本，并使用了大量合成数据。
不同于DeepSeek的算法优化路径（DeepSeek-V3用2048个H800 GPU，训练2788千小时），xAI透露，Grok 3的开发的得益于用8个月时间建成的Colossus超级计算机，它由10万个英伟达的H100 GPU驱动，为训练提供了2亿个GPU小时，比Grok 2多十多倍。
此外，xAI宣布推出名为Deepsearch的Grok 3智能搜索引擎，名字和Deepseek颇有几分相似。
新华网、第一财经、中国新闻周刊
本期编辑：孙琪

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

灵伴科技创始人戴的AR眼镜火了发言稿就在眼镜里！网友：刚需请上链接

以数智供应链服务“隐形冠军”拓展国内市场京东工业启动“品质工厂”计划

360董事会秘书赵路明辞职

学习、娱乐、创作全都行，华为平板开学季最高直降800元

腾讯游戏首款！《和平精英》手游宣布正式接入DeepSeek

阿里云Q3业绩增速近翻倍，吴泳铭称未来三年进入最大资本支出建设周期 | 看财报

OpenAI在多地区推出人工智能代理Operator：可订票、网购

ST浩丰成立科技公司，含集成电路设计业务

联想集团宣布高管调整：黄伟明与劳拉·奎特拉将退休

恒生指数公司公布季检结果：恒生科技指数调入腾讯音乐、地平线机器人

广东“国补”活动全面启动，消费者最高可领国家补贴2.95万元

制造业转移的历史规律已经打破

汉堡王再不努力，就快没地方开店了

网易2024财报：文化巴别塔再建前夕的迷茫

微众银行荣获《亚洲银行家》三大奖，数字普惠金融实践获国际认可

成都新增3款大模型通过国家备案→

【每日收评】科创50飙涨近6%创近2年新高，成交额时隔两月重回2万亿

每日收评科创50飙涨近6%创近2年新高，成交额时隔两月重回2万亿

收评：科创50指数大涨5.97%创近2年新高两市成交额超2万亿

网易年报图解：营收1053亿，用“游戏+非遗”打造长线游戏

何小鹏：我和王兴兴周剑都聊过人形机器人还接近自动驾驶的L2初阶

瑞幸咖啡CEO郭谨一：湖北门店已突破1000店

国补政策2025最新消息：手机等数码产品国补“满月” 超2671万名消费者参与

汽车之家CEO杨嵩内部信：海尔18亿美元接盘后，不会裁员

聊聊DeepSeek大模型对AI Agent的影响

“风暴中心”的阿斯利康会被按下暂停键吗？

乐舒适非洲突围记：低价之外，中国纸尿裤如何“卷”赢国际巨头？

全站最新

灵伴科技创始人戴的AR眼镜火了发言稿就在眼镜里！网友：刚需请上链接

以数智供应链服务“隐形冠军”拓展国内市场京东工业启动“品质工厂”计划

360董事会秘书赵路明辞职

学习、娱乐、创作全都行，华为平板开学季最高直降800元

腾讯游戏首款！《和平精英》手游宣布正式接入DeepSeek

阿里云Q3业绩增速近翻倍，吴泳铭称未来三年进入最大资本支出建设周期 | 看财报

OpenAI在多地区推出人工智能代理Operator：可订票、网购

ST浩丰成立科技公司，含集成电路设计业务

热门推荐

灵伴科技创始人戴的AR眼镜火了发言稿就在眼镜里！网友：刚需请上链接

以数智供应链服务“隐形冠军”拓展国内市场京东工业启动“品质工厂”计划

360董事会秘书赵路明辞职

学习、娱乐、创作全都行，华为平板开学季最高直降800元

腾讯游戏首款！《和平精英》手游宣布正式接入DeepSeek

阿里云Q3业绩增速近翻倍，吴泳铭称未来三年进入最大资本支出建设周期 | 看财报

OpenAI在多地区推出人工智能代理Operator：可订票、网购

ST浩丰成立科技公司，含集成电路设计业务

联想集团宣布高管调整：黄伟明与劳拉·奎特拉将退休

恒生指数公司公布季检结果：恒生科技指数调入腾讯音乐、地平线机器人

广东“国补”活动全面启动，消费者最高可领国家补贴2.95万元

制造业转移的历史规律已经打破

汉堡王再不努力，就快没地方开店了

网易2024财报：文化巴别塔再建前夕的迷茫

微众银行荣获《亚洲银行家》三大奖，数字普惠金融实践获国际认可