20万张GPU“烧出”地表最强 AI？马斯克的Grok 3超1400分登顶排行榜，OpenAI联合创始人：略强于 DeepSeek-R1

IP属地北京 编辑：柳晴雪每日经济新闻 时间：2025-02-18 21:30:11

每经记者岳楚鹏每经编辑兰素英
一度“跳票”的AI模型Grok 3终于迎来正式发布。
当地时间2月17日晚，马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式，观看人数超过100万人。
Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应，它可以分析图像和回答问题，并为X上的许多功能提供支持。前天马斯克就在X上造势称，Grok 3是“地球上最聪明的人工智能”。
图片直播截图
在发布会上，马斯克和三位xAI的工程师一起演示了Grok 3的各种功能。马斯克在直播演示中声称，Grok 3在包括AIME（测试模式在数学问题上的表现）和GPQA（测试模型在博士级物理、生物和化学问题上的表现）在内的基准测试中击败了所有的市面上所有模型。
马斯克似乎也并非在打“诳语”。从AI基准测试开放平台lmarena.ai放出的截图看，测试数据显示，早期版本的Grok 3（代号chocolate）在Arena排行榜上拿下了第一，吊打其他主流AI大模型，并且，Grok 3还是第一个获得超过1400分的模型。
然而，有用户在观看发布会后指出，Grok 3给出的关于《流放之路2》游戏的结论错误频出，另有用户测试发现，Grok 3在经典的多边形小球编程问题上也出现了错误。
OpenAI联合创始人Andrej Karpathy也在发布会后放出了自己的感想。他认为，就目前短暂上手的体验而言，Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多，略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。
拿下Arena榜单第一！Grok 3是首个超1400分的模型
早在2024年7月，马斯克在与乔丹·彼得森的访谈节目时就表示，Grok 3预计将在2024年12月底发布。但到了年底，这个承诺并没有兑现，一度有人怀疑这只不过是马斯克无数个大饼中的其中一个，Grok 3或许遥遥无期。
不过，在上周的迪拜峰会上，马斯克却突然宣布，xAI将在一到两周内推出新一代AI模型Grok 3，而这个模型的强大程度，用他的话说，“强到让人感到害怕”。马斯克甚至预言这可能是“最后一次有AI比Grok更优秀”。
从xAI在直播中放出的基准测试结果来看，Grok 3在数学、科学和编程领域的表现大幅领先于市面上其他主流的AI模型。
在数学能力测试（AIME'24）中，Grok 3获得52分，明显超过DeepSeek-V3的39分和GPT-4o的9分；在科学知识评估（GPQA）中，Grok 3以75分的成绩领先，而DeepSeek-V3和GPT-4o的得分分别为65分和50分；在编程能力测试（LCB Oct-Feb）中，Grok 3同样以57分超过DeepSeek-V3的36分合GPT-4o的34分。
图片xAI
在推理模型的比较中，Grok 3 Reasoning Beta也战胜了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模型。不过，演示团队表示允许Grok去进行更长时间的思考和推理。
图片xAI
AI基准测试开放平台lmarena.ai也爆出猛料，最新测试数据显示，早期版本的Grok 3（代号chocolate）在经过约8000次投票后，在Arena排行榜上拿下第一。
图片X
lmarena.ai称，Grok 3是第一个突破了1400分的模型，并且在所有分类中都排名第一，而这一里程碑以后会越来约难以实现。
图片X
三个月数据中心容量翻倍至20万块GPU
和DeepSeek从技术层面对模型进行改进不同，马斯克的新模型还是属于“大力出奇迹”。
此前有新闻报道，马斯克组建了一个配有十万块H100 GPU的、世界上最大的超级计算机集群Colossus来帮助训练Grok模型。在此次直播中，马斯克透露，实际上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。
图片xAI
也难怪有人说Grok 3是终极的Scaling Law测试了，是靠吞噬算力训练起来的怪物。
演示团队为了使大家更直观地了解Grok 3的强大之处，还演示了物理学和游戏的例子。
首先，要求Grok 3生成一段代码绘制从地球发射火箭，降落在火星，然后在下一个发射窗口返回地球的三维动画图表。这一任务涉及大量的数学和物理计算，极具挑战性。Grok 3很快生成了完整的动画，研究人员在检查后表示结果完全正确。
图片xAI
之后，演示团队又要求Grok编写一个结合俄罗斯方块和宝石迷城的游戏，Grok也顺利完成了任务。
除了基本的模型能力之外，Grok 3也具备智能体功能。
xAI为Grok 3开发了一个类似于OpenAI的DeepSearch智能体。DeepSearch可以对互联网进行全面搜索，并为用户提供详尽的整合报告。马斯克表示，这可以省下你几十次谷歌搜索的时间，而公司将得到几十亿美元的回报。
OpenAI 联合创始人：Grok 3 + Thinking与o1-pro差不多，略好于DeepSeek-R1
在演示团队的展示中，Grok 3似乎无所不能，拳打OpenAI，脚踢Deepseek，已然站上世界AI模型的巅峰，但有些观看了演示和迫不及待体验了Grok 3的用户却发现了一些奇怪的问题。
在发布会中，为了演示DeepSearch功能，演示团队就马斯克最近在玩的游戏《流放之路2》询问了一个相关问题。有游戏博主看后表示，Grok 3给出的游戏结论错误频出，感觉不如马斯克宣称的那么聪明。
图片哔哩哔哩
有专门直播该游戏的游戏博主也对记者表示，Grok 3给出的答案没一个是对的，不如GPT。
另外，有用户体验了Grok 3的编程功能，随后也表示，Grok 3的编程能力并不是很强大。在经典的多边形小球编程问题上，Grok 3出现了错误。
图片X
OpenAI联合创始人Andrej Karpathy作为为数不多的提前拿到测试资格的人，也在发布会后放出了自己的感想。他认为，就目前短暂上手的体验而言，Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多，略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。
Karpathy表示，Grok 3显然有一个最先进的思维模型，并且在卡坦岛定居者问题上做得很好。很少有模型能够可靠做到这一点。顶级的OpenAI推理模型（如o1-pro，月订阅费为200美元）也能做到这一点，但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的所有模型都没办法做到。
但Grok 3并没有解决“表情符号之谜”问题，即使以Rust代码的形式给出了有关如何解码它的强烈提示。而在这点上，Karpathy称其见过的最大进展来自DeepSeek-R1，它曾经部分解码了消息。
此外，Karpathy认为，DeepSearch大约等于Perplexity DeepResearch的产品，但还没有达到OpenAI最近发布的“深度研究”的水平。
不过，他同时也指出，考虑到xAI团队在大约在1年前从头开始，这是相当令人难以置信的，达到最先进领域的时间跨度是前所未有的。目前得出完整结论还为时过早，需要在在接下来的几天/几周内等待更多的评估。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

雷军：下决心把AI技术落到各个终端产品上

观点直击 | 百度和李彦宏从DeepSeek学到了什么？

一线采访雷军、刘永好等11位参会企业家！民营企业座谈会引发热烈反响！

被雷军千万年薪挖角的罗福莉已到新岗位小米内部员工系统暂无信息

百度有史以来最强大模型！李彦宏：文心大模型4.5系列将开源

李民吉“闪辞”未满月，华夏银行董事长接棒者初定

马斯克发布「史上最聪明 AI」，吊打 GPT-4o

座谈会后！雷军、王传福、王兴兴等发言人都透露了哪些重要信息？

马斯克用20万卡集群，做出了比DeepSeek还强的模型？

获批筹建不足一个月，江西农商联合银行董事长、行长提名人选公布｜快讯

反击梁文锋，马斯克的“半成品”够格吗？

20万卡练出Grok 3，马斯克称之为“地球上最聪明的人工智能”

在《新闻联播》出镜，王传福、王兴兴、雷军等最新发声！

国家能源集团、大唐集团董事长调整

李彦宏：文心大模型4.5系列将开源是最强大的文心大模型

李彦宏：智能云业务营收同比增长26% 经营利润率持续增长

百度去年营收下滑1%，李彦宏：相信AI相关投入将在今年带来更大成果

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

百度晒AI成绩：智能云AI收入去年增3倍！李彦宏再谈开源

唐仕凯卸任奔驰中国投资公司董事长！

马斯克Grok 3炸场！20万块GPU砸出“地表最强AI”

和任正非雷军坐前排，90后科技新贵曾因学历自卑｜大象夜读

遍地“董明珠健康家”，谁来管管格力的健康啊？

马斯克推出Grok-3，欲与ChatGPT和DeepSeek角逐｜甲子光年

马斯克公布演示Grok3大模型，称已超越DeepSeek等对手

在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与

全站最新

到手最低仅需3799元一加13要成国补真香机了

AI领航财报季，技术普惠为百度智能云带来了什么？

东边的房子为何更受欢迎？经售楼闺蜜分析，才知我家选择错了！

国家动真格了？高人指出：楼市大概率出现2个走向，不要再误判了

房价迎来全面回调，专家预言，未来三年价格会创下新低

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

江夏区土地市场开门红，8宗工业用地成功出让助力产业升级

苹果iPhone 17 Air设计曝光：横向条形后摄与超轻薄机身

热门推荐

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

雷军：下决心把AI技术落到各个终端产品上

观点直击 | 百度和李彦宏从DeepSeek学到了什么？

一线采访雷军、刘永好等11位参会企业家！民营企业座谈会引发热烈反响！

被雷军千万年薪挖角的罗福莉已到新岗位小米内部员工系统暂无信息

百度有史以来最强大模型！李彦宏：文心大模型4.5系列将开源

李民吉“闪辞”未满月，华夏银行董事长接棒者初定

马斯克发布「史上最聪明 AI」，吊打 GPT-4o

座谈会后！雷军、王传福、王兴兴等发言人都透露了哪些重要信息？

马斯克用20万卡集群，做出了比DeepSeek还强的模型？

获批筹建不足一个月，江西农商联合银行董事长、行长提名人选公布｜快讯

反击梁文锋，马斯克的“半成品”够格吗？

20万卡练出Grok 3，马斯克称之为“地球上最聪明的人工智能”

在《新闻联播》出镜，王传福、王兴兴、雷军等最新发声！

国家能源集团、大唐集团董事长调整