马斯克用20万卡集群，做出了比DeepSeek还强的模型？

IP属地北京 编辑：杨凌霄差评XPIN 时间：2025-02-19 00:30:14

今年才刚刚过去两个月， AI 模型竞技场的火热程度，堪比年底冲业绩。
就在今天中午，马斯克预告的那个号称 “ 地球上最聪明的人工智能 ”Grok 3 ，终于来了。
发布会还是马斯克惯有的风格，说好的十二点准时开始，结果还是晾了大家快二十分钟。
一个小时的直播，马斯克携 xAI 天团（四个人里就有两位华人），从各个方面介绍了 Grok 3 究竟有多厉害。一看纸面数据，又是吊打诸如谷歌、 OpenAI 和 DeepSeek 等一众明星公司的招牌模型。
反正直播刚一结束， X 上就不淡定了，有人已经提前体验上了 Grok 3 ， Andrej Karpathy 说它的推理能力跟 o1-pro 差不多，而且还要略优于 DeepSeek R1 和 Gemini 的推理模型。
还有老哥用 AI 生成了一个奥特曼看到 Grok 3 发布后的视频。。。
国内外关于 Grok 3 的报道也是满天飞， “ 首个突破 1400 分（模型在 Imarena.ai 竞技场的得分）的模型 ” “ 首个十万卡集群训练出来的模型 ” 。。。各种 title 看着就唬人。
而世超在第一时间，也观看了这场发布会，不能说炸裂，但至少从直播内容来看， Grok 3 确实 又一次延续了AI 领域大力出奇迹的神话。
目前， Grok 3 只对部分 X 的 Premium+ 会员开放，所以咱就简单从发布会的内容给大伙儿介绍，这个 Grok 3 究竟是啥水平。
一上来，就拿 Grok 和 GPT 的模型迭代速度进行了对比。
图上明明标着 Others ，但 GPT 是卷卷有爷名，针对性很强。
而在模型性能方面， Grok 3 这次也是铁了心要跟其他模型争个高低。
需要注意，根据官方的介绍， 这次的 Grok 3 事实上是一个模型家族，大致可以分为非推理模型和推理模型两种。
咱先来看非推理模型，也就是 Grok 3 和 Grok 3 mini 。
还是熟悉的 Benchmark 基准测试， xAI 拉来了 Gemini 2.0 pro 、 DeepSeek V3 、 Claude 3.5 Sonnet 还有 GPT-4o 四个模型，跟自家孩子进行对比。
在 AIME ’ 24 数学竞赛、 GPQA （研究生水平科学知识问答能力的基准测试）和代码三项测试中， Grok 3 的成绩肉眼可见高出了其他模型一大截。
Grok 3 mini 的水平虽然跟其他模型大差不差，但直播中也提到了， mini 版本可以通过牺牲一定程度的准确性，来换取更快速度的回答。
另外，在 Chatbot Arena 的盲测中， Grok 3 代号叫 “ 巧克力 ” 的早期版本也登上了榜一，分数更是史无前例破了 1400 分。
具体来看，巧克力在整体风格控制、编码、数学还有创意写作等多个方面，全都拿了第一。
主要巧克力还只是早期版本的 Grok 3 ，今天的最新版 Grok 3 性能或许还会更强。。。
再来看 Grok 3 的推理模型。
推理模型大家应该不陌生，毕竟 OpenAI 的 o1 系列、 o3 mini 还有 DeepSeek R1 ，都已经杀红眼了，思维链也不是什么新鲜玩意儿。 现在各家上新的模型里，如果不是推理模型，可能都不好意思拿出来。
所以这次， Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 也代表 xAI 出战了。
同样还是纸面实力，表面一看还是吊打的姿态。
但有个需要注意的地方，这个测试中，加了 Test-Time Compute 。
简单理解就是 给了模型更多的时间去思考，同一个横坐标上颜色浅一点的部分，就是加时赛的成绩。
可以看到，如果不算上加时赛， Grok 3 两个推理模型跟其他模型的差距，并没有那么大。一旦加了时长，这差距马上就体现出来了。
换句话说， Grok 3 的推理模型思考的时间越久，表现越好。
在现场，马斯克他们还展示了 Grok 3 推理模型，在 2025 年 AIME 数学竞赛上的测试结果。
说实在的，如果不算上 Test-Time Compute ，好像还是 o3-mini （ high ）的推理能力更强。。。
为了证明自己不是说说而已，马斯克他们在现场直接进行了效果演示。
让 Grok 3 生成 3D 动画代码，可以看到模型一步步的思考过程。但他们也提到，这个思考过程是被模糊处理过的， 理由跟奥特曼的差不多，都说是为了防止模型被抄袭。
另外，现场还让 Grok 3 生成一个，结合了俄罗斯方块和宝石迷阵两种游戏规则的新游戏。
这很难不让人联想到，马斯克昨天实锤了 xAI 要成立一家 AI 游戏工作室的事情，如果 Grok 3 的游戏制作能力，真的跟现场演示的一样甚至更强，这对于整个游戏圈的影响都将是巨大的。
而且根据马斯克的说法， Grok 3 在未来的两到三年内，还可能参与到特斯拉的生产还有火箭发射的过程当中。
最后，就是基于 Grok 3 构建的 Agent ， Deepsearch 。
这玩意儿其实就是个智能搜索引擎，有点像 Perplexity 的 Deep Research 和 OpenAI 的 Deep Research 。
当你问 Grok 3 下一次星舰发射是啥时候，左边会显示一个总体的进度条，右边则是展示浏览了哪些网页、对哪些信源进行了验证。。。
最后得出了下一次发射的时间，是 2 月 24 日。
当然了，这次 Grok 3 之所以看上去如此强大，抛不开马斯克老早就在念叨的， 只花了 122 天就搭建起来的 10 万卡集群。
在此之后，他们又花了 92 天扩展到了 20 万卡集群，一招大力出奇迹，在不到一年的时间里，供出了 Grok 3 。
这段时间大家都在争论的技术路线问题，但 Grok 3 的出现似乎再一次证明了，算力的绝对力量。
就是，把 20 万卡供出来的 Grok 3 和 DeepSeek 的模型放在一起比较，多少有点刻意了。。。
除此之外，马斯克在前几天的迪拜峰会上也提到， Grok 3 经过了合成数据的训练，能够通过检查、验证信息来反思自己的错误。
总而言之，这次的 Grok 3 的确算是拿出了点真家伙。
不过世超也注意到，在 Grok3 抢先体验的用户分享当中， 有不少跟宣传不符的实际测试案例。
就比如这位老哥用同一组 prompt 测试了 Grok 3 、 o3 mini 还有 Claude 3.5 Sonnet ，结果 Grok 3 翻得有点彻底。。。
在另外一组测试中， o3 mini 的表现也要优于 Grok 3 和 DeepSeek R1 。
还有放大镜选手，直接指出了发布会演示的案例里，有明显错误。
虽然世超这次没能实际上手测试，但从外部的一些实测案例来看， Grok 3 似乎也没有营销的这么神。
而且这次 Grok 3 上线后，很多人的注意力都放在了模型是否开源上。
根据马斯克的说法， xAI 一般是新模型发布后再开源旧模型，也就是说，就算开源也是老版的 Grok 2 。
看样子，来自开源阵营的压力还是不够大，马斯克想狙的还是老对手奥特曼。
就是不知道，已经在 X 上预告了的 GPT 4.5 ，能不能打一场翻身仗了，大家就等着看吧。
撰文：西西
编辑：江江&面线&大饼
美编：富贵
图片、资料来源：
X、xAI、Imarena.ai

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

雷军：下决心把AI技术落到各个终端产品上

观点直击 | 百度和李彦宏从DeepSeek学到了什么？

一线采访雷军、刘永好等11位参会企业家！民营企业座谈会引发热烈反响！

被雷军千万年薪挖角的罗福莉已到新岗位小米内部员工系统暂无信息

百度有史以来最强大模型！李彦宏：文心大模型4.5系列将开源

李民吉“闪辞”未满月，华夏银行董事长接棒者初定

马斯克发布「史上最聪明 AI」，吊打 GPT-4o

座谈会后！雷军、王传福、王兴兴等发言人都透露了哪些重要信息？

马斯克用20万卡集群，做出了比DeepSeek还强的模型？

获批筹建不足一个月，江西农商联合银行董事长、行长提名人选公布｜快讯

反击梁文锋，马斯克的“半成品”够格吗？

20万卡练出Grok 3，马斯克称之为“地球上最聪明的人工智能”

在《新闻联播》出镜，王传福、王兴兴、雷军等最新发声！

国家能源集团、大唐集团董事长调整

李彦宏：文心大模型4.5系列将开源是最强大的文心大模型

李彦宏：智能云业务营收同比增长26% 经营利润率持续增长

百度去年营收下滑1%，李彦宏：相信AI相关投入将在今年带来更大成果

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

百度晒AI成绩：智能云AI收入去年增3倍！李彦宏再谈开源

唐仕凯卸任奔驰中国投资公司董事长！

马斯克Grok 3炸场！20万块GPU砸出“地表最强AI”

和任正非雷军坐前排，90后科技新贵曾因学历自卑｜大象夜读

遍地“董明珠健康家”，谁来管管格力的健康啊？

马斯克推出Grok-3，欲与ChatGPT和DeepSeek角逐｜甲子光年

马斯克公布演示Grok3大模型，称已超越DeepSeek等对手

在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与

全站最新

把店开到香港兰桂坊，江西老板做的魅KTV想上市，曾扬言要做“几百亿市值”

Aptoide正式在欧盟推出苹果iOS游戏应用商店，可下载旧版游戏

Humane以1.16亿美元出售AI核心技术给惠普

Nomad 升级 ChargeKey线缆：支持最高240W充电、10 Gb/s数据传输

苹果执行欧盟新规：App Store 下架未提供交易者信息应用

前 OpenAI 首席技术官“自立门户”，翁荔等多名老东家干将加盟

苹果 iPhone 17 系列被曝有 3 种设计方案

到手最低仅需3799元一加13要成国补真香机了

热门推荐

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

雷军：下决心把AI技术落到各个终端产品上

观点直击 | 百度和李彦宏从DeepSeek学到了什么？

一线采访雷军、刘永好等11位参会企业家！民营企业座谈会引发热烈反响！

被雷军千万年薪挖角的罗福莉已到新岗位小米内部员工系统暂无信息

百度有史以来最强大模型！李彦宏：文心大模型4.5系列将开源

李民吉“闪辞”未满月，华夏银行董事长接棒者初定

马斯克发布「史上最聪明 AI」，吊打 GPT-4o

座谈会后！雷军、王传福、王兴兴等发言人都透露了哪些重要信息？

马斯克用20万卡集群，做出了比DeepSeek还强的模型？

获批筹建不足一个月，江西农商联合银行董事长、行长提名人选公布｜快讯

反击梁文锋，马斯克的“半成品”够格吗？

20万卡练出Grok 3，马斯克称之为“地球上最聪明的人工智能”

在《新闻联播》出镜，王传福、王兴兴、雷军等最新发声！

国家能源集团、大唐集团董事长调整