全球华人决战AI之巅！马斯克Grok 3险胜DeepSeek，疯狂启动钞能力，压力给到OpenAI

IP属地北京 编辑：柳晴雪智东西 时间：2025-02-18 18:30:39

作者｜陈骏达程茜
编辑｜心缘
2月18日报道，刚刚，基于20万块的GPU集群训练，马斯克口中地球上最聪明的AI Grok-3终于亮相！
此次直播伊隆·马斯克（Elon Musk）主要负责听，两位华人研究员坐在C位撑场，分别是曾就职于谷歌的研发小组N2Formal的吴宇怀（Yuhuai “Tony” Wu），以及多伦多大学计算机科学助理教授Jimmy Ba，他是“深度学习三巨头之一”、图灵奖得主辛顿的学生，曾在meta担任研究员。
▲Jimmy Ba（左二）、吴宇怀（左三）、伊隆·马斯克（最右）
此次，xAI发布了Grok-3、Grok-3 mini，两个推理模型Grok-3 Reasoning和Grok-3 mini Reasoning，首个AI智能体DeepSearch。Grok-3在基准测试中击败了Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。社交平台X的Premium Plus订阅用户在Grok的应用程序和网页端可以体验推理、编程，以及DeepSearch的搜索能力。
此外，xAI还开启了单独的会员订阅计划SuperGrok，SuperGrok的价格为每月30美元（折合约218人民币）或每年300美元（折合约2184人民币），可解锁额外的推理、DeepSearch查询，以及无限的图像生成功能。
OpenAI联合创始人、前特斯拉AI总监、知名计算机科学家李飞飞的爱徒安德烈·卡帕西（Andrej Karpathy）在推特发文评价Grok-3：“Grok-3+Thinking感觉与OpenAI最强大的模型o1-pro（每月200 美元）相当，略好于DeepSeek-R1和Gemini 2.0 Flash Thinking。”
▲AI大神卡帕西评价Grok-3的部分截图（图源：X，经谷歌翻译为中文）
万众期待的语音功能此次并未展示，马斯克透露，最快一周后Grok将获得“语音模式”。几周后，xAI将在企业API中提供Grok-3模型与DeepSearch功能。几个月后，xAI将开源Grok-2。
直播最后放出了Grok用马斯克声音对话的彩蛋～
一、Grok-3现场思考卡壳，水平与本科毕业生相当，2年内要上火箭
现场演示环节中，Grok被考验了两个任务，一是现场设计了一条往返地球与火星间的合理路径，并用动画呈现，二是设计一款类似俄罗斯方块的消消乐游戏。在演示中Grok“思考卡壳”，因为显示“Thinking Hard”后很长一段时间没有反应，等待几秒后演示人员关闭了页面开启下一话题。
之后演示人员又回到思考页面，分析了Grok的生成结果。
首先是其现场设计的一条往返地球与火星间的合理路径。提示词是“制作从地球降落在火星，然后在下一个发射窗口返回地球的发射动画三维图表并生成代码”。不过，测试人员在Grok-3 mini解决问题的过程中打断了它，并切换到了能力更强大的满血版Grok-3。
114秒后，Grok-3解决了这一问题，具有航空航天经验的马斯克现场评价道，Grok给出的解决方案基本正确，他还煞有介事宣称，2年内Grok将会接入SpaceX的火箭。在场的员工马上调侃，说马斯克“预言什么都是两年内”。
在设计一款类似俄罗斯方块的消消乐游戏时，Grok生成的代码在复制后即可运行。其提示词是“制作一个结合了俄罗斯方块和宝石的游戏，代码可能很长，将其输出为一个文件，让它变得非常棒”。最后游戏的运行机制比较合理。马斯克同时宣布，xAI将成立一个游戏工作室，使用AI进行游戏的开发工作。
Agent能力目前已经是各家大模型企业都在押注的方向，xAI也不例外。他们给模型配备了更多的工具，本次Grok-3已经具有Deep Search功能，xAI称其为初级Agent能力。
演示中，测试人员开启DeepSearch功能，让Grok-3预测SpaceX下一次火箭发射的时间。回答问题时，Grok-3既会给出思维链内容的总结，也会将完整思维链提供给用户。它的搜索范围十分广泛，从X平台上的内容到百科网站，再到美国政府的相关文件。
进行DeepSearch时，Grok-3还会充分考虑用户问题背后的意图、需求和目的，也会对信息来源进行交叉检验，从而给出更为准确的回答。
已经有抢先体验的用户在X发布了100%由Grok-3生成的游戏，用户只需要告诉它我想要什么，并将代码放在正确的位置，就可以得到一个完整的游戏。
在内部，研究人员发现Grok已经可以解决许多复杂的工程问题，节省大量时间，水平大致相当于一名本科毕业生。而17个月前，Grok还很难解决高中数学问题。
二、20万块GPU力大砖飞，性能击败o3-mini high、DeepSeek-R1
直播演示中提到，Grok-3所涉及的训练量是Grok 2的10倍，这都建立在xAI孟菲斯的AI超级计算机集群之上。该集群建造的第一阶段，xAI在122天内建成了拥有10万块NVIDIA H100 GPU的超级计算集群，第二阶段拓展到20万块GPU集群仅用了92天。
基准测试结果显示，Grok-3在评估模型在数学问题样本上性能的AIME和使用博士水平的物理、生物学和化学问题测试模型GPQA、LCB Oct-Feb中击败Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-4o。
Grok-3的早期版本在Chatbot Arena中获得1400分，排名第一。Chatbot Arena是一项众包测试，让不同的AI模型相互竞争，并让用户对他们喜欢的回答进行投票。Grok-3也是有史以来第一个突破1400分的模型。
xAI发布的推理模型早期版本Grok-3 Reasoning Beta，在最新的数学基准测试AIME 2025中达到93分，在GPQA上达到85分，这超过了o3-mini的最佳版本o3-mini high以及DeepSeek-R1。
此外，用户还可以打开“Big Brain”模式让Grok进行额外、更仔细的推理。xAI将该模式描述为最适合数学、科学和代码相关问题的功能。马斯克还提到，他们隐藏了一些推理过程，以防止蒸馏。
对于开源，几个月后xAI将开源Grok-2。马斯克说：“我们的方法是当下一个版本完全发布时，将开源Grok的上一个版本，也就是当Grok-3成熟稳定时，我们将开源Grok-2。”
xAI认为预训练模型远远不够，真正的AI需要具备反思、第一性原理检验等能力。他们通过强化学习让Grok-3学会了上述能力，实现了训练和推理时的两种Scaling Law。
Grok团队成员还透露，Grok-3的语音交互功能是通过原生语音交互模型实现的，模型将能够直接理解用户语音，然后生成对应的语音回复，是一个端到端的过程，无需语音转文字、文字转语音作为中间环节。
马斯克称，未来他们将会进一步加大数据中心的建设力度，xAI的下一个计算集群会成为世界上最强大的集群，能耗达到1.2GW，相当于数十万户家庭1年的用电量。
三、基于合成数据训练，计划筹集约100亿美元资金
值得一提的是，这次直播马斯克又姗姗来迟，推迟18分钟开始，但最后X上xAI官方账号中的直播观看人数已经超过286万人次。刚下直播马斯克就马不停蹄转发、点赞科技播客顶流Lex Fridman、AI大神卡帕西等对Grok-3的赞美。
在Grok-3发布之前，马斯克就按耐不住在X上让Grok-3秀技能。
他让Grok仿照电影《指环王》中“戒指之诗”做了工程师版诗歌：“以lor’s ring诗句的风格介绍戒指的起源，指派工程师进行高级大模型搜索、代理、记忆、幽默的工作，使其接近原作”。
Grok生成的诗歌最后还有对专有名词的注释，与原著如何对应等。
法新社此前报道，Grok-3是在合成数据上接受训练的，并且能通过检查数据来反映它所犯的错误以达到逻辑一致性。
融资方面，上周，据媒体援引消息人士报道，xAI还正在接洽潜在投资者，计划筹集约100亿美元资金，此轮融资可能使该公司估值达到约750亿美元。去年12月，xAI宣布完成C轮融资，筹集了60亿美元。xAI总融资额已经达到120亿美元（约合人民币876亿元）。
结语：马斯克继续押注大算力AI
本次发布的Grok 3无论是在训练集群规模、用电量上都是首屈一指的，这也在一定程度上转化为了Grok 3在多个基准测试上的SOTA表现。根据马斯克在采访中的言论，未来xAI可能还会继续押注大算力AI这条发展路径。
不过，也有海外网友犀利的评价道，自DeepSeek-R1之后，我们只应考虑效率更高的进步，而不仅仅那些规模更大、且比竞争对手耗能更多的进步。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

观点直击 | 百度和李彦宏从DeepSeek学到了什么？

一线采访雷军、刘永好等11位参会企业家！民营企业座谈会引发热烈反响！

被雷军千万年薪挖角的罗福莉已到新岗位小米内部员工系统暂无信息

百度有史以来最强大模型！李彦宏：文心大模型4.5系列将开源

李民吉“闪辞”未满月，华夏银行董事长接棒者初定

马斯克发布「史上最聪明 AI」，吊打 GPT-4o

座谈会后！雷军、王传福、王兴兴等发言人都透露了哪些重要信息？

马斯克用20万卡集群，做出了比DeepSeek还强的模型？

获批筹建不足一个月，江西农商联合银行董事长、行长提名人选公布｜快讯

反击梁文锋，马斯克的“半成品”够格吗？

20万卡练出Grok 3，马斯克称之为“地球上最聪明的人工智能”

在《新闻联播》出镜，王传福、王兴兴、雷军等最新发声！

国家能源集团、大唐集团董事长调整

李彦宏：文心大模型4.5系列将开源是最强大的文心大模型

李彦宏：智能云业务营收同比增长26% 经营利润率持续增长

百度去年营收下滑1%，李彦宏：相信AI相关投入将在今年带来更大成果

聊技术、谈转化……一天两场民营企业座谈会，成都企业家：对未来充满信心

百度晒AI成绩：智能云AI收入去年增3倍！李彦宏再谈开源

唐仕凯卸任奔驰中国投资公司董事长！

马斯克Grok 3炸场！20万块GPU砸出“地表最强AI”

和任正非雷军坐前排，90后科技新贵曾因学历自卑｜大象夜读

遍地“董明珠健康家”，谁来管管格力的健康啊？

马斯克推出Grok-3，欲与ChatGPT和DeepSeek角逐｜甲子光年

马斯克公布演示Grok3大模型，称已超越DeepSeek等对手

在马斯克和奥特曼比谁喊的响的时候，DeepSeek低调发论文，梁文锋亲自参与

格力电器改名“董明珠健康家”？湖南已有门店改名

20万张GPU“烧出”地表最强 AI？马斯克的Grok 3超1400分登顶排行榜，OpenAI联合创始人：略强于 DeepSeek-R1

全站最新

“地球上最聪明AI”Grok 3发布，头部大模型之争愈演愈烈

情人节遇冷，2亿单身人口消费观念变革下的浪漫新趋势？

吉利银河L7 EM-i震撼上市，安全配置卓越，家庭出行首选？

科技豪华的全新体验——腾势N7正式上市

上行趋势不变，但选好赛道更好！

【】2月18日宁波市新房二手房成交数据

前OpenAI首席技术官成立新AI公司

马斯克花钱砸出的Grok 3，超越DeepSeek与OpenAI？

热门推荐

观点直击 | 百度和李彦宏从DeepSeek学到了什么？

一线采访雷军、刘永好等11位参会企业家！民营企业座谈会引发热烈反响！

被雷军千万年薪挖角的罗福莉已到新岗位小米内部员工系统暂无信息

百度有史以来最强大模型！李彦宏：文心大模型4.5系列将开源

李民吉“闪辞”未满月，华夏银行董事长接棒者初定

马斯克发布「史上最聪明 AI」，吊打 GPT-4o

座谈会后！雷军、王传福、王兴兴等发言人都透露了哪些重要信息？

马斯克用20万卡集群，做出了比DeepSeek还强的模型？

获批筹建不足一个月，江西农商联合银行董事长、行长提名人选公布｜快讯

反击梁文锋，马斯克的“半成品”够格吗？

20万卡练出Grok 3，马斯克称之为“地球上最聪明的人工智能”

在《新闻联播》出镜，王传福、王兴兴、雷军等最新发声！

国家能源集团、大唐集团董事长调整

李彦宏：文心大模型4.5系列将开源是最强大的文心大模型

李彦宏：智能云业务营收同比增长26% 经营利润率持续增长