当前位置：首页 » 资讯 » 新科技 » 正文

马斯克推出Grok-3，欲与ChatGPT和DeepSeek角逐｜甲子光年

IP属地北京 编辑：沈瑾瑜甲小姐甲子光年 时间：2025-02-19 01:30:35

— Hi everyone. My name is Igor, lead engineering at X.
— I'm Jimmy, leading research.
— I'm Tony, working on the recent team.
— All right. I'm Elon. I don't do anything. I just show up occasionally.
作者｜苏霍伊
DeepSeek搅动的混天绫，又一次在人工智能的海域卷起了巨浪。让OpenAI、xAI等一众公司都坐不住了。
美西时间2月17号，埃隆·马斯克（Elon Musk）的人工智能初创公司xAI推出Grok-3模型，并十分高调地宣称，这是“地表最聪明的AI”。
马斯克与三位工程师共同完成了演示，其中左一的工程团队负责人伊戈尔・巴布什金（Igor Babuschkin），原是DeepMind 的高级研究员；左二的研究负责人Jimmy Ba是杰弗里·辛顿 (Geoffrey Hinton) 的学生；右二的Tony吴宇怀（Yuhuai Wu）是近期加入团队的成员。
团队透露，Grok-3的计算能力是前代产品的“10倍以上”。据悉，Grok-3是在今年1月初完成预训练，目前还在不断优化中。马斯克表示：“ 我们每天都在改进模型，所以24小时内能看到进步。”
他也在直播中表示，“Grok”的名字来自罗伯特·海因莱因（Robert Anson Heinlein）的小说《异乡异客》，主角是在火星上长大的人类，“Grok”也是一个“火星词”，代表充分而深刻地理解事物。
随后他说道，xAI和 Grok的使命就是理解宇宙。“我们希望解答最宏大的问题： 外星人在哪里？生命的意义是什么？宇宙如何终结？”
根据xAI数据，Grok-3在数学（AIME’24）、科学（GPQA）以及编程（LCB Oct-Feb）三大基准测试中的表现还不错。数据上是超越了所有主流模型，包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。
各大模型在Chatbot Arena成绩比较
以数学测试为例，Grok-3取得了52分的最高成绩，而同属xAI阵营的Grok-3 mini则拿到40分，DeepSeek-V3以39分紧随其后；Gemini-2 Pro拿到36分，Claude 3.5 Sonnet和GPT-4o分别只有16分和9分。
科学和编程测试的情况也大同小异。Grok-3都以较大优势领先其他模型，Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet以及GPT-4o各自分列二至六名。
Grok-3与其他模型在数学、科学和编程基准测试的比较
除了Grok-3，xAI还推出了一款名为DeepSearch的新型智能搜索引擎。DeepSearch基于Grok-3开发，具备推理能力，并提供完整地思考过程。在演示中，DeepSearch展示了其在研究、头脑风暴和数据分析等场景中的应用潜力。
Grok-3依托由20万块NVIDIA H100 GPU构建的Colossus超算集群，计算能力是前代Grok-2的10倍，预训练阶段的消耗相当于一座核电站7%的月发电量。 Colossus从筹建到上线仅用了122天，xAI计划将Colossus的规模扩大十倍，整合超过100万块GPU，用以超越谷歌、OpenAI等竞争对手。
相比之下，DeepSeek-V3的算法优化路径仅使用了2048块英伟达H800 GPU，耗费了557.6万美元就完成了训练，比同等规模的模型（如GPT-4、GPT-4o、Llama 3.1），训练成本大幅降低。同时，Grok 3还是非开源模型，需要付费。
DeepSeek-V3的训练成本（假设H800的租赁价格为2美元/GPU小时），图片DeepSeek-V3技术报告
1.Grok 3 聪明在哪儿？
xAI表示，Grok-3聪明的原因是它背后依托了Colossus，通过“突破光速”的研发模式实现了技术飞跃。
“最优秀的人工智能不仅依赖大规模预训练，更需要具备类人推理能力，即能够独立思考解决方案、自我批判、验证、回溯，并从第一性原理出发。”根据这一思路，xAI在预训练模型的基础上引入了强化学习，希望进一步推进模型的推理能力。
在Chatbot Arena LMSYS基准测试中，Grok-3获得了1400分的最高成绩，远超竞争对手——Claude 3约1360分，GPT-4约1340分。
据xAI最新公开资料显示，在一场针对AGI核心引擎的纯粹盲测中，用户在不知答案来源的情况下提交同一查询，并对两个不同模型的回答进行投票。结果显示，Grok-3的早期版本在这一测试中获得了1,400 ELO分，远超其他竞争对手，如Claude 3和GPT-4等。这一盲测方式仅考察模型本身的推理能力，而非依赖外部数据或提示。
除了Grok-3和Grok-3 mini，xAI团队还推出了两个专门用于推理的模型。其中，Grok-3 mini Reasoning已经相对成熟，而Grok-3 Reasoning Beta仍处于测试阶段。
在直播演示中，马斯克和研发团队测试了物理和游戏两个案例。
首先团队仅输入一行指令，让Grok-3编写代码，生成一段模拟火箭从地球发射、降落火星，并在合适的发射窗口返回地球的3D动画。Grok-3在考虑了开普勒定律后，不但生成了可以绘制出动画的代码，还生成了一段模拟火箭发射轨迹的3D动画。
马斯克解释道：“Grok正在模拟两个不同的行星——地球和火星。绿色的球体代表飞船，在地球与火星之间穿梭。你可以看到从地球到火星的旅程，最终宇航员安全返回。”
同时他也插播了一句：“如果一切顺利，SpaceX 将在未来两年把星舰火箭送往火星，搭载Optimus机器人和Grok。”
给Grok-3的第二个问题是：设计一个结合俄罗斯方块和宝石迷阵玩法的混合游戏。并提示代码可能较长，还要“insanely great”。经过思考，Grok 3设计出了既有俄罗斯方块的消除机制，又有宝石迷阵特点的游戏。
xAI也让Grok-3去做了AIME 2025竞赛。最终Grok-3 Reasoning Beta以93分的高分拔得头筹，Grok-3 mini Reasoning也取得了90分，均领先于其他参赛模型。相比之下，o3mini（高精度版）得分为87，o1为79，DeepSeek-R1为75，而Gemini-2 Flash Thinking仅获得54分。
乍一看，Grok-3似乎已经坐稳了数学推理领域的“头把交椅”。但仔细推敲，这些成绩是否真的能证明Grok-3的绝对领先地位？或许还不能轻易下结论，毕竟测试环境和数据集的选择可能对结果产生影响，单一测试并不能全面反映模型的综合性能。同时Grok-3 Reasoning Beta仍处于测试阶段，稳定性和可靠性尚未经过广泛验证。
此外，xAI还推出了一款名为DeepSearch的新型智能搜索引擎。它能搜索网页、查找资料和推测用户意图并思考，并在交叉比对后确保返回正确的信息。
马斯克表示：“Grok-3能减少AI幻觉。”实现方式是反复检查数据并确保逻辑一致，他也透露，Grok-3训练时使用的算力远超之前版本，并大量采用了合成数据。自2023年7月成立xAI以来，xAI先后于2023年11月和2024年8月发布了Grok-1和Grok-2，前者拥有3140亿参数，成为当时参数量最大的开源大模型。
发布后最后，马斯克预告，或许一周后Grok-3将推出语音模式。后面Grok-3将通过xAI的企业API提供和DeepSearch功能。
2.马斯克最近很忙
马斯克近期又多了一个身份，即现任“政府效率部”（DOGE）部长。
马斯克发布政府效率部（DOGE）LOGO
自上任以来，马斯克一个接一个地锤向国际开发署、教育部和国土安全部等机构。不仅睡在办公室，还带领为数不多的手下每天工作17小时。其网站称，DOGE近期宣布削减550亿美元开支。
同时，他在与OpenAI的“恩怨”上也没闲着。
就在这个月，马斯克领导的投资财团向OpenAI提出了974亿美元的收购要约，表示要“将OpenAI重新定位为非营利性研究机构”。根据收购计划，交易后OpenAI会与xAI合并。
OpenAI首席执行官萨姆·奥尔特曼（Samuel Altman）随后便在X上隔空回怼：“不了，谢谢。不过如果你愿意的话，我们愿意以97.4亿美元的价格收购推特。”
马斯克与奥尔特曼已经有过多轮法律战和公关战。去年马斯克起诉了奥尔特曼，OpenAI随后便发布了一篇名为《OpenAI与埃隆·马斯克》的博文回应了指控。马斯克也不甘示弱，在社交媒体上表示如果OpenAI将名称更改为“ClosedAI”，他将撤回对其的诉讼。
高端的商战往往就是这么朴实无华。
在Grok-3发布之际，不知是否有意为之，奥特曼也在同一日宣布GPT4.5已经进入测试阶段，AGI 的时刻即将来临，正式发布也指日可待。
与此同时，Anthropic也宣布即将发布Claude-4系列。随着OpenAI、Anthropic、meta和Google等不断推出更先进的AI产品，未来的竞争只会越发激烈。
近年来，人工智能领域的每一次突破似乎都被冠以“世界第一”、“革命性”、“颠覆性”等夸张的标签。从OpenAI的GPT系列到Google的Gemini，再到xAI的Grok-3，每一款新模型的发布都被媒体包装成“改变游戏规则”的里程碑。但真正的科技创新是需要被客观思考的，只有这样才能深入理解其背后的复杂性和实际应用价值。
其实不加“世界第一”“地表最聪明AI”等定语，也可以开产品开发布会。而当AI被“世界第一”淹没，我们是否迷失在华丽辞藻中？
至于谁能否真正脱颖而出、成为行业领军者，还需时间和市场来验证。
（文中未备注图片皆来自xAI或X）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果iPhone 17 Air设计曝光：横向条形后摄与超轻薄机身

iPhone 17 Pro相机模具原型曝光，横向大矩阵设计

小米青年公寓内部实拍首发，为北漂毕业生提供租房新选择

iPhone 17 Air渲染图曝光：苹果史上最薄机型，采用横置相机模组

iPhone 17 系列材质被曝大反转，Pro 回归铝合金，Air 独享钛合金

回收平台SellCell：苹果 iPhone SE 4设计大改，有望打破贬值魔咒

《对不起！我把美女包围了！》Steam页面正式上线，开启沉浸式恋爱之旅

中国每5人就有1人看小米电视

贾跃亭携FF员工包场力挺《哪吒2》：盛赞中国电影工业飞速进步

今年最便宜苹果手机曝光：iPhone SE 4保护壳现身

搭载DeepSeek功能成都首个水务环保大模型平台建设完成

和任正非雷军坐前排，90后科技新贵曾因学历自卑｜大象夜读

消息称苹果 iPhone 17 系列有线充电最高 35W

华为直接控股的机器人三条金龙，2025或将率先爆发1000%主升浪

小米集团港股创历史新高，股价首破48港元，市值超1.21万亿港元

“地球上最聪明AI”Grok 3发布，头部大模型之争愈演愈烈

前OpenAI首席技术官成立新AI公司

马斯克花钱砸出的Grok 3，超越DeepSeek与OpenAI？

梁文锋坐马化腾旁边，和科技大佬一同参会，2次上央视穿同1件西装

一线采访雷军、刘永好等11位参会企业家！民营企业座谈会引发热烈反响！

华为“天才少年”入职南京大学！未来目标是……

百度年营收1331亿文心大模型日调用量增长33倍至16.5亿

百度，最新发布！

1964 经典回归：《铁臂阿童木》系列首部动画电影高清重制

微软《宣誓》发售：Steam国区348 元起，首发加入 XGP 及战网平台

马斯克，祭出“最强”AI

观点直击 | 百度和李彦宏从DeepSeek学到了什么？

全站最新

苹果iPhone 17 Air设计曝光：横向条形后摄与超轻薄机身

iPhone 17 Pro相机模具原型曝光，横向大矩阵设计

小米青年公寓内部实拍首发，为北漂毕业生提供租房新选择

iPhone 17 Air渲染图曝光：苹果史上最薄机型，采用横置相机模组

iPhone 17 系列材质被曝大反转，Pro 回归铝合金，Air 独享钛合金

回收平台SellCell：苹果 iPhone SE 4设计大改，有望打破贬值魔咒

《对不起！我把美女包围了！》Steam页面正式上线，开启沉浸式恋爱之旅

中国每5人就有1人看小米电视

热门推荐

苹果iPhone 17 Air设计曝光：横向条形后摄与超轻薄机身

iPhone 17 Pro相机模具原型曝光，横向大矩阵设计

小米青年公寓内部实拍首发，为北漂毕业生提供租房新选择

iPhone 17 Air渲染图曝光：苹果史上最薄机型，采用横置相机模组

iPhone 17 系列材质被曝大反转，Pro 回归铝合金，Air 独享钛合金

回收平台SellCell：苹果 iPhone SE 4设计大改，有望打破贬值魔咒

《对不起！我把美女包围了！》Steam页面正式上线，开启沉浸式恋爱之旅

中国每5人就有1人看小米电视

贾跃亭携FF员工包场力挺《哪吒2》：盛赞中国电影工业飞速进步

今年最便宜苹果手机曝光：iPhone SE 4保护壳现身

搭载DeepSeek功能成都首个水务环保大模型平台建设完成

和任正非雷军坐前排，90后科技新贵曾因学历自卑｜大象夜读

消息称苹果 iPhone 17 系列有线充电最高 35W

华为直接控股的机器人三条金龙，2025或将率先爆发1000%主升浪

小米集团港股创历史新高，股价首破48港元，市值超1.21万亿港元