当前位置: 首页 » 资讯 » 新科技 » 正文

马斯克推出Grok-3,欲与ChatGPT和DeepSeek角逐|甲子光年

IP属地 北京 编辑:沈瑾瑜 甲小姐甲子光年 时间:2025-02-19 01:30:35

— Hi everyone. My name is Igor, lead engineering at X.

— I'm Jimmy, leading research.

— I'm Tony, working on the recent team.

— All right. I'm Elon. I don't do anything. I just show up occasionally.

作者|苏霍伊

DeepSeek搅动的混天绫,又一次在人工智能的海域卷起了巨浪。让OpenAI、xAI等一众公司都坐不住了。

美西时间2月17号,埃隆·马斯克(Elon Musk)的人工智能初创公司xAI推出Grok-3模型,并十分高调地宣称,这是“地表最聪明的AI”。

马斯克与三位工程师共同完成了演示,其中左一的工程团队负责人伊戈尔・巴布什金(Igor Babuschkin),原是DeepMind 的高级研究员;左二的研究负责人Jimmy Ba是杰弗里·辛顿 (Geoffrey Hinton) 的学生;右二的Tony吴宇怀(Yuhuai Wu)是近期加入团队的成员。

团队透露,Grok-3的计算能力是前代产品的“10倍以上”。据悉,Grok-3是在今年1月初完成预训练,目前还在不断优化中。马斯克表示:“ 我们每天都在改进模型,所以24小时内能看到进步。”

他也在直播中表示,“Grok”的名字来自罗伯特·海因莱因(Robert Anson Heinlein)的小说《异乡异客》,主角是在火星上长大的人类,“Grok”也是一个“火星词”,代表充分而深刻地理解事物。

随后他说道,xAI和 Grok的使命就是理解宇宙。“我们希望解答最宏大的问题: 外星人在哪里?生命的意义是什么?宇宙如何终结?”

根据xAI数据,Grok-3在数学(AIME’24)、科学(GPQA)以及编程(LCB Oct-Feb)三大基准测试中的表现还不错。数据上是超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。

各大模型在Chatbot Arena成绩比较

以数学测试为例,Grok-3取得了52分的最高成绩,而同属xAI阵营的Grok-3 mini则拿到40分,DeepSeek-V3以39分紧随其后;Gemini-2 Pro拿到36分,Claude 3.5 Sonnet和GPT-4o分别只有16分和9分。

科学和编程测试的情况也大同小异。Grok-3都以较大优势领先其他模型,Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet以及GPT-4o各自分列二至六名。

Grok-3与其他模型在数学、科学和编程基准测试的比较

除了Grok-3,xAI还推出了一款名为DeepSearch的新型智能搜索引擎。DeepSearch基于Grok-3开发,具备推理能力,并提供完整地思考过程。在演示中,DeepSearch展示了其在研究、头脑风暴和数据分析等场景中的应用潜力。

Grok-3依托由20万块NVIDIA H100 GPU构建的Colossus超算集群,计算能力是前代Grok-2的10倍,预训练阶段的消耗相当于一座核电站7%的月发电量。 Colossus从筹建到上线仅用了122天,xAI计划将Colossus的规模扩大十倍,整合超过100万块GPU,用以超越谷歌、OpenAI等竞争对手。

相比之下,DeepSeek-V3的算法优化路径仅使用了2048块英伟达H800 GPU,耗费了557.6万美元就完成了训练,比同等规模的模型(如GPT-4、GPT-4o、Llama 3.1),训练成本大幅降低。同时,Grok 3还是非开源模型,需要付费。

DeepSeek-V3的训练成本(假设H800的租赁价格为2美元/GPU小时),图片DeepSeek-V3技术报告

1.Grok 3 聪明在哪儿?

xAI表示,Grok-3聪明的原因是它背后依托了Colossus,通过“突破光速”的研发模式实现了技术飞跃。

“最优秀的人工智能不仅依赖大规模预训练,更需要具备类人推理能力,即能够独立思考解决方案、自我批判、验证、回溯,并从第一性原理出发。”根据这一思路,xAI在预训练模型的基础上引入了强化学习,希望进一步推进模型的推理能力。

在Chatbot Arena LMSYS基准测试中,Grok-3获得了1400分的最高成绩,远超竞争对手——Claude 3约1360分,GPT-4约1340分。

据xAI最新公开资料显示,在一场针对AGI核心引擎的纯粹盲测中,用户在不知答案来源的情况下提交同一查询,并对两个不同模型的回答进行投票。结果显示,Grok-3的早期版本在这一测试中获得了1,400 ELO分,远超其他竞争对手,如Claude 3和GPT-4等。这一盲测方式仅考察模型本身的推理能力,而非依赖外部数据或提示。

除了Grok-3和Grok-3 mini,xAI团队还推出了两个专门用于推理的模型。其中,Grok-3 mini Reasoning已经相对成熟,而Grok-3 Reasoning Beta仍处于测试阶段。

在直播演示中,马斯克和研发团队测试了物理和游戏两个案例。

首先团队仅输入一行指令,让Grok-3编写代码,生成一段模拟火箭从地球发射、降落火星,并在合适的发射窗口返回地球的3D动画。Grok-3在考虑了开普勒定律后,不但生成了可以绘制出动画的代码,还生成了一段模拟火箭发射轨迹的3D动画。

马斯克解释道:“Grok正在模拟两个不同的行星——地球和火星。绿色的球体代表飞船,在地球与火星之间穿梭。你可以看到从地球到火星的旅程,最终宇航员安全返回。”

同时他也插播了一句:“如果一切顺利,SpaceX 将在未来两年把星舰火箭送往火星,搭载Optimus机器人和Grok。”

给Grok-3的第二个问题是:设计一个结合俄罗斯方块和宝石迷阵玩法的混合游戏。并提示代码可能较长,还要“insanely great”。经过思考,Grok 3设计出了既有俄罗斯方块的消除机制,又有宝石迷阵特点的游戏。

xAI也让Grok-3去做了AIME 2025竞赛。最终Grok-3 Reasoning Beta以93分的高分拔得头筹,Grok-3 mini Reasoning也取得了90分,均领先于其他参赛模型。相比之下,o3mini(高精度版)得分为87,o1为79,DeepSeek-R1为75,而Gemini-2 Flash Thinking仅获得54分。

乍一看,Grok-3似乎已经坐稳了数学推理领域的“头把交椅”。但仔细推敲,这些成绩是否真的能证明Grok-3的绝对领先地位?或许还不能轻易下结论,毕竟测试环境和数据集的选择可能对结果产生影响,单一测试并不能全面反映模型的综合性能。同时Grok-3 Reasoning Beta仍处于测试阶段,稳定性和可靠性尚未经过广泛验证。

此外,xAI还推出了一款名为DeepSearch的新型智能搜索引擎。它能搜索网页、查找资料和推测用户意图并思考,并在交叉比对后确保返回正确的信息。

马斯克表示:“Grok-3能减少AI幻觉。”实现方式是反复检查数据并确保逻辑一致,他也透露,Grok-3训练时使用的算力远超之前版本,并大量采用了合成数据。自2023年7月成立xAI以来,xAI先后于2023年11月和2024年8月发布了Grok-1和Grok-2,前者拥有3140亿参数,成为当时参数量最大的开源大模型。

发布后最后,马斯克预告,或许一周后Grok-3将推出语音模式。后面Grok-3将通过xAI的企业API提供和DeepSearch功能。

2.马斯克最近很忙

马斯克近期又多了一个身份,即现任“政府效率部”(DOGE)部长。

马斯克发布政府效率部(DOGE)LOGO

自上任以来,马斯克一个接一个地锤向国际开发署、教育部和国土安全部等机构。不仅睡在办公室,还带领为数不多的手下每天工作17小时。其网站称,DOGE近期宣布削减550亿美元开支。

同时,他在与OpenAI的“恩怨”上也没闲着。

就在这个月,马斯克领导的投资财团向OpenAI提出了974亿美元的收购要约,表示要“将OpenAI重新定位为非营利性研究机构”。根据收购计划,交易后OpenAI会与xAI合并。

OpenAI首席执行官萨姆·奥尔特曼(Samuel Altman)随后便在X上隔空回怼:“不了,谢谢。不过如果你愿意的话,我们愿意以97.4亿美元的价格收购推特。”

马斯克与奥尔特曼已经有过多轮法律战和公关战。去年马斯克起诉了奥尔特曼,OpenAI随后便发布了一篇名为《OpenAI与埃隆·马斯克》的博文回应了指控。马斯克也不甘示弱,在社交媒体上表示如果OpenAI将名称更改为“ClosedAI”,他将撤回对其的诉讼。

高端的商战往往就是这么朴实无华。

在Grok-3发布之际,不知是否有意为之,奥特曼也在同一日宣布GPT4.5已经进入测试阶段,AGI 的时刻即将来临,正式发布也指日可待。

与此同时,Anthropic也宣布即将发布Claude-4系列。随着OpenAI、Anthropic、meta和Google等不断推出更先进的AI产品,未来的竞争只会越发激烈。

近年来,人工智能领域的每一次突破似乎都被冠以“世界第一”、“革命性”、“颠覆性”等夸张的标签。从OpenAI的GPT系列到Google的Gemini,再到xAI的Grok-3,每一款新模型的发布都被媒体包装成“改变游戏规则”的里程碑。但真正的科技创新是需要被客观思考的,只有这样才能深入理解其背后的复杂性和实际应用价值。

其实不加“世界第一”“地表最聪明AI”等定语,也可以开产品开发布会。而当AI被“世界第一”淹没,我们是否迷失在华丽辞藻中?

至于谁能否真正脱颖而出、成为行业领军者,还需时间和市场来验证。

(文中未备注图片皆来自xAI或X)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新