当前位置: 首页 » 资讯 » 人物资讯 » 正文

20万张GPU“烧出”地表最强 AI?马斯克的Grok 3超1400分登顶排行榜,OpenAI联合创始人:略强于 DeepSeek-R1

IP属地 北京 编辑:柳晴雪 每日经济新闻 时间:2025-02-18 21:30:11

每经记者 岳楚鹏 每经编辑 兰素英

一度“跳票”的AI模型Grok 3终于迎来正式发布。

当地时间2月17日晚,马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式,观看人数超过100万人。

Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应,它可以分析图像和回答问题,并为X上的许多功能提供支持。前天马斯克就在X上造势称,Grok 3是“地球上最聪明的人工智能”。

图片直播截图

在发布会上,马斯克和三位xAI的工程师一起演示了Grok 3的各种功能。马斯克在直播演示中声称,Grok 3在包括AIME(测试模式在数学问题上的表现)和GPQA(测试模型在博士级物理、生物和化学问题上的表现)在内的基准测试中击败了所有的市面上所有模型。

马斯克似乎也并非在打“诳语”。从AI基准测试开放平台lmarena.ai放出的截图看,测试数据显示,早期版本的Grok 3(代号chocolate)在Arena排行榜上拿下了第一,吊打其他主流AI大模型,并且,Grok 3还是第一个获得超过1400分的模型。

然而,有用户在观看发布会后指出,Grok 3给出的关于《流放之路2》游戏的结论错误频出,另有用户测试发现,Grok 3在经典的多边形小球编程问题上也出现了错误。

OpenAI联合创始人Andrej Karpathy也在发布会后放出了自己的感想。他认为,就目前短暂上手的体验而言,Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

拿下Arena榜单第一!Grok 3是首个超1400分的模型

早在2024年7月,马斯克在与乔丹·彼得森的访谈节目时就表示,Grok 3预计将在2024年12月底发布。但到了年底,这个承诺并没有兑现,一度有人怀疑这只不过是马斯克无数个大饼中的其中一个,Grok 3或许遥遥无期。

不过,在上周的迪拜峰会上,马斯克却突然宣布,xAI将在一到两周内推出新一代AI模型Grok 3,而这个模型的强大程度,用他的话说,“强到让人感到害怕”。马斯克甚至预言这可能是“最后一次有AI比Grok更优秀”。

从xAI在直播中放出的基准测试结果来看,Grok 3在数学、科学和编程领域的表现大幅领先于市面上其他主流的AI模型。

在数学能力测试(AIME'24)中,Grok 3获得52分,明显超过DeepSeek-V3的39分和GPT-4o的9分;在科学知识评估(GPQA)中,Grok 3以75分的成绩领先,而DeepSeek-V3和GPT-4o的得分分别为65分和50分;在编程能力测试(LCB Oct-Feb)中,Grok 3同样以57分超过DeepSeek-V3的36分合GPT-4o的34分。

图片xAI

在推理模型的比较中,Grok 3 Reasoning Beta也战胜了OpenAI的o3-mini、DeepSeek的R1和Gemini-2 Flash Thinking等推理模型。不过,演示团队表示允许Grok去进行更长时间的思考和推理。

图片xAI

AI基准测试开放平台lmarena.ai也爆出猛料,最新测试数据显示,早期版本的Grok 3(代号chocolate)在经过约8000次投票后,在Arena排行榜上拿下第一。

图片X

lmarena.ai称,Grok 3是第一个突破了1400分的模型,并且在所有分类中都排名第一,而这一里程碑以后会越来约难以实现。

图片X

三个月数据中心容量翻倍至20万块GPU

和DeepSeek从技术层面对模型进行改进不同,马斯克的新模型还是属于“大力出奇迹”。

此前有新闻报道,马斯克组建了一个配有十万块H100 GPU的、世界上最大的超级计算机集群Colossus来帮助训练Grok模型。在此次直播中,马斯克透露,实际上,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。

图片xAI

也难怪有人说Grok 3是终极的Scaling Law测试了,是靠吞噬算力训练起来的怪物。

演示团队为了使大家更直观地了解Grok 3的强大之处,还演示了物理学和游戏的例子。

首先,要求Grok 3生成一段代码绘制从地球发射火箭,降落在火星,然后在下一个发射窗口返回地球的三维动画图表。这一任务涉及大量的数学和物理计算,极具挑战性。Grok 3很快生成了完整的动画,研究人员在检查后表示结果完全正确。

图片xAI

之后,演示团队又要求Grok编写一个结合俄罗斯方块和宝石迷城的游戏,Grok也顺利完成了任务。

除了基本的模型能力之外,Grok 3也具备智能体功能。

xAI为Grok 3开发了一个类似于OpenAI的DeepSearch智能体。DeepSearch可以对互联网进行全面搜索,并为用户提供详尽的整合报告。马斯克表示,这可以省下你几十次谷歌搜索的时间,而公司将得到几十亿美元的回报。

OpenAI 联合创始人:Grok 3 + Thinking与o1-pro差不多,略好于DeepSeek-R1

在演示团队的展示中,Grok 3似乎无所不能,拳打OpenAI,脚踢Deepseek,已然站上世界AI模型的巅峰,但有些观看了演示和迫不及待体验了Grok 3的用户却发现了一些奇怪的问题。

在发布会中,为了演示DeepSearch功能,演示团队就马斯克最近在玩的游戏《流放之路2》询问了一个相关问题。有游戏博主看后表示,Grok 3给出的游戏结论错误频出,感觉不如马斯克宣称的那么聪明。

图片哔哩哔哩

有专门直播该游戏的游戏博主也对记者表示,Grok 3给出的答案没一个是对的,不如GPT。

另外,有用户体验了Grok 3的编程功能,随后也表示,Grok 3的编程能力并不是很强大。在经典的多边形小球编程问题上,Grok 3出现了错误。

图片X

OpenAI联合创始人Andrej Karpathy作为为数不多的提前拿到测试资格的人,也在发布会后放出了自己的感想。他认为,就目前短暂上手的体验而言,Grok 3 + Thinking感觉与ChatGPT的o1-pro差不多,略好于DeepSeek-R1和谷歌的Gemini 2.0 Flash Thinking。

Karpathy表示,Grok 3显然有一个最先进的思维模型,并且在卡坦岛定居者问题上做得很好。很少有模型能够可靠做到这一点。顶级的OpenAI推理模型(如o1-pro,月订阅费为200美元)也能做到这一点,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude的所有模型都没办法做到。

但Grok 3并没有解决“表情符号之谜”问题,即使以Rust代码的形式给出了有关如何解码它的强烈提示。而在这点上,Karpathy称其见过的最大进展来自DeepSeek-R1,它曾经部分解码了消息。

此外,Karpathy认为,DeepSearch大约等于Perplexity DeepResearch的产品,但还没有达到OpenAI最近发布的“深度研究”的水平。

不过,他同时也指出,考虑到xAI团队在大约在1年前从头开始,这是相当令人难以置信的,达到最先进领域的时间跨度是前所未有的。目前得出完整结论还为时过早,需要在在接下来的几天/几周内等待更多的评估。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新