北京时间今日 (2 月 18 日) 中午 12 时, 马斯克旗下的人工智能公司 xAI 发布了其最新一代大模型 Grok 3。
据马斯克介绍,Grok 3 的能力相比前代产品 Grok 2 又提升了“一个数量级”,还“追求极致真实”,即使这种真实有时会与“政治正确”相悖。
在数学推理、科学逻辑推理及代码写作等方面,Grok-3 在多项基准测试中优于 DeepSeek-v3、GPT-4o、Gemini-2 pro。 马斯克毫不吝啬地称赞 Grok 3 为“地球上最聪明的人工智能”。
此外,Grok 3 的早期版本还在 Chatbot Arena 中表现出色,这是一个让不同 AI 模型相互竞争、由用户投票选择更优回答的众包测试平台。
注意到,Grok 3 并非单一模型,而是一个模型家族。较小的 Grok 3 mini 能够在牺牲一定准确性的情况下更加快速地回答问题。目前并非所有模型版本都已上线。
Grok 3 使用了 10 万个英伟达 H100 GPU(后扩展到 20 万),累计训练时长达到 2 亿 GPU 小时,这一规模为前代 Grok 2 的十倍。如此大规模的计算能力部署,使得 Grok 3 能够在更短时间内处理海量数据集,同时显著提升了模型的准确性。
xAI 不仅在硬件上进行了升级,还在软件层面进行了优化。Grok 3 通过改进训练流程,引入合成数据集、自我纠错与强化学习等技术,进一步提升了模型的性能。
Grok 3 的变体版本 ——Grok 3 Reasoning(推理)和 Grok 3 mini Reasoning,能像 OpenAI 的 o3-mini 和 DeepSeek 的 R1 等“推理”模型一样“思考”问题。
xAI 声称, Grok 3 Reasoning 在多个流行基准测试中超越了 o3-mini 的最佳版本 o3-mini high,包括 AIME 2025 新型数学基准测试。用户可以在遇到较难问题时使用“Big Brain”模式进行更深入、谨慎地推理,适合用于数学、科学和编程相关的问题。
不过,xAI 指出 Grok 3 的推理模型目前仍处于 Beta 测试阶段,仍在持续不断训练中。
此外,Grok 3 还引入新功能“DeepSearch”,其能够扫描互联网和 X 上的信息,以摘要的形式回应用户的请求。
原计划在此次发布中推出的语音模式并未如期上线。马斯克在 X 平台上解释称:“语音模式目前还存在一些问题,预计将在大约一周后推出,但它非常出色。”
此外,xAI 还计划在几个月后开源 Grok 2。马斯克表示:“我们的总体策略是,在下一个版本完全推出后,开源上一个版本。当 Grok 3 成熟稳定后,大概在未来几个月内, 我们将开源 Grok 2。”
对了,别忘了今天还有《微信更新,合久必分、分久必合》等文章,以及:
果然是海外华人vs国内国人↓↓↓