“中国初创公司已展现出赶超美国人工智能(AI)模型的迹象,而且他们追赶的速度比许多业内人士预期的要快。”美国华尔街日报在12月24日的一篇报道中,通过对比中美两国AI企业推理模型的表现以及研发速度,得出了以上结论。
11月,由中国私募巨头幻方量化投资的AI公司DeepSeek(深度求索)发布了其推理模型DeepSeek-R1的预览版。根据DeepSeek的说法,这一模型的能力已接近甚至超越了OpenAI于今年9月发布的推理模型o1的预览版。
除了DeepSeek外,拥有中国互联网巨头阿里巴巴和腾讯投资的初创公司Moonshot AI(月之暗面)表示,他们开发了一种专门用于数学的模型,其功能接近o1。阿里巴巴也称,他们自己的一个实验模型在解决数学问题上的表现优于美国模型的预览版。
华尔街日报称,由于这些公司尚未发表描述其模型的论文,且现在没有一致认可的对AI模型能力进行评估的单一测试,目前很难验证这些中国公司的说法。尽管如此,一些美国专家表示,他们对此“印象深刻”。
“中国正在更快地迎头赶上。”OpenAI前研究员、现为AI企业家的安德鲁·卡尔(Andrew Carr)说,DeepSeek研究员在“在几个月内就弄通了OpenAI推理模型的办法,坦率地说,我的许多同事都对此感到惊讶”。
华尔街日报用今年美国数学竞赛AIME中的15个问题进行了测试。他们发现,OpenAI的推理模型还是要比中国几家公司的推理模型更快地找到答案。测试结果显示,OpenAI模型在10秒内给出了答案,而DeepSeek花了2分多钟。
不过,该报仍称赞了DeepSeek的表现,称在目前很多AI模型被简单数学问题难倒的情况下,DeepSeek第一次就得到正确答案是“一项壮举”。
DeepSeek(深度求索)官网
中国AI公司能在短时间内达成“壮举”得益于多重原因。
与许多美国公司不同,大部分中国公司更愿意与其他企业和软件开发商共享底层代码。这种共享代码的行为在AI领域被称为“开源”。美国纽约时报称,开源一直是计算机软件、互联网以及当前AI发展的基石,因为开源的支持者认为,当代码可供任何人免费检查、使用和改进时,技术就会进步得更快。
“开源技术是中国的战略优势。”美国科技时报12月17日称,中国公司让任何人都能接触到模型源代码,可以在全球范围内引发创新并建立开发人员社区,这不仅推动了技术的进步,而且使中国的模型出现在全球AI地图上。
纽约时报也注意到了开源模式给中国带来的优势。该报称,2023年年底有人发现,李开复创建的AI公司01.AI(零一万物)使用了美国公司meta的开源模型构建其AI系统。但转折发生在6个月后。当时,01.AI发布了新一代模型,美国斯坦福大学的一个团队也在那段时间也推出了Llama 3-V开源模型。但随后,Llama 3-V很快被爆出与中国大模型公司面壁智能的开源成果MiniCPM-Llama3-V 2.5拥有几乎完全相同的模型架构与代码,引发“抄袭”质疑。
该报指出,这与01.AI去年面临的争议相反:中国开发人员不再在美国技术之上构建,而是美国开发人员在中国技术之上构建。
总部位于纽约的AI公司Hugging Face(抱抱脸)的首席执行官克莱门特·德朗格(Clément Delangue)表示,美国监管机构限制美国的开源项目,中国的开源模型成为黄金标准,此类事情可能会成为常态,“如果这种趋势继续下去,美国将面临越来越大的挑战”。
为了扼制中国发展AI的能力,美国政府自2022年来一直在限制中国获得世界上最先进的AI芯片。今年12月,临卸任的拜登政府再次收紧了对中国出口AI芯片的途径。
但是,华尔街日报称,中国开发人员已经找到了解决方法。Moonshot AI创始人杨植麟称,该公司专注于强化学习(Reinforcement Learning,一种机器学习方法),模仿人类的试错。报道称,这种方法在提高性能时,可能会减少算力的使用强度。
华尔街日报报道称,自去年年底以来,AI开发人员越来越多地使用一种称为“混合专家模型”(MoE)的技术。该技术将问题引导到专门的子模型(即“专家”)处去解决问题,就像主厨将意大利面订单定向到厨房的意大利厨师处那样。这个过程也减轻了对芯片的要求。
腾讯的混合专家模型于今年11月发布。据称,该模型的性能与meta今年7月推出的Llama 3.1模型相当。审查了两家公司论文的研究人员表示,腾讯的模型可能仅用了meta约1/10的算力训练的。
DeepSeek在2021年用1万个英伟达A100芯片构建了一个用于AI训练的Fire-Flyer 2集群。今年8月,DeepSeek在一篇论文中表示,Fire-Flyer 2的性能接近于英伟达的一个包含类似芯片的系统,但DeepSeek的系统成本更低,能耗更低。
美国AI初创公司Anthropic联合创始人杰克·克拉克(Jack Clark)在他的博客中写道,“中国绕过出口管制的一种方式是,利用他可以访问的硬件构建非常好的软件和硬件训练堆栈”,“就像电动汽车、无人机和其他技术一样,中国制造将在AI模型中占据一席之地”。
华尔街日报指出,缺乏尖端芯片、筹资难等问题仍是中国AI公司面临的几大挑战。但接受该报采访的中国AI公司高管将这比作带着镣铐跳舞,他表示“专注于我们擅长的事情是生存的唯一机会,而且可能是获胜”。