当前位置：首页 » 资讯 » 新科技 » 正文

“AI界拼多多”刷屏！95后“天才少女”火了，雷军曾开出千万年薪抢人！

IP属地北京 编辑：沈瑾瑜证券时报e公司 时间：2024-12-29 20:15:18

与DeepSeek一起进入大家视野的，是95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的研发，是这款模型的关键开发者之一。在DeepSeek-V3发布前几天，媒体报道称小米创始人雷军已开出千万年薪，将罗福莉招至麾下，罗福莉将就职于小米AI实验室，领导大模型团队。
“AI界拼多多”刷屏海外
据最新发布的技术报告，DeepSeek-V3参数量为671B，激活参数为37B，使用的预训练token量为14.8万亿。其多项评测成绩超越了阿里的Qwen2.5-72B和metadeLlama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
“中国AI公司Deepseek发布并开源了一个前沿的大语言模型，而其训练的预算却非常低。”前OpenAI联创、知名AI科学家AndrejKarpathy在其个人社交平台上表示，DeepSeek-V3整个训练过程仅用了不到280万GPU小时，相比之下，meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时。如果DeepSeekV3的优良表现能够得到广泛验证，那么这将是资源有限情况下对研究和工程的一次出色展示。
若从成本上进行更直观的对比，假设H800的租金为每GPU小时2美元，DeepSeek-V3的总训练成本仅为600万美元不到，是Llama-3405B超6000万美元训练成本的十分之一不到。
极高的性价比让DeepSeek-V3一经发布便引发国内外广泛关注。meta的AI研究科学家田渊栋称“在非常有限的预算下实现强劲表现”，“这是一项了不起的工作”。知名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表示，DeepSeek-V3“训练所需计算量减少了10倍”，“在美国休息的时候，他们努力工作，以更低的成本、更快的速度和更强的实力迎头赶上。”
这一圈粉无数的大模型，由被称为“AI界拼多多”的DeepSeek研发。公开资料显示，DeepSeek专注于开发先进的大语言模型和相关技术，由国内知名量化资管巨头幻方量化于2023年创立，也被美国硅谷誉为“来自东方的神秘力量”。
事实上，DeepSeek并非第一次“出圈”。早在半年前，其发布的DeepSeek-V2就因性能达GPT-4级别，但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业内关注。对于为何能做到如此高的性价比，DeepSeek官方解释称，DeepSeek-V2采用了创新的架构，例如注意力机制方面的MLA（多头潜在注意力）和前馈网络方面的DeepSeekMoE架构等，以实现具有更高经济性的训练效果和更高效的推理。
正因为在训练效率和成本方面的优势，DeepSeek也是国内最早开启大模型降价的厂商，也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后，字节、阿里、百度等厂商纷纷跟进降价。同时，DeepSeek也是中国互联网大厂以外，唯一一家储备了万张A100芯片的公司，这为其早期的技术研发提供了坚实的算力基础。
“我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时，DeepSeek创始人梁文锋表示。这位毕业于浙江大学电子工程系的80后，一直潜心研究技术。据媒体报道，梁文锋在工作中始终保持着低调的作风，和所有研究员一样，每天“看论文，写代码，参与小组讨论”。
一名人工智能行业资深业内人士向证券时报记者分析称，DeepSeek以200人左右的小团队，且不依靠外部融资，做出了一个有性价比并被全球主流AI界人士所认可的大模型。“一是他们在早期就买了很多算力卡，投入了很多资源做研究；二是他们是做量化的，不像大厂有其他各种各样的盈利需求，也跟他们不构成竞争关系，能更专注于模型开发。”该业内人士表示。
背后的AI“天才少女”引发关注
在DeepSeek-V3爆火之后，背后的AI“天才少女”罗福莉也进入了人们的视野。据媒体报道，小米创始人雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉，领导小米AI大模型团队。
公开资料显示，罗福莉本科就读于北京师范大学计算机专业，硕士毕业于北京大学计算语言学专业。2019年，还在北大读硕士的她在人工智能领域顶级国际会议ACL上发表8篇论文（其中2篇一作），登上了知乎热搜。罗福莉用本人知乎账号回应称，“这次投稿ACL是我近一年的产出，所以我认为自己是付出了足够的努力的，当然也可能也有运气成分加持。”
硕士毕业后，罗福莉先是进入阿里达摩院做人工智能研究，从事预训练语言模型相关的工作，负责阿里达摩院AliceMind开源项目，主导开发了多语言预训练模型VECO。2022年，罗福莉加入幻方量化从事深度学习相关策略建模和算法研究，后又跳槽到DeepSeek担任深度学习研究员，参与研发MoE大模型DeepSeek-V2。
今年5月，在DeepSeek-V2发布以后，罗福莉在知乎上撰文，发表了对于DeepSeek-V2的看法。她表示，“单论DeepSeek-V2模型的中文水平，是真实处在国内外闭源模型的第一梯队”，“外加1元/百万输入Tokens的价格，只有GPT4价格的1/100，性价比之王”。
事实上，罗福莉被重金招入小米，是小米全面发力AI大模型的其中一个动作。2023年4月，小米正式组建了AI实验室大模型团队，并表示将不断挖掘AI相关的用户场景，发挥自身技术优势，并以开放的态度与合作伙伴开拓更多机会。今年11月，小米成立了专门的AI平台部，小米的元老级技术大牛张铎为负责人。张铎本硕毕业于清华计算机系，曾被雷军公开称赞是“小米的大神”，送以“铎神”的称号。
兵马未动，粮草先行。除了招募人才以外，最近，媒体报道称小米正着手搭建自己的GPU万卡集群，并在过去几个月里持续提升算力储备，为大模型研发提供更充分的算力供给。雷军在公开演讲时曾表示，小米做大模型的思路和很多公司不太一样，选择主力突破的是轻量化和本地部署。对于小米这样无论在手机还是造车上都讲究“性价比”的公司而言，如何在烧钱的大模型业务中平衡成本，无疑是雷军考虑的核心问题。而这，或许也是拥有DeepSeek-V2研发背景的罗福莉被雷军看中的原因。
证券时报官微
责编：陈丽湘
校对：祝甜婷‍‍

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

新型网络钓鱼攻击曝光，影响 260 万用户

联想 ThinkBook 14+ 2025 款笔记本官宣，搭载酷睿 7 250H 处理器

理想汽车2024年12月交付58,513辆，创历史新高

零跑12月交付达42517台，全年交付近30万台

雷军跨年夜直播：“苦尽甘来”，2025年小米汽车向交付30万台冲刺

从仰望朋友圈到仰望商业研究院：与时代共振，连接企业家与未来

理想汽车：2024年全年总交付量达50万辆

追求完美的人，需要有极狐这样极致品质情结的车

X 迈向“超级应用”，2025 年将上线支付平台 X Money

OPPO Reno13 手机新增“心动白”配色，1 月 10 日上市

G-Man 配音演员发布神秘视频，暗示《半条命 3》游戏 2025 年到来

7部跨年电影，能否炸出2025开门红？

华为新品出厂默认搭载原生鸿蒙：旧款产品也将逐步完成升级

奇瑞集团2024年销售583569辆新能源车，同比增232.7%

“水门礼”迎接，国产大飞机 C919“沪港航线”首航航班飞抵香港

控股股东资产注入！百亿A股公司宣布！

暴雪游戏国服战网 2 月 11 日起登录方式调整，需要绑定网易账号

雷军听劝：小米 SU7 Ultra 量产版可选配开孔机盖

有道词典笔 A7 Pro 新品上市：4 英寸屏幕、0.3 秒查词，499 元

米冲高：小米进军韩国高端手机 / 家电市场，和三星、LG 掰手腕

均票价超42元！2024年票房425.02亿国产影片占近80%：好莱坞电影未进前十

华为冲刺关键一年，2025 年所有新手机、平板将出厂搭载原生鸿蒙

2024 年 12 月全球浏览器大战：Chrome 稳居第一

2024 年另类 AI 评测标准走红：“威尔・史密斯吃意大利面”领衔

2024 年12月全球桌面Windows报告：Win10 62.73%、增0.9个百分点

雷军回应小米只招35岁以下员工：都是谣言

会说话的鱼缸来了！小米推出智能桌面鱼缸仅279元

全站最新

新型网络钓鱼攻击曝光，影响 260 万用户

联想 ThinkBook 14+ 2025 款笔记本官宣，搭载酷睿 7 250H 处理器

理想汽车2024年12月交付58,513辆，创历史新高

零跑12月交付达42517台，全年交付近30万台

雷军跨年夜直播：“苦尽甘来”，2025年小米汽车向交付30万台冲刺

从仰望朋友圈到仰望商业研究院：与时代共振，连接企业家与未来

理想汽车：2024年全年总交付量达50万辆

追求完美的人，需要有极狐这样极致品质情结的车

热门推荐

新型网络钓鱼攻击曝光，影响 260 万用户

联想 ThinkBook 14+ 2025 款笔记本官宣，搭载酷睿 7 250H 处理器

理想汽车2024年12月交付58,513辆，创历史新高

零跑12月交付达42517台，全年交付近30万台

雷军跨年夜直播：“苦尽甘来”，2025年小米汽车向交付30万台冲刺

从仰望朋友圈到仰望商业研究院：与时代共振，连接企业家与未来

理想汽车：2024年全年总交付量达50万辆

追求完美的人，需要有极狐这样极致品质情结的车

X 迈向“超级应用”，2025 年将上线支付平台 X Money

OPPO Reno13 手机新增“心动白”配色，1 月 10 日上市

G-Man 配音演员发布神秘视频，暗示《半条命 3》游戏 2025 年到来

7部跨年电影，能否炸出2025开门红？

华为新品出厂默认搭载原生鸿蒙：旧款产品也将逐步完成升级

奇瑞集团2024年销售583569辆新能源车，同比增232.7%

“水门礼”迎接，国产大飞机 C919“沪港航线”首航航班飞抵香港