机器之心报道
机器之心编辑部
入职三个月,委以重任。在 Sora 发布即翻车之前,其团队掌舵人 Tim Brooks 在社交媒体上宣布跳车,跳槽的去向还是竞争对手谷歌 DeepMind。
这一消息立即引发轩然大波。据 The Information 爆料,Tim Brooks 的出走是因为 Sora 技术存在严重问题:不仅生成速度慢,还在各项性能上都难以与 Luma、Stability、Runway 等对手抗衡,更别提最近风头正劲的 Pika 和国产视频生成模型们了。
在 Sora 还在闭门造车的这段时间,竞争对手们已经在市场上攻城略地,打得火热。
当时,有业内人士预测,Tim Brooks 加入谷歌后很可能会在其视频生成模型 Veo 项目上大显身手。
不过,Sora 之所以惊艳不仅是视频生成的效果,更在于它能模拟真实世界的物理规律。世界模型的风正在 AI 圈刮起:谷歌的 GameNGen 能不用游戏引擎就直接生成游戏,最近大火的 Oasis 更是能用视频模型直接做出能玩的游戏。视频生成技术正在向模拟游戏世界的方向狂飙。
而 Tim Brooks 入职谷歌 DeepMind 后的新任务,就是这个方向。早在 DeepMind 联合创始人 Demis Hassabis 致的欢迎词中就剧透过这一点,他们要将「久未实现的创造世界模拟器的梦想变成现实」。
本周一,Tim Brooks 在 X 上宣布:「DeepMind 有雄心勃勃的计划,要打造能够模拟世界的大规模生成模型。我正在为这个使命组建一个新团队。」
根据这个帖子中所附链接的招聘信息,这个新团队将与谷歌的 Gemini、Veo 和 Genie 团队合作,并在他们的工作基础上,解决「关键性的新问题」,并将模型扩展到「最高计算水平」。
Gemini 是谷歌的旗舰人工智能模型系列,可用于分析图像和生成文本等任务。Veo 则是谷歌自己的视频生成模型,最新的 Veo 2 版本已经能一步生成美妆博主开箱视频或 Vlog,其逼真程度足够以假乱真。
Google Veo 2 生成的 Vlog 视频,图源:https://x.com/jerrod_lew/status/1872673797939044487
至于 Genie,它是谷歌对世界模型的尝试 —— 一种可以实时模拟游戏和 3D 环境的人工智能。就在上个月,谷歌震撼宣布了他们的新一代世界模型 Genie 2,实现了输入一张图直接升维出一个交互可玩的 3D 世界。
Genie 2 生成的可交互的虚拟世界
「我们相信,在视频和多模态数据上扩展人工智能训练是通往通用人工智能的关键路径,」一则职位描述中写道,「世界模型将推动众多领域的发展,例如视觉推理和模拟、具身智能体的规划,以及实时互动娱乐。」
Tim Brooks 团队的招人要求
从以上 JD 来看,Tim Brooks 新团队将致力于在其构建的模型之上开发「实时互动生成」工具,并研究如何将其模型与现有的多模态模型(比如 Gemini)进行整合。
主要招聘的有两个岗位:研究科学家和研究工程师,年薪在 136,000 美元—245,000 美元区间。
评论区的反响也很热烈,简历可能已经投上了。
世界模型是许多初创公司和大型科技公司追逐的焦点,比如李飞飞的 World Labs、初创公司 Decart 和 Odyssey。他们认为,世界模型有一天可以用来创建能与观众实时互动的媒体,比如只属于你的独家游戏剧情。同时,世界模型也能更好地模拟世界,解决机器人训练环境缺数据的问题。
但是原本靠创意吃饭的朋友们对世界模型的看法,可能就没这么乐观了。
最近,Wired杂志的一项调查发现,像动视暴雪这样的游戏工作室,已经裁减了大量员工,正在使用人工智能来偷工减料、提高生产力,并弥补人员流失。2024 年,由代表好莱坞动画师和漫画家的动画师公会委托的一项研究估计,到 2026 年,美国的电影、电视和动画行业将有超过 10 万个职位受到人工智能的冲击。
不过,像 Odyssey 这样的 AI 创业公司已经表态:他们的目标是与创意人士合作,而不是取代他们。至于谷歌能否用世界模型开创一个 AI 与人类创意共生的新时代,让我们拭目以待。
参考链接:
https://techcrunch.com/2025/01/06/google-is-forming-a-new-team-to-build-ai-that-can-simulate-the-physical-world/
https://x.com/_tim_brooks/status/1876327325916447140