当前位置: 首页 » 资讯 » 新科技 » 正文

谷歌推世界首个AI游戏引擎,2000亿游戏产业恐颠覆!0代码生成游戏,老黄预言成真

IP属地 北京 编辑:钟景轩 新智元 时间:2024-11-07 14:10:15

报道

编辑:编辑部

炸裂!世界上首个完全由AI驱动的游戏引擎来了。谷歌研究者训练的GameNGen,能以每秒20帧实时生成DOOM的游戏画面,画面如此逼真,60%的片段都没让玩家认出是AI!全球2000亿美元的游戏行业,从此将被改变。

世界上第一个完全由神经模型驱动的游戏引擎,刚刚诞生了!

「黑神话:悟空」的热度正旺,AI又在游戏中创造了全新的里程碑。

史上首次,AI能在没有游戏引擎的情况下,为玩家生成实时游戏了。

从此,我们开始进入一个炸裂的新时代:游戏不仅能被AI玩,还能由AI来创造和驱动。

谷歌的GameNGen,可以在单个TPU上,让AI以每秒20帧的速度,生成实时可玩的游戏。每一帧,都是由扩散模型预测的。

几年后,AI实时生成3A游戏大作的愿望还会远吗?

从此,开发者不必再手动编程游戏逻辑,开发时间和成本都会显著降低。

价值2000亿美元的全球游戏产业,可能会被彻底颠覆!

谷歌研究者表示,GameNGen是第一个完全由神经模型驱动的游戏引擎,能够在复杂环境中,实现高质量的长轨迹实时交互。

论文地址:https://arxiv.org/abs/2408.14837

不仅速度是实时的,它的优秀画质,也是让开发者颤抖的地步。

模拟「毁灭战士」时,它下一帧预测的峰值信噪比(PSNR)达到了29.4,已经可以和有损JPEG压缩相媲美。

在神经网络上实时运行时,视觉质量已经达到了与原始游戏相当。

模拟片段和游戏片段如此相似,让不少人类被试都分不清,眼前的究竟是游戏还是模拟?

网友感慨:这不是游戏,这是人生模拟器。

小岛秀夫的另一个预言,成真了。

3A电视剧是不是也来了?想象下,按照自己的喜好生成一版《权游》。

想象下,1000年后或一百万年后,这项技术是什么样?我们是模拟的概率,已经无限接近于1了。

从此,游戏开发不再需要游戏引擎?

AI首次完全模拟具有高质量图形和复杂交互的复杂视频游戏,就做到了这个地步,实在是太令人惊叹了。

作为最受欢迎、最具传奇色彩的第一人称射击游戏,自1993年发布以来,「毁灭战士」一直是个技术标杆。

它被移植到一系列超乎想象的平台上,包括微波炉、数码相机、洗衣机、保时捷等等。

而这次,GameNGen把这些早期改编一举超越了。

从前,传统的游戏引擎依赖的是精心编码的软件,来管理游戏状态和渲染视觉效果。

而GameNGen,只用AI驱动的生成扩散模型,就能自动模拟整个游戏环境了。

从视频中可以看出,神经网络复现游戏标志性视觉效果的能力简直是一绝,AI实时生成复杂交互环境的潜力非常惊人

「毁灭战士」一直以复杂的3D环境和快节奏的动作闻名,现在,所有这些都不需要游戏引擎的常用组件了!

AI引擎的意义,不仅仅是减少游戏的开发时间和成本。

这种技术,可以使游戏创作彻底民主化,无论是小型工作室,还是个人创作者,都能创造出从前难以想象的复杂互动体验。

此外,AI游戏引擎,还给全新的游戏类型打开了大门。

无论是环境、叙事,还是游戏机制,都可以根据玩家的行为动态来发展。

从此,游戏格局可能会被整个重塑,行业会从热门游戏为中心的模式,转向更多样化的生态系统。

顺便一提,「DOOM」的大小只有12MB。

大佬们「疯了」

AI初创HyperWrite的CEO Matt Schumer表示,这简直太疯狂了!用户玩游戏时,一个模型正在实时生成游戏。

如果将大多数AI模型的进展/轨迹映射到这上面,那么在几年内,我们将会得到3A级生成游戏。

英伟达高级科学家Jim Fan感慨道,被黑客们在各种地方疯狂运行的DOOM,竟然在纯粹的扩散模型中实现了,每个像素都是生成的。

连Sora跟它比起来,都黯然失色。我们只能设定初始条件(一个文本或初始帧),然后只能被动观看模拟过程。

因为Sora无法进行交互,因此还不算是一个「数据驱动的物理引擎」。

而GameNGen是一个真正的神经世界模型。它将过去的帧(状态)和用户的一个动作(键盘/鼠标)作为输入,并输出下一帧。这种质量,是他见过的最令人印象深刻的DOOM。

随后,他深度探讨了一些GameNGen中存在的限制。

比如在单个游戏上过拟合到了极致;无法想象新的场景,无法合成新的游戏或交互机制;数据集的瓶颈,导致了方法无法推广;无法实现用提示词创造可玩世界,或用世界模型训练更好的具身AI,等等。

一个真正有用的神经世界模型,应该是什么样子?

马斯克的回答是:「特斯拉可以用真实世界的视频做类似的事情」。

的确,数据是难点。

Autopilot团队可能拥有数万亿的数据对(摄像头视频,方向盘动作)。

有了如此丰富的真实世界数据,完全有可能训练一个涵盖各种极端情况的通用驾驶模拟器,并使用它来部署和验证新的完全自动驾驶(FSD)版本,而不需要实体车辆。

最后Jim Fan总结道:不管怎么说,GameNGen仍是一个非常出色的概念验证——至少我们现在知道,9亿帧是将高分辨率DOOM压缩到神经网络中的上限。

网友们感慨:扩散网络学习物理引擎和游戏规则的方式,太疯狂了。

核心作者:个人里程碑

谷歌DeepMind核心贡献者,项目负责人Shlomi Fruchter,在社交媒体上,介绍了自己开发GameNGen的过程。

他表示,「GameNGen是自己开发路上的里程碑」。

从最初手写GPU渲染代码(显式),到现在训练能在GPU上运行的神经网络(隐式),甚至包含了游戏逻辑,让我有一种实现了完整「闭环」的感觉。

Fruchter进行的第一个大型编码项目之一是3D引擎(如下图所示)。早在2002年,GPU仍只能用于渲染图形。

还记得,第一款图形处理器GeForce 256是在1999年发行。

渲染3D图形恰好需要大量的矩阵运算,这恰恰是GPU所擅长的。

然后谷歌研究人员编写高级着色器语言代码,计算自定义渲染逻辑并构建新的视觉效果,同时还能保持高帧率。

GameNGen的诞生,是源于一个好奇心:

「我们能否在当前的处理器上,运行一个隐式神经网络,来进行实时互动游戏」。

对于Fruchter以及团队成员来说,最终答案是一个令人兴奋的发现。

AI大牛Karpathy曾说过,100%纯软件2.0计算机,只有一个神经网络,完全没有传统软件。

设备输入(音频、视频、触摸等)直接到神经网络中,其输出直接作为音频/视频在扬声器/屏幕上显示,就是这样。

有网友便问道,那就是它不能运行DOOM了?

对此,Karpathy表示,如果能够很好提出请求,它可能可以非常接近地模拟DOOM。

而现在,Fruchter更加肯定,它可以运行DOOM了。

另一位谷歌作者Dani Valevski也转发了此帖,对此愿景表示极度认可。

GameNGen或许标志着游戏引擎全新范式的开启,想象一下,和自动生成的图像或视频一样,游戏也是自动生成的。

虽然关键问题依旧存在,比如如何训练、如何最大程度利用人类输入,以及怎样利用神经游戏引擎创建全新的游戏。但作者表示,这种全新范式的可能性让人兴奋。

而且,GameNGen的名字也暗藏彩蛋,可以读出来试一试——和Game Engine有相似的发音。

Agent采集轨迹,SD预测生成

在手动制作计算机游戏的时代,工作流程包括(1)收集用户输入(2)更新游戏状态,以及(3)将更新后的状态渲染为屏幕像素,计算量取决于帧率。

尽管极客工程师们手中的Doom可以在ipod、相机,甚至微波炉、跑步机等各种硬件上运行,但其原理依旧是原样模拟模拟手动编写的游戏软件。

看起来截然不同的游戏引擎,也遵循着相同的底层逻辑——工程师们手动编程,指定游戏状态的更新规则和渲染逻辑。

如果和扩散模型的实时视频生成放在一起,乍一看好像没什么区别。然而,正如Jim Fan指出的交互式世界模拟不仅仅是非常快速的视频生成。

其一,生成过程需要以用户的输入动作流为条件,这打破了现有扩散模型架构的一些假设。

其二,模型需要自回归生成帧,这往往会导致采样发散、模型不稳定等问题。

Agent数据收集

由于无法直接对游戏数据进行大规模采样,因此首先教会一个agent玩游戏,在各种场景中生成类似于人类且足够多样化的训练数据。

agent模型使用深度强化学习方法进行PPO训练,以简单的CNN作为特征网络,共生成900M帧的

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新