当前位置：首页 » 资讯 » 新科技 » 正文

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍

IP属地北京 编辑：顾雨柔量子位 时间：2024-10-26 14:23:46

WonderWold团队投稿
| 公众号 QbitAI
斯坦福吴佳俊团队与MIT携手打造的最新研究成果，让我们离实时生成开放世界游戏又近了一大步。 ‍‍
从单一图像出发，在用户的实时交互下生成无限延展的3D场景：
只需上传一张图片，就能踏入一个由AI创造的虚拟世界。用户可以通过移动视角和输入文本提示，实时决定接下来要探索的方向和场景内容：
从鸟瞰图的视角，可以清晰看到虚拟世界的生成过程：
无论是魔幻森林、现实都市，还是宁静乡村，WonderWorld都能在眨眼间为你呈现：
这项工作名为 WonderWorld，由斯坦福吴佳俊团队和MIT联合打造。
WonderWorld的项目主页上还有能以第一视角移动的交互式场景：
资深游戏创业者，GOAT Gamin的首席AI官兴奋地表示：“它还能对非真实感的图片work。有无限多的可能性！”
在硅谷广受欢迎的Hacker News上，WonderWorld也一度被放在头版讨论：
要知道，之前的生成式AI方法都需要数十分钟甚至若干小时才能生成一个单独的场景，WonderWorld的速度可谓打开了交互式新世界的大门。
那这究竟是如何做到的？
交互式生成 3D 世界
要让用户来控制生成一个3D世界，最核心的难点在于生成速度。先前的AI生成3D场景的方法大都需要先逐步生成许多目标场景的2D图片来补全被遮挡的部分，然后再优化得到一个3D场景的表示。这个过程耗时颇多。
WonderWorld的核心突破在于其惊人的速度。
研究团队开发的 FLAGS (Fast LAyered Gaussian Surfels) 场景表示方法，使得系统能在短短10秒内生成一个新场景。这一速度比现有方法快了近100倍，真正将交互式3D世界生成推向了实时的门槛。
具体来说，WonderWorld生成新场景时，会先生成一张场景的2D图片（对于第一个场景则是直接使用输入图片），从图片中生成三张layer images，再从layer images来生成 FLAGS 表示。
FLAGS表示由三层 Gaussian surfels组成：天空层，背景层，以及前景层。每一层都从对应的layer image中生成。天空和背景的layer image 都单独进行了遮挡的补全，因此WonderWorld不需要逐步生成多张图片。
另外，FLAGS表示的每个Gaussian surfel都唯一对应一个layer image 上的像素，因此它可以使用估计的像素级别几何信息（如单目深度和单目法向量）来初始化Gaussian surfels的参数，从而加速其优化过程。
最后，WonderWorld 还针对多个3D场景之间经常出现几何“裂缝”的问题，提出了 Guided depth diffusion。核心想法是，利用已经生成的 3D 场景的深度信息作为 guidance，使新生成场景的深度与其一致。只要新旧场景在连接处的深度一致，那么场景的裂缝就得以弥合。
值得一提的是，无论是2D图片生成还是深度估计模块，都可以直接采用预训练模型，因此整个框架不需要任何训练。
实验测试
由于先前没有任何方法可以做到交互式3D场景生成，研究人员采用了连贯3D场景生成的方法 WonderJourney，单一场景生成的 Text2Room以及 LucidDreamer作对比。由于缺乏现有可用评估数据集，研究人员生成了28个场景作为测试。
研究人员首先展示了更多的交互式生成的场景，从而说明WonderWorld可以在应用到不同场景类型以及不同视觉风格：
与基准方法的比较表明，WonderWorld明显优于各个方法：
从人类偏好评估的角度，WonderWorld 也显著更受青睐：
此外，从一张输入图片，WonderWorld能够接受不同的用户控制，生成不同的场景内容：
作者简介
该篇论文主要作者来自斯坦福大学吴佳俊团队。
论文一作俞洪兴，斯坦福大学五年级博士生。
主要研究领域为重建可交互的物理世界。他曾获得 SIGGRAPH Asia 最佳论文奖，高通奖学金，以及 meta 奖学金和 NVIDIA 奖学金的提名。
吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室（SVL）和斯坦福人工智能实验室（SAIL）。
在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为“清华十大学神”之一。
论文链接：
https://arxiv.org/pdf/2406.09394
参考链接：
[2]https://kovenyu.com/wonderworld
— 完—
投稿请发邮件到：
ai@qbitai.com
标题注明，告诉我们：
你是谁，从哪来，投稿内容 ‍
附上论文/项目主页链接，以及联系方式哦
我们会（尽量）及时回复你
点这里

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

最后生还者电视剧第二季预计将于2025年春季发布

日媒称中国电视品牌席卷日本市场海信TCL销量大涨

博主称Redmi K80系列竞争力很强销量有望超越上代

安全用电好拍档，太平洋高校超品日携手航嘉共同走进武汉大学

Tims天好中国第三季营收3.6亿：同比降17% 亏8740万，有946家门店

高清画质打造娱乐观影新体验当贝 Smart1 投影评测

高鑫零售半年营收347亿：同比降3% 期内利润1.86亿

李彦宏：过去24个月大模型基本消除了幻觉

12日短剧星图达人热度榜：《打脸偷我蛊虫的假苗疆圣女》第一

12日短剧热门素材日榜：《力王》第一

中国商飞航展首日拿下130架订单：60架C919、70架C909

全新无隔膜固态锂电池技术问世：正负极距离小于0.000001米

再创新高！京东11.11购物用户数同比增长超20% 京东采销直播订单量同比增长3.8倍

最长双11：大补贴带来的政策市与消费结构之变

实力賽续启幕新程：悦达携手润阳，强强联合加大电站业务开发

百度最新推出无代码工具“秒哒”，李彦宏：一个只靠想法就能赚钱的时代来了

广州第一 | 云徙科技荣登GEI中国潜在独角兽企业榜单2024

红魔10 PRO系列今日发布骁龙8至尊+全面屏+大电池

微软 Win11 24H2/23H2/22H2 推送 11 月安全更新

微软 Win10 22H2/21H2 推送 11 月累积更新：修复打印机等问题

SEMI：2024Q3 全球硅晶圆出货面积同比增长 6.8%、环比增长 5.9%

碳酸锂期货与锂矿股双双强势上涨，拐点来了？｜行业风向标

雷军一大早真去车间拧螺丝：眯了一觉 SU7第10万台搞定了

小米推出 90W GaN 三口充电器套售价 199 元

美光宣布全球首款 61.44TB PCIe 5.0 固态硬盘 6550 ION 出样

五部门：深化人工智能技术在家政领域应用

远超上代和预期！曝小米15系列激活量已超100万台

全站最新

最后生还者电视剧第二季预计将于2025年春季发布

日媒称中国电视品牌席卷日本市场海信TCL销量大涨

博主称Redmi K80系列竞争力很强销量有望超越上代

安全用电好拍档，太平洋高校超品日携手航嘉共同走进武汉大学

Tims天好中国第三季营收3.6亿：同比降17% 亏8740万，有946家门店

高清画质打造娱乐观影新体验当贝 Smart1 投影评测

高鑫零售半年营收347亿：同比降3% 期内利润1.86亿

李彦宏：过去24个月大模型基本消除了幻觉

热门推荐

最后生还者电视剧第二季预计将于2025年春季发布

日媒称中国电视品牌席卷日本市场海信TCL销量大涨

博主称Redmi K80系列竞争力很强销量有望超越上代

安全用电好拍档，太平洋高校超品日携手航嘉共同走进武汉大学

Tims天好中国第三季营收3.6亿：同比降17% 亏8740万，有946家门店

高清画质打造娱乐观影新体验当贝 Smart1 投影评测

高鑫零售半年营收347亿：同比降3% 期内利润1.86亿

李彦宏：过去24个月大模型基本消除了幻觉

12日短剧星图达人热度榜：《打脸偷我蛊虫的假苗疆圣女》第一

12日短剧热门素材日榜：《力王》第一

中国商飞航展首日拿下130架订单：60架C919、70架C909

全新无隔膜固态锂电池技术问世：正负极距离小于0.000001米

再创新高！京东11.11购物用户数同比增长超20% 京东采销直播订单量同比增长3.8倍

最长双11：大补贴带来的政策市与消费结构之变

实力賽续启幕新程：悦达携手润阳，强强联合加大电站业务开发