对话生数科技CEO唐家渝：AI生成视频技术路线已收敛，年底或能面向大众应用

IP属地北京 编辑：孙雅搜狐科技 时间：2024-09-12 16:16:41

出品 |
作者 | 梁昌均
作为今年大模型最卷的赛道，国内外狂卷AI生成视频工具，但共性问题也不少。
一般来说，生成视频需要具备一致性、可控性、稳定性，但不少产品表现不佳。此前测评的多款产品，多多少少都均在类似问题。
清华系背景的“国产Sora”Vidu试图解决这一问题。9月11日，这家产品背后的公司生数科技举办媒体开放日，CEO唐家渝宣布上线主体参照功能。
简单来说，Vidu通过这一功能，可以锁定参考图片的主体形象，根据描述词任意切换场景，输出主体一致的视频。以人物为例，不仅能实现面部一致，还能保持整体形象，如衣着、风格等方面的一致。
唐家渝在与等媒体的沟通中提到，目前视频模型存在不可控的局限性，包括连续性弱、输出结果随机性大等，主体参照将是解决AI视频一致性生成问题的关键。
不过，他表示，一致性生成方面还有进一步提升空间，如对比较复杂的图案或结构，更复杂、更动态化的场景，生成成功的概率不高，同时还需要更好理解世界物理的规律。
“最主要的还是要让模型具有更强的通用智力，通过更大的参数量和更细节的算法技巧去提升。”唐家渝表示，这需要从模型底层去解决，而不是只靠上层微调之类的方案。
生数科技成立于2023年3月，核心团队成员来自清华大学人工智能研究院，该院副院长朱军即为公司首席科学家。目前，这家公司已获得百度、蚂蚁集团等机构融资。
这家公司在全球最早提出视觉生成模型的Diffusion与Transformer融合架构，2022年9月其早期团队成员就发布了以此为基础的U-ViT架构，早于Sora采用的DiT架构。
唐家渝认为，视觉类的生成架构，国内外的技术路线均已收敛到这一融合架构，目前还没有探索出特别好的方案。
但他强调，技术路线同质化并不代表能力相同。在架构基础上，中间还涉及到非常多的算法技巧、算法难点，包括工程化的难点，这些会带来差异性。“我认为还不能说国内已经完全领先，国内外头部玩家都属于第一梯队。”
目前，国内生成视频产品的时长多数都在10秒左右或更短。唐家渝认为，拓展视频生成时长，需要提升模型对世界的抽象理解能力、信息压缩能力和信息放大能力。
“时长产品化的难度，在于如何给用户一个比较好的体验。”他表示，视频时长在生数科技产品化的优先级中不是特别高。目前，Vidu模型支持最长生成32秒，但尚未上线。
对视频生成的商业化探索，唐家渝透露，主要有两种模式，一个是C端的SaaS订阅付费模式；二是API，即向B端输出模型能力（MaaS），公司已收到数万个API接入申请。
“目前我们的B端市场的收入更大，但C端的增长曲线也非常高。”他判断，B端会有比较明确、比较直接、比较稳定的需求，将是长期重点的方向。
从应用层面来看，目前AI生成视频仍主要是专业的视频创作者或爱好者，更广泛的非专业用户其实并未真正规模用起来。
唐家渝认为不会一直如此。“现在的AI视频来到了一个节点，我们正在努力降低创作者的门槛，加速创作过程。达到大众都很愿意去用的比较好的阶段，我预估就是今年底的时间。”
以下是对话精编：
一、视频生成技术已收敛，多模态的理解加生成还处于探索阶段
Q：Vidu底层是基于U-ViT架构，和Sora的DiT架构有何异同？现在有哪些新的技术架构出现？
唐家渝：都是Diffusion和Transformer的融合，底层的部分技术细节也相同。我们做了更多面向落地的优化设计，训练同一个模型时，相同时间下所需的算力更少。
目前视觉类的生成架构，比较公认技术路线已经收敛。行业也在探索一些新架构路线，看能否把多模态的生成和理解做结合，但目前为止还没有特别好的方案出现。
Q：现在国内视频大模型基本都是类Sora路线，这是否意味会处于同质化状态？
唐家渝：技术路线同质化并不代表能力都相同。在架构基础上，中间有非常多的环节，比如怎么有效地进行Scale up，视频如何有效压缩，生成的速度等，涉及到非常多的算法技巧、算法难点，包括工程化的难点，这些是导致差异性的主要原因。
商业方面，大家选择比较类似，Sora、Runway都在积极地拥抱好莱坞或广告，这些是天然比较好落地的领域。AI生成视频还在发展的前期，需要大家齐头并进，共同扩大市场。
Q：目前国内视频产品的时长都不长，时长突破上需要解决那些关键技术点？
唐家渝：生成时长的能力有多强，更本质地与模型对物理世界的理解和语义输入的理解能力相关。拓展生成时长，需要提升模型对世界的抽象理解能力、信息压缩能力和信息放大能力。
时长产品化的难度在于如何给用户一个比较好的体验，可能试好多次才能生成比较好的内容，做产业化就要做相关优化。目前视频时长在我们产品化的优先级中不是特别高，目前我们模型最长可以生成32秒，有计划将其扩展到更长。
Q：Sora当时出来后自称世界模拟器，但杨立昆不认为它能理解物理世界，他提出了实世界模型，您怎么看？
唐家渝：现在是数据驱动，同时也在加入知识，使得模型更好去理解世界。我觉得世界模型理论上大概就能达到，但前提是要定义世界模型到底是什么。
在我看来，世界模型应该如同人一样，能够很好地感知世界、预测世界，与环境直接、准确地交互。世界模型可以达到的状态，可以分为两个层次，第一个层次是具备对于复杂环境的理解和适应能力，但不一定确切地理解为什么。
第二个层次就是能够科学地、精确地理解和预测世界，能够推演出它完全没有见过的场景和变化。这里还会有更具有哲学层面的深层讨论空间，就是到底具备哪种层次对世界的抽象能力，才能被认定为“如同人类一样”。
Q：您对模态统一方面有怎样的预判？未来这些多模态会收敛吗？
唐家渝：我们现在是在多模态生成方面做到统一，未来能否有多模态的理解加生成统一的模型，无论是工业界还是学术界，都面临着很多难点。一派觉得会有，另一派认为目前应该更好地运用实际能力，所以它仍然处于探索的阶段。
我们最终目标是做通用大模型，我们底层大模型可以做文本、图像，包括3D、音视频的生成，只是目前重点放在视频。我们希望通用大模型能够精确地模拟世界，做到多模态的准确生成，视频生成算是中间的一个里程碑或节点。除了视频，我们也在做其它模态的生成能力。
二、B端会有比较确定性的需求，年底或能实现大众应用
Q：Vidu的商业化模式如何考虑？行业落地推进情况如何？
唐家渝：我们的商业模式有两种，一种是SaaS订阅模式，更多需求或使用更高级的能力，需要支付费用。第二种是API形式，即输出模型能力（MaaS)，现在有很多客户需要有视频生成的能力，他们希望直接调用模型，目前在全球范围内已收到数万个API接入申请。
我们会看和视频的相关性，例如视频内容创作，以及天然与视频内容相关的领域，广告、游戏、短剧和影视等。我们还有一大批用户是海内外的C端应用公司，需要接入比较好的基础模型能力去支撑设计出来各种各种的玩法。
Q：目前C端和B端的收入占比是多少？哪部分的增长潜力更大？
唐家渝：目前阶段我们B端市场的收入更大，C端的增长曲线非常高。我们判断，B端有比较明确、比较直接、比较稳定的需求，是长期重点的一个方向，C端也会不断探索。
Q：国内不少视频产品都有出海，出海之后用户偏好和商业模式与国内有何不同？国内是否已经处于领先地位？
唐家渝：我认为还不能说国内已经完全领先，国内外头部玩家都属于第一梯队。从用户活跃度和覆盖人群来看，我们和Runway、快手比较类似。一方面面向专业创作者或本身有创作热情的爱好者，另一方面是偏更广泛的互联网用户。
Q：今年大模型公司还可以依靠技术和团队吸引融资，后面想要留在牌桌上，您觉得重点是什么？
唐家渝：技术仍是关键因素。目前的视频生成只是初步符合物理规律，还有很高的天花板需要突破，比如更强的模型能力以及更多模态的协同生成。从融资上来讲，我们的技术具有原创性和未来潜力，现阶段也已经开启良好的商业化前景。
Q：现在做AI视频的都是艺术家或专业人士，您预计什么时候可以普及到普通人？
唐家渝：我认为不会一直如此。就像拍照设备一样，从胶片开始玩，到现在主要使用手机拍摄。这个过程中，设备作为工具逐渐变得更加易用，使得更广泛的人能够使用。
现在的AI视频来到了一个节点，我们正在努力降低创作者的门槛，加速创作过程。达到大众都很愿意去用的比较好的一个阶段，我自己预估就是今年底的时间。
Q：专业的创作者通过剪辑较短的生成视频成片，但C端用户剪辑水平可能不够好，应该从哪个方向扩大应用性？
唐家渝：我们整体策略是将自己的长板做到足够长。现阶段我们不会设置剪辑工具，重点还是把专业性工具做的事情简化，去提升易用性。我们也会从底层模型更强的生成能力出发，比如通过端到端视频片段，实现中间自动化过渡。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

微软 50 周年现神操作：AI 主持人幽默调侃三任 CEO

李嘉诚让步后，美国发出“制裁令”为其撑腰，中方表态直指要害

知情人回应余承东不再任车BU董事长，MJ发布V7版本，《赛博朋克》新动画开始制作，内部回应钉钉严查考勤，这就是今天的其他大新闻！

最后24小时，李嘉诚被迫踩刹车，长和发表最新通告，开始安排退路

药明康德副董事长胡正国将于7月31日退休已服务公司18年

净利润暴跌2530%！西王食品2024年亏掉4.4亿，山东滨州富豪困局难解

中信建投深陷“技术性杀熟”漩涡，行业排名每年下滑一个台阶，新任董事长刘成面临业绩与合规双重挑战

OpenAI CEO 奥尔特曼：可能在几周内发布 o3 和 o4-mini

突发！余承东不再担任华为智能汽车解决方案BU董事长

对话面壁智能CEO李大海：端侧模型应用将爆发，AGI的发展是一场马拉松

知情人士回应余承东卸任车BU董事长：并非不管汽车业务

卸任车BU董事长！余承东职务变更

【汽车】余承东不再担任华为车BU董事长？职位信息变更

【汽车】余承东不再担任华为车BU董事长？职位信息变更

特斯拉Optimus人形机器人更新：行走步态更稳，摆臂更轻盈！马斯克：今年将生产5000台，明年预计生产5万台

【汽车】余承东不再担任华为车BU董事长？职位信息变更

贝莱德CEO：在美国舒服退休至少需要存够1521万元

新希望刚扭亏，刘永好不再担任董事，董事长刘畅称将寻求盈利确定性

余承东大消息！卸任华为车BU董事长，知情人士回应

中国重汽2024年净利增37%至14.8亿元，80后CEO赵尔相薪酬116万元全司最高

康缘药业2024年营收净利双位数下滑，66岁董事长肖伟五年合计领薪超1000万元

拼多多、OPPO的幕后大佬：“中国巴菲特”的逆袭密码

余承东卸任华为车BU董事长，知情人士回应

余承东不再兼任华为智能汽车解决方案BU董事长，聚焦终端与鸿蒙智行

读者出版集团董事长调整

读者出版集团董事长调整

余承东卸任华为车BU董事长不再管汽车业务？

全站最新

从上市到换帅，乐道只用了半年

极狐阿尔法新6系上市：20万内独享3激光雷达，智驾平权新标杆

三“9”有新王，腾势N9上市10天热销1708辆，助力腾势汽车3月份惊艳豪华市场！

3激光雷达+华为智驾=22.58万极狐阿尔法新6系上市

风劲势猛，一汽丰田一季度销售新车17万台，同比增长9.6%

宝马下月大展：双座概念车、M系列高性能车及神秘摩托即将亮相

首款全球车亮相，“中国设计”如何助力MG4 EV打开新思路？

尺寸接近凯雷德，比亚迪“庞然大物”新车曝光！

热门推荐

微软 50 周年现神操作：AI 主持人幽默调侃三任 CEO

李嘉诚让步后，美国发出“制裁令”为其撑腰，中方表态直指要害

知情人回应余承东不再任车BU董事长，MJ发布V7版本，《赛博朋克》新动画开始制作，内部回应钉钉严查考勤，这就是今天的其他大新闻！

最后24小时，李嘉诚被迫踩刹车，长和发表最新通告，开始安排退路

药明康德副董事长胡正国将于7月31日退休已服务公司18年

净利润暴跌2530%！西王食品2024年亏掉4.4亿，山东滨州富豪困局难解

中信建投深陷“技术性杀熟”漩涡，行业排名每年下滑一个台阶，新任董事长刘成面临业绩与合规双重挑战

OpenAI CEO 奥尔特曼：可能在几周内发布 o3 和 o4-mini

突发！余承东不再担任华为智能汽车解决方案BU董事长

对话面壁智能CEO李大海：端侧模型应用将爆发，AGI的发展是一场马拉松

知情人士回应余承东卸任车BU董事长：并非不管汽车业务

卸任车BU董事长！余承东职务变更

【汽车】余承东不再担任华为车BU董事长？职位信息变更

【汽车】余承东不再担任华为车BU董事长？职位信息变更

特斯拉Optimus人形机器人更新：行走步态更稳，摆臂更轻盈！马斯克：今年将生产5000台，明年预计生产5万台