智谱AI CEO张鹏(来源:钛媒体App编辑拍摄)
7月26日上午,国内AI大模型独角兽智谱AI在北京发布 AI 视频生成技术“清影(Ying)”,支持文生视频、图生视频。并且,清影此次面向所有用户全量上线在旗下“智谱清言”App,无需预约,人人可用。
据悉,清影基于智谱自研的视频生成大模型CogVideoX,通过技术优化,智谱生成式视频模型的推理速度提升了 6 倍,将6秒视频的生成时间缩短到了理论上的30秒。
同时,视频参数方面,清影目前支持生成6秒时长的 AI 视频,分辨率为1440x960。而技术层面,清影并非完全沿用因Sora而成为了某种“共识”的DiT架构,而是“智谱自研的一个将文本、时间、空间三个维度全部融合起来的Transformer架构”。
另外,针对内容连贯性问题,智谱AI自主研发了一套高效的三维变分自编码器结构(3D VAE),能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。而在可控性方面,智谱AI打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,
目前,CogVideoX 模型目前已在智谱清言的PC端、移动应用端以及小程序端以“清影”功能上线,不仅支持快速生成、高效的指令遵循能力,以及更强的内容连贯性、画面调度灵活性。
具体来说,清言提供文生视频和图生视频两种模式:
文生视频适合用于脑洞大开的场景:小狗在指尖跳舞,海豚飞向深空,宇宙为你闪烁,不论是多么复杂抽象的画面,只要用一两句话描述想象中的场景,清言都能用精美的画面为你一一呈现。 图生视频可以发掘原有图片的更多趣味:输入图片和简单的描述,即可让图片动起来。你可以让旧照片里的人动起来,让回忆更加动感真切;也让名画、剧照里的角色做些脑洞大开的事情。付费模式层面,首发测试期间,所有用户均可免费使用。而加速时间的话,付费5元,解锁一天(24小时)的高速通道权益;付费199元,解锁一年的付费高速通道权益。
智谱AI CEO张鹏在会上表示,AI 多模态技术来源于人类大脑的工作方式。作为一个复杂的系统认知功能,人类大脑是通过各脑区相互配合完成的,包括文字、视觉、听觉等,所以,多模态的感知和理解与人类认知能力的发展有非常密切的关系,作为一家目标是AGI的人工智能公司,智谱一直以来都非常重视多模态技术。
“AI行业对多模态模型的探索还处于初级阶段,我们还会继续努力,为大家提供更好的模型,更好的产品。”张鹏表示。
会后,张鹏与钛媒体AGI等进行接近一小时的交流,探讨了 AI 视频应用的商业化、落地场景以及是否会取代影视行业、大模型市场竞争等诸多话题。
清言生成的 AI 视频(图片来源:智谱AI介绍视频)
张鹏坦言,现有的 AI 视频生成技术无法彻底替代影视行业,更多是辅助的作用,但 AI 对于影视行业的变化是有积极意义的。目前来讲,把AI直接用在面向观众的影视生产过程当中可能还是不太够,最多是做小规模的创作。“如果 AI 真正要达到改变电影的制作等更高要求的任务,可能还得要有一段路去走。”
张鹏认为,目前 AI 视频主要是做线上电商营销、短视频自媒体需求等。“但是,我相信肯定不仅止于这些客户。目前是一个阶段性的东西,下一步往哪个方向发展,哪些事情会成为技术突破、落地应用最关键的问题,需要我们不断形成从上到下、至下而上这样一个闭环。”
谈到 AI 视频生成的商业化,张鹏表示,目前智谱清影的商业化还处于早期,更多是通过API进行付费。
“清影功能上线,就像刚才开场时候给大家介绍一样,主要是阶段性成果,要说它多么完美还不是,还需要阶段性解决,给大家汇报一下我们的进展,让大家体验一下目前视频生成这样的事情在每人可用的前提下能做到什么程度,而不是关在实验室里或者在很小的概率上生成出什么东西。从现在这个阶段来说,无论是2C还是2B,纯粹走向大规模商业化还比较早期。”张鹏称。
张鹏表示,目前视频生成的算力、算法成本都很高。“的确,做大模型这件事太烧钱了,而且确实也面临市场上的需求,你要商业化落地,所以,我们是分层次去做,最基础的技术突破创新是我们消耗资源、算力方面最大的一部分,商业化层面是在这个基础之上推进的。”
张鹏强调,“我相信,所有的友商把这个东西不开放出来,很大程度也是因为成本的问题,顶不顶得住很多人来用,这也是一个选择。”
因此,张鹏指出,如果想要做好 AI 生视频的商业化,可控是必要条件,需要花大力气去做,从而精准表达好创作者的意图。“如果它能够非常好的理解简单文字背后深层次的意图和语义,就能做到很好的可控。”
谈到与Sora的差距,张鹏承认,清影还是一个初步的阶段性成果,目前还达不到像Sora演示的长视频效果,需要做更多的努力。
“我们从来很坦诚,承认我们和OpenAI、世界顶级水平之间的差距。但是,走的这条路还得自己走,我们一直也在走自己的路。很多时候,我们是在不断用自己的方式往前追赶,比如。怎么把视频生成算力成本降下来、响应速度提升上去、让所有人可以用,所以,我们是在追求技术高度的同时,也同步追求技术的可普及性和成本,这也是我们团队的一些特点。”张鹏表示。
谈及与生态公司的竞合关系,张鹏坦言,商业化过程当中,服务客户过程中是智谱技术和产品核心能力驱动的,客户需求、反馈是技术往前创新突破和迈进的驱动力,让两者形成比较好的闭环。无论是做2C产品,还是服务B端企业,都是同样的思路。有些事情可能并不会在我们聚焦的方向,这个可能会交给生态里的合作伙伴或其他方面做,有些帮助我们完成闭环的,是我们自主做,(我们商业化)是这样的方式。
展望下一步的超级App发展,张鹏向钛媒体AGI强调,智谱持续把清言定位为“AI 助手”,帮你解决工作、学习、生活当中的实际问题,帮你做生产力效率提升、工作便利提升等方面的事情。
“我们认为,所谓的超级APP可能它不一定是‘超级’,我们也是循序渐进、在潜移默化过程当中让大家真的习惯上使用这个工具,这也是一个很好的事情。所以,这可能并不一定是阶跃式改变,而是潜移默化不断变化。我们很期待,在这样的 AI 时代通过效率(清言)工具,让大家在不知不觉中改变自己的生活状态,这也是我们倡导的人机协同的发展方向。”张鹏表示。
(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)