12月3日,腾讯混元大模型宣布正式上线视频生成能力。腾讯方面表示,腾讯开源该视频生成大模型参数量达到130亿,是当前最大的视频开源模型。
“用户只需要输入一段描述,即可生成视频,”腾讯混元相关负责人透露,目前生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。
通过腾讯元宝APP-AI应用-AI视频即可使用该功能(前期需申请)
腾讯方面 表示,在与国内外多个顶尖模型的评测对比显示,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。
据悉,腾讯混元生成视频大模型可以实现超写实画质、生成高度符合提示词的视频画面,画面流畅不易变形。比如,在冲浪、跳舞等大幅度运动画面的生成中,腾讯混元可以生成非常流畅、合理的运动镜头,物体不易出现变形;光影反射基本符合物理规律,在镜面或者照镜子场景中,可以做到镜面内外动作一致。同时,模型还可以实现在画面主角保持不变的情况下自动切换镜头,这是业界大部分模型所不具备的能力。
视频由腾讯混元视频生成,提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。
视频由腾讯混元视频生成,提示词:一位中国美女穿着汉服,头发飘扬,背景是伦敦,然后镜头切换到特写镜头。
目前,腾讯宣布开源该视频生成大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力,加速行业创新步伐。
据南方+记者了解到,此前腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。
南方+记者 叶丹
叶丹
南方报业传媒集团南方+客户端