狼叫兽
通义万相2.1版模型升级:视频生成、图像生成能力显著提升
近日,阿里旗下通义万相宣布推出2.1版本的模型升级。此次升级主要针对视频和图像生成两大功能进行了改进和优化。
在视频生成方面,通义万相2.1引入了自研的高效VAE和DiT架构,增强了时空上下文建模能力,并实现了中文文字视频生成功能。该功能在VBench榜单中名列第一。
此外,通义万相2.1还支持中英文视频一键生成艺术字,并提供多种视觉效果选项,如过渡、粒子效果、模拟等。用户可以根据自己的需求选择合适的特效来增强视频的表现力。
同时,在图片生成方面,通义万相2.1采用了IC-LoRA图像生成训练方法,并利用DiT架构来增强文本到图像的上下文能力。通过多张图像的拼接与联合描述,可以实现关联图像间的组合生成,并保持特征稳定连续。
总之,通义万相2.1版模型升级在视频和图像生成领域取得了显著进展,为用户提供了更加优质、多样化的服务。期待通义万相在未来能够带来更多令人惊喜的创新。