25日晚,阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型。据悉,通义万相2.1模型基于Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源, 同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。
据了解,通义万相是阿里云通义系列AI绘画创作大模型,可辅助人类进行图片创作,于2023年7月7日正式上线。
自2023年8月起,阿里云相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大语言、多模态、数学和代码等全模态,多次登上国内外权威榜单,已成为全球开源社区最重要的模型系列。阿里云千问(Qwen)衍生模型数量已超过10万个,是全球最大的AI模型家族。
在2024年9月19日的阿里云栖大会上,阿里发布了通义万相视频生成大模型。 该模型可以生成影视级高清视频,而且更能听懂中国话,被外界称为“最懂中国风”的视频大模型。
根据阿里展示的案例,当用户输入:“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现‘福’字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感”的指令时,通义万相2.1模型可以根据要求,输出具有中国特色及浓郁的新年风格的视频素材,富有东方韵味。
由于“最懂中国风”,通义万相模型在蛇年春晚上也发挥了重要作用。例如,在春晚每年的保留节目《难忘今宵》中,舞台背景中变身为绚丽花灯的城市地标,正是由通义万相图像编辑模型Wanx-ACE生成。另外,在莫文蔚与毛不易合唱的《岁月里的花》节目中,阿里通义万相利用图像风格化和首尾帧视频生成技术,生成了沉浸式的油画风舞美效果,为观众呈现了一场绚丽的视觉盛宴。
自2025年1月DeepSeek火爆出圈至今,开源正在成为国内外众多大模型的“必选项”。今年2月,字节豆包、昆仑万维、百度文心、阿里通义千问等均推出开源模型。
微信综合证券时报、21世纪经济报道、阿里云微信
监制: 乔申颖审核:杜秀萍
编辑:陈婧琳 校对:朱双健