近日,复旦大学与百度联合研发了Hallo2这一先进AI模型,实现了视频生成领域的重大突破,可生成长达数小时且分辨率为4K的人物动画。该模型已在GitHub平台开源,便于全球开发者免费使用和研究,此举有望促进视频生成技术的广泛应用和发展。
Hallo2模型首次将可调整的语义文本标签的肖像表情作为条件输入,提高了生成内容的可控性和多样性。这使得Hallo2成为首个实现4K分辨率、长达1小时音频驱动人像图像动画的AI模型。
Hallo2的主要应用场景:
电影和视频制作:可用于生成或增强角色面部表情和口型,适用于科幻和动画电影。
虚拟助手和数字人:在客服、教育、娱乐等领域,Hallo2能创建逼真的虚拟助手或数字人,提升用户体验。
Hallo2技术特点:
基于latent diffusion models构建,Hallo2在视频生成效果上优于前代模型。
引入数据增强技术,如patch-drop和高斯噪声,有效提升长时间视频的视觉一致性和时间连贯性。
结合向量量化生成对抗网络和时间对齐技术,确保视频质量与流畅性。