图片来自视觉中国
蓝鲸新闻3月22日讯(记者 武静静)Sora 的出现曾被视为 AI 视频领域的“神话”,然而,随着国内 AI 视频技术的快速发展,这一“神话”似乎正在被打破。
当下,国产AI视频模型不仅在技术层面取得了显著突破,更在商业化应用方面展现出强大的竞争力,一场由中国企业主导的视频模型新纪元正在拉开帷幕。
一方面,国内创业公司和大厂都在持续加码AI视频领域的开源技术进展;另一方面,头部视频模型创业公司持续获得新融资,加速推进技术迭代和产品商业化,并在全球掀起了视频创作的热潮。
视频模型开源潮涌,大厂和创业公司持续加码
眼下,由DeepSeek引发的开源热已经席卷到了视频模型。腾讯、阿里等大厂和阶跃星辰等创业公司大厂都在视频开源领域持续突破。
最新的开源动态来自六小虎之一的阶跃星辰。
3月20日,阶跃星辰宣布开源图生视频模型Step-Video-TI2V,该模型是基于 30B 参数 Step-Video-T2V 训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,模型效果在图生视频领域权威基准测试VBench-I2V 中达到State-of-the-Art水平,排名在全球靠前。
据阶跃星辰介绍,该模型上线后已与华为昇腾计算平台完成适配,目前在阶跃 AI 网页版、App 端和魔乐社区(Modelers)都可体验。
此前,阿里和腾讯也因开源引发了市场广泛关注。
3月6日,腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及 2K 高质量视频。腾讯介绍称,用户只需上传一张图片,并用文字发出指令,混元即可按要求让图片动起来,变成 5 秒短视频,还能自动配背景音。
2月25日,阿里云旗下视觉生成基座模型万相2.1(Wan)开源,采用最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务;
一位开发者告诉蓝鲸新闻,万相2.1模型开源后,其1.3B版本称可以支持在消费级显卡上部署,可以让个人创作者快速生成视频,甚至可以支持在几分钟就能在本地生成视频,对于用户是个很大的利好。
从目前实践来看,开源模型的推进将降低了企业和开发者使用视频模型的门槛,使得更多的人可以参与到视频模型的研究和应用中来。
此外,基于开源模型,也会涌现出更多新的商业模式,例如模型服务提供商、应用开发商等,有助于推动AI视频技术在产业端和用户端的持续落地生根。
中金证券在研报中提到,成本上看,对于商业级用户,万相2.1专业版和快速版API调用成本分别为0.7、0.24元/秒,与此前主流视频大模型接入成本接近将促进视频大模型技术的持续进步,加速中小厂商的二次研发。
一位视频模型创业公司的从业者告诉蓝鲸新闻,视频模型领域,随着开源生态的繁荣,将会促进闭源模型的发展。
“视频模型到视频应用是一个复杂的系统工程问题,需要模型和应用的深度结合,目前,用户量大、产品化成熟的模型仍以闭源为主,但开源社区的活跃将吸引更多优秀开发者加入,开发出更多好的应用,推动大的行业共同进步,为行业创造更大的价值。”该从业者认为。
国产AI视频逆袭超越Sora,在技术、商业化持续突破领先
当下,国内公司在产品化和商业化层面的进展持续取得突破并超越OpenAI的Sora,站上了全球产品领先的位置。
当下,MiniMax在持续发力视频模型领域:2024年9月,MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1;2024年12月,再次发布了图生视频模型 I2V-01-Live,新的模型专门对二次元效果进行了优化。2025年1月中旬,MiniMax发布S2V模型,支持主体参考功能。3月,全球上线镜头控制功能。
全球著名投资基金、咨询公司a16z发布的2025年全球100生成式AI应用排行榜中,海螺视频、快手的可灵等国内视频AI排名领先,超过了海外的Sora。
除了持续开源等技术进展,投资人也在持续加码布局头部视频模型创业公司,AI视频产品的商业化探索也正在进一步拓展中。
近日,国内AI视频头部创业公司爱诗科技宣布完成A5轮融资。
爱诗最新发布的PixVerse V4版本,首创5秒极速生成、有声视频生成、智能人声。最新数据显示,截至目前,爱诗科技旗下AI视频生成产品PixVerse的全球用户量已突破4000万,月活跃用户(MAU)达1500万。配音等创新功能,在海外引发多方好评。
爱诗科技联合创始人谢旭璋告诉蓝鲸新闻,目前,爱诗在商业化层面也在持续探索C端和B端场景;“一方面,爱诗在 C 端用户上有深厚积累。另一方面,在企业用户的服务上,我们在思考如何结合客户的场景和爱诗的 C 端用户影响力碰撞出火花。在这个方向上,我们从产品到服务都做了很多尝试。”他透露,爱诗在广告、电商等营销场景上也做了不同的探索。
更多创业者正在受益于AI视频工具带来的创作新体验,同时也对国内的AI视频产品有更直观的感受。
视频模型领域的创作者Jason认为,虽然海外模型在创新能力上处于领先地位,如ChatGPT、Sora和Agent概念都首先在海外得到验证,但国内模型在创新速度上领先,能够更快地跟上并迭代新技术,并催生出大量的模型和应用 。
“像Sora这类被认为能颠覆行业的模型,其视频生成效果甚至可能不如国内的海螺、可灵等,这体现了技术路线的快速变化和国内的追赶速度。”Jason提到。
在使用各种海内外的AI视频工具中,Jason自己的实际体会是,“专注于打好基础模型的策略是国内模型的重要竞争力。以海螺为例,尽管其功能不如其他模型多,但其强大的底层技术使其在生成视频时动作更为自然和真实。这种基础模型能力才是提升用户体验的关键。”
由此来看,国内AI视频模型的核心竞争力在于其快速的创新迭代、扎实的基础能力以及积极的商业化探索。未来,通过在高清质量、多模态整合、高级模型研发、美学表现和用户体验等方面的持续突破,国内AI视频模型有望继续保持甚至扩大其领先地位。