Sora又被超越！Meta AI视频模型深夜炸场，自带惊艳BGM，让视频编辑比P图还简单

IP属地北京 编辑：朱天宇 AppSo 时间：2024-10-05 07:42:59

扎克伯格最近忙着在全世界「抢风头」。
前不久，开启「二次创业」的他刚向我们展示了十年磨一剑的最强 AR 眼镜 meta Orion，尽管这只是一款押注未来的原型机器，却抢光了苹果 Vision Pro 的风头。
而在昨晚，meta 在视频生成模型赛道再次大出风头。
meta 表示，全新发布的 meta Movie Gen 是迄今为止最先进的「媒体基础模型（Media Foundation Models）」。
不过，先打个预防针，meta 官方目前尚未给出明确的开放时间表。
官方宣称正在积极地与娱乐行业的专业人士和创作者进行沟通和合作，预计将在明年某个时候将其整合到 meta 自己的产品和服务中。
简单总结一下 meta Movie Gen 的特点：
拥有个性化视频生成、精确视频编辑和音频生成等功能。
支持生成 1080P、16 秒、每秒 16 帧的高清长视频
能够生成最长 45 秒的高质量和高保真音频
输入简单文本，即可实现复杂的精确视频编辑功能
演示效果优秀，但该产品预计明年才会正式向公众开放
告别「哑剧」，功能主打大而全
细分来说，Movie Gen 具有视频生成、个性化视频生成、精确视频编辑和音频生成四大功能。
文生视频功能早已成为视频生成模型的标配，只是，meta Movie Gen 能够根据用户的需求生成不同长宽比的高清视频，这在业内尚属首创。
Text input summary: A sloth with pink sunglasses lays on a donut float in a pool. The sloth is holding a tropical drink. The world is tropical. The sunlight casts a shadow.
Text input summary: The camera is behind a man. The man is shirtless, wearing a green cloth around his waist. He is barefoot. With a fiery object in each hand, he creates wide circular motions. A calm sea is in the background. The atmosphere is mesmerizing, with the fire dance.
此外，meta Movie Gen 提供了高级的视频编辑功能，用户只需通过简单的文本输入即可实现复杂的视频编辑任务。
从视频的视觉风格，到视频片段之间的过渡效果，再到更细致的编辑操作，这一点，该模型也给足了自由。
在个性化视频生成方面， meta Movie Gen 也前迈进了一大步。
用户可以通过上传自己的图片，利用 meta Movie Gen 生成既个性化但又保持人物特征和动作的视频。
Text input summary: A cowgirl wearing denim pants is on a white horse in an old western town. A leather belt cinches at her waist. The horse is majestic, with its coat gleaming in the sunlight. The Rocky Mountains are in the background.
从孔明灯到透明彩色泡泡，一句话轻松替换视频同一物体。
Text input: Transform the lantern into a bubble that soars into the air.
尽管今年陆续已有不少视频模型相继亮相，但大多只能生成「哑剧」，食之无味弃之可惜，meta Movie Gen 也没有「重蹈覆辙」。
Text input: A beautiful orchestral piece that evokes a sense of wonder.
用户可以通过提供视频文件或文本内容，让 meta Movie Gen 根据这些输入生成相对应的音频。（PS：注意滑板落地的配音）
并且，它不仅可以创建单个的声音效果，还可以创建背景音乐，甚至为整个视频制作完整的配乐，从而极大地提升视频的整体质量和观众的观看体验。
看完演示 demo 的 Lex Fridman 言简意赅地表达了赞叹。
许多网友再次「拉踩」OpenAI 的期货 Sora，但更多翘首以待的网友已经开始期待测试体验资格的开放了。
meta AI 首席科学家 Yann LeCun 也在线为 meta Movie Gen 站台宣传。
meta 画的大饼，值得期待
在推出 meta Movie Gen 之时，meta AI 研究团队也同期公开了一份长达 92 页的技术论文。
据介绍，meta 的 AI 研究团队主要使用两个基础模型来实现这些广泛的功能——Movie Gen Video 以及 Movie Gen Audio 模型。
其中，Movie Gen Video 是一个 30B 参数的基础模型，用于文本到视频的生成，能够生成高质量的高清视频，最长可达 16 秒。
模型预训练阶段使用了大量的图像和视频数据，能够理解视觉世界的各种概念，包括物体运动、交互、几何、相机运动和物理规律。
为了提高视频生成的质量，模型还进行了监督微调（SFT），使用了一小部分精心挑选的高质量视频和文本标题。
报告显示，后训练（Post-training）过程则是 Movie Gen Video 模型训练的重要阶段，能够进一步提高视频生成的质量，尤其是针对图像和视频的个性化和编辑功能。
值得一提的是，研究团队也将 Movie Gen Video 模型与主流视频生成模型进行了对比。
由于 Sora 目前尚未开放，研究人员只能使用其公开发布的视频和提示来进行比较。对于其他模型，如 Runway Gen3、LumaLabs 和可灵 1.5，研究人员选择通过 API 接口来自行生成视频。
且由于 Sora 发布的视频有不同的分辨率和时长，研究人员对 Movie Gen Video 的视频进行了裁剪，以确保比较时视频具有相同的分辨率和时长。
结果显示， Movie Gen Video 整体评估效果上显著优于 Runway Gen3 和 LumaLabs，对 OpenAI Sora 有轻微的优势，与可灵 1.5 相当。
未来，meta 还计划公开发布多个基准测试，包括 Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench，以加速视频生成模型的研究。
而 Movie Gen Audio 模型则是一个 13B 参数的模型，用于视频和文本到音频的生成，能够生成长达 45 秒的高质量和高保真的音频，包括声音效果和音乐，并与视频同步。
该模型采用了基于 Flow Matching 的生成模型和扩散变换器（DiT）模型架构，并添加了额外的条件模块来提供控制。
甚至，meta 的研究团队还引入了一种音频扩展技术，允许模型生成超出初始 45 秒限制的连贯音频，也就是说，无论视频多长，模型都能够生成匹配的音频。
更多具体信息欢迎查看技术论文

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

跟着线条“云”游重庆 AI集邮解锁国庆新玩法

为了抢夺 AI 人才，马斯克在 OpenAI 旧总部开了一场招聘会

Claude AI 被曝正研发新功能，突破 20 万 tokens 文件处理上限

微软新专利探索 Copilot AI 应用，匹配视频等生成背景音乐

谷歌最便宜AI模型商用：腰斩击穿价 0.15 美元买百万 tokens 输出

蔚来欧洲与 Monolith 合作进行实时 AI 电池测试

两款全新 Chromebook 加入全新 AI 功能

一睹为快！四川剑门关景区AI机器狗亮“绝活”

AI山西“画”发展 |“玉带”穿城过，水清岸绿景色新

以学生为主导的AI+程序设计基础课程“探→用→创→辩”教学

Sora又被超越！Meta AI视频模型深夜炸场，自带惊艳BGM，让视频编辑比P图还简单

“尸块”拼接、恐怖谷效应？麦当劳AI创作引千万吐槽：看得我浑身不适

Sora劲敌！Meta最强沉浸式AI媒体模型来了，300亿参数模型支持Movie Gen视频

一针见血！AI专家指出教育也是“过拟合”，一下子打开新思路

Meta宣布推出AI视频生成器Movie Gen：可生成带声音高清视频

ChatGPT推出Canvas界面：让编写和编码变得更容易

真正的修养，是对家人不挑剔 | AI晚读

不只A18和AI，iPhone SE 4更多猛料曝光

《星球大战：亡命之徒》1.2版本更新上线，潜行体验优化 AI调整

AI算法如何驱动零售企业变革——实战经验分享

AI板块上演“狂飙”，商汤大涨近20%！

Valve工程师借助ChatGPT改进《Deadlock》匹配算法

9月美国科技公司裁员11430人！AI是最大原因

AI时代，教育将如何改变?

爆火的 AI 智能眼镜，被做成了新的「偷拍、人肉神器」

【新机】FindX8系列预热AI功能升级自动识别智能去除照片反光

初创即盈利的AI公司，估值2.5亿美元

全站最新

一文搞懂市售主流笔记本电脑CPU

维护和升级一台笔记本你可能都需要些什么东西？

iPadOS 18来了，iPad现在真的有“生产力”了吗？

博主实测小米SU7 Pro续航达680公里雷军点赞转发

苹果CEO库克发微博缅怀乔布斯，2011年的今天乔布斯去世

博主实测小米SU7 Pro续航达680公里雷军点赞转发

“十一”假期消费市场迎来旺季各地不断释放消费“新”活力

港股年内涨幅，登顶全球主要市场！节后A股这些板块稳了？

热门推荐

跟着线条“云”游重庆 AI集邮解锁国庆新玩法

为了抢夺 AI 人才，马斯克在 OpenAI 旧总部开了一场招聘会

Claude AI 被曝正研发新功能，突破 20 万 tokens 文件处理上限

微软新专利探索 Copilot AI 应用，匹配视频等生成背景音乐

谷歌最便宜AI模型商用：腰斩击穿价 0.15 美元买百万 tokens 输出

蔚来欧洲与 Monolith 合作进行实时 AI 电池测试

两款全新 Chromebook 加入全新 AI 功能

Meta发布AI视频生成器Movie Gen：一键生成高清视频，声音同步

一睹为快！四川剑门关景区AI机器狗亮“绝活”

AI、减肥药还是细胞疗法？2024诺贝尔生理学或医学奖7日揭晓

AI山西“画”发展 |“玉带”穿城过，水清岸绿景色新

以学生为主导的AI+程序设计基础课程“探→用→创→辩”教学

Sora又被超越！Meta AI视频模型深夜炸场，自带惊艳BGM，让视频编辑比P图还简单

“尸块”拼接、恐怖谷效应？麦当劳AI创作引千万吐槽：看得我浑身不适

Sora劲敌！Meta最强沉浸式AI媒体模型来了，300亿参数模型支持Movie Gen视频