继去年4月发布了第一代音乐生成模型MurekaV1后,3月26日,昆仑万维发布全球首款音乐推理大模型MurekaO1模型与全新基座模型MurekaV6。
《Mureka》AI音乐人MV全网首发,该作品由AI生成,其中音乐由Mureka生成,
视频由SkyReels技术支持生成。
据悉,MurekaV6是当前Mureka的基座模型,支持纯音乐生成,还支持10种语言的AI音乐创作。在MurekaV6中,昆仑万维团队引入自研ICL(in-contextlearning)技术,使得声场更加开阔,人声质感和混音设计进一步强化。
Mureka V6进入界面(Mureka官网)
MurekaO1模型则是基于MurekaV6思维链的推理优化版本,也是全球范围内首个引入CoT的音乐模型,在推理过程中加入思考与自我批判,大幅提升音乐品质、音乐创作效率和灵活性,性能超过Suno,模型登顶SOTA。
图丨Mureka V6支持10种语言的AI音乐创作
(Mureka官网)
值得一提的是,MurekaO1中包含了Mureka团队最新发布的音乐生成领域的创新研究成果——MusiCoT。
MusiCoT利用了思维链Chain-of-Thought(CoT)方法,不同于传统自回归模型逐步生成音频,首次在细粒度音频token预测前预生成整体音乐结构,大幅提升生成音乐的结构连贯性与乐器编排精准度。MusiCoT基于CLAP模型,无需人工标注即具备高扩展性,并显著提高了生成音乐的可解释性和质量。
此外,Mureka不仅是全球首批开放API服务的AI音乐生成平台,还同步开放基于MurekaV6的模型微调服务,成为全球首个开放模型微调功能的AI音乐生成平台。
近期,昆仑万维董事长兼CEO方汉详细阐述了Mureka的用户群体、商业模式、竞争优势、技术迭代方向以及整体战略等关键内容,完整揭示了昆仑万维在AI音乐大模型领域的发展思路。
Mureka的用户群体、商业模式是怎样的,与同类模型相比有何特征?
方汉:用户群体包括C端喜欢音乐的普通人,降低了他们的创作门槛,让他们能自由作曲作词;B端则主要是影视、游戏、音频等领域的从业者,可帮助他们降低成本、提高效率。商业模式上,C端免费用户有一定使用权限,付费可获得更高速度和优先的AI生成机会;B端提供专业功能,通过SaaS或PasS服务收费。
MurekaO1模型的优势是什么?思维链Chain-of-Thought(CoT)技术对生成效果有何帮助?
方汉:我们的优势在于思维链(Chain-of-Thought,简称CoT)技术,能在生成前预测音乐结构,提高生成质量,在人声BGM混音、多语言支持方面表现出色。
Mureka O1模型是基于Mureka V6思维链的推理优化版本,也是全球范围内首个引入CoT的音乐模型,在推理过程中加入思考与自我批判,大幅提升音乐品质、音乐创作效率和灵活性。
MusiCoT利用了CoT方法,不同于传统自回归模型逐步生成音频,MusiCoT首次在细粒度音频token预测前预生成整体音乐结构,大幅提升生成音乐的结构连贯性与乐器编排精准度。MusiCoT基于CLAP模型,无需人工标注即具备高扩展性,并显著提高了生成音乐的可解释性和质量。
AI音乐产品有哪些大客户?未来商业化空间如何,会与音乐平台、创作者合作分成吗?
方汉:去年就有大客户,如中国联通、中国移动,还有一些造车企业。海外小B合作也较多,我们的AI曲子在印尼流行音乐排行榜上进过前100。
数字音乐市场目前全球规模约40亿美金,我们介入后市场规模有望扩大到百亿美金。我们凭借技术优势和出海经验,希望在全球市场获得较大份额。
海外有很多个人作者使用我们的产品,传统音乐创作者对AI音乐的偏见需要时间消除。技术上AI音乐已接近实用化,预计3-5年AI生成的音乐能进入消费排行榜,5-10年整个产业会重组重构,可能出现新渠道。
我们作为制作工具,对版权持开放态度,但不会介入渠道分发,付费使用的版权归用户。目前一些音乐创作者对AI音乐存在误解,但头部创作者对AIGC技术很敏锐。
面对国内的竞争对手,公司所采取的差异化策略具体体现在哪些方面?
方汉:我们与大厂存在竞争关系,但出发点不同,他们多为自身平台服务,我们更注重B端客户需求,且全球化程度高,支持多语言,在垂直细分赛道深耕多年。
公司AI音乐大模型的技术迭代方向是什么?
方汉:得益于算法和技术的扩散,AI音乐这一赛道吸引了更多参与者,学术界也对此兴趣浓厚。目前数据是关键,国内拥有全量音乐数据的厂商不多,昆仑万维在数据积累方面处于领先地位,从2021年就开始立项研发,经验丰富。算力成本降低是一方面,但算法的变化更为重要,我们需要借鉴文本大模型的优化经验,探索自身的迭代方向。
未来我们的技术迭代方向,一是提供音频领域整体解决方案,配合视频大模型发展;二是实现语言交互式的音乐调整。
面对AI领域的迅猛发展,昆仑万维制定了怎样的整体战略?
方汉:AI方面,我们既要脚踏实地,在AIGC赛道寻求盈利,也要仰望星空,持续投入文本大模型等领域,探索新的产品和商业模式。我们觉得基础模型能力很重要,同时我们也关注生态的构建,拥抱开源,探索多种路径。
除了技术不断演进,保持音乐生成领先地位,我们还要建立创作者生态,帮助创作者商业化变现,扭转音乐行业对AIGC产品的看法,将用户社群作为护城河,在各个国家成为最好的音乐生成模型。
开源对AI技术发展有何重要意义,昆仑万维在开源社区中的角色是什么,未来还会推动更多AI技术开源吗?
方汉:开源能满足用户长尾需求,反哺本源模型,提升产品质量,还能树立企业声望,获取销售线索。我们是国内较早做开源的企业,未来会继续推动开源,做好开源生态。