
现有的 AI 视频生成模型虽然在短片上效果惊人股票配资网址,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。
近日,来自 M-A-P、北京邮电大学、南京大学 NJU-LINK 实验室等机构的研究者们提出了AutoMV。
这是一个无需训练的多智能体(Multi-Agent)系统,它像一个专业的摄制组,能根据音乐节拍、歌词和结构,自动生成长达数分钟、叙事连贯且音画同步的完整 MV。
△ 《Lazy Song Demo》
△ 《Beliver Demo》
△ 《APT Demo》为什么做"全曲" MV 这么难?
对于独立音乐人来说,制作一支专业的 MV 往往意味着高昂的成本(约 1 万美元)和漫长的周期(数十小时)。
虽然 Sora、Runway 等视频生成模型层出不穷,但直接用它们生成 MV 面临三大挑战:
1. 时长限制:大多数模型只能生成几秒钟的片段,无法覆盖整首歌。
2. 音画割裂:生成的画面往往只跟提示词有关,忽略了音乐的节拍(Beats)、结构(Intro/Chorus)和歌词含义。
3. 一致性差:在长达几分钟的视频中,主角的脸可能变来变去,场景也缺乏叙事连贯性。
为了解决这些问题,AutoMV应运而生。它不是一个单一的模型,而是一套模拟人类影视制作流程的多智能体协作系统。

(图注:传统人工 MV 制作与 AutoMV 在时间、费用和质量上的对比。AutoMV 将成本降至约 15 美元,且质量逼近专业水平)
AutoMV 是如何工作的?
AutoMV 的核心理念是让 AI 分饰多角,组成一个"全自动摄制组"。整个流程分为四个阶段:

(图注:AutoMV 流程概览。包含音乐预处理、编剧与导演规划、视频生成与验证迭代四个主要步骤)
听懂音乐(Music-Aware Preprocessing)
系统首先利用一系列专业工具(如 SongFormer,Whisper,htdemucs)对音乐进行"解剖"。它不仅能分离人声和伴奏,还能提取歌词、时间戳,并分析歌曲的结构(主歌、副歌、过门)和情绪(如"轻快"、"忧伤")。
编剧与导演(Screenwriter & Director)
这里引入了Gemini作为编剧,Doubao作为导演。
编剧根据歌词含义和音乐结构,写出分镜脚本,并建立一个共享角色库(Character Bank),详细定义主角的形象(发型、肤色、衣着),确保主角在整首歌中不"换脸"。
导演则负责生成具体的画面提示词(Prompt)和关键帧。
拍摄与生成(Video Generation)
根据剧本,系统会调用视频生成模型(如 Doubao 或 wan2.2-s2v)进行生成。
对于普通叙事镜头,侧重电影感。
对于需要对口型的镜头(如特写歌唱),系统会专门调用具备 Lip-Sync 能力的模型,确保口型与歌词严丝合缝。
严苛的"审片"环节(Verifier Agent)
这是 AutoMV 最独特的地方。系统内置了Verifier Agent(验证智能体)。它会像制片人一样检查生成的视频:
物理合理性:手是不是穿模了?动作是否自然?
一致性:这还是同一个主角吗?
契合度:画面跟剧本对得上吗?
如果验证不通过,系统会自动打回重做。
生成效果:连贯、丰富、对口型
通过上述流程,AutoMV 能够生成具有连贯叙事逻辑的长视频。

(图注:AutoMV 生成结果展示。从上到下依次为:一致的人物身份、多样的镜头语言、丰富的视觉特效、精准的音乐卡点以及歌词对齐)
与市面上的商业产品(如 OpenArt-story 和 Revid.ai)相比,AutoMV 在以下方面表现出了显著优势:
人物一致性:即使在不同的光照和角度下,主角依然能被识别为同一个人。
动作多样性:不仅有静态画面,还包含跳舞、唱歌等大幅度动作。
叙事性:视频内容紧扣歌词意境,不再是随机画面的堆砌。

(图注:与商业基线模型的对比。AutoMV 在人物一致性和动作丰富度(如唱歌、生活交互)上明显优于 OpenArt 和 Revid.ai)
评估:不仅人觉得好,AI 也觉得好
为了科学评估长视频生成的质量,研究团队提出了首个M2V(Music-to-Video)Benchmark,包含 30 首风格各异的歌曲,并设立了 12 项细粒度评价标准(涵盖技术性、后期、内容、艺术性四大维度)。


评估结果显示:
1. 客观指标:AutoMV 在 ImageBind Score(衡量音画一致性)上得分最高。
2. 人类专家评估(H,Expert):在人物一致性、故事性及情感表达上,AutoMV 显著优于商业竞品,大幅缩小了与人类专业 MV 的差距。
3. LLM 裁判(G):研究还发现,使用 Gemini-2.5-Pro 等全模态大模型作为裁判,结果表明,模型能力越强,其评分与人类专家越一致,证明了用 AI 评估 AI 视频的可行性。
未来可期
AutoMV 提供了一个开源、免训练(Training-Free)的框架,通过多智能体协作,解决了长形式音乐视频生成中的"一致性"和"音画对齐"两大难题。
尽管目前生成一首完整 MV 可能需要约 30 分钟,且在极复杂的舞蹈卡点上仍有提升空间,但它为独立音乐人和创作者提供了一种全新的低成本创作工具。未来,随着底层视频生成模型的进化,AutoMV 的表现将更加值得期待。
最后,年关将至,给大家带来 AutoMV 生成的一条应景的贺岁短片 ~
项目主页:https://m-a-p.ai/AutoMV/
代码仓库:https://github.com/multimodal-art-projection/AutoMV
论文链接:arXiv:2512.12196
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �
科技前沿进展每日见股票配资网址
富途优配提示:文章来自网络,不代表本站观点。