2026-06-07 Stay alive AI 音乐公益 MV 复盘
入档:2026-06-07 项目路径:
D:\AIGC工作站\38_Stay alive作品类型:AI 音乐 / 抽象 MV / 公益传播 关联 Skill:song-caption-mv-workflow/SKILL.md、suno-music-brief/SKILL.md、blind-editing-workflow/SKILL.md、aigc-postmortem/SKILL.md
事实记录(不可修改区)
- 作品名称:《Stay alive》
- 项目目标:用一首独立音乐作品和抽象 MV 承载公益传播,不在正片中暴露患者姓名、病情详情或募捐链接;具体募捐信息留给简介、评论区或发布说明。
- 音乐来源:Suno 生成,创作方向从“直接讲述悲剧”转为“beatbox / 人声哼唱 / 多语言活下去 hook”的情绪表达。
- 视觉来源:Midjourney V8.1,超现实摄影风格,统一为黑、蓝黑、灰白烟雾、微弱琥珀光点的抽象视觉系统。
- 剪辑工具:本地
mv_kadian_tool.py、MoviePy、Pillow;后续补入 Demucs、WhisperX、CUDA 版 PyTorch。 - 关键输出:
- 无文字版 MV:
Stay_alive_MV_no_text_1080p.mp4 - 电影感改版:
Stay_alive_MV_cinematic_v2_1080p.mp4 - 用户手调歌词:
D:\AIGC工作站\38_Stay alive\01_音频\Stay alive.srt - 中文意译字幕:
Stay alive_中文意译.srt - Demucs + WhisperX GPU 短语级字幕:
Stay_alive_歌词_Demucs_WhisperX_GPU_短语级推荐.srt - 最终发布 MV:用户在自动产出的电影感视频和字幕基础上,手动微调文字大小、位置,并补充片头标题、作者信息等发布层元素后导出。
- 无文字版 MV:
- 验证结果:
- 电影感视频已生成并抽帧检查:
205.5s、1920x1080、24fps。 - RTX 4060 Ti 已被 CUDA 版 PyTorch 识别;WhisperX GPU 链路已跑通。
- WhisperX 对哼唱和多语言歌词仍不能完全免人工校对,但比直接 medium Whisper 更适合作为字幕时间锚点。
- 电影感视频已生成并抽帧检查:
- 发布结果:本复盘时尚未记录平台发布数据;不能把本次流程写成“传播成功案例”,只能写成“制作链路跑通案例”。
作品回顾
最初动机不是做一首“悲伤求助歌”,而是把一条真实求助信息背后的震动转译成可被更多人接受的作品。关键选择是:正片先作为独立作品成立,公益信息后置。这避免了作品变成口号或苦情短片,也保留了传播时的体面感。
音乐方向经历了明显转向:从常规悲剧叙事,转为接近 Mao9《Another Way》启发下的人声节奏、哼唱、beatbox 质地。歌词不承担完整叙事,只保留“one small light / stay alive / we’re still here”等短语和多语言“活下去”hook。
视觉方向也同步从具象故事退到抽象摄影:烟雾、火点、暗面、涟漪、漂浮碎片、黑色空间。最终有效的不是“画出病痛”,而是用抽象材质制造一种“脆弱但仍未熄灭”的观看经验。
执行过程
音乐
- 使用
maieutic-skill澄清动机:不是为陌生人“消费苦难”,而是为具体的人做一次力所能及的扩散。 - 使用
suno-music-brief设计 Suno advanced prompt。 - 多轮调整情绪:从偏轻快改为平静、悲壮、低调。
- 保留多语言 “Stay alive / vive / ikite / sarajwo / Reste en vie / hayatta kal / zinda raho”。
视觉
- 使用
aigc-prompt-optimizer从具象故事改为抽象超现实摄影。 - 统一色彩为近乎黑场的蓝黑、石墨灰、灰白雾、微弱琥珀。
- 出图后归档 8 张主视觉,补齐缺失图。
剪辑
- 第一版使用蒙眼剪辑法:8 张图按段落轮播,片尾追加公益说明黑幕。
- 发现内嵌歌词卡点不够准确,于是转为“无文字视频 + 外部 SRT”。
- 进一步改版为电影感:上下黑边、轻微抖动、呼吸式缩放、胶片颗粒、暗角、新片尾四段字幕。
字幕
- 直接从 plan 导出的 SRT 不可靠,因为它不是 Whisper 识别结果。
- medium Whisper 能识别部分歌词,但哼唱会造成大量错误段落。
- 去哼唱后效果变好,但仍需要人工校正。
- 最终验证出更稳路径:Demucs 分离人声 stem,再用 WhisperX large-v3-turbo + GPU 做词级对齐,最后按短语重组 SRT。
- 用户手调英文 SRT 后,再生成中文意译 SRT,用作视频附加字幕。
- 最终成片阶段由用户在剪映中微调文字大小、位置,并补充标题、作者信息等片头发布元素;自动链路的有效价值是节省主体剪辑、画面生成和字幕时间轴搭建成本,而不是完全替代最后的审美判断。
结果分析
成功点
- 作品层面:公益信息没有压倒作品本体,MV 仍然是独立音乐作品。
- 视觉层面:抽象摄影比具象病痛更克制,也更适合未知观众进入。
- 流程层面:无文字视频 + 外部 SRT 比烘焙字幕更适合后期修正;最终人工精修层保留了标题、作者信息、文字位置和字号的审美控制权。
- 技术层面:Demucs + WhisperX + GPU 的歌曲字幕链路已跑通,具备复用价值。
问题点
- Suno 实唱与歌词稿会偏离:不能假设生成结果严格唱出原词。
- 哼唱类作品不适合直接 ASR:Whisper 会把 humming 当成词,造成时间轴污染。
- 强制对齐不能盲信:当文本和识别结果差异太大,强制对齐会把大量歌词压到错误时间段。
- 视频风格后置会返工:黑边、抖动、字体和片尾语气应该在剪辑 plan 阶段就定下来。
方法论沉淀
1. 公益作品先做成作品,再承载信息
核心:公益信息不一定要在正片里先声夺人;先让作品独立成立,信息放在片尾、简介或评论区,反而更有尊严。
来源:《Stay alive》从直接求助歌转向抽象 beatbox MV。
验证状态:首次发现。
操作规则:
- 正片只表达可共感的情绪,不塞满事件细节。
- 片尾用简短公益说明收束,不出现隐私信息。
- 发布区承接具体求助链接和说明。
边界:如果平台审核或传播目标要求即时说明,正片可能需要更早给出最低限度背景。
2. 哼唱歌曲字幕要先去音乐化,再做文字化
核心:对哼唱、beatbox、人声节奏类歌曲,不能直接把整首混音丢给 ASR;先分离人声、过滤哼唱,再输出短语级字幕。
来源:medium Whisper 与 VAD 版均出现明显误差;Demucs + WhisperX GPU 后,hook 段时间锚点明显更干净。
验证状态:首次发现。
操作规则:
- 用 Demucs/HTDemucs 分离
vocals.wav。 - 对 vocals stem 跑 WhisperX,而不是原混音。
- 用词级时间戳重组成短语级 SRT。
- 删除纯
Hum / Mmm / Ah / Oh段,只保留语义歌词。 - 最终仍交给人耳校对。
边界:如果歌曲是清晰说唱或普通旁白,直接 WhisperX 可能足够,不必先 Demucs。
3. 字幕应该外置到最后一公里
核心:AI 自动字幕不应早早烘焙进视频;尤其是歌曲类作品,应先导出无字版 MP4,再用 SRT 在剪映中调整。
来源:第一版内嵌歌词卡点失败,转为无文字视频 + SRT 后,人工修正成本下降。
验证状态:首次发现。
操作规则:
- 先出
no_text_1080p.mp4。 - 另出英文 SRT、中文意译 SRT。
- 字体、位置、描边、行距在剪映里最后统一。
- 需要公益说明时,可选择烘焙片尾,也可附加字幕层。
边界:如果视频要跨平台原生上传且必须保证字幕存在,最终发布版仍可烘焙字幕。
4. 抽象 MV 的画面统一靠“物理材质组”,不是靠故事连续性
核心:抽象多图 MV 不需要每张图讲同一个故事,但需要共享材质、光色和运动语法。
来源:《Stay alive》8 张图共享黑场、烟、灰白、微光、琥珀火点,最终比具象叙事更统一。
验证状态:首次发现。
操作规则:
- 先定色彩组和材质组,再写单张 prompt。
- 每张图只表达一个情绪动作:漂浮、涟漪、脆弱、凝视、残光。
- 剪辑时用统一的 Ken Burns / 抖动 / 黑边 / 胶片颗粒补足连续性。
边界:如果 MV 有明确角色或剧情,仍需要角色一致性和镜头连续性。
下次改进
- 在 Suno 定稿后,第一时间跑 Demucs + WhisperX,尽早知道真实歌词时间轴。
- 视觉出图前就决定横屏、黑边比例、字体风格、字幕是否外置。
- 将“发布层文字”单独列入计划:片头标题、作者信息、片尾说明、字号层级和安全边距,默认留给最后人工精修。
- 把字幕链路封装为固定 Skill:输入音频和目标歌词,输出 raw / no-hum / phrase-level / 中文意译多份 SRT。
- 对公益作品建立发布前检查:隐私信息、收益说明、置顶评论、平台收益结算口径。
关联文档
- song-caption-mv-workflow/SKILL.md
- 蒙眼剪辑法_方法论笔记
- 方法论笔记_Suno两阶段工作流_v1
- Suno配乐制作分享
- 图片占位到视频替换的工作流_v1
- L-cut卡点+xfade时长抵消_v1
- 复盘事实先行原则