方法论与洞察

2026-06-07 Stay alive AI 音乐公益 MV 复盘

入档:2026-06-07 项目路径:D:\AIGC工作站\38_Stay alive 作品类型:AI 音乐 / 抽象 MV / 公益传播 关联 Skill:song-caption-mv-workflow/SKILL.mdsuno-music-brief/SKILL.mdblind-editing-workflow/SKILL.mdaigc-postmortem/SKILL.md

事实记录(不可修改区)

作品回顾

最初动机不是做一首“悲伤求助歌”,而是把一条真实求助信息背后的震动转译成可被更多人接受的作品。关键选择是:正片先作为独立作品成立,公益信息后置。这避免了作品变成口号或苦情短片,也保留了传播时的体面感。

音乐方向经历了明显转向:从常规悲剧叙事,转为接近 Mao9《Another Way》启发下的人声节奏、哼唱、beatbox 质地。歌词不承担完整叙事,只保留“one small light / stay alive / we’re still here”等短语和多语言“活下去”hook。

视觉方向也同步从具象故事退到抽象摄影:烟雾、火点、暗面、涟漪、漂浮碎片、黑色空间。最终有效的不是“画出病痛”,而是用抽象材质制造一种“脆弱但仍未熄灭”的观看经验。

执行过程

音乐

  1. 使用 maieutic-skill 澄清动机:不是为陌生人“消费苦难”,而是为具体的人做一次力所能及的扩散。
  2. 使用 suno-music-brief 设计 Suno advanced prompt。
  3. 多轮调整情绪:从偏轻快改为平静、悲壮、低调。
  4. 保留多语言 “Stay alive / vive / ikite / sarajwo / Reste en vie / hayatta kal / zinda raho”。

视觉

  1. 使用 aigc-prompt-optimizer 从具象故事改为抽象超现实摄影。
  2. 统一色彩为近乎黑场的蓝黑、石墨灰、灰白雾、微弱琥珀。
  3. 出图后归档 8 张主视觉,补齐缺失图。

剪辑

  1. 第一版使用蒙眼剪辑法:8 张图按段落轮播,片尾追加公益说明黑幕。
  2. 发现内嵌歌词卡点不够准确,于是转为“无文字视频 + 外部 SRT”。
  3. 进一步改版为电影感:上下黑边、轻微抖动、呼吸式缩放、胶片颗粒、暗角、新片尾四段字幕。

字幕

  1. 直接从 plan 导出的 SRT 不可靠,因为它不是 Whisper 识别结果。
  2. medium Whisper 能识别部分歌词,但哼唱会造成大量错误段落。
  3. 去哼唱后效果变好,但仍需要人工校正。
  4. 最终验证出更稳路径:Demucs 分离人声 stem,再用 WhisperX large-v3-turbo + GPU 做词级对齐,最后按短语重组 SRT。
  5. 用户手调英文 SRT 后,再生成中文意译 SRT,用作视频附加字幕。
  6. 最终成片阶段由用户在剪映中微调文字大小、位置,并补充标题、作者信息等片头发布元素;自动链路的有效价值是节省主体剪辑、画面生成和字幕时间轴搭建成本,而不是完全替代最后的审美判断。

结果分析

成功点

问题点

方法论沉淀

1. 公益作品先做成作品,再承载信息

核心:公益信息不一定要在正片里先声夺人;先让作品独立成立,信息放在片尾、简介或评论区,反而更有尊严。

来源:《Stay alive》从直接求助歌转向抽象 beatbox MV。

验证状态:首次发现。

操作规则

  1. 正片只表达可共感的情绪,不塞满事件细节。
  2. 片尾用简短公益说明收束,不出现隐私信息。
  3. 发布区承接具体求助链接和说明。

边界:如果平台审核或传播目标要求即时说明,正片可能需要更早给出最低限度背景。

2. 哼唱歌曲字幕要先去音乐化,再做文字化

核心:对哼唱、beatbox、人声节奏类歌曲,不能直接把整首混音丢给 ASR;先分离人声、过滤哼唱,再输出短语级字幕。

来源:medium Whisper 与 VAD 版均出现明显误差;Demucs + WhisperX GPU 后,hook 段时间锚点明显更干净。

验证状态:首次发现。

操作规则

  1. 用 Demucs/HTDemucs 分离 vocals.wav
  2. 对 vocals stem 跑 WhisperX,而不是原混音。
  3. 用词级时间戳重组成短语级 SRT。
  4. 删除纯 Hum / Mmm / Ah / Oh 段,只保留语义歌词。
  5. 最终仍交给人耳校对。

边界:如果歌曲是清晰说唱或普通旁白,直接 WhisperX 可能足够,不必先 Demucs。

3. 字幕应该外置到最后一公里

核心:AI 自动字幕不应早早烘焙进视频;尤其是歌曲类作品,应先导出无字版 MP4,再用 SRT 在剪映中调整。

来源:第一版内嵌歌词卡点失败,转为无文字视频 + SRT 后,人工修正成本下降。

验证状态:首次发现。

操作规则

  1. 先出 no_text_1080p.mp4
  2. 另出英文 SRT、中文意译 SRT。
  3. 字体、位置、描边、行距在剪映里最后统一。
  4. 需要公益说明时,可选择烘焙片尾,也可附加字幕层。

边界:如果视频要跨平台原生上传且必须保证字幕存在,最终发布版仍可烘焙字幕。

4. 抽象 MV 的画面统一靠“物理材质组”,不是靠故事连续性

核心:抽象多图 MV 不需要每张图讲同一个故事,但需要共享材质、光色和运动语法。

来源:《Stay alive》8 张图共享黑场、烟、灰白、微光、琥珀火点,最终比具象叙事更统一。

验证状态:首次发现。

操作规则

  1. 先定色彩组和材质组,再写单张 prompt。
  2. 每张图只表达一个情绪动作:漂浮、涟漪、脆弱、凝视、残光。
  3. 剪辑时用统一的 Ken Burns / 抖动 / 黑边 / 胶片颗粒补足连续性。

边界:如果 MV 有明确角色或剧情,仍需要角色一致性和镜头连续性。

下次改进

关联文档

类型/IP视觉工具/Suno工具/WhisperX