方法论与洞察

AI 辅助音乐 MV 卡点 · LLM-plan 工作流 · v1

入档:2026-05-15 触发:《即时雨》MV 项目从 v1 到 v7 的工具迭代(约 3 小时算法天花板探索) 性质:工作流方法论 + 工具架构 + 协作模式 关联:Cowork协作的接口文件模式 / 《即时雨》项目复盘空占位已清理 工具:99_工具/mv_kadian_tool/(已实现 v2)


一句话

音乐 MV 卡点工作流的核心瓶颈不在算法、不在 Whisper 精度、不在 librosa 节拍检测,而在”shot 编号 ↔ 歌词意图”的语义映射——这一层只有 LLM 能做。LLM-plan 工作流让工具的价值从”自动算法”转移到”读 plan JSON + 渲染”。


二、背景:纯算法卡点为什么有天花板

2.1 中文 MV 卡点要解决的三层问题

解决什么已知工具能力
时序层每句歌词在音频里什么时间出现Whisper(faster-whisper)中文字准 95%(medium 模型)
特征层音乐节拍 / onset / segmentation / RMSlibrosa拍点检测 ~80% 准
语义层哪张图配哪句歌词???算法无解

前两层算法可以做得很好。瓶颈是第三层——纯语义判断

2.2 算法天花板实测(《即时雨》项目)

工具迭代历程:

版本策略LYRIC 锚点命中题眼准确度
v1base 模型 + librosa 9 段强制对齐~7/14题眼错位
v2-v4medium 模型 + storyboard 时间区间~9/15题眼错位
v5-v6medium + whisper raw segment + ±2.5s snap11/15(触顶)题眼仍错位

关键诊断:S05”饭碗筷子”应该对应”终于吃上公粮了”(56.42s C1 首句),但算法只知道”56.42s 有一句歌词”,不知道哪张图配哪句意图。

工具不”懂”分镜大纲(“S05 是题眼,对应饭碗 + 公粮”),不”懂”歌词的结构(“56.42s 是 C1 首句,整个 chorus 的情绪点在这”)。

算法解决了”时间对齐”,没解决”语义匹配”。

2.3 关键 quote

跳蛛先生在工具迭代到 v6 后,否决 interactive 模式:

“如果用 interactive 的话我们的工作就是无效的,因为这与我去剪映等软件直接剪辑无二。”

—— 这是工作流认知转折点。继续在算法层迭代 = 看起来勤奋实际无效。


三、LLM-plan 工作流(终版)

3.1 三步架构

[第一步:工具跑 Whisper 转录]

  工具 --mode auto --model-path <medium 本地路径>
  目的:生成 transcript JSON(每句歌词的精确时间戳)
  耗时:CPU medium ~3-5 分钟

[第二步:LLM 出 plan JSON]

  Claude(任意会话)读取三份文件:
    - 分镜大纲(理解每张图的"段落标签 + 视觉意图")
    - 歌词原文(识别 Verse / Chorus / Bridge / Outro 段落结构)
    - transcript JSON(拿每句歌词的精确秒级时间戳)
  输出:plan JSON [{shot, start, end, note}, ...]
  关键能力:处理复用段(同 shot 在 Chorus 多次重现)
  耗时:10-20 分钟(LLM 协作)

[第三步:工具按 plan 渲染]

  工具 --plan path.json
  完全跳过算法,按 plan 一次性渲染
  耗时:~20 秒(540p 粗剪)/ ~30 分钟(1080p final 含特效)

3.2 工具的价值转移

旧工具价值新工具价值
自动算法卡点读 plan JSON + 渲染
Whisper / librosa / shot_aligner 算法层Whisper 转录 + MoviePy 渲染(管道工作

工具仍然有价值,但核心从”自动算法”转到”工程管道”——

这些不是”算法”,是工程基础设施。但不可省——没有这些工具底层,LLM 出的 plan JSON 落不了地。

3.3 plan JSON 数据结构

v1 版(最简)

[
  {"shot": 0, "start": 0.00, "end": 15.10, "note": "前奏"},
  {"shot": 1, "start": 15.10, "end": 28.38, "note": "V1 上半"},
  ...
  {"shot": 5, "start": 56.42, "end": 63.84, "note": "C1 首句 ★ 题眼"},
  {"shot": 5, "start": 126.86, "end": 135.00, "note": "[C2 复用] 题眼"},
  ...
]

v2 版(含字幕 + 特效)

{
  "clips": [
    {"shot": 5, "start": 56.42, "end": 63.84, "note": "C1 首句"}
  ],
  "subtitles": [
    {"text": "终于吃上公粮了", "start": 56.42, "end": 60.10, "emphasis": true}
  ],
  "effects": {
    "global": {
      "vignette": {"enabled": true, "intensity": 0.15},
      "paper_tint": {"enabled": true, "color": [248, 245, 238], "alpha": 0.06}
    },
    "per_shot": {
      "S05": {"ken_burns": {"type": "zoom_in", "amount": 0.030}}
    },
    "transitions": {"default": "crossfade", "duration": 0.4}
  }
}

emphasis: true 给副歌字幕加重(字号 +20% + 字色加深 + Weight Regular)。 per_shot.ken_burns 给每镜单独的 Ken Burns 微动(zoom_in / zoom_out / pan_x / pan_y)。


四、工作流的关键能力

4.1 1:N shot 复用(Chorus 多次重现)

中文 MV 常见结构:Verse → PreChorus → Chorus → Verse → PreChorus → Chorus → Bridge → Final Chorus。

Chorus 多次重现时,同一个 shot 编号可以在 plan JSON 里出现多次

{"shot": 5, "start": 56.42, "end": 63.84, "note": "C1 首句"},
{"shot": 5, "start": 126.86, "end": 135.00, "note": "[C2 复用]"},
{"shot": 5, "start": 179.76, "end": 187.14, "note": "[FC 复用]"}

工具按 plan 渲染时,自动从同一 shot 目录读图,渲染到对应时间段。14 张图 + 21 个 clip = 自然实现 1:N 复用

4.2 plan JSON 是新的产物形态

plan JSON 不是中间态,是最终交付物之一

跳蛛先生未来:

plan JSON = 项目的可执行规格说明

4.3 LLM 读三份文件的工作

LLM 在第二步要做的核心判断:

输入LLM 读出什么
分镜大纲”S05 是题眼镜,对应 C1 首句的’终于吃上公粮了‘“
歌词原文”C1 首句在 [Chorus] 标签下第一行”
transcript JSON“‘终于吃上公粮了’ 在 56.42s 出现”
三个交叉shot 5 的 start = 56.42

这是纯语义任务——任何能读懂中文 + 理解音乐结构的 LLM 都能做。不需要 fine-tune,不需要专门训练。


五、应用边界

5.1 适用场景

5.2 不适用场景

5.3 关键判断

判断你是否需要 LLM-plan 工作流

□ 是中文(或其他自然语言)有歌词/台词的视频?
□ 需要 shot 和歌词意图的精确匹配?(不是"任意配图")
□ 有现成的"分镜大纲 + 歌词文本"作为人类语义输入?

三个都是 → 用 LLM-plan 工作流
任一不是 → 评估其他工具

六、不要做的(已验证失败)

6.1 不要用 interactive 模式

工具的 interactive 模式(人类手动调整每个 clip 时间)= 等于剪映手动剪。

已验证不实用。原因:

工具应该保留 interactive 模式作为应急 fallback,但不推荐为主工作流

6.2 不要靠 storyboard 软锚点

工具支持 --storyboard path.md 用分镜表估算时间区间。

已验证效果差。原因:

软锚点 = 纸上谈兵。LLM-plan 才是硬锚点(每个 clip 都有 LLM 校准过的精确时间)。

6.3 不要依赖 base 模型

faster-whisper base 模型字准 ~65%,medium 模型 ~95%。

base 模型不可用。原因:


七、和现有 AI 视频卡点教程的差别

主流教程会教你:

这些教程停留在算法层,没意识到瓶颈在语义层。

LLM-plan 工作流的核心洞察:


八、工具状态(《即时雨》项目最终版)

工具路径:{AIGC工作站}/99_工具\mv_kadian_tool\

8.1 关键参数

--plan path.json           完整 clip 时间表,跳过所有算法,支持 1:N 复用
--model-path path/         本地下载的 whisper 模型(避免 HF 下载问题)
--transcript path.json     复用上次的 transcript(跳过 Whisper 节省 ~3 分钟)
--storyboard path.md       分镜表软锚点(保留但效果差,不推荐)
--mode auto / interactive  interactive 不推荐
--aspect 9:16 / 16:9 / 1:1 / 4:5
--resolution 540 / 1080
--fps 12 / 24

8.2 推荐工作流命令

$tool = "{AIGC工作站}/99_工具\mv_kadian_tool"
$env:PYTHONIOENCODING = "utf-8"

# 第一步:跑 medium 转录(只为生成 transcript)
& "$tool\.venv\Scripts\python.exe" "$tool\mv_kadian_tool.py" `
  --audio "音频.wav" --images "图片目录\" `
  --model-path "$tool\models\medium" `
  --mode auto `
  --output "临时.mp4"
# 关心的产出:临时_whisper转录.json

# 第二步:LLM 出 plan JSON(人类 + Claude 协作,10-20 分钟)

# 第三步:渲染 final(含字幕 + 特效)
& "$tool\.venv\Scripts\python.exe" "$tool\mv_kadian_tool.py" `
  --audio "音频.wav" --images "图片目录\" `
  --plan "02_分镜\卡点方案_v2_full.json" `
  --transcript "临时_whisper转录.json" `
  --aspect 9:16 --resolution 1080 --fps 24 --mode auto `
  --output "07_输出\final.mp4"

九、协作模式

LLM-plan 工作流是三方协作

角色职责
跳蛛先生(人类)提供分镜大纲 + 歌词原文 + 跑命令 + 审美阈值守门
Claude(运营经理 / 任意会话)读三份文件 → 出 plan JSON → 解释决策点
工具(mv_kadian_tool)Whisper 转录 + 按 plan JSON 渲染

9.1 接口文件

接口文件清晰 = 协作低成本。任何 Claude 会话拿到这三份文件都能出 plan,不依赖某次对话的上下文。

9.2 给”运营经理”角色的 prompt 提示词框架

读取:
  - 分镜大纲:理解每个 Sxx 的"段落标签"和"视觉意图"
  - 歌词原文:识别 [Verse]/[Chorus]/[Bridge]/[Outro] 段落顺序
  - whisper SRT/JSON:拿到每行歌词的精确秒级时间戳

输出:plan JSON
  [{shot: int, start: float, end: float, note: str}, ...]

复用规则:
  - Chorus 复用(出现多次):把 Chorus 1 的 shots 在 Chorus 2/Final Chorus 处再列一次
  - 前奏/间奏:如果有 S00 / S15 / 其他过渡图就用,没有就让首镜延伸到首句歌词

输出后跳蛛先生审一遍,确认大方向对再交工具渲染。

十、元学习 · 这条方法论的来源

这条工作流不是先有理论再实践——是 v1-v6 算法迭代 3 小时后被实战逼出来的。

关键失败 → 关键洞察 的转折点

这是 AI 协作中最有价值的元能力之一:识别工具天花板的时机。

同期《即时雨》项目复盘空占位已清理;相关结论已沉淀在本文 §二·修正 1。


十一、版本

继承链:


落款: 这条方法论的真正价值不在”音乐 MV 卡点”这个具体应用—— 而在揭示了一个普遍规律:AI 协作中,当工具的”自动算法”在某一层触顶时,让 LLM 接管该层的语义判断,工具退到工程管道,往往是唯一可行的解

跳蛛先生 5/15 这天,两个项目(音乐卡点 + niji 5 形象图)同时撞到同一种元层失败——继续在工具内努力不如换工具/换协作分层。 把”识别工具天花板的时机”作为元能力沉淀,价值会跨越远比单个项目大得多。

类型/工作流方法论工具/音乐卡点工具/Whisper工具/MoviePy