方法论与洞察

2026-06-08 Remotion 正式小片段 v3 复盘

入档:2026-06-08 项目:Skill is All You Need / 正式 20-30s 小片段实验 性质:MJ + Seedance + Eleven v3 + Remotion 全链路复盘

事实记录

本轮关键教训

这次正式小片段不是在 v1 就通过,而是经历了两个声音问题:

  1. v1 把整段 Eleven 音频当成连续旁白,字幕靠手工段落估算,导致字幕和旁白不完全贴合。
  2. v2 改成五段独立音频后,字幕仍是语义摘要,不是实际口播全文;04 段为了避免 SKILL_INDEX 语音崩坏,口播改成”技能索引”,但字幕还保留英文摘要。

最终 v3 的通过点是:

方法论升级:TTS 应前置

本轮原始顺序是:

MJ 关键图
→ Seedance 2.0 统一生成约 5s 视频
→ Eleven v3 旁白
→ Remotion 按真实音频时长补齐时间线

这条链路能做成片,但不是最优。更稳定的顺序应该是:

连续分镜表 + 逐段口播初稿
→ Eleven v3 先生成分段 TTS
→ 用真实口播时长反推每段 Seedance 目标时长
→ MJ 关键图
→ Seedance 按每段时长生成运动素材
→ Remotion 只做时间线、字幕、安全区和导出

原因很简单:在旁白驱动的知识解释视频里,声音不是后期装饰,而是时间线的主轴。只有先知道每段口播真实时长,才能知道 Seedance 每段到底该做 4 秒、5 秒还是 7 秒。

新工作流规则

1. 先写可读口播,不要先写摘要字幕

字幕可以短,但如果目标是有声解释视频,第一版文本必须以”能被 Eleven 读出来”为准。

操作规则:

  1. 每个分镜先写 ttsText
  2. caption 默认从 ttsText 派生,只去掉不会被读出的控制标签。
  3. 如果要做摘要字幕,必须明确标记为”非逐字字幕”,不能混用。

2. Eleven v3 要分段生成

不要把 30 秒旁白一次性生成后再手工切字幕。分段音频更适合 Remotion:

3. Seedance 时长跟随声音,不是反过来

Seedance prompt 里不要默认写死 5s。更好的写法是:

Create a {duration}-second animation matching the narration beat.

其中 {duration} 来自 Eleven v3 分段音频,再按平台可选时长取整。例如 4.8s 可以生成 5s,6.8s 就应考虑 7s 或 8s,而不是强行塞进 5s。

4. Remotion 负责兜底,但不应该替前序擦屁股

这次 Remotion 能用静态 MJ 图兜底 Seedance 视频长度不足,也能按音频拉长或收束时间线。但这只是补救能力,不是生产原则。

正式流程里,Remotion 应该拿到:

如何使用

下次做同类 20-30s 知识解释短片时,按这个顺序检查:

  1. 分镜是否已经拆成 4-6 个旁白 beat?
  2. 每个 beat 是否有逐字 ttsText?
  3. Eleven v3 是否已经分段生成并读出真实时长?
  4. Seedance prompt 是否按每段真实时长写,而不是统一 5s?
  5. Remotion 字幕是否来自口播全文,不是二次摘要?
  6. 最终成片是否用 ffprobe 验证音视频轨长度?

关联文档

类型/IP视觉工具/Remotion工具/Midjourney工具/Seedance工具/ElevenLabs