2026-06-08 Remotion 正式小片段 v3 复盘
入档:2026-06-08 项目:Skill is All You Need / 正式 20-30s 小片段实验 性质:MJ + Seedance + Eleven v3 + Remotion 全链路复盘
事实记录
- 成片 Composition:
FormalClip20260608 - 通过版本:
07_skill存档/remotion/out/formal-clip-20260608-voiced-v3.mp4 - 规格:1920x1080 / 30fps / 905 frames
- 时长:视频轨约 30.17s,音频轨约 30.19s
- 素材结构:01 / 04 / 05 使用本轮新 MJ 图和 Seedance 视频,02 / 03 复用旧验证素材。
- 验证结果:用户审看通过。
本轮关键教训
这次正式小片段不是在 v1 就通过,而是经历了两个声音问题:
- v1 把整段 Eleven 音频当成连续旁白,字幕靠手工段落估算,导致字幕和旁白不完全贴合。
- v2 改成五段独立音频后,字幕仍是语义摘要,不是实际口播全文;04 段为了避免
SKILL_INDEX语音崩坏,口播改成”技能索引”,但字幕还保留英文摘要。
最终 v3 的通过点是:
- 五段旁白拆成五个独立 MP3;
formalClipVoiceoverTiming.ts记录每段真实 duration / startFrame / caption / audioSrc;- 字幕逐字等于实际口播文本,只去掉 Eleven 不会读出的情绪控制标签;
- 04 段画面可以继续显示
SKILL_INDEX,但字幕和口播统一为”技能索引”。
方法论升级:TTS 应前置
本轮原始顺序是:
MJ 关键图
→ Seedance 2.0 统一生成约 5s 视频
→ Eleven v3 旁白
→ Remotion 按真实音频时长补齐时间线
这条链路能做成片,但不是最优。更稳定的顺序应该是:
连续分镜表 + 逐段口播初稿
→ Eleven v3 先生成分段 TTS
→ 用真实口播时长反推每段 Seedance 目标时长
→ MJ 关键图
→ Seedance 按每段时长生成运动素材
→ Remotion 只做时间线、字幕、安全区和导出
原因很简单:在旁白驱动的知识解释视频里,声音不是后期装饰,而是时间线的主轴。只有先知道每段口播真实时长,才能知道 Seedance 每段到底该做 4 秒、5 秒还是 7 秒。
新工作流规则
1. 先写可读口播,不要先写摘要字幕
字幕可以短,但如果目标是有声解释视频,第一版文本必须以”能被 Eleven 读出来”为准。
操作规则:
- 每个分镜先写
ttsText。 caption默认从ttsText派生,只去掉不会被读出的控制标签。- 如果要做摘要字幕,必须明确标记为”非逐字字幕”,不能混用。
2. Eleven v3 要分段生成
不要把 30 秒旁白一次性生成后再手工切字幕。分段音频更适合 Remotion:
- 每段都能独立读 duration;
- 语音崩坏只影响单段,不用重生成全片;
- Remotion Sequence 可以直接跟着音频长度走;
- 后续替换某一段文案时,不用破坏全片节奏。
3. Seedance 时长跟随声音,不是反过来
Seedance prompt 里不要默认写死 5s。更好的写法是:
Create a {duration}-second animation matching the narration beat.
其中 {duration} 来自 Eleven v3 分段音频,再按平台可选时长取整。例如 4.8s 可以生成 5s,6.8s 就应考虑 7s 或 8s,而不是强行塞进 5s。
4. Remotion 负责兜底,但不应该替前序擦屁股
这次 Remotion 能用静态 MJ 图兜底 Seedance 视频长度不足,也能按音频拉长或收束时间线。但这只是补救能力,不是生产原则。
正式流程里,Remotion 应该拿到:
- 已审过的 MJ 关键视觉锚;
- 与旁白时长基本匹配的 Seedance 分镜视频;
- 分段 Eleven v3 音频;
- 逐字字幕源;
- timing manifest。
如何使用
下次做同类 20-30s 知识解释短片时,按这个顺序检查:
- 分镜是否已经拆成 4-6 个旁白 beat?
- 每个 beat 是否有逐字
ttsText? - Eleven v3 是否已经分段生成并读出真实时长?
- Seedance prompt 是否按每段真实时长写,而不是统一 5s?
- Remotion 字幕是否来自口播全文,不是二次摘要?
- 最终成片是否用
ffprobe验证音视频轨长度?