方法论与洞察

2026-06-08 Remotion 正式小片段 v3 复盘

入档:2026-06-08 项目:Skill is All You Need / 正式 20-30s 小片段实验性质:MJ + Seedance + Eleven v3 + Remotion 全链路复盘

事实记录

这次正式小片段不是在 v1 就通过,而是经历了两个声音问题:

v1 把整段 Eleven 音频当成连续旁白,字幕靠手工段落估算,导致字幕和旁白不完全贴合。
v2 改成五段独立音频后,字幕仍是语义摘要,不是实际口播全文;04 段为了避免 SKILL_INDEX 语音崩坏,口播改成”技能索引”,但字幕还保留英文摘要。

最终 v3 的通过点是:

五段旁白拆成五个独立 MP3;
formalClipVoiceoverTiming.ts 记录每段真实 duration / startFrame / caption / audioSrc;
字幕逐字等于实际口播文本,只去掉 Eleven 不会读出的情绪控制标签;
04 段画面可以继续显示 SKILL_INDEX,但字幕和口播统一为”技能索引”。

本轮原始顺序是:

MJ 关键图
→ Seedance 2.0 统一生成约 5s 视频
→ Eleven v3 旁白
→ Remotion 按真实音频时长补齐时间线

这条链路能做成片,但不是最优。更稳定的顺序应该是:

连续分镜表 + 逐段口播初稿
→ Eleven v3 先生成分段 TTS
→ 用真实口播时长反推每段 Seedance 目标时长
→ MJ 关键图
→ Seedance 按每段时长生成运动素材
→ Remotion 只做时间线、字幕、安全区和导出

原因很简单:在旁白驱动的知识解释视频里,声音不是后期装饰,而是时间线的主轴。只有先知道每段口播真实时长,才能知道 Seedance 每段到底该做 4 秒、5 秒还是 7 秒。

字幕可以短,但如果目标是有声解释视频,第一版文本必须以”能被 Eleven 读出来”为准。

操作规则:

不要把 30 秒旁白一次性生成后再手工切字幕。分段音频更适合 Remotion:

Seedance prompt 里不要默认写死 5s。更好的写法是:

Create a {duration}-second animation matching the narration beat.

其中 {duration} 来自 Eleven v3 分段音频,再按平台可选时长取整。例如 4.8s 可以生成 5s,6.8s 就应考虑 7s 或 8s,而不是强行塞进 5s。

这次 Remotion 能用静态 MJ 图兜底 Seedance 视频长度不足,也能按音频拉长或收束时间线。但这只是补救能力,不是生产原则。

正式流程里,Remotion 应该拿到:

下次做同类 20-30s 知识解释短片时,按这个顺序检查:

类型/IP视觉工具/Remotion工具/Midjourney工具/Seedance工具/ElevenLabs