方法论与洞察

GPT Image 2 一次性生成中文分镜表 · v1

首次记录:2026-06-16 状态:已验证(单次成功)——一次性可行,但有随机性,正式交付建议双轨兜底 作者:跳蛛先生 + Claude


一句话结论

GPT Image 2 能在单次输出里同时渲染「精确中文表格 + 16 张协调配图 + 四个建议框」,中文几乎无错字。这刷新了”图像模型搞不定密集中文表格”的旧认知,也是 代码生成vsGPT图像_工具选择假说 的一个新数据点


任务背景

题材:科幻短片《时间博物馆 / 后来》分镜头脚本表。一张横版复合信息图,由 4 种元素拼成:

组成内容
表格框线左右两大列,每列 8 行,共 16 个镜头
表头文字镜头号 / 时长 / 画面内容 / 景别 / 转场 / 视频提示词 / 画面描述
16 张分镜小图嵌在”画面内容”列,科幻史诗风格
大量中文说明每格的画面描述、提示词,底部四个建议框

为什么这是”挑战极限”

一次性同时做对这三件事,是当前图像模型最难的场景:

  1. 精确文字:几百个中文字,要笔画正确、不糊、不造字(中文比英文难得多)。
  2. 复杂布局:16 个格子要数量对、对齐、表头统一。
  3. 多图协调:16 张图风格要统一、且各自贴合剧情。

旧经验里三者只能取其一,本次实测三者基本都做到了。


成功的提示词(可直接复用)

核心方法:用”散文 + 逐格清单”把布局、每格内容、表头、建议框全部写死,并反复强调”中文必须正确”。

生成一张横版(16:9)电影级"分镜头脚本表"信息图,专业排版,浅色背景,高清。

【整体布局】
一个大表格,分左右两大列,每列各8行,共16个镜头。两列共用同一套表头。
表头从左到右7列,必须准确显示中文:镜头号 | 时长 | 画面内容 | 景别 | 转场 | 视频提示词 | 画面描述
"画面内容"这一列的格子里,要嵌入一张该镜头对应的电影级科幻小图。

【16个镜头,每格放一张小图,并在格内写出对应中文文字】
01 6秒 远景 淡入:宇宙深空,银河中心一座由光构成的超级博物馆漂浮在星云中
02 4秒 中远景 切:15岁亚洲女孩黑长发白色长衣,站在观景台仰望博物馆
03 4秒 中景 淡入:巨大的时间博物馆大门缓缓打开,金色光芒,齿轮与罗盘
04 4秒 中景 推镜:女孩走进发光的时间博物馆大厅,地面是流动的时间河流
05 6秒 中近景 切:一位银发白袍的神秘管理员出现,周围漂浮时间粒子
06 4秒 近景 切:女孩好奇询问管理员,管理员微笑回应,温暖光线
07 8秒 大全景 淡入:第一展厅,未来生态文明,空中森林与悬浮城市,发光鲸鱼
08 4秒 中景 粒子消散:展厅画面逐渐化作光粒子消散,回归黑暗
09 8秒 大全景 淡入:第二展厅,银河文明,巨大城市网络与星际飞船
10 4秒 中景 粒子消散:银河文明化作光点消散,流向黑暗深处
11 10秒 大全景 淡入:第三展厅,无数发光人影相互连接成宇宙级巨大网络
12 4秒 中景 粒子消散:人影网络逐渐化作光芒消散,回归黑暗
13 6秒 大全景 淡入:最后一个展厅,末日,无边黑暗,没有星辰与生命
14 5秒 近景 切:女孩震惊看着黑暗,管理员在身后轻声解释
15 8秒 中近景 淡入:管理员微笑告诉女孩真相,身体逐渐化作光粒子
16 12秒 大全景 淡入:所有光粒子汇聚成一颗发光银河巨树,照亮整个宇宙,希望新生

【底部四个建议框,横排,标题用中文】
① 整体风格建议:科幻史诗 超现实 电影级 IMAX 体积光 高细节
② 转场建议:淡入 淡出 切 推镜 粒子消散 光效过渡
③ 配音建议:这里收藏着人类最珍贵的东西,不是历史,是后来
④ 音乐建议:钢琴+环境音渐入,史诗管弦乐爆发,结尾渐弱

【风格】整体科幻史诗、超现实、电影级、IMAX、体积光、超高细节;前半段蓝银冷色,后半段渐加金白暖色。所有中文文字必须清晰、笔画正确、横平竖直、无错字。

提示词为什么有效(拆解)

写法作用
第一句锁画幅+调性”横版/16:9/电影级/浅色背景” 定基调
【整体布局】块把”左右两列各8行""表头7列”讲死,避免格子数错乱
16 条逐格清单一格一条,模型照着填,内容不串
每条带”景别+转场+画面”让每格文字和配图都有据可依
底部建议框单列防止漏掉页脚信息
结尾强调”中文无错字”把文字准确度提到最高优先级
”前冷后暖”色彩指令让 16 张图有统一情绪曲线

口诀:把脑子里的表格,一格一格用文字描述清楚,越具体越接近。


两种制作路线(什么时候用哪种)

路线 A:一次成图(本次方法)

路线 B:先出图再用工具拼表(专业可控)

  1. 一张一张单独生成 16 张分镜小图(质量最高、最可控)。
  2. 表格骨架用真工具做:PPT / Excel / 飞书多维表格 / Figma / Canva。
  3. 把 16 张图填进对应格子,导出成图。
目的选哪条
好看的效果图、提案、发圈路线 A
正式脚本、文字必须准、要反复改路线 B

写图像提示词的 5 条通用口诀

  1. 顺序:先画面内容 → 再风格 → 最后比例/清晰度。
  2. 风格堆词:电影级、超现实、体积光、高细节、IMAX、Unreal Engine 5。
  3. 比例要指定:分镜常用 16:9。
  4. 角色一致:固定角色描述每处复制粘贴,保证长相统一(参见 角色一致性金字塔)。
  5. 文字优先级:要渲染中文时,明确写”文字必须清晰、笔画正确、无错字”。

对”工具选择假说”的修正

代码生成vsGPT图像_工具选择假说 此前的暂时性结论里,GPT Image 2 在两块被判”弱项”:

→ 新的实操线索:信息图 / 分镜表 / 表格型多图,可优先尝试 GPT Image 2 一次性出;但角色长相跨图一致、像素级保真,仍倾向代码 / 路线 B。


本次实验结论


关联文档

类型/方法论工具/GPT-Image通用/prompt工程模板