GPT Image 2 一次性生成中文分镜表 · v1
首次记录:2026-06-16 状态:已验证(单次成功)——一次性可行,但有随机性,正式交付建议双轨兜底 作者:跳蛛先生 + Claude
一句话结论
GPT Image 2 能在单次输出里同时渲染「精确中文表格 + 16 张协调配图 + 四个建议框」,中文几乎无错字。这刷新了”图像模型搞不定密集中文表格”的旧认知,也是 代码生成vsGPT图像_工具选择假说 的一个新数据点。
任务背景
题材:科幻短片《时间博物馆 / 后来》分镜头脚本表。一张横版复合信息图,由 4 种元素拼成:
| 组成 | 内容 |
|---|---|
| 表格框线 | 左右两大列,每列 8 行,共 16 个镜头 |
| 表头文字 | 镜头号 / 时长 / 画面内容 / 景别 / 转场 / 视频提示词 / 画面描述 |
| 16 张分镜小图 | 嵌在”画面内容”列,科幻史诗风格 |
| 大量中文说明 | 每格的画面描述、提示词,底部四个建议框 |
为什么这是”挑战极限”
一次性同时做对这三件事,是当前图像模型最难的场景:
- 精确文字:几百个中文字,要笔画正确、不糊、不造字(中文比英文难得多)。
- 复杂布局:16 个格子要数量对、对齐、表头统一。
- 多图协调:16 张图风格要统一、且各自贴合剧情。
旧经验里三者只能取其一,本次实测三者基本都做到了。
成功的提示词(可直接复用)
核心方法:用”散文 + 逐格清单”把布局、每格内容、表头、建议框全部写死,并反复强调”中文必须正确”。
生成一张横版(16:9)电影级"分镜头脚本表"信息图,专业排版,浅色背景,高清。
【整体布局】
一个大表格,分左右两大列,每列各8行,共16个镜头。两列共用同一套表头。
表头从左到右7列,必须准确显示中文:镜头号 | 时长 | 画面内容 | 景别 | 转场 | 视频提示词 | 画面描述
"画面内容"这一列的格子里,要嵌入一张该镜头对应的电影级科幻小图。
【16个镜头,每格放一张小图,并在格内写出对应中文文字】
01 6秒 远景 淡入:宇宙深空,银河中心一座由光构成的超级博物馆漂浮在星云中
02 4秒 中远景 切:15岁亚洲女孩黑长发白色长衣,站在观景台仰望博物馆
03 4秒 中景 淡入:巨大的时间博物馆大门缓缓打开,金色光芒,齿轮与罗盘
04 4秒 中景 推镜:女孩走进发光的时间博物馆大厅,地面是流动的时间河流
05 6秒 中近景 切:一位银发白袍的神秘管理员出现,周围漂浮时间粒子
06 4秒 近景 切:女孩好奇询问管理员,管理员微笑回应,温暖光线
07 8秒 大全景 淡入:第一展厅,未来生态文明,空中森林与悬浮城市,发光鲸鱼
08 4秒 中景 粒子消散:展厅画面逐渐化作光粒子消散,回归黑暗
09 8秒 大全景 淡入:第二展厅,银河文明,巨大城市网络与星际飞船
10 4秒 中景 粒子消散:银河文明化作光点消散,流向黑暗深处
11 10秒 大全景 淡入:第三展厅,无数发光人影相互连接成宇宙级巨大网络
12 4秒 中景 粒子消散:人影网络逐渐化作光芒消散,回归黑暗
13 6秒 大全景 淡入:最后一个展厅,末日,无边黑暗,没有星辰与生命
14 5秒 近景 切:女孩震惊看着黑暗,管理员在身后轻声解释
15 8秒 中近景 淡入:管理员微笑告诉女孩真相,身体逐渐化作光粒子
16 12秒 大全景 淡入:所有光粒子汇聚成一颗发光银河巨树,照亮整个宇宙,希望新生
【底部四个建议框,横排,标题用中文】
① 整体风格建议:科幻史诗 超现实 电影级 IMAX 体积光 高细节
② 转场建议:淡入 淡出 切 推镜 粒子消散 光效过渡
③ 配音建议:这里收藏着人类最珍贵的东西,不是历史,是后来
④ 音乐建议:钢琴+环境音渐入,史诗管弦乐爆发,结尾渐弱
【风格】整体科幻史诗、超现实、电影级、IMAX、体积光、超高细节;前半段蓝银冷色,后半段渐加金白暖色。所有中文文字必须清晰、笔画正确、横平竖直、无错字。
提示词为什么有效(拆解)
| 写法 | 作用 |
|---|---|
| 第一句锁画幅+调性 | ”横版/16:9/电影级/浅色背景” 定基调 |
| 【整体布局】块 | 把”左右两列各8行""表头7列”讲死,避免格子数错乱 |
| 16 条逐格清单 | 一格一条,模型照着填,内容不串 |
| 每条带”景别+转场+画面” | 让每格文字和配图都有据可依 |
| 底部建议框单列 | 防止漏掉页脚信息 |
| 结尾强调”中文无错字” | 把文字准确度提到最高优先级 |
| ”前冷后暖”色彩指令 | 让 16 张图有统一情绪曲线 |
口诀:把脑子里的表格,一格一格用文字描述清楚,越具体越接近。
两种制作路线(什么时候用哪种)
路线 A:一次成图(本次方法)
- 把整张表当一张图,用上面提示词一次生成。
- 优点:快、一步到位、排版好看。
- 缺点:文字偶有小错、格子偶尔不齐、改动只能重抽。
- 适合:概念图、提案展示、社交媒体、对文字精度要求不极端的场景。
路线 B:先出图再用工具拼表(专业可控)
- 一张一张单独生成 16 张分镜小图(质量最高、最可控)。
- 表格骨架用真工具做:PPT / Excel / 飞书多维表格 / Figma / Canva。
- 把 16 张图填进对应格子,导出成图。
- 优点:文字 100% 准确、可逐项修改、可反复迭代。
- 缺点:步骤多、慢。
- 适合:正式交付脚本、文字必须零错误、需要反复改的项目。
| 目的 | 选哪条 |
|---|---|
| 好看的效果图、提案、发圈 | 路线 A |
| 正式脚本、文字必须准、要反复改 | 路线 B |
写图像提示词的 5 条通用口诀
- 顺序:先画面内容 → 再风格 → 最后比例/清晰度。
- 风格堆词:电影级、超现实、体积光、高细节、IMAX、Unreal Engine 5。
- 比例要指定:分镜常用 16:9。
- 角色一致:固定角色描述每处复制粘贴,保证长相统一(参见 角色一致性金字塔)。
- 文字优先级:要渲染中文时,明确写”文字必须清晰、笔画正确、无错字”。
对”工具选择假说”的修正
代码生成vsGPT图像_工具选择假说 此前的暂时性结论里,GPT Image 2 在两块被判”弱项”:
- 中文字符精度——本次实测密集中文几乎全对,弱项被部分推翻(但仍有随机性,非每次稳定)。
- Multi-image 串联难一致——本次 16 格风格统一、情绪曲线连贯,说明**“前冷后暖”等全局色彩指令能在单图内强制多图协调**(注意:这是”单图内的多格”,不等于”多次生成之间的一致”)。
→ 新的实操线索:信息图 / 分镜表 / 表格型多图,可优先尝试 GPT Image 2 一次性出;但角色长相跨图一致、像素级保真,仍倾向代码 / 路线 B。
本次实验结论
- ✅ 一次性生成可行:中文表格+多图渲染表现远超预期。
- ⚠️ 仍属”挑战极限”:成功有随机性,文字偶有瑕疵,正式交付建议路线 B 兜底。
- 🎯 最佳实践:先用路线 A 快速出效果图定方案 → 需要精修时用路线 B 兜文字和角色一致性。
关联文档
- 工具选择上下文:代码生成vsGPT图像_工具选择假说 —— 本文为其新增数据点
- 角色一致性:角色一致性金字塔
- prompt 写法:prompt的三段式结构_v1、prompt极简化原则_v1
- 审核机制:AI图像生成审核机制探索笔记