方法论与洞察

GPT Image 2 一次性生成中文分镜表 · v1

首次记录:2026-06-16 状态:已验证(单次成功)——一次性可行,但有随机性,正式交付建议双轨兜底作者:跳蛛先生 + Claude

一句话结论

GPT Image 2 能在单次输出里同时渲染「精确中文表格 + 16 张协调配图 + 四个建议框」,中文几乎无错字。这刷新了”图像模型搞不定密集中文表格”的旧认知,也是代码生成vsGPT图像_工具选择假说的一个新数据点。

任务背景

题材:科幻短片《时间博物馆 / 后来》分镜头脚本表。一张横版复合信息图,由 4 种元素拼成:

组成	内容
表格框线	左右两大列,每列 8 行,共 16 个镜头
表头文字	镜头号 / 时长 / 画面内容 / 景别 / 转场 / 视频提示词 / 画面描述
16 张分镜小图	嵌在”画面内容”列,科幻史诗风格
大量中文说明	每格的画面描述、提示词,底部四个建议框

为什么这是”挑战极限”

一次性同时做对这三件事,是当前图像模型最难的场景:

精确文字:几百个中文字,要笔画正确、不糊、不造字(中文比英文难得多)。
复杂布局:16 个格子要数量对、对齐、表头统一。
多图协调:16 张图风格要统一、且各自贴合剧情。

旧经验里三者只能取其一,本次实测三者基本都做到了。

成功的提示词(可直接复用)

核心方法:用”散文 + 逐格清单”把布局、每格内容、表头、建议框全部写死,并反复强调”中文必须正确”。

生成一张横版(16:9)电影级"分镜头脚本表"信息图,专业排版,浅色背景,高清。

【整体布局】
一个大表格,分左右两大列,每列各8行,共16个镜头。两列共用同一套表头。
表头从左到右7列,必须准确显示中文:镜头号 | 时长 | 画面内容 | 景别 | 转场 | 视频提示词 | 画面描述
"画面内容"这一列的格子里,要嵌入一张该镜头对应的电影级科幻小图。

【16个镜头,每格放一张小图,并在格内写出对应中文文字】
01 6秒 远景 淡入:宇宙深空,银河中心一座由光构成的超级博物馆漂浮在星云中
02 4秒 中远景 切:15岁亚洲女孩黑长发白色长衣,站在观景台仰望博物馆
03 4秒 中景 淡入:巨大的时间博物馆大门缓缓打开,金色光芒,齿轮与罗盘
04 4秒 中景 推镜:女孩走进发光的时间博物馆大厅,地面是流动的时间河流
05 6秒 中近景 切:一位银发白袍的神秘管理员出现,周围漂浮时间粒子
06 4秒 近景 切:女孩好奇询问管理员,管理员微笑回应,温暖光线
07 8秒 大全景 淡入:第一展厅,未来生态文明,空中森林与悬浮城市,发光鲸鱼
08 4秒 中景 粒子消散:展厅画面逐渐化作光粒子消散,回归黑暗
09 8秒 大全景 淡入:第二展厅,银河文明,巨大城市网络与星际飞船
10 4秒 中景 粒子消散:银河文明化作光点消散,流向黑暗深处
11 10秒 大全景 淡入:第三展厅,无数发光人影相互连接成宇宙级巨大网络
12 4秒 中景 粒子消散:人影网络逐渐化作光芒消散,回归黑暗
13 6秒 大全景 淡入:最后一个展厅,末日,无边黑暗,没有星辰与生命
14 5秒 近景 切:女孩震惊看着黑暗,管理员在身后轻声解释
15 8秒 中近景 淡入:管理员微笑告诉女孩真相,身体逐渐化作光粒子
16 12秒 大全景 淡入:所有光粒子汇聚成一颗发光银河巨树,照亮整个宇宙,希望新生

【底部四个建议框,横排,标题用中文】
① 整体风格建议:科幻史诗 超现实 电影级 IMAX 体积光 高细节
② 转场建议:淡入 淡出 切 推镜 粒子消散 光效过渡
③ 配音建议:这里收藏着人类最珍贵的东西,不是历史,是后来
④ 音乐建议:钢琴+环境音渐入,史诗管弦乐爆发,结尾渐弱

【风格】整体科幻史诗、超现实、电影级、IMAX、体积光、超高细节;前半段蓝银冷色,后半段渐加金白暖色。所有中文文字必须清晰、笔画正确、横平竖直、无错字。

提示词为什么有效(拆解)

写法	作用
第一句锁画幅+调性	”横版/16:9/电影级/浅色背景” 定基调
【整体布局】块	把”左右两列各8行""表头7列”讲死,避免格子数错乱
16 条逐格清单	一格一条,模型照着填,内容不串
每条带”景别+转场+画面”	让每格文字和配图都有据可依
底部建议框单列	防止漏掉页脚信息
结尾强调”中文无错字”	把文字准确度提到最高优先级
”前冷后暖”色彩指令	让 16 张图有统一情绪曲线

口诀:把脑子里的表格,一格一格用文字描述清楚,越具体越接近。

两种制作路线(什么时候用哪种)

路线 A:一次成图(本次方法)

把整张表当一张图,用上面提示词一次生成。
优点:快、一步到位、排版好看。
缺点:文字偶有小错、格子偶尔不齐、改动只能重抽。
适合:概念图、提案展示、社交媒体、对文字精度要求不极端的场景。

路线 B:先出图再用工具拼表(专业可控)

一张一张单独生成 16 张分镜小图(质量最高、最可控)。
表格骨架用真工具做:PPT / Excel / 飞书多维表格 / Figma / Canva。
把 16 张图填进对应格子,导出成图。

优点:文字 100% 准确、可逐项修改、可反复迭代。
缺点:步骤多、慢。
适合:正式交付脚本、文字必须零错误、需要反复改的项目。

目的	选哪条
好看的效果图、提案、发圈	路线 A
正式脚本、文字必须准、要反复改	路线 B

写图像提示词的 5 条通用口诀

顺序:先画面内容 → 再风格 → 最后比例/清晰度。
风格堆词:电影级、超现实、体积光、高细节、IMAX、Unreal Engine 5。
比例要指定:分镜常用 16:9。
角色一致:固定角色描述每处复制粘贴,保证长相统一(参见角色一致性金字塔)。
文字优先级:要渲染中文时,明确写”文字必须清晰、笔画正确、无错字”。

对”工具选择假说”的修正

代码生成vsGPT图像_工具选择假说此前的暂时性结论里,GPT Image 2 在两块被判”弱项”:

中文字符精度——本次实测密集中文几乎全对,弱项被部分推翻(但仍有随机性,非每次稳定)。
Multi-image 串联难一致——本次 16 格风格统一、情绪曲线连贯,说明**“前冷后暖”等全局色彩指令能在单图内强制多图协调**(注意:这是”单图内的多格”,不等于”多次生成之间的一致”)。

→ 新的实操线索:信息图 / 分镜表 / 表格型多图,可优先尝试 GPT Image 2 一次性出;但角色长相跨图一致、像素级保真,仍倾向代码 / 路线 B。

本次实验结论

✅ 一次性生成可行:中文表格+多图渲染表现远超预期。
⚠️ 仍属”挑战极限”:成功有随机性,文字偶有瑕疵,正式交付建议路线 B 兜底。
🎯 最佳实践:先用路线 A 快速出效果图定方案 → 需要精修时用路线 B 兜文字和角色一致性。

关联文档

工具选择上下文:代码生成vsGPT图像_工具选择假说 —— 本文为其新增数据点
角色一致性:角色一致性金字塔
prompt 写法:prompt的三段式结构_v1、prompt极简化原则_v1
审核机制:AI图像生成审核机制探索笔记

类型/方法论工具/GPT-Image通用/prompt工程模板