方法论与洞察

sref 用一年,我才搞懂的「纯净性原则」

作者: 跳蛛先生 / Mr. Jumping Spider
实践来源: 《擦干净》项目 sref 探索阶段
沉淀日期: 2026-05-10
适用对象: 所有用 MJ sref 工作流做风格统一项目的创作者

一、问题的提出

做项目的人都知道, sref(style reference)是 MJ 实现”风格统一”的核心机制。但你有没有遇到过这种情况:

一张 sref 图,跑某些主体很稳,跑另一些主体就反复跑偏
调 prompt 调了十几轮,某个主体就是出不来对的风格
越深入项目,sref 就越”漂”——明明是同一张 sref,后期出图却越来越不像最初的风格基准

如果你遇到过——问题可能不在你的 prompt,而在你的 sref 本身。

二、我犯过的错

我做《擦干净》项目时,前期 sref 探索阶段有一个关键产物——一张 Taniguchi 风格的妈妈背影。这张图风格漂亮、主体清晰、是项目里第一张让我满意的人物图。

然后我做了一件当时觉得理所当然、现在看来根本错了的事:

把这张妈妈背影当成”人物视觉锚点”,作为新的 sref 用于跑后续所有人物。

这件事的逻辑听起来无懈可击:

我要的就是这种风格——这张图就是这种风格的最佳代表
那把它当 sref,后续所有人物自然就保持这种风格了

但事实是:用这张妈妈背影做 sref 跑年轻女孩时,sref 完全失效。MJ 跑出来的全是 90 年代欧美胶片少女肖像,和我要的 Taniguchi 风格毫无关系。

我调了三轮 prompt,加关键词、删关键词、换语序,全部无效。

直到我突然意识到一件事——

三、洞察:风格泛化产物 ≠ 风格锚点

这张妈妈背影不是”风格的纯粹形态”。它是”风格 + 妈妈这个具体主体”的混合产物。

它的视觉指纹里同时编码了:

✅ Taniguchi 的线条质感(我想要的)
❌ 一个含蓄的、中年的、东亚女性的、背影姿态(我不想要的污染)
❌ 围裙、发髻、肩膀微弓的具体形态(我不想要的污染)
❌ 含蓄克制的情绪基调(可能不想要的污染)

当我把它当成 sref 跑”年轻女孩举手喊加油”时,MJ 在内部要解决一个矛盾——sref 在告诉它”含蓄的中年女性背影”,prompt 在告诉它”狂热的少女正面”。

矛盾本身不致命,致命的是 MJ 的解决方式: 它会放弃那个权重最弱的部分——也就是 Taniguchi 风格本身。然后跑出”狂热的西方少女正面”——按胶片摄影母题的训练数据来填充。

关键认知: sref 越是”具体主体的成果图”,它的风格信息就越被主体形态稀释。当新 prompt 的主体和 sref 的主体差异过大时,sref 的风格部分会被率先抛弃。

四、什么才是真正的”风格锚点”?

回头看《擦干净》项目里另一张图——一张早期的咖啡杯线条画。

这张图的特殊之处在于: 它是用纯 prompt 跑出来的,没有用任何 sref。它的视觉指纹里只编码了:

✅ Taniguchi 的线条质感
✅ 一个中性的容器形状(咖啡杯)
✅ 大量留白

它没有”特定主体形态”的污染。当我把这张图当 sref,prompt 描述任何新主体时,MJ 没有矛盾要解决——sref 只在告诉它”风格”,主体由 prompt 决定。

结果: 这一个 sref 一次性扛住了所有主体——容器、扁平物件、年轻女性、中老年女性背影,全部以高命中率跑出 Taniguchi 线条画风格。

五、纯净性原则

总结起来就是一条:

风格锚点必须是「纯 prompt 抽卡」的产物,不能是「用其他 sref 跑出来的」产物。

为什么?

因为 sref 的本质是”提取一张图的整体视觉指纹用于迁移”。这个指纹不区分”风格属性”和”主体属性”——它是把整张图的全部视觉特征打包压缩成一个嵌入向量。

如果你的 sref 源图是”风格 + 中性主体”,指纹里风格成分占主导,迁移时风格被保留
如果你的 sref 源图是”风格 + 强烈主体”,指纹里主体成分占主导,迁移时主体特征会污染新生成

而用 sref 跑出来的成果图,本身就是”风格 + 强烈主体”——因为 sref 已经把上一个主体的形态特征注入了。

把这种成果图再做 sref,等于每次都在累积主体污染。第一次:风格 + 主体 A;第二次:风格 + 主体 A + 主体 B;第三次:更糟。

这是一个指数级累积偏差的过程。

六、症状识别

如果你怀疑自己的 sref 是”伪锚点”,这些是常见症状:

特定主体类型反复跑偏,调 prompt 不奏效 → sref 里的主体偏差和新主体冲突
生成图越来越偏离最初的风格基准 → 每次用 sref 跑新主体时都在累积污染
某些 prompt 关键词奇怪地”失灵” → prompt 在和 sref 里编码的主体特征对抗,某一方被牺牲
加新关键词解决一个问题,会引发另一个问题 → 在 sref 已经污染的基础上做修补,治标不治本

七、修复方法

如果发现自己用了”伪锚点”,回滚步骤:

步骤 1: 判断当前 sref 是不是伪锚点

问自己: 这张 sref 图是怎么生成的?

纯 prompt(无 sref)→ 真锚点
用其他 sref 生成的 → 伪锚点

步骤 2: 找回真锚点

回到这个项目最早期、还没有 sref 时,用纯关键词抽卡跑出的某张图——那个就是你的真锚点。

如果当时没有保留——重新用纯关键词抽卡 4-8 次,挑一张风格最对、主体形态最中性(容器、抽象物体、留白多)的作为新 sref 源。

步骤 3: 用真锚点重做体系

用这个真 sref 重新跑你之前那些”反复跑偏”的主体。大概率一次就过——因为这次 sref 没有主体污染,prompt 描述什么主体就跑什么主体。

八、推论:sref 的”形态中性”原则

从纯净性原则可以推出一个实操层面的延伸——

做风格锚点 sref 时,优先选择形态中性的主体:

✅ 优先: 容器(杯、碗、瓶)、抽象物体、几何体、大量留白的画面
⚠️ 谨慎: 具体的人(尤其是有强烈姿态/情绪的)、复杂场景、有强叙事的画面
❌ 避免: 任何已经用其他 sref 跑出来的图

这是因为形态中性的主体,在向量空间里的位置接近”原点”,sref 提取出来的指纹更靠近纯风格;而强烈主体的图,指纹会被主体特征拉偏。

九、这条洞察对工作流的影响

理解了这一条之后,我重新整理了 sref 工作流:

Before (错误工作流)

1. 用关键词抽卡找风格 → 选一张做 sref
2. 用这个 sref 跑出某个主体 A 的图,效果好
3. 把主体 A 的图当成"主体类型 A 的视觉锚点",存档
4. 后续跑主体类型 A 时,用这个新存的 sref
5. 跑主体类型 B 时,再找一个 sref,陷入复杂的 sref 管理

After (纯净工作流)

1. 用关键词抽卡找风格 → 挑选形态中性的图做唯一 sref
2. 这一张 sref + 风格关键词,作为整个项目的固定基底
3. 跑任何主体: [风格关键词] + [中性 sref] + [主体描述]
4. 不论主体如何变化,体系不需要扩展

这套工作流的好处:

✅ 体系简洁,只有一个 sref 要管
✅ 风格一致性最高
✅ 任何主体都能跑,不需要”专项 sref 探索”
✅ 项目可复现性强(整套流程文档化容易)

十、和现有 sref 教程的差别

主流的 sref 教程会教你:

“找一张你喜欢的图,把它做成 sref”
“如果跑得不准,试试更换 sref 或调整 sw 值”
“不同场景用不同的 sref”

这些教程没错,但不够深。它们停留在”如何使用 sref”的层面,没有触及”如何选 sref 源图”。

而选 sref 源图的关键判据,就是这条纯净性原则:这张图是不是”主体污染过的成果图”。

十一、附:适用边界

这条原则不是绝对的——有时候你就是要用某个具体主体的视觉特征:

角色一致性项目(同一个角色在不同场景出现,你需要 sref 锁定主体形态)
特定姿态/构图的批量生成(你需要 sref 锁定姿态)

这些场景下”主体污染”反而是你想要的。

但风格统一类项目——也就是大部分商业/创作场景下”我要这种画风,主体随便”的需求——纯净性原则适用。

判断标准: 你用 sref 是为了锁定”风格”还是”主体”?

锁风格 → 用纯净的 sref
锁主体 → 主体污染是 feature,不是 bug

十二、写在最后

这条原则的发现过程,对我而言是一个意料之外的副产品。

我做项目时本意是用 sref 解决”儿时女神出图风格不统一”的具体问题。结果调了三轮都不行——但每次失败都在逼近问题的本质。

直到第三次失败后,我才意识到我们用错了”锚点”——我们一直把成果图当锚点,而不是把纯净的产物当锚点。

回头看,这是 sref 工作流的一阶错误——一个一般用户用一辈子都不会触及的层面,因为大部分人不会做需要严格风格统一的多主体项目,所以这个偏差永远不会暴露。

但只要你做的项目复杂到一定程度——多主体、多场景、风格强一致性要求——这个错误就会浮现。问题不是 sref 不行,是我们没真正理解 sref 的工作机制。

如果这条洞察能让你少走我走过的弯路,这篇笔记的价值就实现了。

关键术语速查

风格锚点 (style anchor): 用于做 sref 的图。应该是纯 prompt 抽卡产物。
风格泛化产物 (style propagation output): 用 sref 跑出来的成果图。不能用作新 sref。
形态中性 (morphology neutral): 主体形状简单、不含强姿态/情绪的图。容器、抽象物体、几何体属于此类。
指纹污染 (fingerprint contamination): sref 源图里编码的非风格成分(主体形态、姿态、情绪)对生成结果的干扰。

以上为方法论沉淀,可独立发布,可并入《蒙眼剪辑法》方法论笔记 v2 作为第二条核心洞察。

类型/核心方法论