方法论与洞察

AI 图像生成审核机制探索笔记

测试对象:GPT 4o 图形模型 + Midjourney v6/v7 + Niji 7 测试方式:梯度 prompt + 控制变量 笔记定位:机制层观察,非 prompt 模板集


一、核心发现总览

今晚最值得记的不是任何一张图,而是一份审核机制图谱。AI 图像生成的审核不是单一过滤器,而是一个多层级、动态化、对账号自适应的系统

至少存在四种独立机制,分布在两个层面:

关卡所在层面触发条件是否动态
1. Prompt 浓度阈值(软警告)入口prompt 词向量聚合超阈值
2. Prompt 硬拒入口prompt 浓度极高
3. Image 端概率拦截出口出图过程中某帧浓度超阈值
4. Personalize 私货注入模型先验用户偏好向量蒸馏出的签名构图静态(一旦训成)

二、机制详述

2.1 浓度阈值机制(不是元素黑名单)

最早在 GPT 4o 上观察到的机制,也是整个图谱的基石。

关键认识: Scanner 看的不是关键词清单,是词向量的语义聚合密度。当一段 prompt 里所有词的语义重心都聚集到同一个区域,scanner 给出的”意图分数”会爆表,不管单个词是否合法。

2.2 三层审核关卡(MJ 端)

MJ 不是一个 scanner,是三个串联的关卡:

prompt 浓度软警告 → prompt 浓度硬拒 → 出图 → image 浓度概率销毁

MJ 不扣 fast hours 这件事的潜台词:因为概率销毁对用户而言是不可预测的,扣费会引发申诉,所以这是一个对”机制本身有方差”的产品级承认。

2.3 Image 端 Scanner 是概率性的

关键证据: 同一条 prompt + 同一个 personalize,连续跑:

同一段 prompt,每次出图过程中模型走不同随机种子,画出来的图在”擦边浓度”上有方差:

2.4 动态阈值(今晚最反直觉的发现)

MJ 的 image-side scanner 判定阈值是动态的,受会话/账号近期上下文影响。

实验证据链:

  1. B2 早期测试:过审正常出图
  2. 中期相似 prompt(D3b):直接硬拒
  3. 删词验证(D3b’):仍硬拒
  4. 重提 D3b 原版:仍硬拒
  5. 重提 B2 原版(一字不改):能执行,但拦截率从早期跳到 7 过 2

这只可能由”账号近期上下文”解释。 单条 prompt 没变,但用户的”近期 prompt 浓度上下文”已经被系统记录并提高了判定门槛。

可能的实现机制(外部无法证实哪种):

实际产品意义:


三、Personalize 机制独立观察

3.1 黑盒诱导属性

MJ 的 personalize 通过 ranking pairs 流程训练:用户在 N 对图里持续点选偏好。用户以为自己在做的事和模型实际记下来的事是不同的:

用户的”觉得好看”是混合信号,里面叠了多层。真正被模型蒸馏出来的那层,往往是用户自己没意识到的偏好维度。 这就是 personalize 的”暴露用户”属性。

3.2 Personalize 是入口端的免审通道,不是全链路免审

也就是说,personalize 让你的 prompt 看起来更干净,但出图本身可能更危险。

3.3 Personalize 的”词典容量”是有限的

实验观察(B 系列):当输入 personalize 训练样本里没有的新概念(如 midriff cutoutshoulder cutouts),personalize 不会学新东西——它会把新概念重映射到它已经熟悉的几个签名构图。

典型签名词汇族(基于本次 personalize):

无论 prompt 怎么变,personalize 反复变着花样把输出卷回这几个区域。

3.4 Personalize 的”自我保护”行为

实验观察(A2):当 prompt 要求一个 personalize 训练样本里不熟悉的组合(如”跨坐 + 俯视”,过于贴近显式支配语义),personalize 会主动回退——保留它熟悉的部分(跨坐姿态),丢弃它不熟悉的部分(俯视镜头)。

这是 personalize 在做默认值回落:不是它不懂,是它训练样本里这个组合被用户隐性筛掉了。

3.5 Niji 6 personalize 的”活动题重映射”风险(2026-06-06 追加)

触发案例:快手官方图文活动《看看风景放松心情》,用户用 niji 6 默认开启 personalize 生成 3:4 风景自拍图集。

显性 prompt 目标:

实际输出倾向:

机制判断:

这不是单一关键词触发,而是 personalize 私货注入的组合效应。close-up selfiecasual outfitwindbreaker slipping off one shouldersoft light 等词本身都可以合法,但在已经偏向近脸 / 女性身体曲线 / 暖昧光线的 personalize 上,会被重映射为更高浓度的擦边构图。

操作含义:

验证状态:首次发现 / 强疑似。需要同 prompt 开 personalize vs 关 personalize 各跑 4 张后再升级为稳定规律。


四、Prompt Craft 心法(机制层)

4.1 单条 prompt 的优化方向

核心心法(之前总结过的):不用焦点词,改用机制描述语汇——

类型替代写法
形态描述athletic feminine figure
剪裁描述form-fitting bodysuit / high-cut leotard with deep hip cutaway
光线描述rim lighting tracing silhouette
姿态描述hand on cocked hip
铠甲设计armor sculpted to figure

新增的稀释心法(今晚 B 系列发现):

Image 端 scanner 看到的不是”裸露 vs 不裸露”的二元判断,而是画面元素加权

铠甲细节越密、装饰元素越多、画面非身体物件越多,“擦边浓度”在图像感知上就被稀释。

实操上的反直觉结论:铠甲面积大的高叉 leotard 比铠甲面积小的 bikini armor 更容易过审——尽管直觉上 bikini 看起来”更克制”。

4.2 跨条 prompt 的节奏管理

单条 prompt 内部追求最优 craft,但跨条 prompt 追求节奏:

这两个层面的优化策略是相反的,必须分开思考。


五、Niji 7 vs MJ v6 反直觉发现

重要结论:personalize 是 v6 的资产,无法直接迁移到 v7 / niji 7。 切换模型版本就丢失了 personalize 的私货库,要重头训。


六、跨机制综合图谱

[用户输入 prompt]

[Prompt 端 scanner: 词向量聚合]

   ┌────┴────┐
   ↓         ↓
[硬拒]   [通过/软警告]

        [Personalize 注入私货]

        [出图过程]

   [Image 端 scanner: 视觉浓度判定]

   ┌────┴────┐
   ↓         ↓
[销毁]   [输出]

每一层的判定阈值都受【账号近期上下文】影响,呈动态调整。

七、伦理与边界自检

本次测试遵循的边界,记录下来作为后续工作的基线。

测试模式必须是观察者模式而非博弈者模式——失败是有效输出,结果是数据,不是要赢的东西。


笔记日期:2026-05-03 测试模式:纯探索 / 玩耍模式

类型/档案