低频退化与频率定律
入档:2026-05-29 触发:阅读《DiT 之于 Sora,频率定律之于什么?》+ 马嘉祺事件出圈 性质:AI 行为机制 → prompt 工程的认知级反思(外部理论笔记) 关联:prompt极简化原则_v1(本篇是它的”理论解释”,那篇是经验验证)
一句话
大模型不一定更擅长理解最准确的表达,而更擅长理解它见过最多次的表达。 频率(token / 词 / 句 / 数据分布)可能是被严重低估的隐变量——这条认知反过来改写 prompt 工程的方向:不是写得更复杂,而是写得更高频。
如何使用
写 prompt(任何生成式 AI,含 MJ / Suno / Claude / 翻译)卡住、或想”再精确一点”时,先问:
- 我是不是在用低频学术腔(生僻词、复杂句式、本体论式表达)去逼模型?换成高频自然口语会不会更准?
- 我要让模型输出的关键信息里,有没有低频实体(小众人名、冷门型号、生造词)?如果有,模型可能”知道却说不出”——需要在上下文里补词典/补说明(Dictionary-based Prompting)来兜底。
- 同一个意思有没有更高频的说法?语义相同时,高频表达的正确率系统性更高。
口诀:「写得更高频」优先于「写得更复杂」。这与 prompt极简化原则_v1 的经验结论(砍词反而更准)是同一件事的两个面——极简化之所以有效,部分原因正是它更贴近高频自然语料。
现象:低频 Token 退化(Low-frequency Token Degradation)
马嘉祺事件是公众第一次大规模感知到的样本:模型能准确描述某偶像的履历、综艺、团内定位,却稳定输出错误的名字(马嘉棋 / 马佳琪 / 马琪琪),反复要求也纠不过来。
机制解释:
- 预训练阶段:「马嘉祺」作为独立 token 出现频率足够高 → 模型学到了这个人的身份、知识、上下文关系。
- SFT(监督微调)阶段:高质量对话数据里几乎不出现偶像名字 → 相关 token 权重逐渐漂移。
- 结果:「知道这个人」≠「说得出这个名字」。知识被保留,表达退化了。
这不是”不知道”,是”表达通道退化”。任何低频实体(冷门人名、专业型号、生僻地名)都可能踩中。
时间线:从词级到句级
| 时间 | 事件 | 贡献 |
|---|---|---|
| 2025 | FaceMind《SLoW》(EMNLP 主会) | 首次系统研究:大模型对低频词存在系统性劣势 |
| 2026.04 | FaceMind《Adam’s Law》(ACL 2026 Oral) | 提出 Textual Frequency Law(文本频率定律),把频率问题从”词”扩展到”句” |
| 2026.04 | Anthropic 发布 Claude Opus 4.7 | 启用新 Tokenizer(token 数增加、词表重组),社区认为意在缓解低频退化 |
| 2026.05 | 马嘉祺事件出圈 | 公众首次广泛认识”模型真的会忘记低频词” |
两条线(FaceMind = 学术验证 / Anthropic = 工程验证)虽无公开合作,但走向同一结论:频率分布确实影响模型性能。
两套解法
SLoW —— 词级别(Prompt Engineering 路线)
核心:给模型增加频率感知能力。做法是 Dictionary-based Prompting——在 prompt 里自动补充词典信息 / 低频词说明 / 频率辅助知识。
特点:不改模型、不训练、即插即用。适用翻译、理解任务、多语言场景。
Adam’s Law / TFL —— 句级别(最有价值的部分)
一句话:句子出现频率越高,模型表现越好(语义相同时)。
举例(语义相同,频率不同):
低频:请阐释该命题的本体论基础
高频:请解释这个观点为什么成立 ← 后者更容易得到正确回答
文章引用实验,仅靠改写问题表达方式(不改模型、不改数据)即获得提升:
DeepSeek-V3 : 63.55% → 71.54%
Llama 3.3 70B: 80.49% → 88.75%
影响范围覆盖:数学推理 / 常识推理 / Agent 工具调用 / 多语言翻译。若数据可信,增益相当惊人。
我真正认同的(抛开商业宣传)
最有价值的不是”解决马嘉祺三个字”,而是提出一个新观察视角:
模型并不是在理解语言本身,而是在理解语言的统计分布。
由此可重新解释很多 prompt 技巧、Agent 优化、数据工程实践。过去大家盯着参数量、token 长度、数据量、上下文窗口;频率(token 频 / 词频 / 句频 / 数据分布频)可能同样是一等隐变量。
对 prompt 工程的演化方向:也许不是「写得更复杂」,而是「写得更高频」——这比单个提示词技巧更像一条值得长期跟踪的研究线索。
关联文档
- 经验对应:prompt极简化原则_v1 —— “砍词反而更准”的工程事实,本篇提供其频率层面的理论解释
- 工具行为类比:AI图像生成审核机制探索笔记 —— 同属”模型内部机制 → 实操策略”的反推路径
- 战略反思同源:好流量是好作品的产物_v3.1反思 —— 都是”别被表象/复杂度裹挟,回到底层规律”的认知反思
- 原始笔记底料:
{笔记文档库}/从「马嘉祺事件」到频率定律:关于大模型低频退化问题的思考.md