方法论与洞察

低频退化与频率定律

入档：2026-05-29 触发：阅读《DiT 之于 Sora，频率定律之于什么？》+ 马嘉祺事件出圈性质：AI 行为机制 → prompt 工程的认知级反思（外部理论笔记）关联：prompt极简化原则_v1（本篇是它的”理论解释”，那篇是经验验证）

一句话

大模型不一定更擅长理解最准确的表达，而更擅长理解它见过最多次的表达。 频率（token / 词 / 句 / 数据分布）可能是被严重低估的隐变量——这条认知反过来改写 prompt 工程的方向：不是写得更复杂，而是写得更高频。

写 prompt（任何生成式 AI，含 MJ / Suno / Claude / 翻译）卡住、或想”再精确一点”时，先问：

我是不是在用低频学术腔（生僻词、复杂句式、本体论式表达）去逼模型？换成高频自然口语会不会更准？
我要让模型输出的关键信息里，有没有低频实体（小众人名、冷门型号、生造词）？如果有，模型可能”知道却说不出”——需要在上下文里补词典/补说明（Dictionary-based Prompting）来兜底。
同一个意思有没有更高频的说法？语义相同时，高频表达的正确率系统性更高。

口诀：「写得更高频」优先于「写得更复杂」。这与 prompt极简化原则_v1 的经验结论（砍词反而更准）是同一件事的两个面——极简化之所以有效，部分原因正是它更贴近高频自然语料。

马嘉祺事件是公众第一次大规模感知到的样本：模型能准确描述某偶像的履历、综艺、团内定位，却稳定输出错误的名字（马嘉棋 / 马佳琪 / 马琪琪），反复要求也纠不过来。

机制解释：

这不是”不知道”，是”表达通道退化”。任何低频实体（冷门人名、专业型号、生僻地名）都可能踩中。

时间	事件	贡献
2025	FaceMind《SLoW》(EMNLP 主会)	首次系统研究：大模型对低频词存在系统性劣势
2026.04	FaceMind《Adam’s Law》(ACL 2026 Oral)	提出 Textual Frequency Law（文本频率定律），把频率问题从”词”扩展到”句”
2026.04	Anthropic 发布 Claude Opus 4.7	启用新 Tokenizer（token 数增加、词表重组），社区认为意在缓解低频退化
2026.05	马嘉祺事件出圈	公众首次广泛认识”模型真的会忘记低频词”

两条线（FaceMind = 学术验证 / Anthropic = 工程验证）虽无公开合作，但走向同一结论：频率分布确实影响模型性能。

核心：给模型增加频率感知能力。做法是 Dictionary-based Prompting——在 prompt 里自动补充词典信息 / 低频词说明 / 频率辅助知识。

特点：不改模型、不训练、即插即用。适用翻译、理解任务、多语言场景。

一句话：句子出现频率越高，模型表现越好（语义相同时）。

举例（语义相同，频率不同）：

低频：请阐释该命题的本体论基础
高频：请解释这个观点为什么成立      ← 后者更容易得到正确回答

文章引用实验，仅靠改写问题表达方式（不改模型、不改数据）即获得提升：

DeepSeek-V3 :  63.55%  →  71.54%
Llama 3.3 70B:  80.49%  →  88.75%

影响范围覆盖：数学推理 / 常识推理 / Agent 工具调用 / 多语言翻译。若数据可信，增益相当惊人。

最有价值的不是”解决马嘉祺三个字”，而是提出一个新观察视角：

模型并不是在理解语言本身，而是在理解语言的统计分布。

由此可重新解释很多 prompt 技巧、Agent 优化、数据工程实践。过去大家盯着参数量、token 长度、数据量、上下文窗口；频率（token 频 / 词频 / 句频 / 数据分布频）可能同样是一等隐变量。

对 prompt 工程的演化方向：也许不是「写得更复杂」，而是「写得更高频」——这比单个提示词技巧更像一条值得长期跟踪的研究线索。

类型/协作工具链