方法论与洞察

低频退化与频率定律

入档:2026-05-29 触发:阅读《DiT 之于 Sora,频率定律之于什么?》+ 马嘉祺事件出圈 性质:AI 行为机制 → prompt 工程的认知级反思(外部理论笔记) 关联:prompt极简化原则_v1(本篇是它的”理论解释”,那篇是经验验证)


一句话

大模型不一定更擅长理解最准确的表达,而更擅长理解它见过最多次的表达。 频率(token / 词 / 句 / 数据分布)可能是被严重低估的隐变量——这条认知反过来改写 prompt 工程的方向:不是写得更复杂,而是写得更高频。


如何使用

写 prompt(任何生成式 AI,含 MJ / Suno / Claude / 翻译)卡住、或想”再精确一点”时,先问:

  1. 我是不是在用低频学术腔(生僻词、复杂句式、本体论式表达)去逼模型?换成高频自然口语会不会更准?
  2. 我要让模型输出的关键信息里,有没有低频实体(小众人名、冷门型号、生造词)?如果有,模型可能”知道却说不出”——需要在上下文里补词典/补说明(Dictionary-based Prompting)来兜底。
  3. 同一个意思有没有更高频的说法?语义相同时,高频表达的正确率系统性更高。

口诀:「写得更高频」优先于「写得更复杂」。这与 prompt极简化原则_v1 的经验结论(砍词反而更准)是同一件事的两个面——极简化之所以有效,部分原因正是它更贴近高频自然语料。


现象:低频 Token 退化(Low-frequency Token Degradation)

马嘉祺事件是公众第一次大规模感知到的样本:模型能准确描述某偶像的履历、综艺、团内定位,却稳定输出错误的名字(马嘉棋 / 马佳琪 / 马琪琪),反复要求也纠不过来。

机制解释:

这不是”不知道”,是”表达通道退化”。任何低频实体(冷门人名、专业型号、生僻地名)都可能踩中。


时间线:从词级到句级

时间事件贡献
2025FaceMind《SLoW》(EMNLP 主会)首次系统研究:大模型对低频词存在系统性劣势
2026.04FaceMind《Adam’s Law》(ACL 2026 Oral)提出 Textual Frequency Law(文本频率定律),把频率问题从”词”扩展到”句”
2026.04Anthropic 发布 Claude Opus 4.7启用新 Tokenizer(token 数增加、词表重组),社区认为意在缓解低频退化
2026.05马嘉祺事件出圈公众首次广泛认识”模型真的会忘记低频词”

两条线(FaceMind = 学术验证 / Anthropic = 工程验证)虽无公开合作,但走向同一结论:频率分布确实影响模型性能。


两套解法

SLoW —— 词级别(Prompt Engineering 路线)

核心:给模型增加频率感知能力。做法是 Dictionary-based Prompting——在 prompt 里自动补充词典信息 / 低频词说明 / 频率辅助知识。

特点:不改模型、不训练、即插即用。适用翻译、理解任务、多语言场景。

Adam’s Law / TFL —— 句级别(最有价值的部分)

一句话:句子出现频率越高,模型表现越好(语义相同时)。

举例(语义相同,频率不同):

低频:请阐释该命题的本体论基础
高频:请解释这个观点为什么成立      ← 后者更容易得到正确回答

文章引用实验,仅靠改写问题表达方式(不改模型、不改数据)即获得提升:

DeepSeek-V3 :  63.55%  →  71.54%
Llama 3.3 70B:  80.49%  →  88.75%

影响范围覆盖:数学推理 / 常识推理 / Agent 工具调用 / 多语言翻译。若数据可信,增益相当惊人。


我真正认同的(抛开商业宣传)

最有价值的不是”解决马嘉祺三个字”,而是提出一个新观察视角

模型并不是在理解语言本身,而是在理解语言的统计分布

由此可重新解释很多 prompt 技巧、Agent 优化、数据工程实践。过去大家盯着参数量、token 长度、数据量、上下文窗口;频率(token 频 / 词频 / 句频 / 数据分布频)可能同样是一等隐变量。

对 prompt 工程的演化方向:也许不是「写得更复杂」,而是「写得更高频」——这比单个提示词技巧更像一条值得长期跟踪的研究线索。


关联文档

类型/协作工具链