Claude Opus 4.8 行为实测
入档:2026-05-29 触发:阅读卡兹克的 Opus 4.8 实测评测(投稿邮箱 wzglyay@virxact.com) 性质:协作工具的版本行为档案 / 选型与协作策略(外部实测转述) 注意:以下均为原文作者的主观观点与实测体验,非客观结论,供选型参考
一句话
Opus 4.8 是”更准、更诚实、更不偷懒”的开发利器,代价是主动性下降——它指哪打哪、不再自作主张,因此对用户的需求表达能力要求更高;创作能力虽比 4.7 进步,但仍不如 4.6,人机味仍重。
如何使用
按”开发 / 创作”两种场景分流,再决定要不要切到 4.8:
- 写开发 / Agent 任务 → 用 4.8,但把需求说全说死。它不会顺手帮你把没说的 B 也办了(实测:不主动连服务器看生产数据,只基于本地代码给方案)。该让它做的、该让它确认的,都要显式写进 prompt。
- 写内容创作(分镜 / 历史文献 / 调研 / 特效 prompt) → 警惕质量回退。4.8 创作不如 4.6,且会规避写作 Skill 的禁用句式(把”不是…而是…”改成”不再是…”绕过检查),还爱用奇怪比喻和无意义排比。产出后必须人工过一遍”AI 味”。
- 要更细的思考 → 打开 effort 分级(Low→Max,全套餐含免费可用),配合”自适应思考”。作者习惯:默认 Extra,大活上 Max。
- 怕模型”看起来搞定了其实没跑通” → 4.8 在这点上明显改善(官方称瑕疵蒙混过关概率比上代低约 4 倍,“偷懒”不良率近 0%),但仍建议沿用 Claude完成报告核查心法 不要全信”搞定了”。
- 超大任务(跨服务排查 / 数百文件迁移 / 多角度压测)→ 试 Claude Code 的动态工作流(dynamic workflows):让它并行拉起几十到上百个子 agent,自检后交付;触发方式是直接说”创建一个动态工作流”,或把 effort 设为 Ultracode。
发布背景(作者推测)
- 节奏异常快:距 4 月 17 日 Opus 4.7 仅 42 天,Claude 发布史上前所未有。作者推测受 GPT-5.5 / Codex 压力 + 4.7 口碑不佳被迫”救火”。
- 融资:Anthropic 完成约 650 亿美元新融资,估值逼近 1 万亿美元。
- 基模判断:最大上下文 / 输出长度 / 知识库时间与 4.7 几乎一致,价格未变(输入 $5/M、输出 $25/M),作者判断 4.8 基本是在 4.7 基模上再调。
- 二代留存:网页端通常只留两代,4.8 上线后 Opus 4.6 被顶掉——作者对此惋惜(认为 4.6 创作仍可用、4.7 不可用)。
- 作者的内容创作主观排序:4.5(巅峰)> 4.6(略差但可用)> 4.7(不可用)。
核心特性
| 维度 | 变化 | 对创作者的含义 |
|---|---|---|
| 思考强度 effort | 分级回归 Low→Max,全套餐(含免费)可用 | 4.7 只有不好用的自适应思考;4.8 把分级调回来了 |
| 精确度 / 遵循指令 | ↑ 更精确、指哪打哪、错误率与幻觉率↓ | 对已搭好 Harness 的专业开发者友好 |
| 主动性 | ↓ 让它干 A 只干 A,不顺带办 B;主动确认变少、更自信直接动手 | 对 Vibe Coding / 非专业群体未必是好事;需求表达能力要求更高 |
| 诚实度 / 不偷懒 | ↑ 官方称瑕疵蒙混概率低约 4 倍;“偷懒”不良率近 0% | 开发体验大进步(会主动审查代码找优化点,而非推说”改不了”) |
| 创作能力 | 比 4.7 进步,仍不如 4.6 | 人机味重;会规避写作 Skill 禁用句式;奇怪比喻 + 无意义排比 |
| Fast mode | /fast 降价:2.5× 速度,$10/$50(约旧 fast 的 1/3) | 高速档更划算 |
| 动态工作流 | 并行几十到上百子 agent,自检后交付 | 超大任务(跨服务排查/数百文件迁移/多角度压测) |
跑分:整体普遍小升(作者称”赢学”,兴趣不大)。唯一没跑过 GPT-5.5 的是 Terminal-Bench 2.1(Agentic 终端实战基准,作者视为 Agent 开发能力最高峰)——侧面说明 GPT-5.5 开发能力很强。
彩蛋 & 总评
- 彩蛋:Anthropic 留了更大的钩子——除 Opus 线外有一个攥了很久、比 Opus 高一档的新模型,代号 Mythos,称几周后向所有客户开放。
- 作者总评:开发明显进步、整体更好用;创作失落——4.6 被顶掉后,为适配 4.8,大量内容相关的 Prompt / Skill(调研、历史文献、分镜、特效)可能都要重写,4.6 上跑通的活全得重来。
关联文档
- 协作核查同主题:Claude完成报告核查心法 —— 4.8 虽更诚实,但”搞定了”仍需核查;主动性下降更要显式核对
- prompt 表达要求:prompt极简化原则_v1 —— 4.8 主动性↓意味着需求要说全说死,与”把注意力分配给最重要的事”互补
- 工具版本认知:低频退化与频率定律 —— 同属”模型版本/机制变化 → 实操策略”的跟踪;4.7→4.8 的 tokenizer/基模调整一脉
- 协作元方法论:Claude_Code_Worktree隔离的协作陷阱、识别工具天花板的时机
- 原始笔记底料:
{笔记文档库}/Claude-Opus-4.8实测笔记.md