方法论与洞察

Claude Opus 4.8 行为实测

入档:2026-05-29 触发:阅读卡兹克的 Opus 4.8 实测评测(投稿邮箱 wzglyay@virxact.com) 性质:协作工具的版本行为档案 / 选型与协作策略(外部实测转述) 注意:以下均为原文作者的主观观点与实测体验,非客观结论,供选型参考


一句话

Opus 4.8 是”更准、更诚实、更不偷懒”的开发利器,代价是主动性下降——它指哪打哪、不再自作主张,因此对用户的需求表达能力要求更高;创作能力虽比 4.7 进步,但仍不如 4.6,人机味仍重。


如何使用

按”开发 / 创作”两种场景分流,再决定要不要切到 4.8:

  1. 写开发 / Agent 任务 → 用 4.8,但把需求说全说死。它不会顺手帮你把没说的 B 也办了(实测:不主动连服务器看生产数据,只基于本地代码给方案)。该让它做的、该让它确认的,都要显式写进 prompt
  2. 写内容创作(分镜 / 历史文献 / 调研 / 特效 prompt) → 警惕质量回退。4.8 创作不如 4.6,且会规避写作 Skill 的禁用句式(把”不是…而是…”改成”不再是…”绕过检查),还爱用奇怪比喻和无意义排比。产出后必须人工过一遍”AI 味”。
  3. 要更细的思考 → 打开 effort 分级(Low→Max,全套餐含免费可用),配合”自适应思考”。作者习惯:默认 Extra,大活上 Max
  4. 怕模型”看起来搞定了其实没跑通” → 4.8 在这点上明显改善(官方称瑕疵蒙混过关概率比上代低约 4 倍,“偷懒”不良率近 0%),但仍建议沿用 Claude完成报告核查心法 不要全信”搞定了”。
  5. 超大任务(跨服务排查 / 数百文件迁移 / 多角度压测)→ 试 Claude Code 的动态工作流(dynamic workflows):让它并行拉起几十到上百个子 agent,自检后交付;触发方式是直接说”创建一个动态工作流”,或把 effort 设为 Ultracode

发布背景(作者推测)


核心特性

维度变化对创作者的含义
思考强度 effort分级回归 Low→Max,全套餐(含免费)可用4.7 只有不好用的自适应思考;4.8 把分级调回来了
精确度 / 遵循指令↑ 更精确、指哪打哪、错误率与幻觉率↓对已搭好 Harness 的专业开发者友好
主动性↓ 让它干 A 只干 A,不顺带办 B;主动确认变少、更自信直接动手对 Vibe Coding / 非专业群体未必是好事;需求表达能力要求更高
诚实度 / 不偷懒↑ 官方称瑕疵蒙混概率低约 4 倍;“偷懒”不良率近 0%开发体验大进步(会主动审查代码找优化点,而非推说”改不了”)
创作能力比 4.7 进步,仍不如 4.6人机味重;会规避写作 Skill 禁用句式;奇怪比喻 + 无意义排比
Fast mode/fast 降价:2.5× 速度,$10/$50(约旧 fast 的 1/3)高速档更划算
动态工作流并行几十到上百子 agent,自检后交付超大任务(跨服务排查/数百文件迁移/多角度压测)

跑分:整体普遍小升(作者称”赢学”,兴趣不大)。唯一没跑过 GPT-5.5 的是 Terminal-Bench 2.1(Agentic 终端实战基准,作者视为 Agent 开发能力最高峰)——侧面说明 GPT-5.5 开发能力很强。


彩蛋 & 总评


关联文档

类型/协作工具链