但实际操作中,内容质量和用户行为信号的权重似乎在逐渐加大。
三个具体变更叠加后,问题表现得随机且难以复现,这也是早期内部调查未能快速对上的主因。3月4日,默认推理努力从中 high 降为 medium,目的是减少高模式下的极端延迟,避免UI看起来卡死;3月26日的缓存优化本意是清理闲置会话的旧思考记录,却因bug导致每轮交互都清除推理历史,使模型显得格外健忘;4月16日新增的系统提示长度限制,进一步让编码质量评估下降约3%。
第三个变更是系统提示verbosity的减少。4月16日,为即将推出的Opus 4.7模型引入的提示调整,明确要求工具调用间文字不超过25词、最终响应不超过100词(除非任务确需更多细节)。这一限制旨在控制token使用并降低啰嗦感,但在编码场景中直接压缩了思考深度和输出细节。Anthropic内部消融测试显示,它导致Opus 4.6和4.7在相关评估中性能下降约3%。
第三个变更在 4 月 16 日推出:为减少 Opus 4.7 的 verbosity,在系统提示中加入长度限制,要求工具调用间文本不超过 25 词、最终响应不超过 100 词。这一调整本为优化输出冗长,却在叠加前两个变更后,对编码任务产生可衡量的伤害。内部 ablation 测试显示,在 Opus 4.6 和 4.7 上相关 eval 分数下降约 3%,变更已在 4 月 20 日随 v2.1.116 版本回滚。
Claude Code 质量下滑事件最近在开发者社区引发了广泛讨论。从3月初开始,大量用户在 Hacker News、Reddit 和 GitHub 上反映代码生成能力明显减弱、推理过程不连贯、重复输出增多,甚至复杂工程任务频繁出错。
Hacker News 等社区的讨论中,不少开发者用“gaslighting”描述公司初期回应的倾向,有人分享复杂工程任务中模型忽略项目惯例、幻觉加剧的具体案例。表面上看,这是一次典型的“Bug修复”故事,媒体和社区多将其归为AI工具迭代的阵痛。但仔细观察,主流吐槽更多停留在质量下滑本身,却较少触及为什么用户反馈响应滞后,以及初期为何优先强调“未发现明显退化”而非主动深挖真实体验差异。
类似拉扯在过去AI产品迭代中反复出现,核心在于用户真正想要的是“默认聪明,必要时选快”,而非反过来先给一个快的默认再让大家找回深度。
反之,若Anthropic切实落实承诺——包括加强@ClaudeDevs账号分享决策、在GitHub集中更新、增加公共构建比例等——或许能成为正面标杆。这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论为时尚早。
最近不少开发者在使用Claude Code时发现,代码生成质量出现明显波动。模型有时会遗忘上下文、重复输出,或在复杂任务中途崩溃。Anthropic于4月23日发布的postmortem报告指出,这些问题并非底层模型退化,而是Claude Code和Agent SDK harness层面的三个变更叠加所致。这暴露了大模型产品迭代中,用户实际配置与内部测试匹配度不足的隐形风险。
Claude Code事件清晰表明,AI编码工具的可靠度已超越模型本身,必须建立在透明、可审计的harness与prompt治理之上,否则再先进的推理能力也可能因工程小调而失准。
月23日,Anthropic 发布了一篇罕见的工程 postmortem,承认过去一个多月 Claude Code 在开发者社区引发了大量不满。Hacker News、Reddit 和 X 上,用户反复吐槽工具“变笨”、上下文遗忘严重、token 消耗异常加速。官方调查后确认,这是三个产品层变更叠加所致,已于4月20日在 v2.1.116 版本中全部修复,并同步重置所有订阅者的使用限制。
SEO资讯站认为,表面数据掩盖了深层矛盾。