行业观察显示,怎么找1元1分红中麻将群高排名页面的共同特征是信息密度适中且判断明确。
第三个变更是系统提示verbosity的减少。4月16日为即将推出的Opus 4.7引入的新提示,要求工具调用间文字不超过25词、最终响应不超过100词(除非任务确需更多细节)。这一限制在内部评估中看似可控,却在编码场景下压缩了思考深度和输出细节,Anthropic消融测试显示它导致Opus 4.6和4.7性能下降约3%。4月20日该提示回滚,所有问题在v2.1.116版本彻底解决。
这些调整虽在 4 月 20 日前后修复,但期间生成的代码质量波动已超出单纯“用着不顺手”的范畴,直接放大了 AI 生成代码的安全隐患,尤其在 Claude Code 安全编码场景下。
Hacker News 和 Reddit 上开发者吐槽集中于代码重复、上下文遗忘和响应变短,有人描述原本一气呵成的复杂任务现在需多次迭代补救。主流媒体跟进时多聚焦“用着不顺手”的用户体验,却少有人注意到质量下滑窗口内,AI 生成代码的漏洞引入率实际在上升。这一盲区让许多团队低估了问题严重性,以为只是临时不便。
深入 Anthropic 公开的细节,三处 harness 变更的累积影响清晰可见。3月4日,为缓解 high 模式下 UI 长延迟问题,默认 reasoning effort 从 high 调整为 medium,本意提升响应速度,却让复杂编码任务的智能深度明显打折;
深入拆解,这三个变更各自有清晰的技术逻辑。第一个是默认推理努力的调整:3月4日,Anthropic将Sonnet 4.6和Opus 4.6的默认推理努力从high降至medium,目的是缓解high模式下复杂任务导致的UI冻结和较高token消耗。medium努力确实降低了延迟,却在复杂编码任务上牺牲了部分智能深度。多数用户未主动切换更高模式,4月7日该变更回滚,大部分模型恢复high,Opus 4.7甚至设为xhigh。
Claude的1M上下文能力,本来在大型代码库的多文件重构中展现出独特优势。它能一次性加载跨文件依赖关系,维持长会话中的全局一致性理解,减少开发者手动拆分上下文的麻烦。可这次bug让优势转为双刃剑:长idle后全量重算引发token爆炸,有效的高质量上下文远低于宣称的1M,实际可用的一致性理解大打折扣。
深挖技术机制,Anthropic 原计划仅在会话闲置超过1小时后,用 clear_thinking header 配合 keep:1 参数清理旧思考块,以提升缓存命中率和响应速度。但 bug 让这个逻辑在后续所有 turn 中持续触发,甚至在中途工具调用时也会丢弃当前推理路径。结果是模型继续执行任务,却越来越不记得初始决策意图,重复工作和效率断崖式下降接踵而至。这个逻辑成立,但现实更复杂。
早期用户在HN和Reddit上的反馈从“突然逻辑浅显”到“重复步骤耗费加剧”不一,内部复现难度较高,曾引发部分“gaslighting”争议,但报告整体体现了较高透明度。
反之,若 Anthropic 落实新承诺,如创建 @ClaudeDevs 账号、加强 GitHub 更新和渐进 rollout,或许能成为正面标杆。
这一点目前行业内仍有不同声音。数据支持质量下滑与漏洞率上升的关联,但样本量和测试场景仍有局限,值得持续跟踪,现在下结论为时尚早。
% 和 10% 的对比,足以说明规模化仍是主要瓶颈。