抗压技巧的优化逻辑,正在从单一指标转向整体平衡。
论文的核心发现直指这一盲区。同一任务不同运行轨迹的token消耗可相差高达30倍,输入token而非输出token才是成本主导因素。准确率往往在中等token区间达到峰值,继续增加消耗反而出现饱和甚至无明显提升。模型间差距同样惊人,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多耗超过150万token。
你是不是也遇到过这样的情况:用 AI Coding Agent 跑一个 SWE-bench 任务,本以为几块钱就能搞定,结果账单显示上百万 token 消耗,成本轻松破百元。任务越复杂,token 用量就越不可控,跑几次下来,小团队的预算直接心疼。
不同模型在token效率上的差距同样显著。在相同任务集上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这一差异在批量部署或生产环境中会迅速放大。GPT-5展现出相对出色的token经济性,而其他模型虽在特定能力上突出,却承担了更高的“油耗”。选择模型时,仅看基准准确率已不足够,必须将token效率纳入决策框架。
行业里讨论AI Agent成本时,目光常落在模型单价和输出token上。很多人认为只要控制生成长度,就能有效省钱。论坛和开发者社区也反复提到,Agent虽能处理真实GitHub issue级复杂编码,但单次运行费用难以预估,预算像失控一样波动。这些观察有道理,却忽略了运行间巨大的随机波动,以及“多花token未必带来更好准确率”的实证盲区。
大多数开发者目前聚焦于代理在SWE-bench等基准上的亮眼表现。顶级系统已能在软件工程任务中展现较强自主性,主流观点认为引入Agentic Coding就能减少人力投入,让AI像资深工程师一样处理真实项目。这一点确实有数据支撑——代理通过多轮工具调用和上下文迭代,超越了一次性问答的局限。然而,很少有人注意到伴随而来的token开销激增,以及这种开销的极高随机性。
值得持续跟踪的是,如果上下文优化、缓存机制和更高效模型得到普及,成本控制或将比预期乐观;反之,多代理协作中的通信税若长期未解,规模化ROI的落地时间则可能延后。数据支持这个方向,但样本量有限,现在下结论为时尚早。
这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,远高于输出token。表面上AI Agent能自主完成SWE-bench任务显得高效,但实际成本结构比想象中复杂得多。
但论文揭示的盲区值得重视。同一任务不同运行的token消耗差异可高达30倍,这种随机性远超线性预期;输入token在整体开销中占据主导,这与简单聊天任务形成鲜明对比;此外,前沿模型预测自身消耗的能力较弱,相关性最高仅0.39,且存在系统性低估。这让预算规划变得格外棘手,如果仅依赖公开基准,实际落地时的开销很容易被低估。
此外,前沿模型预测自身token消耗的能力仍较薄弱。论文数据显示,预测值与实际消耗的相关性最高仅0.39,且存在系统性低估。这让开发者在启动任务前难以准确预判开支,预算控制变得充满不确定性。短期内,这可能让中小团队对大规模部署Agentic Coding保持谨慎;长期来看,它或将推动行业向更token-efficient的架构演进,例如优化上下文管理或引入专用成本预测工具。但如果缓存与压缩技术未能快速突破,使用门槛或许会显著抬高。
常见 token 浪费陷阱之一是无限循环迭代。Agent 在尝试修复方案时容易反复读取相似上下文,每次迭代都重新计费。实操中,建议在框架里设置单任务 token 预算上限,一旦接近就强制记录中间检查点并中断。下次从检查点继续,能有效避免从零重跑。对于小规模任务,优先用 GPT-5 类高效模型执行;复杂任务则先用轻量模型规划,再切换主力模型。
% 和 7% 的剪刀差说明一切,盲目跟进往往付出更高代价。