演变过程对应的内容,需要适应这种变化,提供更结构化的信息框架。
我的判断是,如果项目涉及公司核心代码或数据隐私要求严格,且AI Agent属于日常高频工具,优先本地开源方案更划算——长期看省下的token费用和安心感价值更高。当然,这取决于具体硬件条件和团队储备,值得持续跟踪,现在下结论为时尚早。数据支持这个方向,但样本量和实际场景仍有局限。
GPT-5在相同任务集上展现出突出的token效率优势,平均比Kimi K2和Claude Sonnet 4.5少消耗150万以上token。即使限定在所有模型都能成功解决的子集上,这一差距依然存在,表明效率差异更多源于模型自身的上下文处理和迭代策略,而非任务内在难度。论文数据支持这样的判断:省token并非单纯牺牲性能,而是在长期运行中直接转化为可观的成本节约。对于预算敏感或需要大规模部署Agent的团队,这一点尤为关键。
许多开发者在接触AI Agent时,容易被SWE-bench等基准上自主完成任务的表现吸引,认为初始代码生成环节效率突出。主流讨论往往聚焦于模型越强大、整体成本就越低,甚至有观点认为复杂任务一次运行可能消耗数百万token。但这种观察多停留在生成阶段表面,忽略了完整开发流程中审查、验证和迭代的累积开销。论文数据表明,单纯看生成,AI Agent看似高效,可一旦进入端到端流程,成本结构就发生了显著偏移。
行业内许多人仍乐观看待AI代理的采用,认为它能显著提升软件工程效率,减少人工干预。可论文揭示的现实远更复杂。代理任务的token消耗往往是普通任务的1000倍左右,而且同一任务不同运行间的波动高达30倍。这种随机性让预算规划变得异常困难,表面上的高效率背后,隐藏着难以捉摸的经济风险。
总体而言,AI编码Agent的迭代循环风险本质上是上下文膨胀与随机性的结合。Reflexion等自纠正机制放大了输入累积效应,却未必带来成比例的收益。开发者若不提前干预,token消耗的不可预测性很容易拖垮整个项目。如何在预算内让Agent“聪明停手”,仍是当前部署实践中一个值得持续关注的开放问题。
arXiv 最新论文《How Do AI Agents Spend Your Money?》系统分析了八个前沿 LLM 在 SWE-bench Verified 上的轨迹,发现 agentic coding 任务的 token 消耗是普通代码聊天或推理任务的 1000 倍左右。主导成本的不是输出 token,而是输入上下文膨胀。同一任务不同运行间消耗可差 30 倍,高消耗并不等于高准确率,准确率往往在中间成本水平就达到峰值。
但论文揭示的轨迹细节表明,这种认知存在明显盲区,很少有人真正追踪每一轮交互中上下文如何膨胀,以及哪些环节真正驱动了费用。
论文进一步指出,token使用具有高度随机性。同一个任务多次运行的总消耗可能相差高达30倍,而且更高的token消耗并不一定带来更高的准确率,准确率往往在中等成本时达到峰值,继续增加投入反而边际收益递减。这意味着单纯追求“多思考”在预算上未必划算。
论文重点拆解了agentic tasks的内在机制:不同于单步问答,AI编码Agent需多轮工具调用、代码阅读、补丁生成与测试验证,每一步上下文都会累积进下一轮,导致输入token迅速膨胀。即使启用缓存,上下文管理仍难以完全避免膨胀效应。输出token虽不可忽视,但整体经济性主要由输入驱动,这与简单推理任务的成本结构形成鲜明对比。
模型间的效率差距同样惊人。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这种系统性差异意味着,单纯依赖人类专家难度标签来选模或预算,很容易导致严重超支或低估高效模型的潜力。开发者若继续沿用传统经验,agent deployment的ROI将面临不确定风险。
演变过程的实际表现,仍需更多企业数据补充。