过去几个月,高光时刻的搜索行为呈现出明显的“框架需求”特征。
从实际部署看,这种波动让企业预算预测变得格外棘手。一次运行顺利通过测试,下一次相同issue却可能因弯路导致token激增,准确率不升反降。短期内,开发者需加强单次运行监控,引入早停机制以避免低效路径浪费;长期而言,这推动模型提升token预测能力——当前相关性最高仅0.39,且存在系统性低估。若预测技术无法突破,高波动或将成为AI Agent在复杂工作流中规模化落地的隐形瓶颈。
你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单拉出来一看,输入token却悄无声息地占了大头——这正是大多数团队正在踩的坑,尤其在多轮工具调用和上下文迭代的Agentic流程里。
论文重点剖析了agentic tasks的独特结构。这类任务需要多轮工具调用、代码阅读、补丁生成和测试验证,每一步都会把先前上下文累积进下一轮prompt,导致输入token迅速膨胀。即使启用缓存,上下文管理仍难以完全避免重复开销。输出token虽不可忽视,但整体成本主要由输入驱动。这种“雪球效应”在SWE-bench这类真实仓库级任务中表现尤为明显,简单聊天任务的token规模完全无法与之相比。
在实际部署中,上下文膨胀和无限循环迭代是两大常见痛点。Agent每次读取全量文件或重复工具输出,都会线性推高输入规模。论文强调,即使任务最终成功,失败路径或冗余探索往往消耗数倍资源。值得持续跟踪的是,随着上下文窗口扩大,这种低效是否会自然缓解,还是需要架构层面的优化来根本解决。
这一点目前行业内仍有不同声音。数据清晰指向输入token主导的成本结构,但样本量和任务覆盖仍有局限,值得持续跟踪观察。现在下结论说Agentic Coding必然让开发者账单暴增或许为时尚早,可现实的剪刀差已足够提醒我们:效率提升的背后,经济账单远比想象中棘手。
除了模型间差异,论文还指出人为评定的任务难度与实际 token 消耗仅呈弱相关。这说明人类直觉判断的“复杂程度”,与 Agent 真实执行时的计算努力存在明显脱节。一些看似简单的 Bug 修复,却可能因模型的迭代路径而烧掉巨量 token。这种感知与现实的差距,进一步增加了预算规划的难度,也解释了为什么许多团队在部署后才发现成本远超预期。
最近,一篇arXiv论文首次系统拆解了AI Coding Agent在SWE-bench Verified上的token消耗轨迹。研究团队借助OpenHands框架,追踪了八大前沿LLM在500个真实GitHub issue上的完整执行路径,揭示出agentic任务的token开销远超普通代码推理或聊天场景。输入token而非输出,成为成本主导因素。这比单纯“模型越强越贵”的直觉复杂得多。
上下文膨胀同样是隐形杀手。运行过程中历史对话、工具输出和代码片段不断堆积,输入窗口持续扩大。结合summarization压缩关键决策、引入caching缓存重复文件读取,可显著降低输入token占比。论文中输入token主导成本的发现,正好印证了这种压缩策略的针对性。对于中等规模代码库,先生成架构摘要再让Agent读取,往往比全量输入更经济。
模型间效率差异同样值得注意。在相同任务设定下,部分前沿模型如Kimi-K2或Claude系列与GPT-5相比,token消耗可能多出上百万级别。同时,同一任务多次运行的总token使用随机性极高,有时相差可达数十倍,而token消耗与最终准确率并非严格正相关——中间成本区间往往已能达到较好效果,再增加迭代反而出现饱和。
主流观点仍将 AI Agent 编码视为高效工具,认为它能自动迭代调试、缩短开发周期,甚至部分取代程序员工作。不少试点报告强调,尽管单次 token 费用不低,但长远 ROI 值得期待。媒体报道也多聚焦于输出生成的代码质量,却很少触及过程背后的隐性开支。这种认知盲区,让企业在初步尝试时容易低估真实成本结构。
我的判断是——但这个判断可能需要修正——未来SEO将更加注重可持续性。