多家权威来源的报告指出,品牌信号在部分垂直领域的权重已超过传统外链。
arXiv上这篇题为“How Do AI Agents Spend Your Money?”的最新论文,给出了系统性的实证数据。研究团队分析了八个前沿LLM在SWE-bench Verified上的完整轨迹,这是目前评估AI软件工程Agent的权威基准。结果显示,Agentic编码任务的token消耗是普通代码推理或代码聊天的1000倍左右,而主导成本的正是输入token,而不是输出token。
许多开发者在初次尝试 AI Agent 时,往往被其在 SWE-bench 等基准上的自主完成能力吸引,认为初始代码生成环节效率极高。主流讨论也倾向于把焦点放在模型能力升级能否直接降低费用上,网上不时出现“一次复杂任务就烧掉百万 token”的吐槽。但这些观察大多停留在表面生成阶段,忽略了完整开发流程中审查、调试和反复迭代带来的隐性开支。
开发者圈子里长期默认一个直觉:任务越复杂,AI Agent就该烧越多token。社区讨论agentic任务时,也常强调其整体成本比普通聊天或单步推理高出上千倍,却很少有人去拆解内部变异。媒体报道多停留在“代理工具很贵”这个层面,忽略了随机性和模型间效率的巨大差异。大家习惯用人类写代码的经验来预估预算,认为逻辑绕、调试多的任务自然更费钱,但这一假设在真实运行中经常站不住脚。
最近一篇arXiv论文将AI Agent在agentic software engineering中的token消耗分布清晰呈现出来。研究基于ChatDev框架和GPT-5模型,对30个软件开发任务的执行轨迹进行分析,发现代码审查阶段平均占据59.4%的总token,成为整个SDLC流程中最主要的成本驱动因素。这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,凸显出多代理协作中的“通信税”现象。
agentic coding的token使用模式呈现出极强的随机性。同一任务在不同运行中,消耗差异可达30倍左右,而高token投入并不必然带来更高准确率——论文数据显示准确率往往在中级成本区间就已接近峰值,继续追加资源反而出现收益递减。模型间效率差距同样显著,某些前沿模型在相同子任务上比基准模型多耗百万级token,即便任务本身难度不高。这种现象说明,开发者凭直觉判断“越强模型越省钱”的认知,可能需要调整。
上下文膨胀同样是隐形杀手。运行过程中历史对话、工具输出和代码片段不断堆积,输入窗口持续扩大。结合summarization压缩关键决策、引入caching缓存重复文件读取,可显著降低输入token占比。论文中输入token主导成本的发现,正好印证了这种压缩策略的针对性。对于中等规模代码库,先生成架构摘要再让Agent读取,往往比全量输入更经济。
最近,一篇arXiv论文把Agentic Coding的真实成本问题推到台前:AI代理在编码任务中的token消耗,竟然是普通代码聊天或单轮推理任务的约1000倍,主要由输入token驱动。这不是简单夸大,而是基于SWE-bench Verified基准对八款前沿模型轨迹的系统分析。输入token主导了整体开销,输出生成反而退居次席,这让许多开发者在实际落地时面临隐形账单膨胀的风险。
同一任务下,不同运行的token消耗差异可达30倍,这种随机性远超预期。更反直觉的是,高token消耗并不必然对应高准确率,准确率往往在中间成本区间达到峰值,继续堆token后边际效应迅速递减。Agent的表现就像一个偶尔绕远路的司机,多走几圈未必更快抵达,还白白增加了油耗。
从机制上看,代码审查阶段的高消耗本质源于其高度上下文依赖的对话性质。Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析和反馈,每次交互都重载大量信息,从而形成持续的输入累积。论文将此描述为“对话成本”,并指出这是当前多代理架构的固有特征,而非单纯模型能力问题。优化方向或许在于减少不必要的上下文重复,而非一味追求更强模型。
就像开车时以为油耗稳定,结果每次路况变化都带来意外差异。AI Agent 的成本不是简单线性增长,而是受迭代循环和通信税支配的非线性过程。
策略汇总的变化趋势,目前行业内看法并不完全一致。