AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
作者信息
作者:资讯整理员
简介:热点采编人员主要面向主要面向同话题内容池建设,负责资讯页面维护、页面摘要整理和基础内容复核,偏向把复杂信息拆成易读段落,并根据当期话题做差异化补充。
发布时间:2026-04-28 05:12:32
文章热度
这比单纯追求搜索引擎可见度或关键词匹配度,更接近搜索生态和商业转化的本质逻辑。
论文数据揭示了软件开发生命周期各阶段token分布的显著不均衡。代码审查不仅占比最高,其输入token比例也达到51.4%,远高于输出24.7%,因为Agent需要反复注入已有代码、上下文和历史修改进行分析。相比之下,编码阶段输出token占比更高,符合生成新内容的直观逻辑。这种阶段性差异说明,单纯追求更强模型未必能线性降低成本。
人类专家评定的任务难度与实际token消耗只有弱相关。一些看似复杂的issue,Agent可能很快找到路径;而某些简单修复却让Agent陷入长时间试错循环,token消耗远超预期。这暴露了当前Agent的思考路径与人类认知之间的明显鸿沟。模型自身在任务启动前预测token使用的能力也较弱,相关系数最高仅0.39,且普遍系统性低估真实消耗,增加了部署中的不确定性。
模型间token效率差异同样显著。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。即使框架一致,底层模型选择也会让预算压力天差地别。人类专家评定的任务难度与实际token成本仅微弱相关,说明我们对复杂度的直觉和Agent真实计算努力存在明显差距。模型自身预测token使用量的相关性最高也仅0.39,且系统性低估真实成本。
arXiv 最新论文《How Do AI Agents Spend Your Money?》系统分析了八个前沿 LLM 在 SWE-bench Verified 上的轨迹,发现 agentic coding 任务的 token 消耗是普通代码聊天或推理任务的 1000 倍左右。主导成本的不是输出 token,而是输入上下文膨胀。同一任务不同运行间消耗可差 30 倍,高消耗并不等于高准确率,准确率往往在中间成本水平就达到峰值。
这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,远高于输出token。表面上AI Agent能自主完成SWE-bench任务显得高效,但实际成本结构比想象中复杂得多。
另一个值得注意的发现是,人类专家对任务难度的主观评判,与实际token消耗只有弱相关。开发者眼中简单的bug修复,Agent可能因反复试错而烧掉大量输入token;反之,一些看似复杂的模块,模型有时能快速收敛。这暴露了感知复杂度与计算实际开销之间的脱节,给预算预估增添了不确定性。数据支持这个观察,但样本量有限,值得持续跟踪。
论文的核心发现直指这一盲区。同一任务不同运行轨迹的token消耗可相差高达30倍,输入token而非输出token才是成本主导因素。准确率往往在中等token区间达到峰值,继续增加消耗反而出现饱和甚至无明显提升。模型间差距同样惊人,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多耗超过150万token。
arXiv最新论文《How Do AI Agents Spend Your Money?》对8个前沿大模型在SWE-bench Verified上的Agentic Coding轨迹进行了系统分析,结果显示这类任务的token消耗远超普通代码推理或聊天场景,高出约1000倍。输入token而非输出token主导了整体成本,这意味着Agent在多次迭代、上下文读取和工具调用中反复消耗大量输入资源。
arXiv 最新论文《How Do AI Agents Spend Your Money?》对 SWE-bench Verified 任务的实证分析显示,agentic coding 任务的 token 消耗远超普通代码聊天或单轮推理,平均达到 1000 倍以上。输入 token 而非输出成为主导因素,这与许多开发者直觉中“生成代码才贵”的认知形成鲜明对比。
这些发现不是理论空谈,而是直接戳中开发者每天面对的账单焦虑。输入token主导成本,意味着每一次把历史对话、工具输出、代码仓库全塞进上下文,都在默默加码。变量大、预测差,让预算控制变得像猜谜。
持续关注那些在噪声中坚持做验证的项目。
固定链接:http://www.bbb.cn.ww5.ss7a.cn/images/6121.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。