Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本
- 发布时间:2026-04-28 05:12:11
- 来源:一元一分红中麻将免押金群资讯中心
- 栏目:新闻资讯
记牌技巧的生态正在快速成型。
更重要的是,更高的 token 投入并不必然带来更高的准确率,准确率往往在中等成本区间达到峰值,继续追加 token 后便迅速饱和。
主流的定价误区在于过度关注“输出token溢价”。很多人以为输出单价高就是主要开销来源,于是在提示词里反复强调“保持简洁”“只输出最终结果”。但在Agentic场景里,模型每一步都需要把之前的上下文、工具输出、历史轨迹全部塞回输入窗口。上下文不断累积,输入token就成了真正烧钱的那个部分。输出token贵是表象,输入token才是Agent长期运行的真凶。
人类专家评定的任务难度与实际token消耗仅呈弱相关。某些看似复杂的issue,agent可能快速找到高效路径;而一些简单修复却让agent陷入反复试错,token开销远超预期。这暴露了当前agent的“思考轨迹”与人类认知之间仍存在明显鸿沟。模型自身在任务启动前预测token使用的能力同样薄弱,相关系数最高仅0.39,且普遍系统性低估真实消耗。
论文重点拆解了agentic tasks的内在机制。这类任务依赖多步工具调用、上下文持续累积,与简单问答截然不同。在SWE-bench这类真实软件工程场景中,Agent会反复读取代码、调用工具、生成补丁并验证测试,每一步都会将先前上下文带入下一轮,导致输入token迅速膨胀。即使引入缓存机制,累积效应依然显著。输出token虽有影响,但整体成本主要由输入驱动,这与传统推理任务的成本结构形成鲜明对比。
这种迭代循环带来的token爆炸式增长,本质上源于Reflexion loop和self-correction cycles的机制设计。Agent每执行一轮,都需要将先前所有上下文重新喂给模型,导致输入token呈现近似二次方级的累积效应。论文数据显示,agentic coding任务的token消耗比普通代码聊天或单轮推理高出约1000倍,且同一任务的不同运行间消耗差异可达30倍。这种随机性和可变性,让预算控制变得格外棘手。
这些观察来自最新论文轨迹数据和开发者实际反馈,控制好输入 token 和随机性,AI Coding Agent 才能从潜在负担变成真正的高效助力。值得持续跟踪,现在下结论为时尚早。
最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》把这个痛点说得很清楚。他们用OpenHands agent在SWE-bench Verified任务上系统分析,发现agentic coding任务的token消耗是普通代码聊天或推理任务的1000倍左右。而且,主导成本的不是输出token,而是输入上下文。同一任务不同运行之间,token用量差异能达到30倍。
长期而言,企业级部署下的 TCO 将成为决定性因素。token 费用可能仅占整体成本的 15-20%,剩余部分来自监控编排、安全防护以及人工 oversight 等环节。若多代理协作中的通信税问题未能有效缓解,规模化 ROI 的实现周期或将延后。当然,如果上下文压缩、提示缓存以及更高效模型得到广泛应用,成本曲线仍有下行空间。这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论为时尚早。
arXiv 近期论文《How Do AI Agents Spend Your Money?》对八个前沿 LLM 在 SWE-bench Verified 上的轨迹进行了系统分析,发现 agentic coding 任务的 token 消耗比普通代码聊天或单轮推理高出约 1000 倍,而且主导成本的几乎全是输入 token,而非输出。同一任务不同运行之间的消耗差异可达 30 倍,随机性极强,这让成本预测变得异常困难。
从OpenHands的轨迹示例看,agent常常在早期就积累大量上下文,后续每一次决策都需在越来越长的历史中进行。低效循环会持续推高输入token,即使最终未能解决问题,账单已然产生。这也解释了为何社区反馈“同一个框架、同一个模型,费用波动极大”。开发者在实际部署时,需重点监控输入上下文膨胀与轨迹随机性,否则成本很容易失控。
我的观察是,领先者与跟随者的分水岭,正在这一轮调整中悄然形成。
固定链接:http://www.bbb.cn.ww5.ss7a.cn/6071.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。