代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解
- 发布时间:2026-04-28 05:12:13
- 来源:正规一块1分跑的快群资讯中心
- 栏目:新闻资讯
本篇会重点谈谈精细化之后需要关注的几个维度。
最近,一篇arXiv论文系统剖析了AI编码Agent在SWE-bench Verified上的token消耗轨迹。研究覆盖八个前沿大模型,发现agentic任务的token用量远超普通代码聊天或推理场景,高达千倍级别。更令人意外的是,同一任务多次独立运行,总token消耗差异可达30倍,输入token而非输出token成为主导成本因素。这揭示出AI Agent的经济性远比想象中复杂,随机性才是核心变量。
模型自身预测消耗的能力同样有限,相关系数最高仅0.39,且系统性低估真实用量。这意味着开发者很难在任务启动前就对账单心里有底。输入token主导成本的现实,暴露了agentic workflow里一个普遍痛点——每轮把历史对话、工具输出、代码仓库全量塞进上下文,相当于在默默为重复内容买单。
》通过SWE-bench Verified上的轨迹数据分析发现,agentic coding任务的token消耗比普通代码聊天高出约1000倍,而且成本主要由输入token驱动,而不是输出的生成部分。这让不少人开始意识到,AI工具如果不加以控制,很容易从生产力助手变成隐形烧钱机器。
主流的定价误区在于过度关注“输出token溢价”。很多人以为输出单价高就是主要开销来源,于是在提示词里反复强调保持简洁、只输出最终结果。但在Agentic场景里,模型每一步都需要把之前的上下文、工具输出和历史轨迹全部塞回输入窗口。上下文不断累积,输入token就成了真正驱动长期成本的因素。输出token贵是表象,输入token才是Agent烧钱的真凶。
最近,一篇arXiv论文首次系统拆解了AI Coding Agent在SWE-bench Verified上的token消耗轨迹。研究团队借助OpenHands框架,追踪了八大前沿LLM在500个真实GitHub issue上的完整执行路径,揭示出agentic任务的token开销远超普通代码推理或聊天场景。输入token而非输出,成为成本主导因素。这比单纯“模型越强越贵”的直觉复杂得多。
对行业则意味着可持续商业模式的重构。如果模型预测能力快速提升,固定订阅或有回暖空间,但若 Agent 链路继续复杂化,按 token 或混合模式很可能成为主流。
这些发现不是理论空谈,而是直接戳中开发者每天面对的账单焦虑。输入token主导成本,意味着每一次把历史对话、工具输出、代码仓库全塞进上下文,都在默默加码。变量大、预测差,让预算控制变得像猜谜。
第三,不同模型的token效率差异显著。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这反映出架构、提示处理和工具集成方式的本质区别。企业选择部署哪款模型,直接决定了实际运营成本的高低。数据支持这个方向,但样本量仍有限,值得持续跟踪。
模型token效率的差异同样值得关注。在相同编码任务上,不同前沿模型的表现呈现出明显剪刀差。部分模型的输入主导特性放大了规模化时的成本差距,而人类专家对任务难度的主观判断与实际token消耗仅存在弱相关。这暴露了经验预估与Agent真实计算开销之间的鸿沟。
深层拆解显示,软件开发生命周期中各阶段token分布极不均衡。代码审查不仅是token消耗主力,还呈现出输入主导特征(输入51.4%,输出24.7%),因为Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析反馈。相比之下,编码阶段输出占比更高(58%),更接近传统生成任务。不同模型间效率差异同样显著,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。
不卑不亢的实际表现,仍需时间给出答案。
固定链接:http://www.bbb.cn.ww5.ss7a.cn/6081.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。