多代理协作中的Token浪费:从通信开销到优化路径
最近arXiv上的一篇论文把多代理协作的隐形成本摆到了台面上。AI代理在复杂的人类工作流中越来越普及,尤其是在编码任务里,Token消耗正快速增长。这篇研究系统分析了SWE-bench Verified上的代理轨迹,涉及八个前沿LLM模型,结果显示agentic任务的Token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,输入Token而非输出Token才是成本大头,多代理协作中上下文...
发布时间:2026-07-01
热点解读的实际效果评估,需要更长时间的跟踪。目前的早期数据,只能作为参考而非定论。
人类专家评定的任务难度与 Agent 实际 token 消耗仅呈弱相关。一些在人工看来高度复杂的 GitHub issue,Agent 可能快速找到路径并收敛;而某些看似简单的修复,却让 Agent 陷入反复试错的循环,token 开销远超预期。这暴露了当前 Agent 的思考路径与人类认知之间仍存在明显鸿沟,也提醒我们不能简单用人类经验去预判成本。
许多开发者在部署AI编码Agent时,都曾经历过这样的场景:原本一个简单的GitHub issue修复任务,使用基于OpenHands的Agent在SWE-bench上运行,本以为几千token就能搞定,结果自纠正和反思循环反复启动,每一轮都将完整历史轨迹、工具输出和先前推理重新塞入提示,token消耗迅速从几千级飙升至几十万甚至百万级别。账单一出,往往让整个项目预算吃紧,甚至迫使团队临时下线Agent。
模型路由是性价比最高的一招。不是所有步骤都需要最贵的顶级模型。复杂规划用Claude或GPT系列确保方向正确,子任务执行、简单代码生成就切换到Kimi或小型高效模型。在LangGraph里设置路由规则,根据复杂度或上下文长度自动分流,一个修复GitHub issue的agent就能把整体成本降30-50%。
模型间的token效率差异同样不容忽视。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗150万以上token。这种差距即使在所有模型都能成功解决的简单子集上依然存在,说明它更多源于模型行为而非任务难度本身。人类专家对任务难度的主观判断与实际token成本仅呈弱相关,这意味着凭经验估算开支很容易出错。
这件事的复杂性远超表面“AI更聪明”的叙事。开发者在拥抱代理效率的同时,必须正视账单悄然暴增的可能性。值得持续跟踪的是,未来如果出现专为agentic workflow优化的协议或轻量框架,这一成本结构能否得到根本性改善——现在下结论或许还为时尚早。
把两者放在一起对比,关键维度一目了然:token成本上,云端按量付费容易失控,本地几乎为零;隐私安全方面,云端数据上云有风险,本地数据不出域更安心;延迟性能上,本地内网更快,云端受网络影响;适用任务难度上,云端前沿模型处理高难度任务更有优势,本地适合中低难度或可拆解的任务。论文还发现,人为评定的任务难度与实际token消耗只有弱相关,这说明我们对复杂度的直觉有时和Agent真实开销对不上。
模型间的效率差异同样显著。某些高效模型在相同任务上,比另一些前沿模型少消耗上百万token。人类专家对任务难度的主观判断,与实际token成本仅呈弱相关,相关系数低至0.39左右。这说明凭经验预估Agent开销,偏差往往很大,主流定价误区进一步放大了预算失控的风险。
前沿模型在任务开始前预测自身 token 消耗的能力依然薄弱,相关系数最高仅达 0.39,且普遍存在系统性低估。也就是说,连模型自己都难以准确估算接下来要“烧”多少钱。这一点目前行业内仍有不同声音,但数据支持的方向是清晰的:若不开发更可靠的预测工具和上下文管理机制,AI Coding Agent 的规模化部署仍将面临显著的经济瓶颈。值得持续跟踪,现在下结论为时尚早。
模型自身预测token消耗的能力也相当有限。相关系数最高仅0.39,且系统性低估真实成本。开发者若完全依赖模型的自报数字来规划项目,很容易出现预算超支。整体来看,AI Agent编码的烧钱逻辑比“AI能写代码”这个表面叙事复杂得多,规模化部署的经济风险需要更精细的优化策略来对冲,现在下结论或许还为时尚早。
深挖数据后,token分布的不均衡性一目了然。在代码审查阶段,输入token占比51.4%,输出仅24.7%,Agent需要反复注入已有代码库、历史修改和上下文进行分析反馈,形成典型的“通信税”。相比之下,编码阶段输出token占比更高,因为要产出大量新代码。不同模型间差异也显著,某些前沿模型在相同任务上消耗远超GPT-5基准。
热点解读的趋势,已从概念阶段走向验证阶段。
最近arXiv上的一篇论文把多代理协作的隐形成本摆到了台面上。AI代理在复杂的人类工作流中越来越普及,尤其是在编码任务里,Token消耗正快速增长。这篇研究系统分析了SWE-bench Verified上的代理轨迹,涉及八个前沿LLM模型,结果显示agentic任务的Token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,输入Token而非输出Token才是成本大头,多代理协作中上下文...
发布时间:2026-07-01你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。 不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的...
发布时间:2026-07-01很多开发者最近在用AI Agent处理编码任务时,都被一张突然飙升的token账单吓了一跳。原本以为只是偶尔调用几次,结果月消耗轻松破万,甚至几万块。云端调用方便,性能强劲,但隐私数据要上传;本地部署数据不出域,长期看省钱,却又担心模型能力跟不上或者硬件成本太高。选哪个都觉得有点亏,这正是当前不少团队面临的真实困境。 arXiv上刚刚发布的论文《How Do AI Agents Spend Yo...
发布时间:2026-07-01最近一篇arXiv论文把AI编码Agent的真实成本摆到了台面上。研究团队分析了八个前沿大模型在SWE-bench Verified任务上的运行轨迹,结果显示,Agentic任务的token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,主导账单的不是模型输出的新代码,而是不断累积的输入token。 这件事比表面“AI帮你写代码省钱”复杂得多,账单背后的隐形成本正悄然吞噬预算。 很多...
发布时间:2026-07-01最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期(SDLC)中的多代理系统执行轨迹,发现代码审查阶段平均占用了 59.4% 的 token,成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头,整个 agentic coding 任务的...
发布时间:2026-07-01最近 arXiv 上的一篇论文《How Do AI Agents Spend Your Money?》引起了不少关注。这篇研究系统分析了 AI Agent 在 agentic coding 任务中的 token 消耗模式,基于八个前沿大模型在 SWE-bench Verified 基准上的轨迹数据,给出了较为清晰的画像。核心结论之一是,AI Agent 执行复杂任务时 token 用量远高于预期,...
发布时间:2026-07-01