重点观察

多代理协作中的Token浪费:从通信开销到优化路径

围绕怎么找一块1分跑的快群、数学思维相关线索,在怎么找一块1分跑的快群的驱动下,数学思维的排名机制正在经历一次悄然的升级。排名代发飞机【seo1268】好友聊天,输入“怎么找一块1分跑的快群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行
新闻归纳员 2026-04-28 05:12:08 阅读 979
多代理协作中的Token浪费:从通信开销到优化路径
内容提要
围绕怎么找一块1分跑的快群、数学思维相关线索,在怎么找一块1分跑的快群的驱动下,数学思维的排名机制正在经历一次悄然的升级。排名代发飞机【seo1268】好友聊天,输入“怎么找一块1分跑的快群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行

在怎么找一块1分跑的快群的驱动下,数学思维的排名机制正在经历一次悄然的升级。排名代发飞机【seo1268】好友聊天,输入“怎么找一块1分跑的快群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行的灯塔,哪怕渺小,也能指引方向。不必因梦想遥远就轻言放弃,逐梦的路上,本就布满挑战。拆分目标,步步前行,哪怕每天只前进一小步,也是在靠近理想。不惧旁人的质疑,不畏前路的漫长,坚守初心,全力以赴。只要心中有梦,眼里有光,脚下有路,终能跨越山海,奔赴心之所向的远方。的观察角度,有助于我们更清晰地把握当前脉络。

同一任务在不同运行间的 token 消耗差异能达到 30 倍,这体现了 agentic workflow 的高度随机性。更有意思的是,高 token 消耗并不必然带来更高准确率;论文数据显示,准确率常常在中间成本区间就已达到峰值,继续追加消耗反而出现饱和甚至边际收益递减。模型间的效率差距同样显著,例如 Kimi-K2 和 Claude-Sonnet-4.5 在相同任务上平均比某些基准模型多消耗 150 万 token 以上。

但论文揭示的轨迹细节表明,这种认知存在明显盲区,很少有人真正追踪每一轮交互中上下文如何膨胀,以及哪些环节真正驱动了费用。

模型间效率差异同样惊人。在相同任务上,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗 150 万以上 token,即使在所有模型都能解决的简单子集上这一差距依然存在。人类专家对任务难度的主观判断与实际 token 成本仅呈弱相关,这意味着凭经验预估开支很容易失准。大多数开发者以为更强的模型天然更省钱,但现实恰恰相反,聪明模型在 agentic 流程中往往制造更多无效迭代和上下文膨胀。

行业里讨论AI Agent成本时,焦点通常落在模型API定价和输出token的单价上。开发者常以为只要优化提示长度或限制生成步数,就能把费用控住。论坛和社区里也反复出现类似吐槽:Agent确实能处理真实GitHub issue,但每次运行的开销像开了盲盒一样难以捉摸。这些看法有其道理,却遗漏了运行间剧烈波动的核心盲区,以及高token投入未必换来更高准确率的实证现象。

多数开发者与媒体在讨论 AI Coding Agent 时,仍把焦点放在 SWE-bench 上的解决率和模型表现上。社区热议 Claude、GPT、Kimi 等谁在特定 issue 上更强,网友也常抱怨单次任务动辄几百元开销,却普遍默认高 token 消耗对应高性能。表面上看,这似乎合理——越复杂的 Agent 自然需要更多计算。

前沿模型自身对 token 消耗的预测能力同样薄弱。论文数据显示,预测值与实际值的相关系数最高仅 0.39,且模型普遍存在系统性低估。这意味着即使是顶级 LLM,也难以在任务启动前给出可靠的预算预估。就像租用一辆车却无法提前知道油耗和实际路线,代理运行的成本黑箱让预算控制变得格外棘手。

论文的核心贡献在于实证了代理经济的几大结构性特征。同一任务的不同运行轨迹,token 总消耗可波动高达 30 倍,且高消耗并不必然带来更高准确率——准确率往往在中段成本就已饱和,继续投入反而收益递减。这个发现直接挑战了“多算多得”的直觉认知,暴露了计算努力与实际产出之间的脱节。

另一个值得注意的现象是token消耗的随机性。同一个任务不同运行间总token差异可达30倍,且更高消耗并不必然带来更高准确率——准确率往往在中间成本区间达到峰值,之后继续迭代反而饱和。人类专家对任务难度的主观评估与实际token成本仅呈弱相关:看似棘手的bug有时Agent处理得很快,而简单修复却引发反复审查,形成token黑洞。这种感知与现实的脱节,进一步加大了开发者对tokenomics的把控难度。

核心来看,迭代验证而非初始生成,才是agentic coding的主要成本点。代码审查阶段吃掉近60% token,本质源于其高度上下文依赖的对话性质——每次交互都需重载大量已有信息,形成隐形黑洞。这让“AI帮写代码就能大幅省钱”的预期变得比想象中复杂得多,值得开发者持续跟踪优化路径。

arXiv上这篇题为“How Do AI Agents Spend Your Money?”的最新论文,给出了系统性的实证数据。研究团队分析了八个前沿LLM在SWE-bench Verified上的完整轨迹,这是目前评估AI软件工程Agent的权威基准。结果显示,Agentic编码任务的token消耗是普通代码推理或代码聊天的1000倍左右,而主导成本的正是输入token,而不是输出token。

% 和 8% 的差距,仍然是当前阶段最核心的矛盾之一。

固定信息

固定链接:http://www.bbb.cn.ww5.ss7a.cn/images/6041.html

作者简介:资料归档编辑主要面向常用于资讯频道内容维护,负责同主题段落归纳、同主题段落归纳和基础内容复核,重视信息层次与页面稳定性,并根据当期话题做差异化补充。

互动量:评论 3 / 点赞 3491

本文标题:多代理协作中的Token浪费:从通信开销到优化路径
固定链接:http://www.bbb.cn.ww5.ss7a.cn/images/6041.html
说明:本页内容以主题整理、信息补充和相关阅读为主,适合按频道结构做连续查看。

相关内容

进入频道

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?

最近,一篇来自 arXiv 的论文把 AI Coding Agent 的“烧钱”问题摆到了台面上。论文标题直白——《How Do AI Agents Spend Your Money?》,核心是分析 Agent 在真实软件工程任务中的 token 消耗轨迹。研究团队使用 OpenHands 框架,在 SWE-bench Verified 数据集上跑了八大前沿大模型的轨迹,首次系统回答了三个问题:钱...

发布时间:2026-07-01

输出 token 溢价 vs 输入主导:AI Agent 定价模型的误区

你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。 不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的...

发布时间:2026-07-01

哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比

你是不是也遇到过这种情况:用AI Agent帮忙写代码或修复Bug,任务一启动,token消耗就失控。跑完一个复杂任务,账单直接翻倍,却搞不清哪个模型更省钱。很多团队一开始只盯着准确率,结果部署后才发现,token成本成了最大隐患。选错模型,不仅开发效率打折,整个Agent项目都可能变得不划算。 最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间:2026-07-01

本地 vs 云端 AI Agent:token 消耗与隐私成本权衡

很多开发者最近在用AI Agent处理编码任务时,都被一张突然飙升的token账单吓了一跳。原本以为只是偶尔调用几次,结果月消耗轻松破万,甚至几万块。云端调用方便,性能强劲,但隐私数据要上传;本地部署数据不出域,长期看省钱,却又担心模型能力跟不上或者硬件成本太高。选哪个都觉得有点亏,这正是当前不少团队面临的真实困境。 arXiv上刚刚发布的论文《How Do AI Agents Spend Yo...

发布时间:2026-07-01

如何优化 AI Coding Agent 的 token 消耗?实用成本控制策略

你是不是也遇到过这样的情况:用 AI Coding Agent 跑一个 SWE-bench 任务,本以为几块钱就能搞定,结果账单跳出来,上百万 token 消耗,成本轻松破百元。任务越复杂,token 用量就越不可控,跑几次下来,小团队的预算直接心疼。 很多开发者一开始对 AI Agent 抱有期待,觉得它能自动规划、执行、修复代码,效率翻倍。可现实是,agentic workflow 一旦跑起...

发布时间:2026-07-01

AI Agent任务复杂度与token消耗的弱相关性:人类直觉为何失效

最近,一篇来自arXiv的论文把AI Agent成本控制的老问题摆上了台面。研究团队系统分析了八个前沿大模型在SWE-bench Verified基准上的agentic coding轨迹,结果显示:人类专家打分的任务复杂度,与AI Agent实际消耗的token数量之间,只有很弱的相关性。这件事听起来简单,却直接戳破了很多开发者长期以来的直觉假设。 AI Agent token消耗这个话题,过去...

发布时间:2026-07-01