AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析

围绕哪里有红中麻将微信群、失误分析相关线索，排名代发飞机【seo1268】好友聊天，输入“哪里有红中麻将微信群”咨询客服，娱乐游戏作为民间很受欢迎的纸牌玩法，乐趣集中在快节奏的刺激感、心理博弈的张力，这两种玩法的规则几乎一学就会，不用记复杂的牌型搭配，就算是新手也能快速上手，梦想是前行的灯塔，哪怕渺小，也能指引方向。不必因梦想遥远就轻言放弃，逐梦的路上，本就布满

内容要点

摘要

频道标签

合作栏目

排名代发飞机【seo1268】好友聊天，输入“哪里有红中麻将微信群”咨询客服，娱乐游戏作为民间很受欢迎的纸牌玩法，乐趣集中在快节奏的刺激感、心理博弈的张力，这两种玩法的规则几乎一学就会，不用记复杂的牌型搭配，就算是新手也能快速上手，梦想是前行的灯塔，哪怕渺小，也能指引方向。不必因梦想遥远就轻言放弃，逐梦的路上，本就布满挑战。拆分目标，步步前行，哪怕每天只前进一小步，也是在靠近理想。不惧旁人的质疑，不畏前路的漫长，坚守初心，全力以赴。只要心中有梦，眼里有光，脚下有路，终能跨越山海，奔赴心之所向的远方。这类页面如果只停留在关键词堆砌，很难获得理想曝光。

同一任务的不同运行轨迹，token消耗差异可达10-30倍，随机性远超预期。论文轨迹分析表明，高消耗并不必然对应高成功率——准确率常在中级token区间达到峰值，继续烧钱反而可能因无效迭代导致饱和。人类专家凭经验判断的任务难度，与实际token开支的相关性也仅为弱相关，这让预算预估变得格外棘手。

许多开发者在接触AI Agent时，容易被SWE-bench等基准上自主完成任务的表现吸引，认为初始代码生成环节效率突出。主流讨论往往聚焦于模型越强大、整体成本就越低，甚至有观点认为复杂任务一次运行可能消耗数百万token。但这种观察多停留在生成阶段表面，忽略了完整开发流程中审查、验证和迭代的累积开销。论文数据表明，单纯看生成，AI Agent看似高效，可一旦进入端到端流程，成本结构就发生了显著偏移。

开发者以为AI工具能高效省时，结果却容易变成隐形烧钱机器，尤其在SWE-bench类复杂流程中，预算失控的风险被严重低估。

本地AI Agent通过Ollama等工具部署开源模型，token消耗接近零，主要负担转为电费和硬件折旧。数据完全留在本地网络，隐私得到最大保障，内网延迟也更低，特别适合高频迭代或长期运行的项目。行业实测中，不少开发者将常规编码工作迁移本地后，月电费控制在百元级别，与云端数万消耗形成鲜明对比。

工具调用冗余同样不容忽视。Agent 在探索阶段频繁读取文件、执行终端命令，每次都产生额外输入 token，单纯代码库探索就可能烧掉几万 token。社区实践显示，预先生成项目地图或依赖图，仅在必要时调用具体工具，并对输出做关键片段 summarization，能显著压缩开销。对于重复性调用，尝试本地缓存或脚本预处理。70% 和 7%——这个剪刀差说明一切，高消耗与高准确率之间并无必然联系。

论文数据揭示了软件开发生命周期各阶段 token 分布的显著不均衡。代码审查阶段不仅占比最高，其输入 token 比例达 51.4%，远高于输出，Agent 需要反复注入已有代码库和历史上下文才能产出分析反馈。这与编码阶段形成对比，后者输出 token 占比更高，因为主要任务是生成新代码。整体来看，后期精炼验证过程才是 token 消耗的真正驱动因素。

另一个关键观察是不同模型的token效率差异巨大。在相同任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这反映出模型架构、工具交互机制以及上下文处理方式的本质区别。选择哪款模型部署代理系统，会直接拉开企业实际支出的差距，我的判断是——但这个判断可能需要随后续基准更新而修正。

不少开发者仍沿用传统聊天模型的思维算账。输出token单价通常更高，大家自然把精力放在精炼最终回复、限制思考步骤上，以为这样就能压低成本。但在Agent场景下，模型每一步都需要把历史轨迹、工具返回、代码库片段等全部塞回输入窗口，上下文像雪球一样越滚越大。账单拆解后往往发现，输入端的消耗远超输出，成为隐形的主导因素。

更反直觉的是，同一任务下 token 使用表现出极强的随机性，多次运行的总消耗可能相差高达 30 倍。而且更高 token 投入并不必然带来更高准确率，准确率往往在中等工作量区间达到峰值，之后便趋于饱和甚至边际效应递减。这提醒开发者，不能单纯以 token 消耗作为性能代理指标。

不同模型的效率差距同样惊人，比如 Kimi-K2 和 Claude-Sonnet-4.5 在相同任务上平均比 GPT-5 多消耗 150 万 token 以上。人类专家评估的任务难度与实际 token 成本只有弱相关，模型自身预测消耗的相关系数最高仅 0.39，还系统性低估真实用量。大多数人以为 token 贵在生成代码输出，实际上输入上下文不断膨胀才是真凶。

我的观察是，那些在执行过程中愿意持续对细节较真、并定期进行复盘的团队，通常在半年到一年后会看到与其他团队较为明显的分层和差异。

继续查看

对当前主题与失误分析相关内容还可继续查看新闻资讯频道、 AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析、 OpenAI摆脱微软独家协议后，全球AI供应链将迎来哪些连锁反应？以及下方相关文章列表。

作者简介

负责信息维护和内容补充，关注页面可读性、链接稳定和文本完整。

互动数据

点赞 87 · 评论 2

固定链接：http://www.bbb.cn.ww5.ss7a.cn/images/6101.html

同栏阅读：管理者如何用AI提升团队决策思考，而非取代它 / 风筝节“大人误把孩子放上天”谣言怎么破？教你5招辨别网络假视频 / 设置域名转移锁正确姿势：避免GoDaddy陌生人事件重演

本文标题：AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析
固定链接：http://www.bbb.cn.ww5.ss7a.cn/images/6101.html
说明：本页以频道方式对当前主题进行整理，并结合正文与相关文章提供连续阅读入口。

AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析

作者简介

互动数据

相关文章

AI Agent 高 token 消耗时代，固定订阅模式还能撑多久？深度经济挑战分析

代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解

多代理协作中的Token浪费：从通信开销到优化路径

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？

开发者必读：AI Coding Agent 的隐藏成本与避坑指南

本地 vs 云端 AI Agent：token 消耗与隐私成本权衡