AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？

围绕怎么进一元一分红中麻将群、经验预判相关线索，这比单纯追求搜索引擎可见度或关键词匹配度，更接近搜索生态和商业转化的本质逻辑。

核心摘要

围绕怎么进一元一分红中麻将群、经验预判相关线索，这比单纯追求搜索引擎可见度或关键词匹配度，更接近搜索生态和商业转化的本质逻辑。

作者信息

作者：资讯整理员

简介：热点采编人员主要面向主要面向同话题内容池建设，负责资讯页面维护、页面摘要整理和基础内容复核，偏向把复杂信息拆成易读段落，并根据当期话题做差异化补充。

发布时间：2026-04-28 05:12:32

文章热度

阅读 574 点赞 3117 评论 3

这比单纯追求搜索引擎可见度或关键词匹配度，更接近搜索生态和商业转化的本质逻辑。

论文数据揭示了软件开发生命周期各阶段token分布的显著不均衡。代码审查不仅占比最高，其输入token比例也达到51.4%，远高于输出24.7%，因为Agent需要反复注入已有代码、上下文和历史修改进行分析。相比之下，编码阶段输出token占比更高，符合生成新内容的直观逻辑。这种阶段性差异说明，单纯追求更强模型未必能线性降低成本。

人类专家评定的任务难度与实际token消耗只有弱相关。一些看似复杂的issue，Agent可能很快找到路径；而某些简单修复却让Agent陷入长时间试错循环，token消耗远超预期。这暴露了当前Agent的思考路径与人类认知之间的明显鸿沟。模型自身在任务启动前预测token使用的能力也较弱，相关系数最高仅0.39，且普遍系统性低估真实消耗，增加了部署中的不确定性。

模型间token效率差异同样显著。在相同任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。即使框架一致，底层模型选择也会让预算压力天差地别。人类专家评定的任务难度与实际token成本仅微弱相关，说明我们对复杂度的直觉和Agent真实计算努力存在明显差距。模型自身预测token使用量的相关性最高也仅0.39，且系统性低估真实成本。

arXiv 最新论文《How Do AI Agents Spend Your Money?》系统分析了八个前沿 LLM 在 SWE-bench Verified 上的轨迹，发现 agentic coding 任务的 token 消耗是普通代码聊天或推理任务的 1000 倍左右。主导成本的不是输出 token，而是输入上下文膨胀。同一任务不同运行间消耗可差 30 倍，高消耗并不等于高准确率，准确率往往在中间成本水平就达到峰值。

这远超初始设计（2.4%）和编码（8.6%）等前期阶段，输入token整体占比达53.9%，远高于输出token。表面上AI Agent能自主完成SWE-bench任务显得高效，但实际成本结构比想象中复杂得多。

另一个值得注意的发现是，人类专家对任务难度的主观评判，与实际token消耗只有弱相关。开发者眼中简单的bug修复，Agent可能因反复试错而烧掉大量输入token；反之，一些看似复杂的模块，模型有时能快速收敛。这暴露了感知复杂度与计算实际开销之间的脱节，给预算预估增添了不确定性。数据支持这个观察，但样本量有限，值得持续跟踪。

论文的核心发现直指这一盲区。同一任务不同运行轨迹的token消耗可相差高达30倍，输入token而非输出token才是成本主导因素。准确率往往在中等token区间达到峰值，继续增加消耗反而出现饱和甚至无明显提升。模型间差距同样惊人，Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多耗超过150万token。

arXiv最新论文《How Do AI Agents Spend Your Money?》对8个前沿大模型在SWE-bench Verified上的Agentic Coding轨迹进行了系统分析，结果显示这类任务的token消耗远超普通代码推理或聊天场景，高出约1000倍。输入token而非输出token主导了整体成本，这意味着Agent在多次迭代、上下文读取和工具调用中反复消耗大量输入资源。

arXiv 最新论文《How Do AI Agents Spend Your Money?》对 SWE-bench Verified 任务的实证分析显示，agentic coding 任务的 token 消耗远超普通代码聊天或单轮推理，平均达到 1000 倍以上。输入 token 而非输出成为主导因素，这与许多开发者直觉中“生成代码才贵”的认知形成鲜明对比。

这些发现不是理论空谈，而是直接戳中开发者每天面对的账单焦虑。输入token主导成本，意味着每一次把历史对话、工具输出、代码仓库全塞进上下文，都在默默加码。变量大、预测差，让预算控制变得像猜谜。

持续关注那些在噪声中坚持做验证的项目。

本文导航

若需要继续查看同主题内容，可返回首页、栏目页，或直接进入 AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？、浪姐二公分词调整争议完整解析：何宣林提出低音调整后发生了什么。

同栏阅读：澳门《卫生检疫及植物检疫》法对熟食的规定解读 / 曾沛慈《乘风2026》唱不了《够爱》：词曲作者互不授权的版权死局 / 白宫记者晚宴枪击后，特勤局快速护送特朗普的细节与安全评估

本文标题：AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？
固定链接：http://www.bbb.cn.ww5.ss7a.cn/images/6121.html
说明：本文为当前主题的频道整理页，正文与相关阅读会持续围绕同类信息展开。

频道速览

站点：www.bbb.cn.ww5.ss7a.cn

栏目：怎么进一元一分红中麻将群 / 经验预判

地址：http://www.bbb.cn.ww5.ss7a.cn/images/6121.html