从 arXiv 论文看 AI 代理经济的未来：token 预测与透明定价

围绕怎么找一块1分跑的快群、策略汇总相关线索，多家权威来源的报告指出，品牌信号在部分垂直领域的权重已超过传统外链。

多家权威来源的报告指出，品牌信号在部分垂直领域的权重已超过传统外链。

arXiv上这篇题为“How Do AI Agents Spend Your Money?”的最新论文，给出了系统性的实证数据。研究团队分析了八个前沿LLM在SWE-bench Verified上的完整轨迹，这是目前评估AI软件工程Agent的权威基准。结果显示，Agentic编码任务的token消耗是普通代码推理或代码聊天的1000倍左右，而主导成本的正是输入token，而不是输出token。

许多开发者在初次尝试 AI Agent 时，往往被其在 SWE-bench 等基准上的自主完成能力吸引，认为初始代码生成环节效率极高。主流讨论也倾向于把焦点放在模型能力升级能否直接降低费用上，网上不时出现“一次复杂任务就烧掉百万 token”的吐槽。但这些观察大多停留在表面生成阶段，忽略了完整开发流程中审查、调试和反复迭代带来的隐性开支。

开发者圈子里长期默认一个直觉：任务越复杂，AI Agent就该烧越多token。社区讨论agentic任务时，也常强调其整体成本比普通聊天或单步推理高出上千倍，却很少有人去拆解内部变异。媒体报道多停留在“代理工具很贵”这个层面，忽略了随机性和模型间效率的巨大差异。大家习惯用人类写代码的经验来预估预算，认为逻辑绕、调试多的任务自然更费钱，但这一假设在真实运行中经常站不住脚。

最近一篇arXiv论文将AI Agent在agentic software engineering中的token消耗分布清晰呈现出来。研究基于ChatDev框架和GPT-5模型，对30个软件开发任务的执行轨迹进行分析，发现代码审查阶段平均占据59.4%的总token，成为整个SDLC流程中最主要的成本驱动因素。这远超初始设计（2.4%）和编码（8.6%）等前期阶段，输入token整体占比达53.9%，凸显出多代理协作中的“通信税”现象。

agentic coding的token使用模式呈现出极强的随机性。同一任务在不同运行中，消耗差异可达30倍左右，而高token投入并不必然带来更高准确率——论文数据显示准确率往往在中级成本区间就已接近峰值，继续追加资源反而出现收益递减。模型间效率差距同样显著，某些前沿模型在相同子任务上比基准模型多耗百万级token，即便任务本身难度不高。这种现象说明，开发者凭直觉判断“越强模型越省钱”的认知，可能需要调整。

上下文膨胀同样是隐形杀手。运行过程中历史对话、工具输出和代码片段不断堆积，输入窗口持续扩大。结合summarization压缩关键决策、引入caching缓存重复文件读取，可显著降低输入token占比。论文中输入token主导成本的发现，正好印证了这种压缩策略的针对性。对于中等规模代码库，先生成架构摘要再让Agent读取，往往比全量输入更经济。

最近，一篇arXiv论文把Agentic Coding的真实成本问题推到台前：AI代理在编码任务中的token消耗，竟然是普通代码聊天或单轮推理任务的约1000倍，主要由输入token驱动。这不是简单夸大，而是基于SWE-bench Verified基准对八款前沿模型轨迹的系统分析。输入token主导了整体开销，输出生成反而退居次席，这让许多开发者在实际落地时面临隐形账单膨胀的风险。

同一任务下，不同运行的token消耗差异可达30倍，这种随机性远超预期。更反直觉的是，高token消耗并不必然对应高准确率，准确率往往在中间成本区间达到峰值，继续堆token后边际效应迅速递减。Agent的表现就像一个偶尔绕远路的司机，多走几圈未必更快抵达，还白白增加了油耗。

从机制上看，代码审查阶段的高消耗本质源于其高度上下文依赖的对话性质。Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析和反馈，每次交互都重载大量信息，从而形成持续的输入累积。论文将此描述为“对话成本”，并指出这是当前多代理架构的固有特征，而非单纯模型能力问题。优化方向或许在于减少不必要的上下文重复，而非一味追求更强模型。

就像开车时以为油耗稳定，结果每次路况变化都带来意外差异。AI Agent 的成本不是简单线性增长，而是受迭代循环和通信税支配的非线性过程。

策略汇总的变化趋势，目前行业内看法并不完全一致。

继续查看

对当前主题与策略汇总相关内容还可继续查看新闻资讯频道、从 arXiv 论文看 AI 代理经济的未来：token 预测与透明定价、尊界S800销量冠军背后：200万新车能复制成功吗以及下方相关文章列表。

作者简介

信息维护编辑主要面向常用于资讯频道内容维护，负责延伸阅读整理、延伸阅读整理和基础内容复核，重视信息层次与页面稳定性，并根据当期话题做差异化补充。

互动数据

点赞 3452 · 评论 3

固定链接：http://www.bbb.cn.ww5.ss7a.cn/images/6191.html

同栏阅读：医疗器械耗材回扣入刑：家用制氧机等家用渠道会受冲击吗？ / 中消协五一消费提示：拒绝过度包装，如何选购简约环保的春茶糕点 / 浪姐直播改规则回顾：代斯何宣林初舞台保卫战

本文标题：从 arXiv 论文看 AI 代理经济的未来：token 预测与透明定价
固定链接：http://www.bbb.cn.ww5.ss7a.cn/images/6191.html
说明：本页以频道方式对当前主题进行整理，并结合正文与相关文章提供连续阅读入口。

从 arXiv 论文看 AI 代理经济的未来：token 预测与透明定价

作者简介

互动数据

相关文章

输出 token 溢价 vs 输入主导：AI Agent 定价模型的误区

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？

AI Agent 编码任务为何疯狂烧钱？输入 Token 主导成本的 arXiv 论文解析

AI Agent 高 token 消耗时代，固定订阅模式还能撑多久？深度经济挑战分析

代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解

开发者必读：AI Coding Agent 的隐藏成本与避坑指南