精华总结的热度会继续维持一段时间,但真正决定胜负的,还是各家在执行层面的细微差异。
更反直觉的是,高token消耗并不必然带来更高准确率。准确率往往在中间成本区间达到峰值,继续增加token后边际效应迅速递减,甚至出现饱和。Kimi-K2与Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token,这种效率差异直接转化为批量部署时的真实成本差距。开发者若只盯着最终解决率,容易忽略背后的经济账本。
不同模型的效率差距同样惊人,比如 Kimi-K2 和 Claude-Sonnet-4.5 在相同任务上平均比 GPT-5 多消耗 150 万 token 以上。人类专家评估的任务难度与实际 token 成本只有弱相关,模型自身预测消耗的相关系数最高仅 0.39,还系统性低估真实用量。大多数人以为 token 贵在生成代码输出,实际上输入上下文不断膨胀才是真凶。
这篇论文的贡献在于,它不是停留在抽象讨论,而是通过真实轨迹数据拆解了代理任务的token流动规律。与主流认知不同,代理并非简单的一次性交互,而是持续的上下文读取和工具调用循环,这直接推高了总体消耗。数据显示,代理任务的token用量比基准代码任务高出约1000倍,而公众和部分开发者还停留在“用代理就能省力”的阶段,这种认知偏差正在悄然放大部署风险。
对行业则意味着可持续商业模式的重构。如果模型预测能力快速提升,固定订阅或有回暖空间,但若 Agent 链路继续复杂化,按 token 或混合模式很可能成为主流。
最近一篇arXiv论文《Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering》分析了ChatDev框架下30个软件开发任务的执行轨迹,结果显示代码审查阶段平均消耗了59.4%的token,成为整个agentic coding流程中最主要的成本中心。这远超初始设计(2.4%)和编码(8.6%)等前期阶段。
论文数据显示,输入token而非输出token才是成本主导因素。Agent在执行过程中大量时间用于维护和填充上下文、调用工具以及试错循环,而不是单纯产出更复杂的逻辑。这与人类写代码时的“脑力消耗”形成鲜明对比——我们评估的是认知负荷,Agent面对的却是计算路径的随机性和上下文吞吐量。数据支持这个方向,但样本主要集中在coding领域,是否完全泛化到其他agentic workflow,仍值得持续跟踪。
本地开源Agent则提供了另一种成本结构。通过Ollama等工具部署,token消耗接近零,主要支出转为电费和硬件折旧。数据完全留在本地网络,隐私得到实质保障,内网响应延迟也更低,适合需要持续高频运行的编码工作流。行业实测显示,一些常规任务迁移到本地后,月电费可控制在百元级别,与云端数万消耗形成鲜明对比。
最近arXiv上那篇《How Do AI Agents Spend Your Money?》把agentic coding的真实成本摊在了台面上。agentic任务的token消耗能达到普通代码聊天或单轮推理的1000倍左右,而且主导支出的不是模型吐出的代码,而是不断膨胀的输入上下文。同一任务不同运行间,用量波动可达30倍,这让预算控制变得格外棘手。
上下文优化同样关键。定期引入总结模块压缩历史轨迹,只保留核心决策和最新状态,而非全量塞入;同时优先选用token效率更高的模型,并结合缓存机制减少重复工具输出的处理。实测显示,这些措施结合后,整体token消耗可下降70-90%,而任务准确率往往能持平甚至略有提升。本质上,不是让Agent无限反思,而是让它在预算约束内聪明地停手——这一点目前行业内仍有不同声音,但数据支持的方向值得持续跟踪。
SWE-bench Verified包含500个经过人工验证的真实GitHub issue,Agent需要反复阅读代码库、定位问题、修改代码并验证测试。这类多轮交互任务的token消耗量级与简单提示完全不同。论文数据显示,Agentic任务的token使用往往比基准代码聊天高出1000倍以上,而主导因素并非模型输出的新代码,而是不断累积的历史上下文和工具输出。
我的判断是,“微信1元1分红中麻将群”_微信1元1分红中麻将群Younet友人网的结论有其现实依据。