但实际效果最好的,往往是两者结合得比较好的团队。
这种消耗的随机性(stochastic nature)尤为突出。同一任务、同一个模型、同样的scaffold,几次运行的结果可能天差地别。某些路径下Agent快速收敛,另一些则陷入无效循环、反复探索分支或低效的工具调用序列。论文数据显示,路径差异直接导致总token相差30倍。这提醒我们,开发者不能简单把单次测试的消耗当作可靠基准。
模型间效率差异同样惊人。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。 有趣的是,人类专家主观评定的任务难度,与实际token消耗仅呈弱相关。开发者眼中“简单”的bug修复,可能因代理探索路径冗长而耗费巨量token;反之,一些看似棘手的任务却能相对高效收敛。这暴露了当前代理设计在人类直觉与计算效率间的明显脱节。
人类专家评定的任务难度与实际token消耗仅呈现弱相关。一些被认为复杂的issue,Agent可能快速找到高效路径;而看似简单的修复,却让Agent陷入漫长的试错循环,token开销远超预期。这暴露了当前Agent“思考路径”与人类认知之间的明显鸿沟。模型自身在任务启动前预测token使用的能力也较弱,相关系数最高仅0.39,且普遍存在系统性低估,这进一步加剧了部署时的成本不确定性。
本地开源Agent借助Ollama等工具部署后,token消耗接近零,主要开销转为电费和硬件折旧,数据完全不出本地网络,内网延迟更低,适合高频长期运行。一些开发者实测显示,常规编码任务迁移本地后月电费可控在百元级别,相比云端数万消耗,长期节省明显。隐私安全得到最大保障,尤其对敏感业务逻辑而言,这一点是云端难以比拟的。但开源模型与前沿闭源仍有性能差距,复杂多文件任务中准确率可能打折,初始部署和运维门槛也不低。
同一任务不同运行的token消耗差异可达30倍,体现了极强的随机性。高token使用并不必然带来高准确率,准确率往往在中间成本区间达到峰值,继续堆token后边际效应迅速递减。Agent有时像一个爱绕路的司机,多绕几圈不仅没更快抵达,还白白烧掉更多油。Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token,这种效率差距直接拉开了真实部署成本。
模型间的token效率差异进一步放大了这一问题。在相同SWE-bench类任务上,某些前沿模型的平均消耗明显高于效率更高的选项,输入token占比常超过50%。人类专家评定的任务难度与实际token成本相关性微弱,模型自身对消耗的预测相关性也仅在0.4左右且系统性低估。这一点目前行业内仍有不同声音,但实测数据已足够提醒我们,盲目依赖迭代循环容易让预算在不可预测的随机性中蒸发。
arXiv最新论文《How Do AI Agents Spend Your Money?》的轨迹分析显示,这种现象在agentic coding任务中极为普遍,输入token的累积是主因。
agentic coding的token使用模式呈现出极强的随机性。同一任务在不同运行中,消耗差异可达30倍左右,而高token投入并不必然带来更高准确率——论文数据显示准确率往往在中级成本区间就已接近峰值,继续追加资源反而出现收益递减。模型间效率差距同样显著,某些前沿模型在相同子任务上比基准模型多耗百万级token,即便任务本身难度不高。这种现象说明,开发者凭直觉判断“越强模型越省钱”的认知,可能需要调整。
输出token溢价听起来确实吓人,但Agentic场景里,真正驱动长期成本的往往是那些反复累积的输入上下文。即使定价表上输出更贵,输入端的雪球效应在多轮迭代中已悄然主导了账单。纠正确认这个误区后,预算规划才能从被动应对转向主动的输入优化工程。
最近arXiv上关于agentic coding的实证研究显示,AI Coding Agent在处理SWE-bench类任务时,token消耗往往比普通代码聊天或单次推理高出约1000倍。主导开销的并非生成代码的输出token,而是反复读取上下文的输入token。即使启用缓存,这种“通信税”依然显著。开发者以为多加几次迭代就能提升准确率,实际却经常陷入边际收益递减的循环。
我的判断是——但这个判断可能需要修正——灰色操作的空间会越来越小。