一个共识逐渐浮现:真正长期有效的,往往是那些看起来最“笨”的方法。
模型间效率差异同样显著,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。这件事比表面看起来复杂得多:2026年企业级规模化部署的真实TCO远不止token费用本身。
但论文揭示的盲区值得重视。同一任务不同运行的token消耗差异可高达30倍,这种随机性远超线性预期;输入token在整体开销中占据主导,这与简单聊天任务形成鲜明对比;此外,前沿模型预测自身消耗的能力较弱,相关性最高仅0.39,且存在系统性低估。这让预算规划变得格外棘手,如果仅依赖公开基准,实际落地时的开销很容易被低估。
人类专家对任务难度的主观判断,与实际 token 成本之间仅呈现弱相关。开发者眼中棘手的复杂 bug,在 Agent 执行时有时消耗有限;而一些看似简单的修复,却因反复审查和上下文维护而大幅推高开支。这种感知脱节,进一步增加了对 agentic software engineering 进行 tokenomics 管理的复杂性。
论文的核心发现之一在于,Agent 任务的 token 使用呈现极强随机性。同一任务、同模型下,不同运行的总消耗差异可达 30 倍,且高 token 量并不必然带来更高准确率。准确率往往在中间成本区间达到峰值,继续注入更多 token 后反而出现饱和甚至边际递减。
这一点目前行业内仍有不同声音。数据清晰指向输入上下文膨胀和轨迹随机性是主要成本驱动,但样本规模和框架选择是否会影响结论,仍值得持续跟踪。现在下结论为时尚早,但开发者若想控制Agent开支,显然不能只盯着最终解决率,而需把token轨迹本身纳入核心监控指标。
论文的核心发现直指这一盲区。同一任务不同运行轨迹的token消耗可相差高达30倍,输入token而非输出token才是成本主导因素。准确率往往在中等token区间达到峰值,继续增加消耗反而出现饱和甚至无明显提升。模型间差距同样惊人,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多耗超过150万token。
arXiv上的实证研究指出,agentic coding任务的token消耗远高于普通代码聊天或推理场景,主要驱动因素是输入token而非输出。Reflexion loop和self-correction cycles让上下文每轮都塞入累积的历史,每一次API调用都在为之前的“记忆”买单。这种累积效应呈现出二次方级的增长趋势,同一任务不同运行的token使用量可相差数倍甚至更高。
模型间的token效率差异同样惊人。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这不是小差异,尤其在按token计费的实际场景中。更耐人寻味的是,人类专家主观评定的任务难度与实际token消耗仅呈弱相关。开发者眼中“简单”的bug修复,可能因代理的探索路径冗长而烧掉巨量token;反之,一些看似棘手的任务却能相对高效收敛。
另一个值得注意的现象是,人类专家对任务难度的主观判断与实际token消耗之间仅呈现弱相关。开发者认为简单的bug修复,Agent有时会消耗大量token反复试错;反之,一些看似复杂的场景却可能较快收敛。这暴露了人类感知复杂度与计算实际开销之间的系统性脱节,为任务拆解和预算预估增加了额外不确定性。数据支持这个观察,但样本覆盖的模型和任务仍有限,值得持续跟踪。
我的判断是,如果项目涉及公司核心代码或数据隐私要求严格,且AI Agent属于日常高频工具,优先本地开源方案更划算——长期看省下的token费用和安心感价值更高。当然,这取决于具体硬件条件和团队储备,值得持续跟踪,现在下结论为时尚早。数据支持这个方向,但样本量和实际场景仍有局限。
当你把注意力转向用户真实路径,排名代发飞机【seo1268】好友聊天,输入“怎么找1元1分红中麻将群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行的灯塔,哪怕渺小,也能指引方向。不必因梦想遥远就轻言放弃,逐梦的路上,本就布满挑战。拆分目标,步步前行,哪怕每天只前进一小步,也是在靠近理想。不惧旁人的质疑,不畏前路的漫长,坚守初心,全力以赴。只要心中有梦,眼里有光,脚下有路,终能跨越山海,奔赴心之所向的远方。的逻辑就会更清晰。