快评栏目
今日整理员 2026-04-28 05:13:05 阅读 504

从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价

围绕怎么找一块1分跑的快群、策略汇总相关线索,多家权威来源的报告指出,品牌信号在部分垂直领域的权重已超过传统外链。
从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价

多家权威来源的报告指出,品牌信号在部分垂直领域的权重已超过传统外链。

arXiv上这篇题为“How Do AI Agents Spend Your Money?”的最新论文,给出了系统性的实证数据。研究团队分析了八个前沿LLM在SWE-bench Verified上的完整轨迹,这是目前评估AI软件工程Agent的权威基准。结果显示,Agentic编码任务的token消耗是普通代码推理或代码聊天的1000倍左右,而主导成本的正是输入token,而不是输出token。

许多开发者在初次尝试 AI Agent 时,往往被其在 SWE-bench 等基准上的自主完成能力吸引,认为初始代码生成环节效率极高。主流讨论也倾向于把焦点放在模型能力升级能否直接降低费用上,网上不时出现“一次复杂任务就烧掉百万 token”的吐槽。但这些观察大多停留在表面生成阶段,忽略了完整开发流程中审查、调试和反复迭代带来的隐性开支。

开发者圈子里长期默认一个直觉:任务越复杂,AI Agent就该烧越多token。社区讨论agentic任务时,也常强调其整体成本比普通聊天或单步推理高出上千倍,却很少有人去拆解内部变异。媒体报道多停留在“代理工具很贵”这个层面,忽略了随机性和模型间效率的巨大差异。大家习惯用人类写代码的经验来预估预算,认为逻辑绕、调试多的任务自然更费钱,但这一假设在真实运行中经常站不住脚。

最近一篇arXiv论文将AI Agent在agentic software engineering中的token消耗分布清晰呈现出来。研究基于ChatDev框架和GPT-5模型,对30个软件开发任务的执行轨迹进行分析,发现代码审查阶段平均占据59.4%的总token,成为整个SDLC流程中最主要的成本驱动因素。这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,凸显出多代理协作中的“通信税”现象。

agentic coding的token使用模式呈现出极强的随机性。同一任务在不同运行中,消耗差异可达30倍左右,而高token投入并不必然带来更高准确率——论文数据显示准确率往往在中级成本区间就已接近峰值,继续追加资源反而出现收益递减。模型间效率差距同样显著,某些前沿模型在相同子任务上比基准模型多耗百万级token,即便任务本身难度不高。这种现象说明,开发者凭直觉判断“越强模型越省钱”的认知,可能需要调整。

上下文膨胀同样是隐形杀手。运行过程中历史对话、工具输出和代码片段不断堆积,输入窗口持续扩大。结合summarization压缩关键决策、引入caching缓存重复文件读取,可显著降低输入token占比。论文中输入token主导成本的发现,正好印证了这种压缩策略的针对性。对于中等规模代码库,先生成架构摘要再让Agent读取,往往比全量输入更经济。

最近,一篇arXiv论文把Agentic Coding的真实成本问题推到台前:AI代理在编码任务中的token消耗,竟然是普通代码聊天或单轮推理任务的约1000倍,主要由输入token驱动。这不是简单夸大,而是基于SWE-bench Verified基准对八款前沿模型轨迹的系统分析。输入token主导了整体开销,输出生成反而退居次席,这让许多开发者在实际落地时面临隐形账单膨胀的风险。

同一任务下,不同运行的token消耗差异可达30倍,这种随机性远超预期。更反直觉的是,高token消耗并不必然对应高准确率,准确率往往在中间成本区间达到峰值,继续堆token后边际效应迅速递减。Agent的表现就像一个偶尔绕远路的司机,多走几圈未必更快抵达,还白白增加了油耗。

从机制上看,代码审查阶段的高消耗本质源于其高度上下文依赖的对话性质。Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析和反馈,每次交互都重载大量信息,从而形成持续的输入累积。论文将此描述为“对话成本”,并指出这是当前多代理架构的固有特征,而非单纯模型能力问题。优化方向或许在于减少不必要的上下文重复,而非一味追求更强模型。

就像开车时以为油耗稳定,结果每次路况变化都带来意外差异。AI Agent 的成本不是简单线性增长,而是受迭代循环和通信税支配的非线性过程。

策略汇总的变化趋势,目前行业内看法并不完全一致。

继续查看
对当前主题与 策略汇总 相关内容还可继续查看 新闻资讯频道从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价尊界S800销量冠军背后:200万新车能复制成功吗 以及下方相关文章列表。

作者简介

信息维护编辑主要面向常用于资讯频道内容维护,负责延伸阅读整理、延伸阅读整理和基础内容复核,重视信息层次与页面稳定性,并根据当期话题做差异化补充。

互动数据

点赞 3452 · 评论 3

固定链接:http://www.bbb.cn.ww5.ss7a.cn/images/6191.html

本文标题:从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价
固定链接:http://www.bbb.cn.ww5.ss7a.cn/images/6191.html
说明:本页以频道方式对当前主题进行整理,并结合正文与相关文章提供连续阅读入口。

相关文章

查看更多

输出 token 溢价 vs 输入主导:AI Agent 定价模型的误区

你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。 不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的...

发布时间:2026-07-01

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?

最近,一篇来自 arXiv 的论文把 AI Coding Agent 的“烧钱”问题摆到了台面上。论文标题直白——《How Do AI Agents Spend Your Money?》,核心是分析 Agent 在真实软件工程任务中的 token 消耗轨迹。研究团队使用 OpenHands 框架,在 SWE-bench Verified 数据集上跑了八大前沿大模型的轨迹,首次系统回答了三个问题:钱...

发布时间:2026-07-01

AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析

最近,一篇 arXiv 论文把 AI Agent 在编码场景下的真实成本问题摆到了台面上。论文标题是“How Do AI Agents Spend Your Money?”,研究者系统分析了前沿大模型在 SWE-bench Verified 任务上的执行轨迹。结果显示,agentic coding 任务的 token 消耗远超想象,输入 token 成了最大的成本黑洞。这件事比很多人以为的“AI ...

发布时间:2026-07-01

AI Agent 高 token 消耗时代,固定订阅模式还能撑多久?深度经济挑战分析

最近,一篇来自arXiv的论文把AI Agent的成本问题摆到了台面上。研究针对SWE-bench Verified上的编码任务,分析了八个前沿大模型的轨迹,发现Agentic任务的token消耗远超普通代码推理或聊天场景,高达1000倍。输入token而非输出token成为主要开销来源,同一任务不同运行间消耗差异可达30倍,模型预测自身用量时相关性仅0.39,且普遍低估真实成本。这件事比表面上“...

发布时间:2026-07-01

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期(SDLC)中的多代理系统执行轨迹,发现代码审查阶段平均占用了 59.4% 的 token,成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头,整个 agentic coding 任务的...

发布时间:2026-07-01

开发者必读:AI Coding Agent 的隐藏成本与避坑指南

你是不是也遇到过这种情况?周末加班用AI Coding Agent帮项目修一个看起来不复杂的bug,兴冲冲跑完任务后打开账单,结果token消耗直接破万,预算一下子就紧张起来。明明是日常开发工作,怎么AI工具反而成了“烧钱机器”?不少开发者反馈,用OpenHands或Claude Code处理代码任务时,成本失控的情况越来越常见。如果不提前控制,项目开支很容易超出预期。 最近arXiv上的一篇论...

发布时间:2026-07-01