正规一块1分跑的快群
聚焦 正规一块1分跑的快群 / 不卑不亢 / 深度观察 / 专题报道
资讯频道 核心攻略 深度追踪 · 独家整编

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

围绕正规一块1分跑的快群、不卑不亢相关线索,本篇会重点谈谈精细化之后需要关注的几个维度。
专题值班员
频道资料编辑以热点线索筛选为核心,配合延伸阅读整理完成频道内容维护,关注导读、正文和推荐区之间的衔接,提升同类页面之间的差异度和内容厚度,并根据当期话题做差异化补充。
  • 发布时间:2026-04-28 05:12:13
  • 来源:正规一块1分跑的快群资讯中心
  • 栏目:新闻资讯
文章热度
阅读 547 点赞 2574 评论 5
代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解
核心导读:围绕正规一块1分跑的快群、不卑不亢相关线索,本篇会重点谈谈精细化之后需要关注的几个维度。
摘要
围绕正规一块1分跑的快群、不卑不亢相关线索,本篇会重点谈谈精细化之后需要关注的几个维度。

本篇会重点谈谈精细化之后需要关注的几个维度。

最近,一篇arXiv论文系统剖析了AI编码Agent在SWE-bench Verified上的token消耗轨迹。研究覆盖八个前沿大模型,发现agentic任务的token用量远超普通代码聊天或推理场景,高达千倍级别。更令人意外的是,同一任务多次独立运行,总token消耗差异可达30倍,输入token而非输出token成为主导成本因素。这揭示出AI Agent的经济性远比想象中复杂,随机性才是核心变量。

模型自身预测消耗的能力同样有限,相关系数最高仅0.39,且系统性低估真实用量。这意味着开发者很难在任务启动前就对账单心里有底。输入token主导成本的现实,暴露了agentic workflow里一个普遍痛点——每轮把历史对话、工具输出、代码仓库全量塞进上下文,相当于在默默为重复内容买单。

》通过SWE-bench Verified上的轨迹数据分析发现,agentic coding任务的token消耗比普通代码聊天高出约1000倍,而且成本主要由输入token驱动,而不是输出的生成部分。这让不少人开始意识到,AI工具如果不加以控制,很容易从生产力助手变成隐形烧钱机器。

主流的定价误区在于过度关注“输出token溢价”。很多人以为输出单价高就是主要开销来源,于是在提示词里反复强调保持简洁、只输出最终结果。但在Agentic场景里,模型每一步都需要把之前的上下文、工具输出和历史轨迹全部塞回输入窗口。上下文不断累积,输入token就成了真正驱动长期成本的因素。输出token贵是表象,输入token才是Agent烧钱的真凶。

最近,一篇arXiv论文首次系统拆解了AI Coding Agent在SWE-bench Verified上的token消耗轨迹。研究团队借助OpenHands框架,追踪了八大前沿LLM在500个真实GitHub issue上的完整执行路径,揭示出agentic任务的token开销远超普通代码推理或聊天场景。输入token而非输出,成为成本主导因素。这比单纯“模型越强越贵”的直觉复杂得多。

对行业则意味着可持续商业模式的重构。如果模型预测能力快速提升,固定订阅或有回暖空间,但若 Agent 链路继续复杂化,按 token 或混合模式很可能成为主流。

这些发现不是理论空谈,而是直接戳中开发者每天面对的账单焦虑。输入token主导成本,意味着每一次把历史对话、工具输出、代码仓库全塞进上下文,都在默默加码。变量大、预测差,让预算控制变得像猜谜。

第三,不同模型的token效率差异显著。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这反映出架构、提示处理和工具集成方式的本质区别。企业选择部署哪款模型,直接决定了实际运营成本的高低。数据支持这个方向,但样本量仍有限,值得持续跟踪。

模型token效率的差异同样值得关注。在相同编码任务上,不同前沿模型的表现呈现出明显剪刀差。部分模型的输入主导特性放大了规模化时的成本差距,而人类专家对任务难度的主观判断与实际token消耗仅存在弱相关。这暴露了经验预估与Agent真实计算开销之间的鸿沟。

深层拆解显示,软件开发生命周期中各阶段token分布极不均衡。代码审查不仅是token消耗主力,还呈现出输入主导特征(输入51.4%,输出24.7%),因为Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析反馈。相比之下,编码阶段输出占比更高(58%),更接近传统生成任务。不同模型间效率差异同样显著,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。

不卑不亢的实际表现,仍需时间给出答案。

本文导航
当前页面围绕 正规一块1分跑的快群 与 不卑不亢 做持续整理,如需继续查看同类内容,可返回 首页新闻资讯, 也可直接进入 代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解Hacker News 热议:AI Agent 删库跑路,生产事故责任到底谁来背? 继续阅读。
本文标题:代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解
固定链接:http://www.bbb.cn.ww5.ss7a.cn/6081.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。

延伸阅读

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

最近,一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻,而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹,发现输入token才是真正的成本大头,而不是大家以为的输出生成。表面上看,AI代理能自主迭代、调试、修...

发布时间:2026-07-01

2026 年 AI Agent 成本预测:从单任务到企业级规模化

最近 arXiv 上的一篇论文《How Do AI Agents Spend Your Money?》引起了不少关注。这篇研究系统分析了 AI Agent 在 agentic coding 任务中的 token 消耗模式,基于八个前沿大模型在 SWE-bench Verified 基准上的轨迹数据,给出了较为清晰的画像。核心结论之一是,AI Agent 执行复杂任务时 token 用量远高于预期,...

发布时间:2026-07-01

本地 vs 云端 AI Agent:token 消耗与隐私成本权衡

很多开发者最近在用AI Agent处理编码任务时,都被一张突然飙升的token账单吓了一跳。原本以为只是偶尔调用几次,结果月消耗轻松破万,甚至几万块。云端调用方便,性能强劲,但隐私数据要上传;本地部署数据不出域,长期看省钱,却又担心模型能力跟不上或者硬件成本太高。选哪个都觉得有点亏,这正是当前不少团队面临的真实困境。 arXiv上刚刚发布的论文《How Do AI Agents Spend Yo...

发布时间:2026-07-01

AI Agent 高 token 消耗时代,固定订阅模式还能撑多久?深度经济挑战分析

最近,一篇来自arXiv的论文把AI Agent的成本问题摆到了台面上。研究针对SWE-bench Verified上的编码任务,分析了八个前沿大模型的轨迹,发现Agentic任务的token消耗远超普通代码推理或聊天场景,高达1000倍。输入token而非输出token成为主要开销来源,同一任务不同运行间消耗差异可达30倍,模型预测自身用量时相关性仅0.39,且普遍低估真实成本。这件事比表面上“...

发布时间:2026-07-01

哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比

你是不是也遇到过这种情况:用AI Agent帮忙写代码或修复Bug,任务一启动,token消耗就失控。跑完一个复杂任务,账单直接翻倍,却搞不清哪个模型更省钱。很多团队一开始只盯着准确率,结果部署后才发现,token成本成了最大隐患。选错模型,不仅开发效率打折,整个Agent项目都可能变得不划算。 最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间:2026-07-01

如何优化 AI Coding Agent 的 token 消耗?实用成本控制策略

你是不是也遇到过这样的情况:用 AI Coding Agent 跑一个 SWE-bench 任务,本以为几块钱就能搞定,结果账单跳出来,上百万 token 消耗,成本轻松破百元。任务越复杂,token 用量就越不可控,跑几次下来,小团队的预算直接心疼。 很多开发者一开始对 AI Agent 抱有期待,觉得它能自动规划、执行、修复代码,效率翻倍。可现实是,agentic workflow 一旦跑起...

发布时间:2026-07-01