Scaling Law拟合成本感知创新:Spend Less, Fit Better获取函数详解
作者信息
作者:热点追踪组
简介:文章整理人员以素材清洗归档为核心,配合资讯页面维护完成频道内容维护,关注用户检索场景下的内容完整度,提升页面在批量生成场景下的自然度,并根据当期话题做差异化补充。
发布时间:2026-04-28 04:15:37
文章热度
这才是适应算法变化并获得用户认可的有效路径。
这件事比表面看起来复杂得多。它直接挑战了行业长期默认的“先烧钱跑一大堆Pilot再规划大模型”的惯例。过去大家以为足够多样的小规模实验就能可靠外推,现在看来,通过不确定性感知的主动选择,完全可以把拟合成本压缩到原来的十分之一,同时保持高置信外推。这也类似于Chinchilla从Kaplan Scaling Law迭代出计算最优分配的思路,只不过这次针对的是拟合过程本身。
论文的盲区补救在于低预算条件下对目标高成本区域的针对性选择。过去大家默认均匀撒点或优先跑便宜实验就能覆盖全貌,但实际外推误差往往集中在真正值钱的规模区间。这篇工作不追求数据量的简单堆积,而是问一个更务实的问题:在有限预算内,哪些实验最能降低目标区域的预测不确定性。
在8类多样化Scaling Law任务上,包括预训练超参调优、数据分配、架构搜索等共65个实例,该方法稳定优于经典基线。用约10%总预算时,往往接近甚至匹配全数据集拟合性能,尤其在低预算区间优势明显。例如在学习率与批大小联合缩放等困难任务中,主动方法在1%预算时已进入低损失区域,而随机或启发式方法滞后明显。R²指标显示其目标区域外推更稳健,避免了仅用廉价点拟合的误导。
最近arXiv上发布的论文《Spend Less, Fit Better》直击这一痛点。研究者将Scaling Law拟合重构为预算感知的序贯实验设计问题:在有限实验池中,每个实验成本异质,如何顺序选择执行哪些跑步,以最大化高成本目标区域的外推准确率。他们的不确定性感知方法,能优先挑选对目标大模型区域最有信息增益的实验。
论文提出的 target-aware acquisition function 直击这一核心。它基于目标区域的均方预测误差(MSPE)进行分解,将不确定性拆分为 intra-basin(同一参数盆内的预测波动)和 inter-basin(不同盆在目标区域的预测分歧)两项。获取函数同时评估这两项的预期降低量,再通过 cost penalization(α 参数通常在 0.4 左右)实现成本归一化。
对于预算有限的研究者而言,这套框架提供了清晰可操作的落地路径:先定义包含不同配置的实验池与高规模目标区域,从最低成本点暖启动,再通过L-BFGS-B多起点拟合与盆地聚类,迭代计算intra-basin和inter-basin效用。代码已在GitHub开源,团队可结合自身算力计费调整成本代理。尽管混合高斯近似在极端情况下仍有优化空间,但当前版本已显著降低了被动全跑的浪费,让Scaling Law拟合从昂贵预习转向精准预算优化。
学习率与批大小的Scaling行为通常呈现复杂非线性,且在不同模型规模或数据regime下差异显著。传统方法易在低成本区过度采样,而忽略揭示目标规律的关键点。主动选择机制通过实时更新后验不确定性,动态调整预算流向,避免了资源浪费,让每一分计算都更精准地服务于外推准确性。
对AI实验室而言,短期价值明摆着的:pilot阶段可以直接引入类似主动选择策略,显著压低Scaling Law拟合的整体开支。长期看,这类预算高效路径可能推动整个大模型开发转向更智能的资源分配,Scaling Law研究本身也从“跑更多点”转向“选更好点”。不过,收益并非无条件——如果目标区域定义变化剧烈,或实验池成本异质性不明显,优势会打折。值得持续跟踪,现在下结论为时尚早。
论文的核心创新在于,把Scaling Law拟合彻底转化为预算感知的序贯实验设计问题。它不再是一次性静态挑选,而是动态决定下一步该跑哪个实验,同时精确考虑每个实验的具体成本。方法引入不确定性感知机制:早期优先解决参数空间全局“盆地”的模糊性,快速缩小可能的外推路径差异;后期则聚焦高成本目标区域,精炼那里的预测方差。这种主动实验选择在多个基准任务上稳定超越经典设计基线。数据支持这个方向,但样本量仍需更多验证。
大多数从业者对Scaling Law的理解还停留在表面。大家都知道它是规划大模型训练的标配工具,常用来指导模型规模、数据量和计算量的分配。过去的主流做法是随机挑选或者均匀分布pilot实验,然后拿这些数据点去拟合曲线。但实际情况远没有那么乐观,从业者经常遇到pilot阶段预算就爆了,外推精度却依然飘忽不定的尴尬。
收放自如的优化工作,如果最终不能内化成为团队成员的日常工作习惯和思维方式,那么就很难在长期竞争中维持住来之不易的优势。
固定链接:http://www.bbb.cn.ww5.ss7a.cn/3311.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。