为什么传统Scaling Law拟合方法已过时?新主动选择策略解析
作者信息
作者:栏目内容组
简介:热点采编人员主要面向主要面向同话题内容池建设,负责资讯页面维护、页面摘要整理和基础内容复核,偏向把复杂信息拆成易读段落,并根据当期话题做差异化补充。
发布时间:2026-04-28 04:14:17
文章热度
24小时二元一分跑的快群的竞争,已经从单纯的排名争夺,演变为整个用户体验的综合比拼。
核心方法将问题转化为不确定性感知的主动分配策略。它通过后验近似分解目标区域的预测误差为 basin 内方差和 basin 间分歧两部分,再设计采集函数,同时权衡减少不确定性的收益与实验成本的惩罚。类比之下,这有点像 A/B 测试中的多臂老虎机在预算约束下的变体,但更贴合 Scaling Law 的异构特性:早期优先解决全局歧义,后期精炼局部趋势。
主流观点存在明显盲区。他们忽略了实验成本的异质性,以及外推准确性在目标区域(也就是真正高成本的大模型训练)上的优先级。很多人以为多跑几个小实验就够了,却没意识到这些实验的成本差异和信息增益差别巨大,导致预算浪费严重。
结果显示,在涵盖多个任务的多样化基准上,这种主动选择策略持续优于经典设计基线。往往仅用约10%的总训练预算,就能接近使用全量实验集拟合的外推性能。这个剪刀差说明,传统被动全量或随机pilot的方式,在低预算regime下效率低下得多。
从行业观察来看,大模型时代的成本压力已让单纯堆算力探索超参数变得不现实。学习率如何随批大小缩放、固定计算预算下的最优批大小路径,这些问题若每次都靠全量验证,预算很快见底。这项工作切中痛点:它不是简单压缩实验数量,而是通过更智能的选择,让每一分预算都产生最大外推价值。值得持续跟踪的是,在更复杂的工业噪声场景下,该方法的鲁棒性究竟如何。
论文的核心突破在于主动实验视角。它把拟合视为预算受限的顺序设计,通过不确定性感知的采集函数,动态分配实验资源。作者先在当前数据上多次refit得到不同盆地,然后在预测空间进行basin consolidation,合并外推行为相似的模式。再将目标区域的预测误差分解为intra-basin方差与inter-basin分歧,据此为每个候选实验打分,优先选择那些性价比最高、能有效收窄歧义的配置。
最近arXiv上的一篇论文《Spend Less, Fit Better》直击这个痛点。论文指出,在现代大规模工作流中,收集足够信息丰富的pilot实验已经从常规预处理步骤变成了重大预算分配难题。他们把Scaling Law拟合重构为预算感知的序贯实验设计问题:在有限实验池中,实验成本各不相同,如何选择执行哪些跑步,以最大化高成本目标区域的外推准确率。
这篇论文的作者团队把问题看得更透。他们将Scaling Law拟合定义为一个预算受限的序贯实验设计任务:给定候选实验池,每个实验有不同计算成本,目标是在有限预算下,最大化高成本目标区域的预测准确性。核心是不确定性感知的预算分配策略,把参数后验近似为多个“盆地”的混合高斯分布,这些盆地代表不同的局部最优和外推行为。
把这个思路放到更广泛的机器学习实验设计背景下看,它的意义远超Scaling Law本身。它与主动学习、序贯优化一脉相承,却特别强调了异构成本这一现实约束。在超参数搜索中,不同组合的训练耗时差异巨大,有的需要多卡跑几天,有的单卡几小时即可。用类似预算感知的选择逻辑,就能避免大量无效试错。在异构硬件实验或AI代理训练场景里,这种方法也有明显扩展潜力——不再是穷举所有可能,而是智能挑选信息增益最大的那几个。
从行业观察看,大模型开发团队越来越感受到单纯堆实验的不可持续性。许多项目在前期的超参数探索上就烧掉数十万到百万级预算,却只得到泛化能力一般的曲线,无法可靠指导百万美元级正式训练。这篇工作提醒我们,实验设计本身可以被优化——不是减少实验数量那么简单,而是让每一分预算都服务于高价值外推。
这一发现对大模型团队的意义在于,scaling law拟合不再是不可控的前置巨额开销,而是可通过智能实验选择实现优化的杠杆。团队只需明确目标区域、准备候选池并估算成本代理,便能让有限预算发挥接近全集的效果。当然,方法仍依赖候选池质量和成本可预估性,在完全开放的早期探索阶段可能需结合人工判断,但其在工业规划场景下的优势已足够清晰。值得持续跟踪的是,当实验池规模进一步扩大时,这一预算感知机制的边界会如何演进。
24小时二元一分跑的快群的规模化,仍处于爬坡调整与持续优化的早期到中期阶段。
固定链接:http://www.bbb.cn.ww5.ss7a.cn/images/3161.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。