技术已就位,组织与流程的跟进仍在路上。
论文的核心贡献在于把scaling law拟合重构为预算受限下的顺序实验设计。给定一个包含异构成本的候选实验池,方法不再一次性决定全集,而是从低成本起点开始,动态选择下一个最有价值的实验。操作上,先用FLOPs等指标标注每个候选的预估成本,再设定总预算上限。通过这种方式,团队能以远低于全集的开销,优先解析那些对目标区域预测影响最大的不确定性。早期阶段侧重解决全局“盆间”分歧,后期则精细化局部趋势,这与人类投资决策的逻辑高度一致。
这一思路与Chinchilla从Kaplan定律中迭代出参数-数据平衡的逻辑类似,只不过这次针对的是拟合过程自身。结果显示,在多个Scaling Law实例中,10%预算下的R²值已能达到或超过全数据拟合水平,1%预算时部分任务已进入低损失区间。这直接挑战了行业“先烧钱跑Pilot再决策”的惯例。
这篇arXiv论文(2604.22753)将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个有限候选实验池,每个实验成本异质,方法通过不确定性感知的主动选择,优先执行那些能最大化目标高成本区域外推准确性的实验。在涵盖预训练超参、数据分配、MoE架构等多样基准上,仅用约10%的总训练预算,即可接近全实验集的外推性能。
总体来看,这套主动实验选择方法为AI实验室和创业团队提供了一条低预算拟合高置信scaling law的路径。它不追求完美覆盖,而是精准打击信息 richest 的点,从而把大部分预算解放出来用于真正的高成本训练。方向是对的,但实际落地时,目标区域的定义和成本代理的选择仍存在一定主观性,值得持续跟踪观察。
后验逼近则实现不确定性感知的资源分配。参数后验用高斯混合模型近似,捕捉多个可能的局部最优“盆”,每个盆代表一种scaling趋势。每次新实验完成后,更新混合后验并重新计算候选效用分数,选择得分最高的继续。论文在多个任务和65个scaling law实例上的测试表明,用约10%总预算即可接近全集拟合效果,R²指标大幅提升,外推曲线更贴近真实。方向是对的。
主流行业讨论中,大家更关注Scaling Law是否会失效或数据墙问题,却较少直面拟合过程的成本异质性盲区。许多团队仍依赖固定设计或穷举式小模型实验,忽略了不同实验对高成本目标区域的边际贡献差异,导致预算在低信息区域白白消耗。
Scaling Law拟合本身就可能耗资百万,这在当前AI实验室已成为普遍痛点。传统方法多依赖随机挑选或启发式堆叠实验,看似“多跑总比少跑好”,但基准测试显示,这些做法在低预算下外推误差显著,无法有效降低目标区域的预测不确定性。大多数人还抱有“预算越多拟合越准”的认知,可现实中,花钱越多并不等于信息增益越大,这个剪刀差在论文的多样化任务上表现得淋漓尽致。
大多数讨论MoE scaling law时,都把注意力放在专家激活比和粒度如何撬动效率杠杆上。实证研究显示,激活参数与总参数的比例、专家数量等因素确实遵循可预测的power-law关系。但这里有个被普遍忽略的盲区:大家默认pilot是常规预处理,却很少面对MoE场景下算力开销巨大差异时,该如何智能分配有限预算,避免无效实验白白消耗资源。
在AI大模型训练规划中,Scaling Law早已成为标配,却常常被低估为“烧钱预处理”。过去,工程师们通过随机或均匀采样跑大量pilot实验来拟合曲线,这些实验成本异质性显著:小规模模型相对廉价,而接近目标大模型的实验则贵得离谱。arXiv最新论文《Spend Less, Fit Better》指出,这种传统做法容易在对高成本目标区域外推帮助不大的点上浪费预算,导致pilot阶段就可能消耗数百万美元,却仍无法保证预测精度稳定。
有意思的是,这一方法在1%预算下已在部分任务(如学习率与批大小Scaling)进入低损失区域,而10%预算时R²值常能达到0.93左右,与全数据拟合相当接近。这并非简单贪心,而是通过目标区域感知的采集函数,实现从全局歧义到局部优化的平滑过渡。数据支持这一方向,但样本基准的多样性仍需持续验证。
正规1元1分红中麻将群的竞争格局,正在进入新一轮的优胜劣汰周期。