Scaling Laws翻车?前OpenAI副总裁万字拆解:砸钱堆算力可能没用
这就是所有大模型公司敢砸钱的底气。翻译过来就是:算力翻10倍,5.5倍给模型、1.8倍给数据——模型涨得要比数据快得多。一个被全行业奉为圭臬的公式,背后藏着一个loss函数没跑完的bug,而且这个bug藏了整整两年。三条路的潜台词一样:纯粹靠「堆规模」的那条幂律,已经不够用了。
算力翻倍,模型该涨还是数据该涨
在2020年的时候, OpenAI团队察觉到了一个公式, 算力要是翻了10倍, 对于模型参数量来说就要上涨5.5倍, 数据量仅仅上涨1.8倍, 这表明模型理应比数据增长得快出许多, 所以GPT-3用1750亿的参数, 只投喂了3000亿个token, 模型是很庞大的但数据相对来说不足, 这个结论致使整个行业疯狂地堆积参数, 觉得越大就越好啰。
直至2022年, DeepMind团队得出迥然相反的结论, 是这样: 模型和数据理应等比例增长, 且最优比例约莫为20个token对应1个参数。他们运用相同算力训练了两个模型, 从中发现, 将数据喂足比模型更大更为关键。两个身为顶级的团队, 面对同一个问题, 答案却截然相反, 这直接使行业共识从“把模型做大”翻转成为“大多数模型训练不足”。
参数计数的小问题酿成大误差
有一层名为嵌入层存在于模型里, 其职责是将文字转化成数字向量。小模型当中这一层在总参数里所占比例极为可观, 有着几千万参数的模型或许能占到三分之一。2020年的团队在进行计数时纳入了嵌入层, 然而2022年的团队却把它给去除掉了。这种簿记方面的差异, 于对数坐标时被迅猛放大。
之后, 他们给出了校正公式, 此公式为去掉嵌入层后的参数量加上一个修正项。然而, 微小的拟合偏差在外推时会呈指数级放大。存在一个关于参数如何计数的问题, 再加上实验规模不够大, 这使得两个顶级团队给出了截然不同的资源配置建议, 而这直接影响了数亿美元的算力分配。
损失函数里的bug藏了两年
2024年, Epoch AI团队从论文图表那当中手动提取原始数据点 , 又重新跑了一回拟合方法。他们发觉问题存于一个细节之处: 在对每个样本开展损失计算之际 , 取的是平均值而并非求和。这个看上去挺微小的区别 , 致使论文里的核心指数仅仅保留到小数点后的两位 , 最终的置信区间窄得实在是离谱。
计算由他们进行显示, 若要达成论文指出的精度条件, 应有超60万次实验才行, 然而实际仅运行了不到500次。一个被整个行业视作准则的公式所在, 背后隐匿着一个未能跑完的损失函数的漏洞, 并且此漏洞已潜藏了一整两年时间。参数如何计数、损失怎样计算、精度选取几位数值, 这些细微之处直接对AI产业的趋向起到了决定性作用。
经典公式的前提正在崩塌
缩放定律作这样的假设, 即每个训练数据都是唯一的, 不存在重复情况, 不会去进行多轮训练, 并且默认你拥有无限的数据。然而实际的情况是, 高质量文本数据预计会在2026年到2028年这个时间段之间就被各个大实验室彻底地扫荡干净。数据重复训练这种情况变得不可避免, 经典公式所基于的前提正在逐渐崩塌。
在2023年存在一项大规模实验, 该实验训练了约400个模型, 这些模型的参数范围从千万到90亿, 并且最多重复训练1500轮。之后他们发现了一个反直觉的结论, 即多余的参数相比重复的数据“贬值”得更快。当预算有限的时候, 与其加大模型, 不如多跑几轮训练来得更划算, 而这个发现直接挑战了此前所有关于最优分配的结论。
数据重复训练的新解法
研究者引入“有效数据量”概念, 即若你有U条唯一数据且重复R轮, 有效数据量并非U乘以R, 而是按指数衰减曲线折算, 他们还发现大模型对数据重复更敏感, 同样重复训练10轮, 5亿参数的模型或许能承受, 但50亿参数的模型, 其性能下降程度要严重得多句号。
工程上直接起到用处的另外发现是, 提升权重衰减能够明显减轻重复训练所引发的过拟合。这便是为何在2025年至2026年期间, 整个行业的关注点一同转向了强化学习、测试时计算以及合成数据这三条避开数据墙的路径。工程师们不再盲目相信公式, 而是着手运用实际实验去校准每一个细节。
下一代AI拼的是细节精度
好玩儿的是, 那个耗费两年时间才学会解魔方的机械手, 其中一位核心贡献者随后转向了强化学习以及扩散模型的撰写工作。她的博士研究方向并非深度学习, 而是网络科学与复杂系统。结果这一写就持续了九年时间, 每一篇都是几十页篇幅的长文, 还配有她自己绘制的图解, 内容从基础原理一直讲到大模型 Agent。
据此而言, 下一代人工智能是否好用, 并非取决于谁所拥有的图形处理器数量更多, 却是取决于谁能够将会此类细节处理得更为精准。关乎从怎样去数参数直至怎样计算损失函数, 涵盖从如何处置数据重复一直到怎样调整权重衰减, 每一处位于小数点之后的差异, 皆于对数坐标情形下被放大成为具有方向性的分歧。
你认为, 往后两年人工智能训练的“最佳解决方案”会被哪一项新得出的发现予以推翻呢? 在此向你发起邀请, 期待你能在评论区域分享你所具备的观点, 通过点赞以及转发的方式, 促使更多的人得以看到和察觉该行业的那种真实的面貌。