Scaling Laws翻车？前OpenAI副总裁万字拆解：砸钱堆算力可能没用

算力翻倍，模型该涨还是数据该涨

在2020年的时候, OpenAI团队察觉到了一个公式, 算力要是翻了10倍, 对于模型参数量来说就要上涨5.5倍, 数据量仅仅上涨1.8倍, 这表明模型理应比数据增长得快出许多, 所以GPT-3用1750亿的参数, 只投喂了3000亿个token, 模型是很庞大的但数据相对来说不足, 这个结论致使整个行业疯狂地堆积参数, 觉得越大就越好啰。

直至2022年, DeepMind团队得出迥然相反的结论, 是这样: 模型和数据理应等比例增长, 且最优比例约莫为20个token对应1个参数。他们运用相同算力训练了两个模型, 从中发现, 将数据喂足比模型更大更为关键。两个身为顶级的团队, 面对同一个问题, 答案却截然相反, 这直接使行业共识从“把模型做大”翻转成为“大多数模型训练不足”。

参数计数的小问题酿成大误差

有一层名为嵌入层存在于模型里, 其职责是将文字转化成数字向量。小模型当中这一层在总参数里所占比例极为可观, 有着几千万参数的模型或许能占到三分之一。2020年的团队在进行计数时纳入了嵌入层, 然而2022年的团队却把它给去除掉了。这种簿记方面的差异, 于对数坐标时被迅猛放大。

之后, 他们给出了校正公式, 此公式为去掉嵌入层后的参数量加上一个修正项。然而, 微小的拟合偏差在外推时会呈指数级放大。存在一个关于参数如何计数的问题, 再加上实验规模不够大, 这使得两个顶级团队给出了截然不同的资源配置建议, 而这直接影响了数亿美元的算力分配。

损失函数里的bug藏了两年

2024年, Epoch AI团队从论文图表那当中手动提取原始数据点 , 又重新跑了一回拟合方法。他们发觉问题存于一个细节之处: 在对每个样本开展损失计算之际 , 取的是平均值而并非求和。这个看上去挺微小的区别 , 致使论文里的核心指数仅仅保留到小数点后的两位 , 最终的置信区间窄得实在是离谱。

计算由他们进行显示, 若要达成论文指出的精度条件, 应有超60万次实验才行, 然而实际仅运行了不到500次。一个被整个行业视作准则的公式所在, 背后隐匿着一个未能跑完的损失函数的漏洞, 并且此漏洞已潜藏了一整两年时间。参数如何计数、损失怎样计算、精度选取几位数值, 这些细微之处直接对AI产业的趋向起到了决定性作用。

经典公式的前提正在崩塌

缩放定律作这样的假设, 即每个训练数据都是唯一的, 不存在重复情况, 不会去进行多轮训练, 并且默认你拥有无限的数据。然而实际的情况是, 高质量文本数据预计会在2026年到2028年这个时间段之间就被各个大实验室彻底地扫荡干净。数据重复训练这种情况变得不可避免, 经典公式所基于的前提正在逐渐崩塌。

在2023年存在一项大规模实验, 该实验训练了约400个模型, 这些模型的参数范围从千万到90亿, 并且最多重复训练1500轮。之后他们发现了一个反直觉的结论, 即多余的参数相比重复的数据“贬值”得更快。当预算有限的时候, 与其加大模型, 不如多跑几轮训练来得更划算, 而这个发现直接挑战了此前所有关于最优分配的结论。

数据重复训练的新解法

研究者引入“有效数据量”概念, 即若你有U条唯一数据且重复R轮, 有效数据量并非U乘以R, 而是按指数衰减曲线折算, 他们还发现大模型对数据重复更敏感, 同样重复训练10轮, 5亿参数的模型或许能承受, 但50亿参数的模型, 其性能下降程度要严重得多句号。

工程上直接起到用处的另外发现是, 提升权重衰减能够明显减轻重复训练所引发的过拟合。这便是为何在2025年至2026年期间, 整个行业的关注点一同转向了强化学习、测试时计算以及合成数据这三条避开数据墙的路径。工程师们不再盲目相信公式, 而是着手运用实际实验去校准每一个细节。

下一代AI拼的是细节精度

好玩儿的是, 那个耗费两年时间才学会解魔方的机械手, 其中一位核心贡献者随后转向了强化学习以及扩散模型的撰写工作。她的博士研究方向并非深度学习, 而是网络科学与复杂系统。结果这一写就持续了九年时间, 每一篇都是几十页篇幅的长文, 还配有她自己绘制的图解, 内容从基础原理一直讲到大模型 Agent。

据此而言, 下一代人工智能是否好用, 并非取决于谁所拥有的图形处理器数量更多, 却是取决于谁能够将会此类细节处理得更为精准。关乎从怎样去数参数直至怎样计算损失函数, 涵盖从如何处置数据重复一直到怎样调整权重衰减, 每一处位于小数点之后的差异, 皆于对数坐标情形下被放大成为具有方向性的分歧。

你认为, 往后两年人工智能训练的“最佳解决方案”会被哪一项新得出的发现予以推翻呢? 在此向你发起邀请, 期待你能在评论区域分享你所具备的观点, 通过点赞以及转发的方式, 促使更多的人得以看到和察觉该行业的那种真实的面貌。

算力翻倍，模型该涨还是数据该涨

参数计数的小问题酿成大误差

损失函数里的bug藏了两年

经典公式的前提正在崩塌

数据重复训练的新解法

下一代AI拼的是细节精度

美光六季度收入增长 AI芯片需求火爆 HBM3E内存芯片成新增长点

OpenAI报告：智能体AI产品Codex用户量增长迅猛，非技术用户成主力

美团免费AI工具帮中小餐饮省钱提效，百万商家已用

AI购物推荐不准？84%消费者用过，仅16%觉得好用，低价商品难找