前OpenAI安全研究副总裁拆解大模型数据配比，结论惊人

核心结论让从业者坐不住了

翁荔于停更长达13个月时间之后, 发布了一篇字数达万字的长文, 再度去拆解那支撑大模型行业有着数百亿美元投入的Scaling Laws, 她发觉当前模型的数据配比极有可能从初始阶段便出现了偏差, 这样的一个结论致使不少AI从业者内心无法平静下来。

从Scaling到Scaling：一场被写反的行业共识

2020年, Jared Kaplan发表了论文, 该论文提出, 在log – log坐标上, 训练损失会随着参数量、数据量以及算力呈幂律下降, 其结论为, 模型规模应当比数据增长得更快。GPT – 3正是这一结论的直接产物, 它拥有1750亿参数, 然而训练数据却仅仅只有3000亿token。

两年之后, DeepMind团队经由规模更为庞大的实验, 将这一结论给推翻了。他们把拥有2800亿参数的Gopher跟具备700亿参数的Chinchilla, 于相同算力的情形下展开对比, Chinchilla的参数仅仅是Gopher的四分之一, 可是训练数据却是Gopher的四倍还要多, 最终在所有的评测当中, Chinchilla把Gopher给碾压了。

参数与数据应等比增长

毛丝鼠所揭示出来的规律是, 参数跟数据应当按照等比进行增长, 其最佳的比例大概是一比二十, 而并不是像卡普兰所讲的那样, 参数急剧上涨、数据缓慢跟随。这同样也解释了, 为什么后续的诸如羊驼、米斯特拉尔等模型, 其参数比不过GPT – 3, 然而性能却远远超过它。

翁荔经过分析后指出, Kaplan实验当中, 最大的模型仅仅只有15亿个参数, 在小规模这个区间之内存在的拟合差异, 往外推延到万亿级别之后, 就演变成了系统性的错误, 与此同时, Kaplan把层参数计数给排除掉了, 而这样的一个口径, 在小模型上面所产生的影响是极大的。

两个bug让结论更离谱

二零二四年, Epoch AI团队在逐行复现Kaplan拟合代码之际, 察觉到两个错误。其一, 损失函数选取的是均值而非求和, 致使优化器对收敛做出了错误判断。其二, 核心幂律指数被四舍五入到两位数, 从而产生了虚假精度。

重新修正过后的数据, 再次对那等比增长的结论进行了印证, 这所意味的是, 在过去的几年当中, 好多公司依据Kaplan结论去设计的超大参数模型, 在数据配比方面, 或许从最开始的时候就已经出现错误了。

数据墙将至，重复训练边际价值衰减

都以上述讨论无限且不重复的训练数据作为必要前提, 然而高质量文本数据预计在2026持续到2028年的时候就会宣告枯竭。其中研究还表明重复数据的有效价值呈现出指数衰减的态势, 每再多训练一轮边际收益就会急剧递减。

翁荔于文中所嵌入的交互式模拟器, 展现出了工程细节方面的敏感性, 仅仅是对拟合精度予以调整, 或者是对噪声水平进行改变, 那么外推预测便极有可能出现很大的偏差, 相差的程度可达十万八千里之多。这一情况表明, 当下依赖单一外推策略是存在着巨大风险的。

Scaling Laws不是物理定律

最终, 翁荔写下了这样一句判断, 这句判断是历经三年凝练而成的: Scaling Laws并非物理定律, 它是一种观测性指南, 这种指南对于工程细节有着高度的敏感性。从业者应当警惕, 不可将其视作金科玉律。

她着重指出, 行业所需的是更为谨慎的实验设计, 以及更为透明的数据共享机制。未来, 大模型的发展方向, 或许会从盲目进行参数的扩大, 转至对数据质量以及配比的优化。

你的模型参数和训练数据配比是多少

读者们, 你们当下所训练的模型, 其参数跟数据的配比究竟是多少呢? 你对翁荔的判断持认同态度吗? 欢迎于评论区去分享你自身的实际经验以及看法, 同时也请为本文点赞并进行分享, 好使更多的从业者能够看到这场围绕Scaling Laws展开的争论。

核心结论让从业者坐不住了

从Scaling到Scaling：一场被写反的行业共识

参数与数据应等比增长

两个bug让结论更离谱

数据墙将至，重复训练边际价值衰减

Scaling Laws不是物理定律

你的模型参数和训练数据配比是多少

AI产业高速扩张，对全球能源和水资源构成巨大挑战

小鹏机器人业务大调整，何小鹏亲自抓产品核心

百度智能云千帆大模型平台 Coding Plan 停止续费及过渡方案

美国要求OpenAI分批发布GPT-5.6，企业客户需审批