AI资讯

前OpenAI安全研究副总裁拆解大模型数据配比,结论惊人

智能摘要

Laws从头拆解一遍,得出的核心结论让不少从业者难以平静:当前模型的数据配比,很可能从一开始就走偏了。Kaplan发表论文,提出在log-log坐标上,训练损失随参数量、数据量和算力呈漂亮幂律下降——模型规模应比数据增长更快。

核心结论让从业者坐不住了

翁荔于停更长达13个月时间之后, 发布了一篇字数达万字的长文, 再度去拆解那支撑大模型行业有着数百亿美元投入的Scaling Laws, 她发觉当前模型的数据配比极有可能从初始阶段便出现了偏差, 这样的一个结论致使不少AI从业者内心无法平静下来。

从Scaling到Scaling:一场被写反的行业共识

2020年, Jared Kaplan发表了论文, 该论文提出, 在log – log坐标上, 训练损失会随着参数量、数据量以及算力呈幂律下降, 其结论为, 模型规模应当比数据增长得更快。GPT – 3正是这一结论的直接产物, 它拥有1750亿参数, 然而训练数据却仅仅只有3000亿token。

两年之后, DeepMind团队经由规模更为庞大的实验, 将这一结论给推翻了。他们把拥有2800亿参数的Gopher跟具备700亿参数的Chinchilla, 于相同算力的情形下展开对比, Chinchilla的参数仅仅是Gopher的四分之一, 可是训练数据却是Gopher的四倍还要多, 最终在所有的评测当中, Chinchilla把Gopher给碾压了。

参数与数据应等比增长

毛丝鼠所揭示出来的规律是, 参数跟数据应当按照等比进行增长, 其最佳的比例大概是一比二十, 而并不是像卡普兰所讲的那样, 参数急剧上涨、数据缓慢跟随。这同样也解释了, 为什么后续的诸如羊驼、米斯特拉尔等模型, 其参数比不过GPT – 3, 然而性能却远远超过它。

翁荔经过分析后指出, Kaplan实验当中, 最大的模型仅仅只有15亿个参数, 在小规模这个区间之内存在的拟合差异, 往外推延到万亿级别之后, 就演变成了系统性的错误, 与此同时, Kaplan把层参数计数给排除掉了, 而这样的一个口径, 在小模型上面所产生的影响是极大的。

两个bug让结论更离谱

二零二四年, Epoch AI团队在逐行复现Kaplan拟合代码之际, 察觉到两个错误。其一, 损失函数选取的是均值而非求和, 致使优化器对收敛做出了错误判断。其二, 核心幂律指数被四舍五入到两位数, 从而产生了虚假精度。

重新修正过后的数据, 再次对那等比增长的结论进行了印证, 这所意味的是, 在过去的几年当中, 好多公司依据Kaplan结论去设计的超大参数模型, 在数据配比方面, 或许从最开始的时候就已经出现错误了。

数据墙将至,重复训练边际价值衰减

都以上述讨论无限且不重复的训练数据作为必要前提, 然而高质量文本数据预计在2026持续到2028年的时候就会宣告枯竭。其中研究还表明重复数据的有效价值呈现出指数衰减的态势, 每再多训练一轮边际收益就会急剧递减。

翁荔于文中所嵌入的交互式模拟器, 展现出了工程细节方面的敏感性, 仅仅是对拟合精度予以调整, 或者是对噪声水平进行改变, 那么外推预测便极有可能出现很大的偏差, 相差的程度可达十万八千里之多。这一情况表明, 当下依赖单一外推策略是存在着巨大风险的。

Scaling Laws不是物理定律

最终, 翁荔写下了这样一句判断, 这句判断是历经三年凝练而成的: Scaling Laws并非物理定律, 它是一种观测性指南, 这种指南对于工程细节有着高度的敏感性。从业者应当警惕, 不可将其视作金科玉律。

她着重指出, 行业所需的是更为谨慎的实验设计, 以及更为透明的数据共享机制。未来, 大模型的发展方向, 或许会从盲目进行参数的扩大, 转至对数据质量以及配比的优化。

你的模型参数和训练数据配比是多少

读者们, 你们当下所训练的模型, 其参数跟数据的配比究竟是多少呢? 你对翁荔的判断持认同态度吗? 欢迎于评论区去分享你自身的实际经验以及看法, 同时也请为本文点赞并进行分享, 好使更多的从业者能够看到这场围绕Scaling Laws展开的争论。

相关文章