AI资讯

AI跑分榜全是假的?OpenAI专家:花1块和1万块跑分差百倍

智能摘要

文章标题叫「大规模推理计算的启示」,核心论点只有一个,你现在看到的所有AI跑分排行榜,给你的信息基本上是错的。同一个模型,给它一块钱想事情和给它一万块钱想事情,跑出来的分数天差地别。但现在所有的排行榜,都不告诉你这个模型花了多少钱跑出来的成绩。你拿两份成绩来比,说「差距不大」,这不是比较,这是搞笑。

你看到的排行榜根本没告诉你真相

同样一个模型, 给予其一元钱用以思考问题, 与给予其一万块钱用以思考问题, 所跑出的分数或许会相差几个等级。然而当前所有人工智能排行榜之上, 仅仅呈现模型分数, 却从不表明该分数是耗费多少钱而跑获的。当你取而对对两分成绩单加以对比, 声称“差距不算大”, 实际上其中一份运用的是低廉预算, 而另一份则消耗了高昂的算力, 如此这般根本算不上是公平的比较。

波兰的数学家Naskręcki借助GPT – 5.5在仅仅11分钟的时间之内搭建出来了一个代数几何可视化应用。Ruby on Rails的创造者DHH在使用完5.5之后又切换回到Opus 4.7, 不禁发出感慨, 感觉就好像是倒退了一个时代。究其原因, 非常简单: 5.5和5.4压根就不是在同一个计算预算的情形之下进行测试的, 要是你把它们当作是同一量级去进行比较, 这简直就是在闹笑话。

换个维度看结论完全不同

传统的排行榜当中, GPT – 5.5相较于GPT – 5.4而言, 仅仅好出了看似微不足道的“一点点”。然而, 一旦实施对token预算的控制, 在针对网络安全的评估环节方面, 5.5所呈现出的曲线就将5.4远远地甩在了后面。左边所展现的是来自传统的一个视角, 右边则是将x轴替换成了token数量, 这两张图所呈现出来的情形全然是两个截然不同的世界。无论你所选的是哪一个维度, 最终都会得出全然不一样的结论。

曾经最为主流的评测基准MMLU, 如今前沿模型全都处于88%以上, 分数间的差异在统计层面已无意义, 该维度于标准表格里压根不存在, 当所对比的模型都被困在同一天花板附近时, 排行榜便成了伪命题。

一分钱一分货的AI能力

ARC – AGI榜单之中, o3跑出了最高分, 然而其单道题推理成本竟高达30,000美元。隔壁的NVARC团队, 凭借40亿参数的小模型, 拿到了24%的准确率, 并且每道题仅仅花费0.20美元。两毛钱所买到的结果, 与三万美元买到的结果, 是全然不同的。当模型能力作为推理计算量的函数时, 一个没有x轴的分数, 便如同一个没有单位的物理量。

Brown 专家认为, 正确做法是绘制一条曲线, 是性能与推理计算量的关系曲线。x 轴可以为 token 数, 也可以是美元, 还能是耗时, 它们各有优势与劣势。但能确定的是, 任何一条曲线, 都要比一个标量数字更具优势。要么, 你设定一个明确的预算上限, 告知模型“你仅有这么多钱, 给我答案”, 如此才会有意义。

推理时间换准确率已成标配

将从不完美信息博弈转变为推理模型, 其核心逻辑始终是同一准则: 令AI学会思考得更长久且心思更深沉。在2024年, o1使“推理时间换准确率”这一概念进入公众的视野范围。直至2026年, 推理时的某种计算早已成为所有前沿模型的标准配置。GPT−5.5 Pro便是一个典型的实例, 它运用同一个底座增添了并行推理时的计算, 当遭遇难题时运行多条推理链, 随后再综合得出结果。

给人工智能双倍的“思考事情所需时间”, 它不会变得聪明达一倍之多的程度, 然而的确会变得略微聪明一些。越强大的模型, 在时间跨度更长的情况下所获收益越大。较弱的模型多思考两分钟或许已然达到上限, 可是强大的模型多思考两个小时, 其表现曲线仍在上扬。每新一代模型发布之际, 要是你仅仅在某一固定的推理预算条件下运行, 那你所看到的仅仅是极小的一部分。

安全评估必须纳入推理预算

不能仅在默认状态下进行安全评估。国家级攻击者能够在单个任务上投入1000万美元推理预算。Brown所理想的安全评估是这样一张图: x轴为推理预算, 范围是从1美元至1000万美元, y轴是模型在特定危险能力方面的表现。要在低预算时加以测量, 而后朝着高预算区域作出预测。

然而, 他亦认可一个颇为棘手的状况, 即长期评估或许无法借由外推予以解决。想要评定一个运行一年的AI agent是否会出现问题, 很有可能确实得让其运行满一年才行。而AI实验室迅速遭遇了一种荒诞的情形, 那便是agent的运行周期超越了新模型的开发周期。当你还未完成对上一代长期行为的评估时, 下一代便已然发布了。

超级智能可能是一条曲线不是拐点

在传统的认知看法当中, 超级智能被视作是质变的一个拐点, 即有那样一天, 某一个模型突然间在全部的认知任务之上都全方位地超越人类。然而要是顺着这样一个逻辑继续深入思考, 则ASI有可能并非是一瞬间的某个时刻, 而是呈现为一条曲线。前面所提到的那些数字已然表述得非常清晰明确, 即在同一类任务里, 投入两毛钱的推理预算与投入三万美元的推理预算, 所获取到的是彻头彻尾不一样的结果。

一个运行了一整年, 消耗了数亿美元推理预算的AI agent, 在这一年呈现出的显示情况, 也许已经在特定领域越过了人生积累的人类个体。评估从一个单单的分数变成了一张图像, y轴是表现, x轴是你心甘情愿花多少钱让它去思考得。同一个模型在5美元以及500美元预算时展现的能力, 可能根本不是同一个等级。当智能变成了一种能够用美元去标价的连续函数时, 从而超级智能也不再是一道关于是非的题目了。

你平时看AI排名,会去查它花了多少钱跑出来的分数吗?

相关文章