AI跑分榜全是假的？OpenAI专家：花1块和1万块跑分差百倍

你看到的排行榜根本没告诉你真相

同样一个模型, 给予其一元钱用以思考问题, 与给予其一万块钱用以思考问题, 所跑出的分数或许会相差几个等级。然而当前所有人工智能排行榜之上, 仅仅呈现模型分数, 却从不表明该分数是耗费多少钱而跑获的。当你取而对对两分成绩单加以对比, 声称“差距不算大”, 实际上其中一份运用的是低廉预算, 而另一份则消耗了高昂的算力, 如此这般根本算不上是公平的比较。

波兰的数学家Naskręcki借助GPT – 5.5在仅仅11分钟的时间之内搭建出来了一个代数几何可视化应用。Ruby on Rails的创造者DHH在使用完5.5之后又切换回到Opus 4.7, 不禁发出感慨, 感觉就好像是倒退了一个时代。究其原因, 非常简单: 5.5和5.4压根就不是在同一个计算预算的情形之下进行测试的, 要是你把它们当作是同一量级去进行比较, 这简直就是在闹笑话。

换个维度看结论完全不同

传统的排行榜当中, GPT – 5.5相较于GPT – 5.4而言, 仅仅好出了看似微不足道的“一点点”。然而, 一旦实施对token预算的控制, 在针对网络安全的评估环节方面, 5.5所呈现出的曲线就将5.4远远地甩在了后面。左边所展现的是来自传统的一个视角, 右边则是将x轴替换成了token数量, 这两张图所呈现出来的情形全然是两个截然不同的世界。无论你所选的是哪一个维度, 最终都会得出全然不一样的结论。

曾经最为主流的评测基准MMLU, 如今前沿模型全都处于88%以上, 分数间的差异在统计层面已无意义, 该维度于标准表格里压根不存在, 当所对比的模型都被困在同一天花板附近时, 排行榜便成了伪命题。

一分钱一分货的AI能力

ARC – AGI榜单之中, o3跑出了最高分, 然而其单道题推理成本竟高达30,000美元。隔壁的NVARC团队, 凭借40亿参数的小模型, 拿到了24%的准确率, 并且每道题仅仅花费0.20美元。两毛钱所买到的结果, 与三万美元买到的结果, 是全然不同的。当模型能力作为推理计算量的函数时, 一个没有x轴的分数, 便如同一个没有单位的物理量。

Brown 专家认为, 正确做法是绘制一条曲线, 是性能与推理计算量的关系曲线。x 轴可以为 token 数, 也可以是美元, 还能是耗时, 它们各有优势与劣势。但能确定的是, 任何一条曲线, 都要比一个标量数字更具优势。要么, 你设定一个明确的预算上限, 告知模型“你仅有这么多钱, 给我答案”, 如此才会有意义。

推理时间换准确率已成标配

将从不完美信息博弈转变为推理模型, 其核心逻辑始终是同一准则: 令AI学会思考得更长久且心思更深沉。在2024年, o1使“推理时间换准确率”这一概念进入公众的视野范围。直至2026年, 推理时的某种计算早已成为所有前沿模型的标准配置。GPT−5.5 Pro便是一个典型的实例, 它运用同一个底座增添了并行推理时的计算, 当遭遇难题时运行多条推理链, 随后再综合得出结果。

给人工智能双倍的“思考事情所需时间”, 它不会变得聪明达一倍之多的程度, 然而的确会变得略微聪明一些。越强大的模型, 在时间跨度更长的情况下所获收益越大。较弱的模型多思考两分钟或许已然达到上限, 可是强大的模型多思考两个小时, 其表现曲线仍在上扬。每新一代模型发布之际, 要是你仅仅在某一固定的推理预算条件下运行, 那你所看到的仅仅是极小的一部分。

安全评估必须纳入推理预算

不能仅在默认状态下进行安全评估。国家级攻击者能够在单个任务上投入1000万美元推理预算。Brown所理想的安全评估是这样一张图: x轴为推理预算, 范围是从1美元至1000万美元, y轴是模型在特定危险能力方面的表现。要在低预算时加以测量, 而后朝着高预算区域作出预测。

然而, 他亦认可一个颇为棘手的状况, 即长期评估或许无法借由外推予以解决。想要评定一个运行一年的AI agent是否会出现问题, 很有可能确实得让其运行满一年才行。而AI实验室迅速遭遇了一种荒诞的情形, 那便是agent的运行周期超越了新模型的开发周期。当你还未完成对上一代长期行为的评估时, 下一代便已然发布了。

超级智能可能是一条曲线不是拐点

在传统的认知看法当中, 超级智能被视作是质变的一个拐点, 即有那样一天, 某一个模型突然间在全部的认知任务之上都全方位地超越人类。然而要是顺着这样一个逻辑继续深入思考, 则ASI有可能并非是一瞬间的某个时刻, 而是呈现为一条曲线。前面所提到的那些数字已然表述得非常清晰明确, 即在同一类任务里, 投入两毛钱的推理预算与投入三万美元的推理预算, 所获取到的是彻头彻尾不一样的结果。

一个运行了一整年, 消耗了数亿美元推理预算的AI agent, 在这一年呈现出的显示情况, 也许已经在特定领域越过了人生积累的人类个体。评估从一个单单的分数变成了一张图像, y轴是表现, x轴是你心甘情愿花多少钱让它去思考得。同一个模型在5美元以及500美元预算时展现的能力, 可能根本不是同一个等级。当智能变成了一种能够用美元去标价的连续函数时, 从而超级智能也不再是一道关于是非的题目了。

你平时看AI排名，会去查它花了多少钱跑出来的分数吗？

你看到的排行榜根本没告诉你真相

换个维度看结论完全不同

一分钱一分货的AI能力

推理时间换准确率已成标配

安全评估必须纳入推理预算

超级智能可能是一条曲线不是拐点

Nothing转型AI优先公司 9月推音频穿戴新品

谷歌地球AI改图功能上线一天即下线，因被滥用生成虚假卫星图

AI接管实验室做科研，中国科大实现自主科学发现

欧盟AI新规8月2日生效：聊天机器人须自曝身份，深度伪造内容需标识