AI不胡说八道的底气：掌握自我过滤技能，不瞎编乱造答案

不胡说八道，才是AI最硬核的底气如果深挖DeepMind这篇论文，你会发现Aletheia之所以这么稳，根本原因在于它掌握了一项关键技能：「自我过滤」。上线至今，没有任何AI解出哪怕一道——这个「零分」现状，反而恰恰证明了题库的价值所在。人类现在能拿来考AI的最后武器，是连自己都不知道答案的题目。

数学领域正历经一场前所未有的强烈震动。当人工智能能够在顶尖数学家面前交出六道从未被公开过的难题的解答，并且整个过程没有人类参与其中，这究竟意味着什么呢？并非人工智能学会了应付考试，而是它已经开始真正地开展研究工作了。

自我过滤机制

传统大模型，最令人头疼之处在于不懂装懂，会给你抛出一堆，看似合理却经不起推敲的内容。然而在科研级应用当中，数学家所需要的是绝对靠谱的助手，并非一个花言巧语的骗子。

此套系统于其内部设计构建了两个相互对抗搏击的子系统，其中一个身为生成者，承担着尽情放开思维，以无尽疯狂的状态去大胆想象推测解题途径的职责，而另一个则于后台时刻保持严密注视，时刻准备遏制住那些表面上看似合乎情理，但实际上却是错误的想法念头，在解题的犹如黑箱般的情境之中，这两个子系统正展开着激烈无比已然到了不可开交程度的争斗。

最让处于顶尖水平的学者感到放心的，是它所具备的克制特性。当遭遇到那四道无法解出答案的问题之际，它并未强行进行胡乱编造来蒙混过关，而是直接向人类表明「未找到解法」，或者在到达规定的时长后直接选择闭嘴不语。就如同在论文当中所书写的那般：为了能够提升准确率，我们甘愿舍弃它解答某些问题的能力。

四道难题的硬仗

那6道被解答出来的题，其所具备的含金量是非常高的。就比方说是那道有关半单李群均匀格的题目，该题目要求对某个几何对象能不能作为特定流形的基本群作出判断。AI给出了借助纯拓扑方法的证明思路，凭借万有覆盖的条件计算出二阶元素的数量必须要是非零的，然而又通过欧拉示性数推断出必须是零，从而直接找出了矛盾。

更为绝妙的是，它实实在在地证实了一项更为强大的结论，即任何包含扭转的离散群都是不可行的。这所蕴含的意义乃是，AI不但解答了题目，还顺便将结论予以了推广。另外一道有关局部域上矩阵群表示的证明，AI在第一步所选取的函数W同时达成了三件事情，其一为压缩积分域，其二为消去复参数，其三为把无穷维问题转换为有限维代数问题。

这个W并非依赖于特定的配对呈现方式，同一选择对全部情形均起作用，在表示论范畴内极为罕见。反证法的部分尤为精彩，矛盾恰巧处于导子的定义之处，既不多一步也不少一步，精确得令人头皮发麻。

数学擂台的进化史

怎会恰恰是数学变成了检验AI能力的最终擂台呢？缘由十分简单——数学的答案不是黑便是白，正确就是正确错误就是错误，丝毫不存在任何讲情面给分数优惠的余地。然而当下的状况是，出题的速率已然被答题的速度猛力压制了。

开始上线之际，最强的AI连百分之二的题目都做不出来，直至如今，GPT - 5.2跟Opus 4.6既能搞定基础题库超过百分之四十的题目，就连五十道处于终极难度的第四级挑战题，正确率也突破了百分之三十。然而即便再难，本质上依旧是人类存在已有标准答案的考试。

可是，FrontierMath当中的10道题目，乃是11位处于顶尖水平的数学家，从自身实际所从事的科研工作里精选出来的、之前一直未曾公开发表过的难题。更为奇特的是，尽管并不存在标准答案，然而Epoch AI却针对每一道题目都编写了一种能够自动进行评分的程序，以此来判定AI给出的解答是否能够成立。自从上线直至此时此刻，从未有过任何一个AI能够成功解出哪怕仅仅一道题目——这样一种得到零分的现状，反倒证实了该题库所具备的价值。

陶哲轩的初级合著者

最新访谈里，陶哲轩给出了一个定位，及其精准，AI现在是他的初级合著者，他在2023年曾预测在2026年时AI能达到论文合著者水平，当时评价呈现出褒贬不一的状况，如今来看进度完全吻合，甚至还略有超前。

他讲，传统数学研究如同是个案研究，一篇论文紧紧抓住一两个问题拼命钻研，这乃是数学家历经几百年来所采用的工作方法。然而，AI当下正致使数学家首次具备了开展大样本普查的能力。与此同时，在数学研究里存在着大量极为繁杂琐碎的计算，而这是人类极为厌烦去做的，因而数学家们会费尽心思去思索巧妙的办法以避开它。

当AI被融入人类的工作流程之中，那些往昔令人望而却步的阻碍便直接被跨越过去了。陶哲轩甚至于承认自己从AI的解题进程里学到了某些内容：或许它运用了某篇1960年论文里我未曾见识过的微小技巧，它能够达成那些人类专家瞅了一眼就懒得去尝试的事情。

扫荡埃尔德什难题

于别一维度里，AI亦呈现出一种别具一格的能耐，此能耐在于，它能够以系统之方式去扫描那人类压根儿没精力触及的问题长尾。就拿埃尔德什所遗留下来的1000多个数学问题来讲，AI能够将它们自始至终逐一过一遍，接着从其中挑选出可实现突破的题目逐个予以攻克。

这样的能力正在对数学研究的生态予以改变，数学家们无需再将大量精力耗费于筛选哪些问题值得去做，人工智能能够先行将所有问题进行扫描，标注出那些存在可能突破的要点，这恰似从手工挖掘转变为机械化作业，效率全然不在同一个量级之上。

并且在解题所需成本方面，除去P7那道消耗16倍算力的堪称神奇题目之外，其他几道题目解决完毕之后，所耗费的脑力也全都远远超过了去年攻克Erdős - 1051难题时的极值，这表明AI不但在进行题目解答，而且是在以极高的算力投入来换取突破。

即将过时的记录

先看那被迅速刷穿的FrontierMath题库，接着是在FrontierMath上无需人工干预就成功解出了6道题，而后是陶哲轩亲口表明AI成为自己的初级合著者，数学圈子面对这些情况心情复杂。一部分人激动地大声呼喊太不可思议了，另一部分人则认为总共10道题还有4道没解答出来，距离能替代数学家的程度还差得远了。

获取更具难度的题库以对AI展开测量，这一行为我们必须要进行，并且动作得迅速，原因在于现拥有的全部内容正以能通过肉眼清晰看见的速率走向过期。人类当下用于考核AI的最终武器，乃是那些连自身都不清楚答案的题目。当3月14日第二轮挑战赛开启的那个瞬间，今日这篇文章里的所有数字，或许已然过时了。

就你所想，依据当下AI的那种进化速率，在今年年末之前它能够将那剩余的4道题目给解答出来啦？欢迎于评论区域留下你的那种预测，点赞并且分享出去，好让更多人目睹这场数学与AI的那种巅峰对决哟！

AI不胡说八道的底气：掌握自我过滤技能，不瞎编乱造答案

自我过滤机制

四道难题的硬仗

数学擂台的进化史

陶哲轩的初级合著者

扫荡埃尔德什难题

即将过时的记录

相关文章

紫光展锐发布端边AI芯片平台N9系列及Agentic AI底座技术

AlphaEvolve发布一年，实力惊人，已成谷歌核心设施一部分

马斯克诉奥尔特曼案披露：微软与OpenAI早期AI合作内幕

马斯克官宣xAI解散并入SpaceX，Grok何去何从？