几百美元干掉9道数学难题,AI证明绝对正确
而且,每道题花费的算力成本,只有几百美元。目前,所有9道问题的Lean证明代码已开源在GitHub上。任何一步出现逻辑断裂,编译器直接报错,证明被拒绝。换句话说,AI不只是在解题,它正在改变数学家思考问题的方式。保罗·埃尔德什生前留下了1217道数学难题,悬赏后人求解。
为什么AI的推理不再有幻觉
大语言模型传统上常编造事实, 可这在数学证明方面是致命的缺陷, Nexus 系统的突破性之处在于, 它使得 AI 的每一步推理都经由 Lean 编译器进行形式化验证, 编译器会在实时状态下检查逻辑链条, 一旦察觉到断裂, 便会立刻报错并加以拒绝, 这种机制完全消除了幻觉空间, 致使 AI 的数学输出变得能够被验证、具有可信赖的特性。
四层架构从简单到复杂
Nexus系统规划了四个层级, 它们是从Agent A起始, 依次到Agent D, 且呈现出逐渐增强的态势。其中, 最为基础的Agent A, 仅仅具备多个相互独立的LLM子智能体, 以及Lean编译器所构成的反馈循环。而Agent B增添了工具调用这一能力。还有Agent C, 它引入了强化学习树搜索。至于Agent D, 它整合了进化算法, 由此成为主力武器。并且, 每一个层级都能够解决更为复杂的问题。
多智能体并行工作模式
系统启动起来后, 多个各自独立的用于证明的子智能体呀, 同时就开始投入工作了。每一个子智能体呢, 会和3.1 Pro版本的大模型展开多轮对话, 借助搜索替换工具直接去修改Lean代码。编译器会实时反馈错误信息, 子智能体依据反馈不断进行迭代修正。整个这样的过程全程不需要任何人类数学家参与进来, 完全自动地运作着。
进化算法的关键作用
一旦子智能体于某个子目标之上出现卡住那样的情况, 此时系统能够去启动强化学习予以驱动的树搜索。此一模块特地是用于尽力尝试去攻克局部存在的难点的,它属于Agent D针对Erdős问题展开大规模扫荡行动时的主要武器。算法将会去探寻多种具备可能性的证明路径, 在寻找到突破点之后再返还给到子智能体以便继续向前推进。
验证循环的精妙设计
Nexus的工作进程构成一个封闭回路, 其中, AI提出呈示初稿, Lean编译器予以核验, 若失败便反馈差错讯息, AI修改完成后再次核验, 如此反复直至呈示全然通过或者算力预算耗尽。子智能体首先运用思维链推导剖析问题架构, 接下来修正Lean代码, 随后处置子目标, 将棘手难题拆解成更小的引理。
56年悬案的惊人解法
有353道已被形式化的Erdős问题, 系统被投放到这些问题上。其中有一道题, 它悬置了56年, 多位数学家取得了部分进展, 然而始终没办法给出完整构造。AI的解法精妙地把中国剩余定理和三项等差数列回避集结合起来, 通过构建一系列精心设计的区块, 以此同时满足密度条件跟整除约束。整个证明是在三进制以及四进制数字集的框架之下完成的。
出人意料的最终结论
最令人惊愕的并非Agent D有多厉害, 而是极为简易的Agent A便能搞定全部9道测试题目。Agent A没有进化算法, 仅有LLM子智能体以及Lean编译器反馈循环。对比剖析表明, 在多数问题上,Agent A与Agent B的表现近乎一样。这表明随着基础模型愈发强大, 繁杂的系统工程或许会被简单的智能体循环所取代。
超越Erdős的数学突破
Nexus于别的数学分支里, 也有了实质方面的进步。系统自动对492个开放猜想进行了形式化规范, 证实了其中44个。它把一个悬置15年的代数几何问题给解决了, 论证出余维数3的纯O – 序列对数凹这一特性。在凸优化范畴, AI居然自主寻觅到一个全新的学习率调度参数。更奇妙的是, AI证明了另外一个AI于1996年提出来的图论猜想。
数学家角色的根本转变
有着菲尔兹奖头衔的得主, 将尚未解决的问题抛给了GPT – 5.5 Pro, 在仅仅两小时的时间内, 便获取到了达到博士论文级别的成果。Nexus促使AI运用Lean语言去编写证明代码, 编译器会对每一步骤自动进行检查。即便智能体没办法证明目标定理, 然而它所生成的证明尝试, 却加深了专家对于问题的理解。鉴于草稿是形式化的, 所以专家能够直接将注意力集中于尚未解决的子目标。AI当下正在改变数学家思考问题的方式, 人类所扮演的角色, 从亲自进行推导转变为提出问题、审查方向以及提炼洞见。
你是否认为, 未来的数学家, 仍需去学习, 怎样进行手工证明定理呢? 欢迎于评论区, 分享你的看法, 点赞以及转发, 以使更多人看到这场数学革命!