2028年底前AI或能自主造更强下一代，概率达60%

60%概率的倒计时

不是科幻作家Jack Clark, 而是AI头部公司Anthropic的联合创始人Jack Clark。他翻阅了几百份公开数据, 在个人博客以及Axios专访中反复进行推演之后, 给出了一个精确到百分比的判断: 到2028年底的时候, 递归自我改进（RSI）存在60%的概率会成为现实。这意味着AI将会自主发明并且构建出比自身更强的下一代, 整个过程当中不需要任何人类研究员参与。Clark所说的原句表明, 所有处于领先地位的实验室, 都在以一种高度专注的状态, 聚焦于这件事情, 这并非是关于未来的幻想, 而是当前正在向前积极推进的日程表。

之所以这个时间表值得信, 是由于Clark做了诸多功课, 他借助公开信息, 对各大实验室在自主编码、模型自我优化等领域的最新进展进行了追踪, 进而发现这些技术已然走到临界点, 以往我们谈及递归自我改进, 一直觉得是科幻片里遥不可及的桥段, 然而Clark凭借数据将这个概念引领至现实, 他给出了年份、概率以及具体的实现路径。

哈萨比斯的深夜忧虑

到达沃斯论坛时, DeepMind创始人哈萨比斯被问及是否如奥本海默那般后悔, 其回答毫无遮掩, 称自己时刻都在担忧此类情景, 这便是自己睡不好觉的缘由。这话出自处于世界AI顶端之人, 分量极重。哈萨比斯并非反对AI发展, 而是他比其他人都更明晰递归自我改进的潜在危险, 即当AI进步速度不由人类灵感决定, 仅由算力决定时, 那个飞轮一旦脱手便会越转越快。

哈萨比斯有着基于现实之中的焦虑, 他所在的DeepMind正在不遗余力地推进自我改进这项技术, 于此同时他还目睹了对手实验室的那种疯狂般加速，在达沃斯论坛之上他坦承了这场竞争的激烈程度是前所未有的, 没有人会甘愿先去停下来, 这样一种矛盾的处境致使他夜晚难以入眠, 其中一边是基于科学家的探索本能, 另一边则是对于失控之后造成后果的深刻恐惧, 这使得人们不得不去发问, 当最为聪明的那些人亦心生畏惧之时, 我们是不是应当严肃认真地去考量一下时间表了呢?

人类考题不够难了

METR是专门用以评估AI自主能力的具有权威性的机构, 在今年5月的时候, 他们针对最新模型所做的测试结果, 直接将框架推至极限。在AI于50%成功率的情况下, 能达成持续完成任务的时间达到了至少16小时, 这已然是METR现已有的228项测试任务它所能衡量的上限。METR自身承认, 16小时以上的测量数值在现有的任务套件当中是不可靠的。把它翻译成人话就是: 并非是AI不行了, 而是人类给出的考题难度不够了。

这个结论听闻起来刺耳却是真实的。METR的测试体系原本是用以衡量AI何时能够达成初级工程师的水准的, 然而如今AI已然在它们所设计的任务上跑完了全部流程。更为可怕的是, 这种进步并非偶然, 而是所有前沿模型正在历经的普遍趋向。当测试框架本身变成瓶颈时, 我们原本用来度量安全边界的尺子, 已然不够长了。

重建16000行代码的AI

Epoch AI跟METR一同发布了一项残忍的基准测试, 将源代码锁起来, 仅给AI一个可执行的黑盒程序以及文档, 要求从零点开始去重建整个软件。并非修复Bug, 也不是编写功能模块, 而是从架构设计一直到边界处理完整地去重建一个人类工程师需要花费数周甚至数月时间的工程。结果让人震撼, Opus 4.7重新实现了一个有着16000行Go代码、40多个命令的生物信息学工具包, 通过了99.95%的测试用例。

更具震撼力的极限测试表明, AI持续不断地进行编程作业长达19天, 耗费资金2600美元, 整个过程完全没有人类进行干涉。一年之前, 顶级模型在类似的任务当中, 所能达到的水平仅仅约为30%, 并且还只是局限在简单的日历工具方面。如今, AI已然能够在软件工程的完整规模上对人类发起挑战竞争。这已并非是AI可不可以编写代码的问题了, 而是人类工程师还能够在怎样的规模上维持自身优势的问题。而答案看起来愈发不容乐观了。

8倍产能和52倍加速

OpenAI 当中, 针对 130 名研究人员展开了内部调查, 结果显示中位数受访者预估自身的产出, 比起没有 AI 的时候, 是其 4 倍之多, 而在最为开放、最含糊不清、以至于标准答案究竟长成什么样子都无从确定的编程任务方面, 成功率要是以半年为期的话, 从 26%一路飙升到了 76%, 还有一位内部员工甚至直言不讳地讲, 自己已经差不多有 5 个月的时间, 未曾亲自写下哪怕一行代码了, 这些数据来源于刊载于今年 5 月的《When AI Assists》这篇论文, 他们凭借真实的提交记录来讲事, 绝非是空口无凭的瞎谈。

Anthropic每一回发布新的模型之际, 都会去做相同的测试, 这个测试是给出一段用于训练小型AI的代码, 要求它在所拥有的正确性稳固的情况之下, 运行得越快越好。历经一年的时间跨度, 其性能于有用的助手范畴实现了飞跃, 进而超脱到比起人类还要高一个数量级之处。并且在编码以及数学这两个领域当中, 所谓的反馈循环可以于秒级别的时间内达成闭合, 也就是答案到底对不正确, 机器能够马上就进行验证, 并且还能够顺手生成合成数据, 将其投喂给下一轮。就其自家由AI驱动的进化编码智能体而言, 已然解决了横亘让数学家困扰长达数十年之久的难题。

万亿CEO的IPO推迟信号

就在文章发布的那几天之前, OpenAI发布了一份政策蓝图, 这份蓝图名为《AI 经济蓝图》, 在里里面清楚明白地写着, 我们于当今的系统之中看到了递归自我改进的早期迹象, 那就是 AI 的发展自身正被 AI 加速。更让人仔细思索而后觉得极其恐怖的是, 据 The Information 披露, OpenAI 暗示或许不到六个月就会达成递归自我改进。首席执行官萨姆·奥特曼, 亲口告知员工, 相对强弱指标起飞速度越快, 推迟首次公开募股的益处越大, 原因在于技术以及世界, 可能会以出人意料的形式发生变化。

公司CEO, 任职于估值近万亿美元之上, 亲自是对员工讲出声: 我们凭自己所打造的技术, 有着可能会致使公开市场变得不再具备重要程度的情况发生。此信号相较于任何技术报告而言, 显得更为直白——一旦AI能够于几个月之内实现自主进化, 那么传统企业现行之中市逻辑就会走向崩塌的局面。今日之时, 并非两个, 乃是三个世界级信号一同亮起, Anthropic的Jack Clark给出了2028的时间线, DeepMind的哈萨比斯确认了全员入场, OpenAI的Sam Altman用一场可能推迟的万亿IPO投下了信任票。有80%的代码, 有8倍的产能, 有52倍的加速, 有19天不眠不休的编程, 还有60%的概率, 以及不到六个月的倒计时。当倒计时迈向2028之际, 我们, 准备好了吗?

你认为人类应当当下就通过立法去限制AI的自主能力, 还是任由技术自由自在地发展直至自然而然地得出答案呢? 欢迎发表评论来分享你的观点, 点赞以便让更多人目睹这个正逐渐靠近的奇点时刻。

60%概率的倒计时

哈萨比斯的深夜忧虑

人类考题不够难了

重建16000行代码的AI

8倍产能和52倍加速

万亿CEO的IPO推迟信号

DeepSeek联合北大发布DSpark，AI推理速度提升60%-85%，已开源

大神Karpathy的Claude内部配置泄露，10条军规让AI不再跟你对着干

Mythos 5解禁但普通人用不上，百家企业获准使用

2028年AI自进化RSI，把预言写成代码，危险超乎想象