AI开始自己造自己！Anthropic内部80%代码由AI编写，效率暴涨8倍

工程师日代码量从一条直线暴涨8倍

从2021年起直至2024年, 工程师人均在每日期间所合入的代码量大体上呈现为一条处于水平状态的线, 不存在显著的变动情况。到了2026这种情形下, 模型开始于更长的时间跨度层面上自主进行工作 , 随之曲线出现第二次急剧上升的态势, 一直到2026年第二季度届时, 典型类型的工程师其日代码合入量已然是2024年时的8 倍之多。这样的状况意味着一名工程师当下在一日之内能够完成以往八日才能完成的工作量。

有研究员坦率表示, 自己已然大约有5个月未曾手写过任何代码了, 尽管有人对代码行数衡量数量多于质量存疑, 且认为8倍定将高估了真实生产力, 然而在2026年3月针对130名研究人员所展开的内部调查展现出, 中位数受访者预估自己的产出大概是没有人工智能之时的4倍。

最复杂任务成功率半年从26%暴涨到76%

公司给出了两个判断标准, 一个是代码能不能跑, 另一个是别的工程师能不能看懂, 还有能不能在上面继续盖楼。哪怕是在最复杂、最开放的任务上, 成功率于2026年5月达到了76%, 在半年内暴涨了50个百分点。

举个真实的案例, 一次例行的升级, 忽然使得数万个训练任务集体出现崩溃的情况。工程师仅仅丢给AI一段文字描述以及集群权限, AI就在正在运行的任务里逐个排查环境变量, 找出了那个极为隐性的调试标志, 完成复现、验证以及修复。更为夸张的是, 在2026年4月的一次大扫除时, AI一口气提交了800多个修复, 将一类API错误降低了1000倍。

训练代码优化人类4小时AI只用几分钟

要说写代码仅处于工程范畴, 那么真正叫人后背发冷的, 乃是研究领域的进展。公司给予AI一段用于训练小型AI模型的代码, 提了在保证正确无误的条件下跑得越快越好的要求。这从本质上讲就是一个微型版本的AI研究实验循环, 即改代码, 然后跑, 接着计时, 之后再改后的过程循环。

仅一位极为老到专业的人类研究员, 要花4到8小时方可于相关研究中达成4倍加速效果, 然而AI却直接达成了52倍加速。历经一年时间, 在将目标清晰明确设定的实验优化流程环节里, 从最初具备超级实用价值, 直至发展为拥有超人般水准, 现当下人类已然被远远甩开, 差距达到了一个数量级。更为关键且令人震惊的是, AI已然开始显露出拥有研究判断力征兆的态势。

AI开始比人类更会做研究决策

公司开展了一项极为刁钻特别的实验, 此实验是翻找出真实研究当中人类研究员出现走弯路情况的129个时刻, 进而把弯路之前的所有全部上下文内容喂给AI, 并且问它接下来一步应该如何去走。最终, 在2025年11月的Opus 4.5中, 有51%的概率能够给出比人类更为优秀的下一步。

还有那个声名远扬的端到端实验, 是什么样的实验? 智能体被放置进一个毫无限制的开放的AI安全难题情境之中, 它要做什么? 它要自己提出种种假设, 还要自己去设计各类实验, 更要自己跟并行智能体去交换所发现的内容。再看, 智能体军团运用总计800个小时、大概1.8万美元的算力, 最终取得了怎样的成果? 追回了97%的研究成果。而人类在其中唯一具备的实质性贡献是什么? 仅仅只剩下选了这个题目而已。

人类自己正在变成AI发展的瓶颈

公司所做出的判断是, 一旦人类跟AI的代码质量达成平价状态, 人类便会完全停止进行代码编写, 仅仅负责审查工作。但是问题便出现了, 要是人类审查的速度无法跟AI生成的速度相跟上, 人类自身就会转变成AI发展的瓶颈！

这里出现了第二堵墙: 员工跟强大模型合作以后，新想法的产出量炸开了锅一般, 新工具的产出量也炸开了锅一般, 新模拟的产出量同样炸开了锅一般, 多到公司完全没能力把它们全都消化掉。判断什么问题值得去开展工作、什么结果可以信赖、哪条路径毫无希望看不到出路, 这些有关研究品味的方面正被人工智能追赶着。公司毫不留情地给予了致命刺痛: 爱迪生讲天才是百分之一的灵感加百分之九十九的汗水, 然而我们目睹汗水正被全面自动化。

效率狂飙背后我们该不该按下暂停键

有一段论述在文章里面, 它是非常清醒的: AI取得进步, 很少是依靠灵光一现, 绝大多数的进步依靠的是放大, 去看哪里坏了, 把它修好, 然后再次进行尝试。或许研究品味是堆算力堆不出来的, 然而即便今天模型能力就冻结了, 世界也无法回去了。公司的AI仅仅在最初几周, 就在全球关键系统中找出了超过10000个高危和严重级漏洞, 数量多到网络防御的瓶颈从找漏洞变成了来不及打补丁。

到目前为止, 每一条能够测量的能力曲线都未曾出现弯曲的情况, 效率还有另一面, 那就是整套能力亦可服务于全民监控以及千人千面的操纵机器, AI进步的速度仅仅取决于算力供给, 人类退居到验证与监督的位置, 公司罕见地予以承认称, 我们对于这个世界并没有理想的直觉, 当下模型里那些少见的失准行为, 有可能在一代代自我构建中复合放大, 变得越来越频繁, 越来越难以理解, 直至失控。

之前的一个月, 于伦敦所进行的那场演讲里头, 联创Jack Clark给出了更具细节的一个数字: 公司秉持这样的观念, 即赋予世界具备让前沿AI开发得以减速或者暂停歇的那种选择, 此乃一件有益之事, 而这将会使得社会架构以及对齐研究能够紧跟技术的步伐。故而实际上所需要的情形是, 多个国度、众多前沿实验室在相同状况下同时予以停歇, 且相互之间具备可验证性。于人类朝着超级智能迈进的路途上, 始终横亘着一道理论属性的最终关卡: 智能产生爆炸的那个临界点。一旦AI改进AI的速率超越了人类改进AI的速率, 那么飞轮就会挣脱人们的掌握, 继而开始自行转动且转动得逐渐加快。今日, 全球当中估值处于高位的AI公司里的其中一家, 拿着属于它自己公司代码库所拥有的提交记录向你表明: 占据了百分之八十的代码, 具备八倍的产能水准的值的数据, 有着高达五十二倍的实验加速的数值, 以及百分之六十四的判断胜率的值的数据——这里面的每一个数字都可以说是那像是飞轮加速运转进程里所发出的一声咔哒声。一旦这一格被点亮了, 那么关于AI研发的速度往后将仅仅是由算力来决定了。

你认为, 当AI编写代码以及进行研究的速度, 全方位赶上乃至超过人类的时候呢, 我们切实具备随时去按下暂停键的能力吗, 欢迎前往评论区留言发表讨论，点个赞进而让更多人得以看见这个已然逐步靠近的现实情况。

工程师日代码量从一条直线暴涨8倍

最复杂任务成功率半年从26%暴涨到76%

训练代码优化人类4小时AI只用几分钟

AI开始比人类更会做研究决策

人类自己正在变成AI发展的瓶颈

效率狂飙背后我们该不该按下暂停键

Nothing转型AI优先公司 9月推音频穿戴新品

谷歌地球AI改图功能上线一天即下线，因被滥用生成虚假卫星图

AI接管实验室做科研，中国科大实现自主科学发现

欧盟AI新规8月2日生效：聊天机器人须自曝身份，深度伪造内容需标识