新闻资讯
Anthropic 发布 Sonnet 4.6 新版本,多项能力提升且将成默认模型
模型的新版本,延续了公司每四个月更新一次的节奏。重点强调了其在代码能力、指令遵循与计算机操作方面的改进。版用户的默认模型。最大窗口的两倍。表示,新的上下文窗口“单次请求即可容纳完整代码库、长篇合同或数十篇研究论文”。模型预计也将在未来几周内跟进。等旗舰模型。
AI模型迭代速度,已让人有些难以跟上,两星期前刚发布旗舰版,这会儿又出现能力翻倍的中等规模模型,最令人意外时,它在衡量类人智能的测试中,取得了60.4%的分数,直接超越了同级别对手。
代码能力再次升级
关于新版本的模型,在代码生成以及调试这两方面,可是下了相当大的功夫啊,在官方发布的公告里面,专门被放置在了最靠前的位置呢。对于那些每天都要和代码进行接触打交道的开发者来讲,这所蕴含的意义就是,在进行写注释操作的时候,还有补全函数的时候,以及排查错误的时候,都会有一种感觉,自己身边好像多了一个在相关领域更加懂行的搭档一样。

这一次之所进行的改进,并非单纯地去增加代码的数量,而是要使得模型能够更加良好地去理解编程的逻辑,举例而言,在针对Python的异步操作或者JavaScript的闭包这样的复杂概念进行处理的时候,它所生成的代码结构是更为合理的,从而降低了人工进行修改时所产生的时间成本。
指令遵循更精准
AI在日常使用当中,最让人头疼的地方在于它听不懂人讲的话,如今这个全新的模型于理解用户意图这方面有了显著的进步。当你给予它一个模糊的需求之时,像是“写一份简洁的会议邀请”,它不会再啰里啰嗦地增添上一堆废话了。
所呈现的这种改进源自训练数据的优化以及反馈机制的调整,模型借此学会了抓取核心要求。在实际测试当中,针对多步骤的复杂指令,诸如整理数据并依照特定格式输出,其完成度相较于以往提升了许多。
计算机操作新突破
在 OS World 测试里,模型展现出突出表现,该测试着重考察 AI 能否如同人类一般对电脑界面进行操作,简要来讲,便是促使它自行去点击软件、保存文件以及调整设置,进而查看它是否能够达成任务。
现当下,尽管还没办法达成全然替代人手的程度,然而进步已然相当显著,举例来说,要是让它把一份PDF转换成图片之后再进行压缩打包,它能够逐一步骤地予以执行,并不需要人在中途去修正错误操作,这对于办公的自动化而言可是一则利好消息。
百万上下文窗口
将 4.6 测试版内的上下文窗口直接翻倍,使其达到了 100 万 token,该容量之大,足以容纳一整套企业级项目的代码库。以往处理长文档时,需分段将其提供给 AI,可如今,即便一次性投入几十篇论文,它也能够记住开头的内容。
实际应用的场景表现得较为直接,律师在审查长篇合同时,无需再逐章逐节地细致贴入,程序员接手旧项目之际,则能够将整个代码库交付给AI,使其先行展开学习。然而需要予以提醒的是,窗口倘若变大,那么反应速度大概会有所迟缓,这还得视具体的使用体验状况而定。
基准测试成绩亮眼

它在ARC - AGI - 2测试中的60.4%得分,是最能让技术圈兴奋不已的,这个测试是专门用于衡量AI类人推理能力的,分数越是接近于得100%,就表明越是类似人类思考方面。尽管它目前还比不上Opus 4.6以及GPT 5.2精调版,不过已然将同级别对手远远地甩开了一大截。
于软件工程测试SWE - Bench当中,它同样创造了新的高度,这表明在应对实际开发任务之际,它更为可靠。然而需要留意的是,基准测试分数高并不意味着在日常使用中就毫无差评,还应当去关注后续用户所给出的反馈。
免费用户的福利
4.6版本将会直接变为免费版以及Pro版的默认模型,这样的一波操作对于普通用户来讲是最为实在的。以往要是想要运用先进模型就得进行订阅付费,如今免费便能够体验到最新技术,就好像是白白捡到了一次升级。

免费版必然存在使用次数方面的限制,Pro版用户或许拥有优先使用的权利。鉴于每四个月就进行一次更新的频率,这样的快速迭代对于用户而言是件好事,然而也需要去适应时常变动的操作习惯。
倘若你在此处有所留意,或许同样会心生好奇,鉴于AI的进化速度如此之快,你是否认为自己的工作岗位会在未来五年之内被它替代一部分呢?不妨在评论区分享一下你的见解,点个赞以便促使更多人参与到讨论之中。




