新闻资讯
Anthropic发布Claude Opus 4.7,视觉能力大幅提升,影响几何?
4.6强了太多,除了Agentic搜索能力略有下降外,实现了全面碾压!4.6约50%的分数,直接飙升到接近满分!4.7发布给打工人带来的影响的:没有把发布包装成一次毫无代价的全面跃升。4.7和4.6与4.5保持了一致,没有涨价,但这个价格本身其实就已经足够昂贵了...
你手头持有的AI说不定又要处于落后状态了。就在方才,Opus 4.7被正式界定为当下能够广泛投入使用的最强模型,虽说其性能并不像先前泄露的新一代那般惊人,可它相比普通使用者真正可以用到的Opus 4.6要强出许多,在日常进行撰写文档、解读截图这类任务之际,体验方面的变化很难予以避开。
视觉能力从及格到满分只用了一次升级
先前AI看图常常出现看走眼的情况,然而如今Opus 4.7直接将视觉方面的短板给补齐了,在XBOW的基准测试当中,它所获得的分数从Opus 4.6的54.5%直接翻倍进而跃升至98.5%,已然接近满分,这表明模型能够切实看懂高分辨率屏幕上的微小元素,像是在专业软件截图里找到仅占画面0.07%的按钮。
该项提升的背后,存在着扎实的技术突破,官方测试采用了像 OSWorld - Bench 2这般高难度的基准,使得模型去模拟操作专业软件,当切换到高分辨率模式并且不借助任何外部工具之际,Opus 4.7的定位准确率已然达到了79.5%,对于那些需要频繁处理产品原型图、数据报表或是复杂流程图的用户而言,模型漏掉细节的烦恼定会大大减少。
长任务执行不再需要人工时刻盯着
过去,让AI去处理那种会持续几十分钟的复杂工作,它很容易在中途出现偏离正轨的状况,然而现在Opus 4.7变得更加可靠了。官方发布内容要点明确表示,强调指出本次升级的核心着重放在了高级软件工程以及长时间任务执行方面。用户已然能够把过去那种需要进行密切监督的高难度编码工作交付给它去进行处理,它会更为严格地去执行指令,并且在回报结果之前会主动去想办法对输出进行验证。
官方采用严格的GraphWalker - Bench测试来验证这种长链路能力,这个旨在装满有着1M token上下文的边列表以构成一张有向图的基准,让模型进行图遍历,其中涵盖了找父节点以及执行广度优先搜索。另一个R - Bench 2使模型模拟经营自动售货机,以此考验长时间工作流里的决策连贯性。结果是,在持续几十分钟乃至更久都不出现偏差的任务方面,Opus 4.7的表现远远超过上一代。
编程能力升级重点是让AI看懂屏幕
对程序员而言,此次更新带来的最为显著的改变便是,模型能够将视觉信息与代码修改相结合了。在针对前端JavaScript软件进行修bug的测试任务当中,该任务通常会附带UI截图以及效果图,Opus 4.7需要把图片与代码进行结合分析。以往,模型仅仅能够查看代码,而如今,它能够了解界面呈现出的样子,进而更为精准地修复显示问题。
体现在专业场景中的,是这种能力的实际价值。Opus 4.7的编程升级,覆盖了44种知识工作职业以及9大GDP核心行业,测试任务源自平均拥有14年经验的资深人士的真实交付物。在企业级推理基准SWE - Bench Pro上,模型需要处理近100年的美国财政部公报,该公报包含8.9万页PDF以及2600万个数字。在处理这类密集文档和精细结构图时,能看懂屏幕的模型优势显著。
指令遵循更严格但旧提示词可能失效
诸多用户发出抱怨,称AI老是忽视细节方面的要求,Opus 4.7针对如此状况做出了大幅度改善。官方表明,以往超多模型会对指令进行松散理解,进而遗漏掉细节,然而Opus 4.7却更偏向于逐条依照着去执行。这所代表的是,当你去撰写需求、确定格式、罗列限制条件之际,模型会更为听从,进而减小反复调整所带来的麻烦。
这次升级是存在代价的 ,指令遵循方式发生了改变 ,致使旧的提示词有时会产生意料之外的结果 ,用户就得重新做调整写法的操作 ,然而从长远角度去看 ,这反倒能够减少提示词玄学现象出现 ,从而让你的需求描述变得更加有用 ,对于惯常拿模型去润色材料 、整理项目以及反复修改同一份内容的人而言 ,这种提升相比跑分更具直观性。
安全与成本权衡并非完美升级
官方未曾将此次发布,包装成一回全无代价的彻底跃升。Opus 4.7的网络安全能力,比某个专用版本要弱,且上线之时,带有自动检测以及拦截高风险网络安全请求的护栏。从安全评估方面来看,它跟Opus 4.6的整体安全画像相近,在诚实性以及抵抗恶意提示词注入方面更强,不过在某些细项之上,也存在着小幅走弱。
关于成本这一块儿 ,虽说Opus 4.7 ,还有4.6 ,它们跟4.5在价格上维持了一样的情况 ,并未出现价格上涨的现象 ,然而这个价格自身实际上已然是足够地昂贵了。需要加以留意的是 ,Opus 4.7更换成了全新的分词器 ,相同的输入条件之下 ,大概会多产出1.0到1.35倍左右的Token数量 ,高分分辨率状态下输出的Token同样也会有所增加。对于普通用户而言 ,这更多地会在使用额度以及响应体验方面体现出来 ,建议在没有用到高细节的时候先对图片进行压缩。
长任务视觉协同成下一阶段主战场
这次发布能够看得出,AI模型的竞争方向已然明确转向实用能力了。官方押注的方向是长任务执行,视觉理解,工具协同以及少监督交付,这几项能力正被打包成下一阶段大模型的主战场。同时上线的Xhigh思考模式,Task API公测,还有Code模式里的/assign功能,都围绕着这个方向。
也正是早期的合作方所给出的反馈,证实了这些提升所具备的实际价值,众多的合作方提及的都是同样的几件事情,复杂的工作流变得更加稳定了,错误恢复的能力变得更强了,文档推理、代码审查、数据分析以及长上下文任务都出现了明显的提升,而对于普通用户来讲,能够将一份长长的文档修改得干干净净么,能够把一整套资料串联起来从而做成可交付物么,这才是最终决定AI究竟能不能在日常工作当中真正地为你撑起一片天地的关键所在。
看过Opus 4.7的这般改变,你认为于日常工作里,是更为强劲的视觉能力给予你更多助力,还是更为稳定的长任务执行更使你心动呢?欢迎在评论区讲述你的观点,也别忘记点赞并转发给同样在使用AI的友人。