新闻资讯
GPT-5.4发布!粉碎对手神话,具备原生电脑使用能力
更炸的是,GPT-5.4还是首个拥有「原生电脑使用」能力的通用模型。看来,OpenClaw之父加入后,立马让ChatGPT原生「电脑操控」能力变强了!GPT-5.4是OpenAI首个具备原生计算机使用能力的通用模型。不过,GPT-5.4一切强大的执行能力,都是建立在更强的「通用视觉感知」能力之上。
实实在在地拿着真刀真枪去干活,而不是讲那些没用的废话,GPT - 5.4能够使得电脑自行发生能动,把办公的效率大幅度提升到极致。这可不单单只是版本号出现了跳跃,更是人工智能的能力从仅仅只是「思考」转变到能够「动手」的一种质的变化。
原生电脑操控首次落地
GPT - 5.4成了首个具备原生计算机运用能力的通用模型,它不但能够看懂屏幕截图,可以直接动用鼠标键盘去进行操作,切实达成了AI取代人「动手」干活。
参加OSWorld测试时,GPT-5.4采用DOM与截图驱动交互方式,成功率达67.3%,显著高于上一代的65.4%。进行另一项仅看截图的测试,它取得92.8%的成绩,远超对手的70.9%。
视觉感知能力大幅跃升
整体所有强大无比的执行能力,全部都是构建于更为强大厉害的通用视觉感知状况之上。GPT - 5.4头一回引入名为「原始」以及「高」的这两种图像输入方面的细节级别,使得那个模型针对屏幕元素进行定位的时候更加精准无误。
新版在定位能力、图像理解和点击准确性上均有大幅提升,这是API早期测试数据所显示的。这意味着它能更清楚地「看见」屏幕上每个按钮的位置,操作起来自然更清晰、更准确、更稳定。
知识工作软实力同步升级
假定操控电脑属于硬功夫范畴,那么知识工作便是GPT - 5.4所具备的软实力。进行测试,其范围涵盖美国GDP贡献最大的9个行业,以及44种职业,其中从用于施展销售的PPT,到会计所使用的表格,再从急诊的排班安排,直至短视频的创作制作,所有方面均要求实实在在地拿出成果来。
在一项针对模拟初级投行分析师的电子表格建模的测试里,GPT-5.4平均所得分数为87.3%,相较于前一代的68.4%,高出了将近19个百分点。人类评审员在68%的情形下,更加倾向于它制作生成的PPT,原因在于视觉方面更为丰富,图像运用更加高效。
事实错误率显著降低
致力于使模型切实能够胜任工作,研发团队于减少幻觉以及事实错误方面不断地投入精力。GPT - 5.4变为迄今最注重事实的版本,单独声明出现差错的可能性下降了33%,整个回复涵盖任何错误的可能性下降了18%。
于SWE - Bench Pro编程测试里,它取得57.7%的准确率,此数值甚至高于专门经优化的编程版本的56.8%。并且它还是Token效率最为高的推理模型,解决相同问题时所需Token大幅削减,最快生成速度提高了1.5倍。
花式炫技徒手搓游戏
对于复杂的前端任务而言,GPT - 5.4展现出的表现算得上惊艳。研发团队开展了一项实验性技能,这项技能是让它在构建网页应用的同时,于浏览器里面进行可视化调试测试。仅仅凭借一段提示词,它就依靠自身创造出一个完整的经营类游戏。
先是从疯狂地进行扩建,而后到对设施予以拆除,接着从镜头导航开始,再到UI数据验证,历经数轮自动化的高压测试,才最终实现交付。同样是那一段提示词,它能够生成出一个可以进行自由飞行的超写实3D场景,展现出极强的创造力与执行力。
工具搜索解决上下文爆炸
被GPT-5.4引进的「工具搜索」功能,根本性地处理了因MCP工具数量过多而致使的上下文爆炸难题。于Scale的MCP Atlas基准测试里,当开启全部36个MCP服务器之际,工具搜索在维持相同准确率之时,把总Token使用量降低了47%。
在延迟敏感的场景当中,它于电信客服任务层面有着显著的巨大领先优势;当开启高推理强度之后,更是达成了近乎完美的高达98.9%的成绩。其网络搜索能力也实现了同步的升级,能够更为持久地展开多轮搜索,从多个不同的源头去整合各类信息,进而给出条理相当清晰、推理极为严密的答案。
瞧完GPT - 5.4这般能力,你顶想叫它替你搞定哪一件最令人头疼的工作?欢迎于评论区去分享你的想法,点赞转发以便让更多人目睹到AI的进化速率。



