GPT-5.4发布！粉碎对手神话，具备原生电脑使用能力

更炸的是，GPT-5.4还是首个拥有「原生电脑使用」能力的通用模型。看来，OpenClaw之父加入后，立马让ChatGPT原生「电脑操控」能力变强了！GPT-5.4是OpenAI首个具备原生计算机使用能力的通用模型。不过，GPT-5.4一切强大的执行能力，都是建立在更强的「通用视觉感知」能力之上。

实实在在地拿着真刀真枪去干活，而不是讲那些没用的废话，GPT - 5.4能够使得电脑自行发生能动，把办公的效率大幅度提升到极致。这可不单单只是版本号出现了跳跃，更是人工智能的能力从仅仅只是「思考」转变到能够「动手」的一种质的变化。

GPT - 5.4成了首个具备原生计算机运用能力的通用模型，它不但能够看懂屏幕截图，可以直接动用鼠标键盘去进行操作，切实达成了AI取代人「动手」干活。

参加OSWorld测试时，GPT-5.4采用DOM与截图驱动交互方式，成功率达67.3%，显著高于上一代的65.4%。进行另一项仅看截图的测试，它取得92.8%的成绩，远超对手的70.9%。

整体所有强大无比的执行能力，全部都是构建于更为强大厉害的通用视觉感知状况之上。GPT - 5.4头一回引入名为「原始」以及「高」的这两种图像输入方面的细节级别，使得那个模型针对屏幕元素进行定位的时候更加精准无误。

新版在定位能力、图像理解和点击准确性上均有大幅提升，这是API早期测试数据所显示的。这意味着它能更清楚地「看见」屏幕上每个按钮的位置，操作起来自然更清晰、更准确、更稳定。

假定操控电脑属于硬功夫范畴，那么知识工作便是GPT - 5.4所具备的软实力。进行测试，其范围涵盖美国GDP贡献最大的9个行业，以及44种职业，其中从用于施展销售的PPT，到会计所使用的表格，再从急诊的排班安排，直至短视频的创作制作，所有方面均要求实实在在地拿出成果来。

在一项针对模拟初级投行分析师的电子表格建模的测试里，GPT-5.4平均所得分数为87.3%，相较于前一代的68.4%，高出了将近19个百分点。人类评审员在68%的情形下，更加倾向于它制作生成的PPT，原因在于视觉方面更为丰富，图像运用更加高效。

致力于使模型切实能够胜任工作，研发团队于减少幻觉以及事实错误方面不断地投入精力。GPT - 5.4变为迄今最注重事实的版本，单独声明出现差错的可能性下降了33%，整个回复涵盖任何错误的可能性下降了18%。

于SWE - Bench Pro编程测试里，它取得57.7%的准确率，此数值甚至高于专门经优化的编程版本的56.8%。并且它还是Token效率最为高的推理模型，解决相同问题时所需Token大幅削减，最快生成速度提高了1.5倍。

对于复杂的前端任务而言，GPT - 5.4展现出的表现算得上惊艳。研发团队开展了一项实验性技能，这项技能是让它在构建网页应用的同时，于浏览器里面进行可视化调试测试。仅仅凭借一段提示词，它就依靠自身创造出一个完整的经营类游戏。

先是从疯狂地进行扩建，而后到对设施予以拆除，接着从镜头导航开始，再到UI数据验证，历经数轮自动化的高压测试，才最终实现交付。同样是那一段提示词，它能够生成出一个可以进行自由飞行的超写实3D场景，展现出极强的创造力与执行力。

被GPT-5.4引进的「工具搜索」功能，根本性地处理了因MCP工具数量过多而致使的上下文爆炸难题。于Scale的MCP Atlas基准测试里，当开启全部36个MCP服务器之际，工具搜索在维持相同准确率之时，把总Token使用量降低了47%。

在延迟敏感的场景当中，它于电信客服任务层面有着显著的巨大领先优势；当开启高推理强度之后，更是达成了近乎完美的高达98.9%的成绩。其网络搜索能力也实现了同步的升级，能够更为持久地展开多轮搜索，从多个不同的源头去整合各类信息，进而给出条理相当清晰、推理极为严密的答案。

瞧完GPT - 5.4这般能力，你顶想叫它替你搞定哪一件最令人头疼的工作？欢迎于评论区去分享你的想法，点赞转发以便让更多人目睹到AI的进化速率。