新闻资讯
GPT-5.5震撼登场!各项基准测试全榜第一,编程新王诞生
就在刚刚,GPT-5.5震撼登场——OpenAI迄今最强、最全能的新一代旗舰模型。编程新王登场OpenAI内部的Expert-SWE评测,专门测那些人类预估中位完成时间20小时的长周期编程任务,GPT-5.5拿到73.1%,同样高于GPT-5.4的68.5%。
GPT - 5.5才刚发布,便于所有关键测试里取得第一名。不管是编程方面,还是推理领域,亦或是数学范畴,甚至是智能体任务,它都将Opus 4.7以及3.1 Pro远远抛在后面。相较于上一代GPT - 5.4,此次升级可谓是代际碾压,性能差距极为显著。
编程能力翻身仗打得漂亮
GPT - 5.5在编程领域有着最为显著的进步,它是被设计为智能体编程的模型,能够于终端环境之中自行规划任务,能够调用工具,能够撰写脚本,能够处理报错,并且还能够反复迭代直至代码顺畅运行,内部SWE评测专门针对那种人类需耗费20小时方能完成的长周期编程任务进行测试,GPT - 5.5获取到73.1%的分数,此分数高于GPT - 5.4的68.5%。
对于业界所公认的SWE - Bench Pro评测而言,GPT - 5.5的得分是58.6%,此分数略低于Opus 4.7的64.3%。然而,OpenAI在分数的旁边标注了一个星号,这一标注指出Opus 4.7在部分问题子集上存在过拟合的迹象,也就是说其可能提前记住了答案。更为关键的是,GPT - 5.5通过使用更少的token达成了全面超越。
真实项目交付一气呵成
取出一个实际的例子,使GPT - 5.5去做一个阿尔忒弥斯II太空任务的可视化应用,仅仅是把任务截图抛掷给它,接着要求运用WebGL以及Vite去实现3D轨道模拟器,轨迹数据必然出自NASA/JPL的真实矢量数据,并且要有逼真的轨道力学。该GPT - 5.5将全部依照要求照单执行,接着直接交付了可展开工作的程序。
另一项测试乃是3D地牢竞技场类游戏,GPT - 5.5自行设计了该游戏的架构,借助Three.js达成图形渲染,并且完成了战斗系统、敌人遭遇逻辑以及HUD反馈界面,早期测试者称,GPT - 5.5对于代码库整体形态的理解更为出色,能够精准判定问题究竟出在何地、修复应当添加于哪个位置、以及哪些地方会受到影响。
知识工作和智能体任务同样亮眼
除掉编程之外,GPT - 5.5于知识型工作方面的表现亦是极度出色的。在一项针对44个职业里规范知识工作能力予以评估的测试当中,GPT - 5.5获取到84.9% ,Opus 4.7为80.3% ,3.1 Pro仅仅只有67.3%。在另一个针对模型独立操控电脑环境的OSWorld评测环节里面,GPT - 5.5所获分数为78.7% ,与Opus 4.7的78.0%近乎持平。
在Tau2-bench这个用于测试复杂客服工作流的评测里,仅有98.0%准确率的GPT-5.5 ,是在没有进行微调提示词的状况下达成的。有一个公关团队,把GPT-5.5运用起来,去分析长达六个月的演讲邀约数据,还自行构建了评分以及风险框架,使得低风险的请求能够自动交付给Slack上的AI智能体予以处理,最终工作效率得到了大幅度的提升。
科研和数学推理实现突破
GPT-5.5于科学研究方面展现了实力,它对一个有关拉姆齐数的新证明给予协助,且在Lean语言里获得了形式化验证,拉姆齐数作为组合数学的关键概念,简单来讲就是探究网络达到何种规模便必定会出现某种规律性架构,此发现证实了GPT-5.5的数学推理能力。
于一场专门针对多阶段科学数据分析展开的评测里头,GPT - 5.5被要求在不存在人工介入的情形下对模糊数据以及隐藏的混杂因素予以处理,它获取了80.5%的分数,于所有已公开分数的模型当中位列第一。更具值得留意之处在于,从Tier 1至Tier 3的分差仅有8个百分点,这表明越朝着数学前沿问题迈进,GPT - 5.5的优势越是显著。
Token效率提升但定价更高
GPT - 5.5性能的提升源自token效率的优化,在相同的Codex任务里,GPT - 5.5所使用的token相较于GPT - 5.4显著更少,OpenAI给出的解释是新的基座模型在算法层面有改进,致使每个任务所需的计算量降低,并且还保持了与GPT - 5.4相同的生成速度。
那来算一笔账便会知晓,要是有一个团队,每月在GPT - 5.4上面花费10万美元,当切换至GPT - 5.5之后,就算token用量降低30%,然而月账单依旧会增长到大概14万美元。也就是说,GPT - 5.5是一种为了更强智能而要付更多钱的存在溢价的产品,GPT - 5.4很有可能继续作为性价比之选而留存。
真实场景应用已经落地
在Codex开发环境里,借助GPT - 5.5能够与Web应用开展直接交互,进行测试流程,点击页面,截取屏幕,依据所看到的内容持续进行迭代直至完成任务。它还具备生成更高质量电子表格、PPT以及文档的能力。应用内新增加的文件查看器,能够加快审阅、修订以及迭代的速度。
是一位基因医学实验室的免疫学教授,运用GPT - 5.5 Pro,对一个有着62个样本、将近28000个基因的表达数据集做了分析。研究员Noam Brown也明确表示,因为有了GPT - 5.5,所以自己就能够如同专业人士那般编写CUDA内核来开展研究实验啦。GPT - 5.5并非只是又一次小版本的迭代,而是由一次全新基座模型所导致的全局性跃升。
瞅完这些测试得出的数据以及实际发生的案例,你认为GPT - 5.5的性能所实现的提升有价值每月再多付出百分之四十的成本吗?欢迎于评论区域分享你所抱持的看法,同样也别忘记点赞并进行转发从而让更多的人能够看到这一篇深度性质的评测。


