别再被Agent评测骗了!真实办公场景中它们根本不行
现有的Agent评测,说白了就是:仿真环境、简单任务、最多几十步搞定。跟真实工作完全是两回事。真实办公长什么样?SaaS-Bench的思路很暴力:直接把真系统搬进Docker,让Agent在真实的前后端逻辑、数据库状态和业务约束中干活。SaaS-Bench任务——真实工作场景任务
评测成绩全是假的
在过去的一年当中, 各个具有图形用户界面的智能体纷纷恐后争先地宣称自己能够代替人类去进行工作, 其成果呈现出一路飞速上升的态势, 从而使得投资人感到兴奋不已, 令媒体陷入狂欢状态, 仿佛“全自动办公”的局面马上就要出现在眼前了。然而, 最近却通过一组数据证实了: 所有的这些情况, 实际上都是建立在不稳固的基础之上的。目前所存在的智能体评测方式, 简单来讲, 就是在仿真环境里, 针对相对简单的任务, 最多通过几十步操作便能够完成。
不存在实实在在的业务数据于这些测试环境之中, 不存在跨系统的关联, 更不存在历史干扰项。即便Agent在其中运行得极为顺畅, 然而一旦放置到真实办公场景里就立马暴露本来面目。
把真系统搬进实验室
SaaS – Bench的思路极为粗暴: 径直将真系统移入测试环境。他们用心挑选了23个开源SaaS系统, 全都借由本地部署, 留存了完备的前后端逻辑、数据库状态以及业务约束。每个软件当中都填进了真实业务的数据, 涵盖用户、项目、订单、文件等实体记录。
Agent所进入的并非是那种毫无内容的测试页面, 而是这样一种真实的工作环境, 该工作环境存在着过往的历史数据, 有着容易产生干扰的项目, 还具备跨系统之间的相互关联。对于医疗管理员而言, 先是完成SOAP病历的书写, 在此之后还要去填写病例上报的相关内容, 最终生成正式的文档, 其每一个环节都和实际办公毫无二致。
任务难到让人绝望
在106个任务里头, 有93.4%跨越起码两个应用, 其中三应用任务占到了一半。按照Opus 4.6的执行轨迹来估算, 97.3%的文本任务操作步数超过100步, 最长的轨迹达到了300多步。这些任务都是「跨应用+长轨迹」这样的组合, 而这恰好是日常工作里头最为常见的形态。
「LLM生成+专家把关」这种方式被用于任务构建, 以此来保证每个任务都具备实际业务价值。SaaS系统能够被Agent通过桌面环境这种途径来用于操作, 在这种使用模式上, SaaS-Bench给出了两个核心指标, 分别是检查点通过率以及端到端完全通过率。后续所呈现的结果会显示出, 在这两个数字之间存在的巨大落差展现出了Agent最为核心的问题。
最强模型只通过4个任务
能力最为强大的Opus 4.7, 其检查点分数呈现为43.9%, 然而端到端完全通过分数仅仅只有3.8%。在106个任务里面, 仅完整通过了4个, 相较于他其他模型, 完全通过分数是零。这一组数字所蕴含的 meaning, 是极为那般残酷的: 意思为Agent能够促使工作向前推进的部分中间环节, 不过几乎不存在将一个完整的长程工作流给全部走完的能力。
历经三次独立运行, 每个模型在同一任务上各自展开, 只要有一次成功就算通过。在多模态任务里, 4.6从33.9%跃升至52.1%, 并非全然无用, 只是执行起来极不稳定, 其缘由全归咎于路径依赖。由于模型在某个决策点呈现处细微差别, 致使后续轨迹从那儿彻底分道扬镳, 多次运行确实能起到一定作用, 然而根本不是解决问题的全面方案。
四种死法暴露真实短板
SaaS – Bench 真正具备的价值在于将四种致使缺陷给暴露了出来, 其一, 越是往后进行错误就会越多起来, 所有模型能够通过的比率会随着任务一点点推进而出现下降, 压根没有任何一个可以始终维持先前期间的表现;其二, 一旦出现一步错误那么后续的每一步都会跟着出错, Agent填满错了的联系人类型之后, 便会触发错误的业务逻辑 , 进而导致下游百分之三十相应权重全部受损。
做完之后不进行检查, Opus 4.6将日期错误识别出来并予以执行修改, 然而并没有返回到页面去复查就让后续子任务推进了, 提交的时候报告写着「已修复」, page上实际的那个日期却依旧是错误的, 第四, 每一次的分数都不一样哦, 同一任务三次运行分数从0.00一直到0.68 , 初始状态完全是相同的, 可是却因为路径依赖变成了赌博。
软件也要为Agent重做
SaaS – Bench打破了一种幻想, 即Agent的成绩与真实工作能力间留存着巨大差距, 四种结构性失败表明同一底层实情, 即当下Agent欠缺对持久状态的有效推理本领, 欠缺操作后的闭环验证体系, 欠缺从错误里恢复的本事。
这一些并非依靠模型变大便能够解决的问题, 它们所指向的是当前Agent范式更深厚层次的局限。然而, 这同时也引向了一个达成的共识, 今时今日的SaaS是为人所设计的, 一旦Agent变成主要用户, 那么这些界面就会沦为累赘。未来并非让Agent学会操控人类的软件这件事, 反而是软件自身要为Agent进行重新设计。面向人类的SaaS呀, 说不定都得为Agent重新来做一回啊。
你平常有没有胆量让人工智能智能体协助你料理涉及不同系统的工作流程呢? 举例来说, 从客户关系管理系统导出客户相关的数据, 而后再传送到财务系统进而生成账单? 在评论区域讲讲你遭遇的失利经历, 通过点赞使得更多人能够明晰真实情况。