Web Agent不缺操作,缺的是不从头摸索、不浪费经验的记忆
Agent,已经不缺「会操作」这件事。更具体一点——能不能让人把任务认真做一遍,把这一遍操作里的「门道」打包下来,然后交给一个更便宜、更小的模型,让它照着做,就能完成同一类任务?3.9%(10/258)的任务里,盲目照搬技能反而把本来能做对的做坏了。讨论三:剩下的难,难在「执行」而非「缺知识」。
痛点:AI每次上手都要从零摸索
倘若你指使那价格最为高昂的AI模型去抢购限量发售的商品, 它耗费了好几分钟去摸索页面, 仅勉强达成了一次成功抢购之举。下一回更换成另外一个购物网站, 它便又需要从起始之处重新学习, 仿若失去记忆一般。这般重复不断的浪费行为, 不但消耗钱财, 还会使人内心烦闷抓狂——明明实际操作步骤大致相近, 为何就不能够一次性学会呢?
解法:把人类操作打包成技能卡
第一步:录下人类的一遍操作
使一个人严谨地达成一回任务, 举个例子, 像填写表格或者查找酒店。系统并非会呆呆地记录鼠标坐标, 而是将每一个关键步骤转化成文字阐述: 点击了何处、页面产生怎样的反应、后续应该做什么。这恰似给AI编制一份“操作说明书”呀, 不过是比说明书更为聪慧的那种。
第二步:蒸馏成可读的语言
这些操作被整合成为一张“技能卡”, 通过固定字段清晰写明: 任务目标究竟是什么, 怎样去准确判断进度, 成功进而失败的条件又是什么。举例来说, 技能卡会表述为:先点击执行筛选按钮, 随后精心选择价格范围, 最终予以确认, 而非是在坐标(300,500)处进行点击这般。如此一来, AI便能够由此及彼、触类旁通。
第三步:建起技能图,方便复用
凡是技能卡都被组合归结成为一幅图示, 其中节点所代表的是技能, 而连线指的是关系。举例来说, 像“填表单”这类情况能够连接到“支付表单”以及“改资料表单”。照如此这般, 一旦新任务降临出现, 系统便能够在高效迅速的状态下找到最为匹配贴切的技能, 而并非是从毫无基础的状态之下去堆积汇集样本。
实战效果:成功率翻了一倍
在一项有着152个真实任务的测试当中, 没有技能给予帮助的AI, 仅仅解出了50个任务, 其成功率为32.9%。然而, 在使用上技能之后, 竟然解出了104个任务, 成功率一下子飙升到68.4%, 几乎实现了翻倍。特别在撰写操作类任务方面, 效果更为显著, 原因在于技能去除了大量试探性的胡乱点击。
关键发现:技能是策略,不是剧本
有意思的是, 要是强制AI去照搬技能, 哪怕当下页面以及技能描述存在着矛盾, 然而成功率反倒下降到了77.5%。这表明技能仅仅是“提示策略”, AI还需要自行去读取当前页面进而做出决定。技能的价值在于削减迷茫, 并非是替AI去做所有的决定。
未来展望:跨浏览器也能用
实验还将该套方法应用于桌面任务, 在30个任务里, 有17个任务获得了改进, 这表明技能能够跨越浏览器的界限, 在操作系统上亦可发挥作用, 其核心并非教导AI进行网页点击操作, 而是借助人类的经验促使AI在陌生环境中迅速寻得方向。
你试想一下, 要是AI能够将你的操作习惯给学会的话, 你最为想要让它去帮你达成什么样的既定任务呢? 欢迎于评论区域之中进行分享, 同时给予点赞并进行转发事宜, 以此让更多的人们能够目睹AI所取得的进步!