Web Agent不缺操作，缺的是不从头摸索、不浪费经验的记忆

最后更新时间：2026年6月30日 13:53 Zevo 20

智能摘要

Agent，已经不缺「会操作」这件事。更具体一点——能不能让人把任务认真做一遍，把这一遍操作里的「门道」打包下来，然后交给一个更便宜、更小的模型，让它照着做，就能完成同一类任务？3.9%（10/258）的任务里，盲目照搬技能反而把本来能做对的做坏了。讨论三：剩下的难，难在「执行」而非「缺知识」。

痛点：AI每次上手都要从零摸索

倘若你指使那价格最为高昂的AI模型去抢购限量发售的商品, 它耗费了好几分钟去摸索页面, 仅勉强达成了一次成功抢购之举。下一回更换成另外一个购物网站, 它便又需要从起始之处重新学习, 仿若失去记忆一般。这般重复不断的浪费行为, 不但消耗钱财, 还会使人内心烦闷抓狂——明明实际操作步骤大致相近, 为何就不能够一次性学会呢?

解法：把人类操作打包成技能卡

第一步：录下人类的一遍操作

使一个人严谨地达成一回任务, 举个例子, 像填写表格或者查找酒店。系统并非会呆呆地记录鼠标坐标, 而是将每一个关键步骤转化成文字阐述: 点击了何处、页面产生怎样的反应、后续应该做什么。这恰似给AI编制一份“操作说明书”呀, 不过是比说明书更为聪慧的那种。

第二步：蒸馏成可读的语言

这些操作被整合成为一张“技能卡”, 通过固定字段清晰写明: 任务目标究竟是什么, 怎样去准确判断进度, 成功进而失败的条件又是什么。举例来说, 技能卡会表述为：先点击执行筛选按钮, 随后精心选择价格范围, 最终予以确认, 而非是在坐标(300,500)处进行点击这般。如此一来, AI便能够由此及彼、触类旁通。

第三步：建起技能图，方便复用

凡是技能卡都被组合归结成为一幅图示, 其中节点所代表的是技能, 而连线指的是关系。举例来说, 像“填表单”这类情况能够连接到“支付表单”以及“改资料表单”。照如此这般, 一旦新任务降临出现, 系统便能够在高效迅速的状态下找到最为匹配贴切的技能, 而并非是从毫无基础的状态之下去堆积汇集样本。

实战效果：成功率翻了一倍

在一项有着152个真实任务的测试当中, 没有技能给予帮助的AI, 仅仅解出了50个任务, 其成功率为32.9%。然而, 在使用上技能之后, 竟然解出了104个任务, 成功率一下子飙升到68.4%, 几乎实现了翻倍。特别在撰写操作类任务方面, 效果更为显著, 原因在于技能去除了大量试探性的胡乱点击。

关键发现：技能是策略，不是剧本

有意思的是, 要是强制AI去照搬技能, 哪怕当下页面以及技能描述存在着矛盾, 然而成功率反倒下降到了77.5%。这表明技能仅仅是“提示策略”, AI还需要自行去读取当前页面进而做出决定。技能的价值在于削减迷茫, 并非是替AI去做所有的决定。

未来展望：跨浏览器也能用

实验还将该套方法应用于桌面任务, 在30个任务里, 有17个任务获得了改进, 这表明技能能够跨越浏览器的界限, 在操作系统上亦可发挥作用, 其核心并非教导AI进行网页点击操作, 而是借助人类的经验促使AI在陌生环境中迅速寻得方向。

你试想一下, 要是AI能够将你的操作习惯给学会的话, 你最为想要让它去帮你达成什么样的既定任务呢? 欢迎于评论区域之中进行分享, 同时给予点赞并进行转发事宜, 以此让更多的人们能够目睹AI所取得的进步！

AI揭秘：你几点焦虑馋睡，工作日周末Claude用法全不同

AI账单失控下，美国企业如何转向Tokenminimizing及Lindy公司的选择

昆仑芯拟赴港上市，估值3405亿，投资者需搭售芯片

惠普与OpenAI合作，企业AI平台助力业务升级