AI模型不再关键，智能体成败看马鞍

云模型很棒，但真正让这一切落地的其实是Harness。Agent——或者说看起来像编码智能体的那些——就是效果最好的那一类。至于最终是应该从终端应用切入，还是从模型切入？我觉得很多部署类产品——那些让你能够构建长周期有状态应用的产品——无论Agent如何演变，都会是重要的。

AI模型不再关键，智能体成败看马鞍

到2025年年底的时候，AI这个圈子忽然察觉到有一个核心规律，那就是让大模型在循环当中运行起来，给它工具去使用，如此便能够制造出实用的Agent，这样子发现简单使得人意外，可是却引发了整个行业的创新热潮。

核心架构其实很简单

Code、Manus、Deep等产品，是在一年之前出现的，其底层逻辑几乎完全一样。它们都使大模型进行反复运行，每一次循环均可调用各类工具，诸如写代码、读写文件等。这样的设计不存在复杂理论，仅仅是将模型视作一个持续进行决策的大脑。

在于大模型自身具备足够强大的能力，所以这个简单架构才会出现有效的情况。模型于循环期间能够看见自己上一步所产生的结果，进而据此裁定下一步该开展何种行动。举例来讲，要是让它去撰写一个网页，它会率先生成HTML代码，接着进行错误检查，随后纠正问题，一直持续到完成状态。

好多开发者在假期时段忽然领悟到了这一要点，他们发觉无需花哨的框架，只要将模型置于循环之中，给予其恰当的工具，便能够迅速构建各类Agent应用，从客服机器人到数据分析助手，均可采用同一套办法。

要使得Agent切实具备实效，就得使其牢记往昔之所作所为。当下的解决办法颇为简易：将计划记述于一文本文件之中，让主Agent每时每刻都能查阅此文件以引领行动。此文件遂成了Agent的外部记忆。

能体现这种方式优势的是其具备透明可控的特性，开发者能够直接将文件打开，进而去查看Agent所想内容，并且也能够通过手动形式对文件作出修改。以此来对Agent的行为予以调整，相较于复杂的向量数据库而言，文本文件同时拥有简单与可靠这两种特性。

实际操作当中，绝大多数的Agent所输出的是一连串的待办任务，每一个任务均具备描述以及状态。主要的Agent持续不断地对这个任务列表予以更新，将已完成的项目进行标记，增添新的任务。这样一种待办清单样式的管理方式，使得长周期任务得以变得能够被控制。

命令执行以及代码运行，是Agent工具箱里头相当重要的组成部分。而当Agent面临要处理数据，要么进行软件装机，又或者是调用别的API之际，能否施行代码便成了极为关键的要点。如此一来，Agent就从单纯的对话体系进阶成为了实实在在的执行者。

但是呢，代码执行功能目前仍处于探索时期，不少开发者因担忧安全方面的问题，对于究竟何时应当让Agent去执行代码感到不确定，并且也不清楚该以怎样的方式去监控以及管理这些代码的运行情况。尽管在技术层面是存在支持的，然而实际的使用比率却并不高。

技术成熟之后，代码执行会愈发重要。设想一下，Agent自行编写一个爬虫去抓取数据，之后分析抓取所得的结果，进而生成报告。这种能力一旦稳定下来，Agent能够做的事情将会大幅拓展。

长期工作的Agent，其记忆会持续膨胀，解决办法是给Agent一个工具，使其自行触发记忆压缩，模型会提取主要目标、重要事项、关键文件，而后将旧的对话历史精简为核心信息。

这般自触发压缩着实巧妙，模型依据自身的判断，晓得何时记忆过多从而需要整理，恰似人类做笔记那般，将重点予以保留，把重复以及无关的内容舍弃，OpenAI的API里已然出现了类似功能。

一旦Agent具备修改自身System Prompt的能力，那真正的学习便会出现，它借由压缩流程去归纳经验教训，进而更新自身行为准则，而这些经更新的记忆，于文件系统里是以文件形态留存的，随时可以进行查看以及修改。

构建Agent跟传统软件不一样，在运行以前你压根不清楚它会怎样，所以观察Agent行为的工具比传统软件紧要得多，你得瞧见模型做出了哪些决策，为何要这么做，结果又是怎样。

有一种很实用的办法，是运用Evals评估系统，你于数据点之上运行Agent，接着运行评估器去判定其好坏，随后把所有反馈收集起来，然后促使Agent依据反馈去更新自身的行为，这跟人类学习极为相像，一旦做错了便记住其中的教训，以便下次避开。

有一种更高级的做法，是将其与Evals进行连接。在你对Agent的某些内容实施编辑之际，同时增添一个Eval测试用例，如此一来，往后便能够自动检测此次修改是否致使了问题回归。这样的一种闭环系统，能让Agent实现持续改进。

大量企业询问究竟该如何去部署Agent，是将其打包成为Skill呢，还是包装成Sub - Agent呢。实际上这些均并非关键所在，关键中真正具价值的其实是构建完善好与Tool自身。不管你最终是以何种方式去展现这些能力，底线的资产才是最为核心的。

那些对于长周期智能体而言，效果最为良好的类型，是那些看上去类似于编码智能体的。因为编码任务在本质上是需要进行包含多步骤的规划、执行、检查以及修正的，而这样的一种模式能够被迁移至其他领域。并且，你的企业SOP标准流程，在很大程度上是应当体现在Agent之中的。

日后会出现可启动以及管理别的长周期智能体的Agent，它们相互之间会融合成统一的系统，长周期、异步的后台Agent本质上是一种特殊的Tool，不管技术怎样发展演变，部署类产品能让你构建长周期且有状态和反应的应用，这些根本能力始终会很重要。

您认为于您的工作亦或是生活里，哪一个环节最为需要一个能够自动达成多步骤任务的智能主体呢？欢迎在评论区域分享您的想法，点赞以使更多的人能够见到这一篇文章。