新闻资讯
OpenAI Agents SDK大升级,生产级Agent底座来了
原生harness、原生沙盒、Codex级的文件系统工具,外加七家头部沙盒厂商一键接入。SDK从「聊天机器人的玩具」改造成了「生产级Agent的底座」。从「聊天机器人的玩具」到生产级底座GPT-5.4出厂那天被一些人说成是「没有惊喜的例行升级」。
在过去的半年时间里,想要去开发一个具备能够自主对电脑进行操作能力的 AI Agent ,仅仅是去搭建其运行环境以及保证其安全性这一方面,就已经将绝大多数的开发者给劝退了。而现如今 ,官方 SDK 以一种如同用刀果断且精准地切开并分离两层架构的方式 ,把基建层切实地做到牢固扎实了。
从聊天玩具到生产底座
OpenAI在2025年3月首次推出SDK时,主打特征为轻量、少抽象,只需几行代码便可运行起来。其设计思路完全是围绕聊天机器人场景来的,模型调用一次便结束,无需考虑长时间运行的问题。然而,一年多过去了,模型能力如今已能够支撑Agent一口气运行几个小时甚至几周,原先的SDK明显已不够用了。
此次升级的关键改变,在于将SDK从“用于聊天机器人的玩具”转变为“构成生产级Agent的基础”。控制流、模型调用、工具路由、暂停恢复等底层能力都已内置,开发者无需再自行拼凑一套框架。负责读写文件、安装依赖、运行代码的沙盒环境则完全独立出来,两层之间借助标准化接口实现通信。
Codex级工具链全面下沉
熟悉Codex的开发者,看到此次新功能清单会觉得眼熟,配置化记忆,感知沙盒编排,类似Codex的文件系统工具,通过MCP调用工具,渐进式披露信息,Markdown自定义指令,shell工具执行代码,apply patch工具编辑文件,都被打包进SDK,获得原生支持。这些功能并非凭空而来,而是将自家Codex过去一年所遇问题及积累的最佳实践,直接产品化后放入SDK。
已经验证了这套工具链的实战价值,保险科技公司CTO Jeremy披露,他们的Agent啃下了一份900多页的保险理赔记录,其提取成功率达到了100%,900多页、100%、保险理赔记录这三个词凑在一起,老保险从业者一看就明白,这是业内最难啃的文档类型之一,以前跑到某一页就崩掉是常态。
密钥不进沙盒的安全革命
此次架构升级,最为狠厉的一刀,砍在了安全问题之上。往昔,开发者最为头疼之事,乃是 API key 以及敏感凭证,究竟该如何安全地传递至沙盒里的代码。如今之方案为:Agent 运行于你的可信基建之中,负责管理模型调用、审批、追踪以及运行状态,而沙盒乃是一个全然独立的环境,专门负责读写文件、运行命令、安装包以及吐出产物。
结果呈现为,沙盒之中,既不存在API密钥,亦不存在任何敏感凭证。沙盒自身,全然处于隔离状态,甚至于能够断开网络连接,并不存在任何对外流量情况。这所意味的是,即便沙盒里运行的代码遭遇恶意攻击,攻击者也不能够获取到任何凭证,因而无法导致数据泄露亦或是促成其他安全事故。这属于整个Agent架构的范式转移范畴,即从“想尽办法进行防范”转变为“从根本上就进不去”。
七家沙盒厂商一键切换
# pip install "openai-agents>=0.14.0"import asyncioimport tempfilefrom pathlib import Pathfrom agents import Runnerfrom agents.run import RunConfigfrom agents.sandbox import Manifest, SandboxAgent, SandboxRunConfigfrom agents.sandbox.entries import LocalDirfrom agents.sandbox.sandboxes import UnixLocalSandboxClientasync def main() -> None: with tempfile.TemporaryDirectory() as tmp: dataroom = Path(tmp) / "dataroom" dataroom.mkdir() (dataroom / "metrics.md").write_text( """# Annual metrics| Year | Revenue | Operating income | Operating cash flow || --- | ---: | ---: | ---: || FY2025 | $124.3M | $18.6M | $24.1M || FY2024 | $98.7M | $12.4M | $17.9M |""", encoding="utf-8", ) agent = SandboxAgent( name="Dataroom Analyst", model="gpt-5.4", instructions="Answer using only files in data/. Cite source filenames.", default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)}), ) result = await Runner.run( agent, "Compare FY2025 revenue, operating income, and operating cash flow with FY2024.", run_config=RunConfig( sandbox=SandboxRunConfig(client=UnixLocalSandboxClient()), ), ) print(result.final_output)if __name__ == "__main__": asyncio.run(main())
此次发布之际,宣布了七家沙盒厂商进入官方支持列表,它们分别是:Docker、Fly.io、Replit、E2B、Modal、RunLoop、Baseten。能够同时接入这七家厂商,关键之处在于官方提供了一个名为sandbox.yaml的抽象层,这是一份描述Agent工作区配置的清单。需要挂载哪些本地文件,从哪个云存储拉取数据,产物要写到哪里,这些全都写在这个配置文件里。
最为关键之处在于,这份配置与具体的沙盒供应商实现了解耦,今天运用E2B编写的Agent,到了明天要是想更换成Modal来运行,无需重新编写代码,仅仅改动一行配置便可达成,哪家沙盒具备价格优势,哪家距离你的数据更近,便切换至哪家,官方呈现了一个示例,使Agent进入本地沙盒,挂载上一个财报目录,用以对比苹果、微软、谷歌的三项财务指标,核心代码数量少于20行。
断线续命和分身作战
还有两个针对长跑任务十分关键的新能力,分别是快照与状态恢复,以及多沙盒并行加子Agent隔离环境。通过快照功能倘若沙盒容器出现故障,也能够从检查点继续运行,无需从头开始启动。这对于处理900页保险文档这类任务极具价值——以往运行数小时后突然崩溃,所有进度都会丢失,可如今能够从最后一个检查点恢复。
扩展性方面的问题是借助多沙盒并行来予以解决的,一个Agent能够同时开启许多沙盒环境,各个沙盒运行不一样的子任务,最终将结果进行汇总,子Agent之间的环境是完全相互隔离的,彼此不会产生影响,这表明Agent首次具备了“掉线续命”以及“分身作战”的原生能力,其不再是作为一个单点运行状态的脆弱进程。
第三方框架的生存空间被挤压
发出此次发布,对于行业而言,所造成的最为巨大的冲击之处,乃是径直对LangChain、CrewAI、AutoGen这些第三方主体的Agent框架的生存范畴予以了挤压。那些框架在过去的一年时间当中,凭借着什么得以存续呢?依靠的便是去填补原生SDK所存在的并不足够“生产可用”的那块空白区域——编排、记忆管理、防护设施、追踪、多Agent协作。当下官方已将上述这些能力全部进行了内置。
官方所说的“兼容所有沙盒服务商”,实际上是将沙盒供应商归入自身的生态位范畴。今日某一沙盒厂商或许还是独立的技术合作方,明日其身份就仅仅是生态体系下的“组件供应商”而已。新能力首次发布仅推出了Python版本,TypeScript被安排在后续的更新计划之中。从事Agent框架的创业公司得重新考量自身定位,身为沙盒的供应商要计算流量是否能够承接得住,开展业务层Agent应用的团队则在思索要不要进行迁移。
要是此时此刻需从毫无基础状态着手构建一个具备生产级别性质的AI Agent团队时,你会选取应用官方所提供的这套原生示例办法呢,还是会持续运用由第三方来适配的成体系框架架构做法呢?欢迎诸位在评论区域分享你所做的判定选择,同时也千万不要忘记去进行点赞操作,并且转发给正操作Agent开发事务的共事同仁。