一个非常清晰的行业趋势正在形成:单模型能力正在接近结构性边界,多智能体被视为下一步。论文针对多智能体环境提出了新的共识理论框架,并给出了严谨的多智能体共识的正确性定义。论文进一步量化了多智能体系统中长期被忽视的问题:收敛之后的无效计算。
当下AI发展呈现出一个显著趋向,那就是,单个大模型能力的提升正遭遇瓶颈,并且,将多个AI智能体协作用于完成任务视作突破此瓶颈的关键途径。可是,当多个带有随机性的智能体一道开展工作时,怎样确保它们能够稳定地协商一致并在效率方面进行终止,这已然成了妨害其实现真实于实际中使用的工程核心难题。
当下,不管是大厂,还是顶尖研究机构,于开发能实施多项智能任务的系统之际,所关注的要点大多聚集在怎样促使每个具备智能的个体更出色地开展逻辑推导。通常的做法是把多个具备智能的个体的输出予以简易归总,像是借由多数表决或者设定恒定的商讨轮值数量以判定最终的成果。这些方式在实验室的环境当中可能行有成效,然而一旦投放进真实的、具备高并发特性的生产环境,问题就全然显现出来了。
这些系统欠缺一套清晰的“共识”定义,系统不清楚何时算是讨论出了稳定结果,只能被动地等待所有智能体都完成发言,或者机械地执行完预设的对话轮次,这致使系统效率低,响应速度被最慢的智能体拖慢、受阻,并且还浪费了数目巨大的计算资源。
近期,有一项研究,是由Hetu联合创始人Li等人发表的,它从根本上扭转了看待多智能体问题的视角,该研究指出,多智能体协作本质上并非是一个“编排”问题,而是一个“分布式共识”问题,就如同是一群决策者在开会,其目标并非是让每个人都能把话说完,而是要高效地达成一个大家不会再反悔的稳定结论。
与传统分布式系统(像区块链那般)不一样,这是由于每个AI智能体的输出存有内在的随机性,致使传统共识协议没办法直接拿来套用。所以,研究头一回为多智能体环境给出了严谨的共识理论框架,界定了在随机主体参与的状况下,怎样才算是“正确”且“稳定”的一致。
若是不存在明确定义的共识机制,那么系统故障并非偶然,而是会展现出可预测的模式。论文里系统性地测量了“决策翻转”现象,也就是系统于相邻的决策轮次中,多数派意见频繁出现反转。比如在某个测试当中,系统针对同一个问题在连续讨论时反复改变主意。
这会致使依据“当前多数”来开展提前停止的机制全然失效,系统有可能在获取到一个暂且、脆弱的多数意见后就匆忙做出决定,随后又自行推翻决定。这不是模型推理能力欠缺,而是底层协作机制存有根本缺陷,没办法判断一致性是否切实达成。
在新的理论框架基础之上,研究给出了一份全新的共识协议。它的核心革新之处在于,系统不用再等待全部智能体都讲完话。只要监测到有足够数量的智能体构成了一个“稳定”的共识集合,系统就会马上推进并做出最终决定,并且停止其余智能体的多余计算。
系统的同步范式被这给彻彻底底地改变了,延迟并非受变慢的智能体决定,却是根据达成稳定共识的速度而确定,与此同时,系统在生成答案的全部过程里会持续监测共识状态,一旦有满足的条件便马上“早停”,借此节省大量没有必要的Token消耗。
把这套共识机制运用到实际系统里的时候,所带来的性能提升属于数量级的。实验数据表明,在请求吞吐量是每秒1次的AIME评测场景当中,和主流的多智能体实现办法相比较,新方法达成了平均延迟降低1.2至20倍,P99尾部延迟最高改进11倍。
更关键的是,Token费用少了,从原本的数值降到了仅为原来的1.1缩小至4.4分之一左右,然而呢,任务的精确程度只是出现了大概2.5%这么一点点细微的起伏变化。这样明确彰显出,在性能方面有着大幅的提升,这提升可不是因为模型各种能力的强化,而是源自于协作这种机制的创新变革,这种创新变革精确无误地把传统办法里由于毫无意义的等待以及多余的计算所引发的巨大费用消磨殆尽了。
这项工作的深厚意义体现于此,它给多智能体系统给予了一个明晰的工程判断准则,一个系统是不是成熟,并非取决于它整合了多少花哨的推理技能,而是取决于它能不能确切回应“何时算作达成一致、何时能够安全停止、延迟由谁来决定”这三个关键问题。
若是没办法给出回应,那么系统便依旧处于“演示原型”阶段。唯有在系统拥有了能够进行验证、可以开展操作的共识语义之时,多智能体才能够切实从实验室迈向大规模生产部署,进而成为稳定可靠的下一代 AI 基础设施。不然的话,再繁杂的流程都仅仅是在低效的同步框架上堆砌算力罢了。
就未来AI应用的开发者来讲,当思索采用多智能体架构之际,你觉得除延迟与成本外,还有哪些关键的系统指标得优先去考量呢?敬请于评论区分享你的看法。