AI大模型挑战传统命理选择题,结果出乎意料
把当前最先进的通用大模型,放在中国传统术数专业选择题(四选一)面前,会发生什么?结果有点意外,这些模型在这套几乎没有信息泄漏的最新比赛选择题上,准确率清一色徘徊在23%到40%之间。注意,四选一选择题的随机猜测线就是25%。
大模型集体翻车,准确率只比蒙题强一丁点
把当下最先进的通用大模型置于中国传统术数专业选择题跟前, 结果令人大跌眼镜。研究团队依据一场有3069名选手参与的术数大赛官方题库, 对当下主流大模型进行了测试。在几乎没有信息泄漏的最新比赛题方面, 这些模型的准确率均徘徊在23%至40%之间。要晓得, 四选一选择题的随机猜测线是25%, 这表明有些模型的表现连瞎蒙都不如。
已对通用模型做出让步的研究团队, 提供了预计算盘面数据的所有基线模型, 为避免引入计算幻觉而直接考察推理能力。但是结果依旧不理想, 在X上获得百万关注的技术报告和测试结果表明此类现象确实引发了广泛讨论。
智能体Agent上场,准确率逼近人类高手
为验证模型能力是不是能够来支撑专业术数推理, 研发团队打造一套Agent系统, 专门针对中国传统术数领域去研发工程体系呀 , 这套系统有200多个原子工具 , 有3大流派规则函数库 , 有多Sub Agent协作 , 还有一套贯穿全链路的置信度量化机制哟 , 最终 , Agent的截尾准确率达到50% , 逼近本届赛事人类Top 20选手的平均水平53.5%呢。
这个结果表明, 通用模型自身在专业领域的推理能力存在局限, 不过借助精心设计的工程系统, 能够极大地提高表现。测试案例运用了马斯克命盘, 然而1971年12月30日并非其实际生日, 由于他出生于南半球, 所以需要进行节气转换。
工具太多选不对,四级可见性控制来解决
数量为十几个的工具对于通用Agent而言是足够的, 然而术数领域相应地却需要200多个工具。由此所产生的首个工程问题并非能否写出相应内容, 而是模型没有选对。一旦工具数量超出了模型的可靠选择阈值, 那么工具管理自身就成为了一个独立的工程问题。
研究队伍依照“LLM可理解性”以及“可穷举性”这两个层面, 把工具划分成四级。不一样的推理阶段, 不一样的Sub – Agent所看到的工具集合不一样, 以此防止选项过多引发的选择退化。这一整套机制的关键所在是动态把控工具的可见范围, 该种思路对于其他垂直领域的Agent开发具备重要的参考意义。
繁杂规则不再死记硬背,封装成函数更可靠
经常会有通用 Agent 将相关法规写入提示词或者 Few — shot 示例当中, 从本质上来说, 这是要让模型去记住并且遵循。然而, 术数这个领域里的规则是繁杂多样的, 单单子平母法这一项就超过了一百条, 其适用条件彼此之间具备相互耦合的情况, 而且不同流派之间还存在着矛盾之处。依靠记忆来进行遵循所造成的直接后果便是出现选择性忽略, 进而导致推理路径变得不可控。
Agent的做法是, 将每一条复杂规则, 封装成一个带元数据的可调用函数, 人类专家预先对适用场景、时间跨度、事件类型、优先级进行标注, 函数内部能够再调用LLM, 输入盘面状态后返回结论和置信度, 这等于把LLM从记规则的考生变成了调规则的工程师, 规则不再是提示词里需要模型自觉遵守的文字, 而是有明确签名和触发条件的工程构件。
没有单元测试,三层不确定性量化来兜底
编码Agent存在着这样一个天然优势, 那就是有着测试作为验证手段的保障, 如果写完代码后运行测试, 一旦通过, 则会接收到正反馈, 要是失败了, 便会出现明确的报错信息。然而在术数领域, 或者可以这么说, 在绝大多数专业领域, 都不存在能够实现所谓单元测试的这样一种条件。
Agent所采用的方案是把不确定性量化予以引入, 于三个层面给出关于置信度的评估, 尽管这并非是那种能够替代自动验证的方案, 然而在缺少验证手段的领域当中, 清楚知晓自身究竟有多么不确定这件事本身就是具备价值的信息, 这为上层的决策提供了量化方面的参考, 而不是把所有的结论以同等权重进行堆砌。
垂直领域Agent落地的工程启示
领域之中, 规则密集且语料稀缺之处, 工具化范式所获收益为最大。通用领域的模型, 已在海量语料内将规则予以内化, 工具环境不过是锦上添花之举。然而在训练数据极少的垂直领域里, 工具环境直接对模型的知识盲区加以弥补, Agent比最强通用模型高出10个百分点便是例证。
膨胀后成为独立工程问题的工具数量, 其管理方式值得借鉴四级分类加动态注入的思路。在缺乏自动验证的领域之中, 不确定性量化属于务实的次优方案。将规则从提示词搬进函数里, 此乃解决模型长上下文选择性失忆的直接手段。某种程度上, Agent证明了这条路并非仅属于编程, 在足够结构化的垂直领域当中, 该范式或许同样能够成立。
平时你会借助AI来做专业领域的判断吗, 像是那医疗方面、法律区段或者风水命理范畴? 欢迎于评论区去分享你的使用体验, 点赞并转发以便让更多人瞧见这个有趣的研究!