新闻资讯

首个评估AI Clone长期记忆能力基准测试CloneMem发布

更新时间:2026-01-24 09:47

Clone长期记忆能力的基准测试,并提供了中英文双语版本。现有AI记忆评测主要考察模型能否记住用户与AI之间说过的话。CloneMem与现有记忆评测基准对比Retriever、A-MEM和Mem0三种记忆系统进行了评估,结果却有些出人意料。

怎样去使得AI切实地领会一个人呢?重点之处在于它的那种“记忆”方式。当下存在的方法中的大多数都被限定在了记住对话的片段上面,然而却不容易去还原人生整个的演变轨迹。

记忆评测的局限

当前,大多数对于AI的记忆测试,仅仅是去查看模型是不是能够将用户讲过的话语重新呈现出来。这样的数据源种类可谓是单一,一般情况下仅仅是依赖于聊天的纪录。用户自愿主动阐述诉说的内容其自身都已经是经过了挑选以及加工处理的,非常艰难地察觉到真实的生活的全部面貌。这种类型的测试更加类似于知识的问答,替代地是关于对一个人的深入的理解 。

# 将这些字符逐一罗列,分别是#,e,冒号,8,冒号,1,冒号,0,冒号,0,冒号,0,冒号,5,冒号,d,冒号,1,冒号,7,冒号,4,冒号。

更为关键之处在于,测试重心在于“记住事实”,并非“理解变化”,比如,它有可能记得你厌恶某样食物,然而却没办法理解这种厌恶之感是怎样伴随几次不愉快的就餐经历而一步步深切起来的,忽视情感演变以及选择背后的因果关联,便无法塑造鲜活的人格画像。

#2,b占为,1、2,f、a,5以及,0、f,9、5里面,1、d,2、2,a、0上,3、d,3、4,b、3和这里面,9、4,e、f,4、。

构建合成人生

研究者为突破真实用户数据不足以及隐私方面的限制,采用了一种层次化框架用以生成虚拟人生,在宏观局面,依据人格理论对人物进行初始化,设定其职业发展情况,设定其家庭关系状况,设定其长期价值观,而这营造出了一条连贯的人生主线 。

处于中观层面时,会对人生重大事件加以分解,使之成为多个阶段。并且,要维护动态的内部状态,像是情绪能量以及压力水平。这些状态会在不同阶段之间进行传递,从而确保人物反应具备连贯性。在微观层面,要为每个阶段填充具体事件,同时同步生成日记、社交帖子等多样化记录。

设计评测任务

在#符号之后,先是3,接着是9,然后是5,再然后是1,随后是8,之后是6,再之后是0,接着是d,然后是6,之后是5,再之后是d,随后是4,之后是5,再之后是5,接着。

评测任务所要覆盖的应当是真实的理解相关需要,针对于此,研究特意设计了七种问题类型,这其中不但涵盖了事实的相关回忆,更加着重强调规律的识别,变化的对比以及长期轨迹的理解,就比如说,会要求AI去分析某一个人的职业偏好,在十年的时间范围之内所发生的转变,以及产生这种转变的原因 。

鉴于开放式问答具有较高难度,所以为每一项任务设置了选择题版本,以此来降低评估的门槛。这些问题并非聚焦于某一个特定的时间点,而是分散于绵延数年的时间线上,使得模型不得不从数量庞大、来源多样的记录里边去搜寻线索,进而建立起联系 。

实验结果的反直觉发现

几种主流记忆系统被研究团队进行了评估,结果是出人意料的,在需要检索具体细节的任务当中,简单的基于向量检索的“扁平化”方法表现得反而更佳,它能够快速定位到包含关键信息的原始文本片段 。

可是,那些尝试着针对记忆去做摘要以及压缩的复杂系统,尽管能够概括出大致的意思,然而却总是遗失起到决定性作用的细节,还有精确的时间脉络,这样的信息损耗,在那些需要深度理解的任务里,造成了显著的偏差。

压缩与还原的权衡

不少AI记忆系统着力于把冗长的对话压缩成简单的要点,用来节省存储以及计算成本。可是,理解一个人的内心世界常常依赖于那些看似琐碎的细节还有原始的措辞。摘要过程有可能过滤掉体现微妙情绪或者意图的关键信息。

这段内容看起来像是一串代码或数据,它按照特定的顺序排列,包含多个不同位数的数字和字母组合,其中有数字3、6、0、1、5、8、2、7、b、e、a等,它们以一种特定的方式依次排列成这样一串字符,。

发生在实验情形里的其中一个实例为,当面对着一大堆求职记录时,摘要系统作出的推断是人物“对几家公司予以了看重”,然而实际的情况却是人物正处于摇摆不定、拿不定主意的状态。摘要把“尚未做出决定”这样一个关键事实给遗漏掉了,进而致使了错误的解读。

面向未来的记忆系统

要是 AI 记忆达到理想状态,其目标可不是仅仅高效存储就行,而是得精准还原。它得构建一个能保留完整证据链的底座,可不是一个压得越小越好的知识库。这就表明该系统得有存留细节的能力,还得理清事件之间的时间以及逻辑关系。

未来的趋向或许是推进“无损”或者“高保真”的记忆架构营造,于确保效率之际,尽可能留存原始信息的充裕程度。唯其如此,AI方可依据连贯的、未被歪曲的生活记载,切实领会一个人是怎样被经历所塑造,且一步步迈向如今这般状态的。

你觉得,一个实实在在“懂你”的人工智能助手,是应当记住你讲出的每一句话,还是要理解你每句话靠后的那份情绪以及背后的故事?欢迎去分享你内心的看法,如果感觉这篇文章能给你带来启示的话,请点击点赞给予支持。

#b冒号3冒号0冒号f冒号7冒号1冒号6冒号7冒号6冒号f冒号b冒号1冒号b冒号5冒号6冒号4冒号e冒号2冒号c冒号b冒号6冒号9。