随着人工智能特别是大语言模型的快速发展,长时间记忆能力成为衡量智能体表现的重要指标。长时间记忆意味着人工智能不仅能够处理即时的信息,还能跨越多个会话保持对历史细节的准确回忆。最近,Mastra团队在LongMemEval基准测试中,以单纯依赖RAG(检索增强生成)技术实现了80%的准确率,刷新了业界记录,并对其他同类厂商产生了深远影响。本文将全面解读这一里程碑成果背后的技术路线、挑战应对及启示。 LongMemEval基准测试是一项专门针对长时间记忆能力的综合考察,包含500个问题,每个问题配有大约50段独立对话。测试的关键点在于,一个或多个会话内能正确回答对应问题。
这个设计有效模拟了现实环境中智能体需要跨多个交流场景积累和回忆语义信息的需求。之前包括Zep在内的多个公司公布了他们的测试结果,其准确率均低于80%,甚至质疑RAG技术在代理记忆中的实用性。然而Mastra团队通过系统优优化和工具升级,成功推翻了这一偏见。 Mastra构建了两种主要的记忆机制:第一是工作记忆,这部分聚焦于追踪用户的基本信息,比如姓名、年龄和喜好;第二是语义回忆,基于RAG技术,将对话历史存储在向量数据库中,并以与用户查询相似的语义匹配进行检索。最初两者单独及组合运用的表现并不理想,工作记忆准确率仅约20%,语义回忆为65%,组合后为67%。针对这一结果,Mastra并未止步,而是积极调整和优化。
他们的重要突破之一在于采用定制化模板替代通用模板,这种做法模拟了开发者针对特定应用设计工作记忆提取策略。经过脚本自动生成针对不同问题类型的定制模板后,工作记忆性能提升至35%,组合策略达到更优的整体表现。接下来是对工作记忆更新机制的重大改进,以前简单粗暴地每次都完全替换存储内容容易导致信息丢失和混乱。新版本实现了更精细的更新API,允许追加、澄清甚至部分替换,最大限度保留相关信息。此举使工作记忆结合语义回忆准确率上涨至72%。 时序信息处理的不足也是限制准确率的一大瓶颈。
Mastra团队通过修正时间戳赋值,让模型正确识别信息的原始时间而非当前时间,同时将问题时间动态输入系统提示,大幅改善了时间推理能力,这一改进使整体准确率跃升到74%。此外,数据呈现格式同样经过重构,以便更好帮助模型理解信息间的日期和时间分布。对检索结果的信息进行分组并标明消息所属会话,在排行榜topK值调整至20时,准确率突破了80%。值得一提的是,提升准确率并未以牺牲查询延迟为代价。Mastra针对常见存储与向量数据库后端做了高效请求设计,保证响应速度与准确性的平衡。整个benchmark消耗高达八千美元,3.8亿条token的计算资源,但这也促使团队致力于降低执行成本,力求每次内存相关代码更新都可持续且经济地执行完整测试。
Mastra的研究向行业发出了强烈信号:RAG绝非被过早弃用的技术,其潜力巨大且不断可通过工程手段挖掘提升。未来,结合图检索(GraphRAG)、对话摘要乃至更加多样化的长时记忆类型将进一步完善智能体的记忆体系。所有基于严谨基准评测的优化,最终都将反馈于终端用户,带来更精准、更连贯的智能对话体验。同时Mastra也公开了基准执行框架源码,助力开发者亲自尝试和验证,培育了更开放的技术生态。 总结来看,长时间记忆作为人工智能发展的关键瓶颈之一,其解决方案的探索引领技术方向。Mastra凭借RAG技术和针对细节的系统优化,实现了LongMemEval基准测试中领先业界的80%准确率,彰显了检索增强生成技术巨大的应用潜力。
伴随技术不断迭代更新,未来AI的记忆能力必将更加丰富多样,赋能更智能的人机交互场景。