山寨币更新

凭借RAG技术实现LongMemEval基准测试80%准确率的突破

山寨币更新
Achieving SOTA LongMemEval scores (80%) with RAG alone

深入解析如何利用检索增强生成(RAG)技术优化长时间记忆表现,实现LongMemEval基准测试中80%的领先成绩,揭示技术细节及未来发展趋势。

随着人工智能特别是大语言模型的快速发展,长时间记忆能力成为衡量智能体表现的重要指标。长时间记忆意味着人工智能不仅能够处理即时的信息,还能跨越多个会话保持对历史细节的准确回忆。最近,Mastra团队在LongMemEval基准测试中,以单纯依赖RAG(检索增强生成)技术实现了80%的准确率,刷新了业界记录,并对其他同类厂商产生了深远影响。本文将全面解读这一里程碑成果背后的技术路线、挑战应对及启示。 LongMemEval基准测试是一项专门针对长时间记忆能力的综合考察,包含500个问题,每个问题配有大约50段独立对话。测试的关键点在于,一个或多个会话内能正确回答对应问题。

这个设计有效模拟了现实环境中智能体需要跨多个交流场景积累和回忆语义信息的需求。之前包括Zep在内的多个公司公布了他们的测试结果,其准确率均低于80%,甚至质疑RAG技术在代理记忆中的实用性。然而Mastra团队通过系统优优化和工具升级,成功推翻了这一偏见。 Mastra构建了两种主要的记忆机制:第一是工作记忆,这部分聚焦于追踪用户的基本信息,比如姓名、年龄和喜好;第二是语义回忆,基于RAG技术,将对话历史存储在向量数据库中,并以与用户查询相似的语义匹配进行检索。最初两者单独及组合运用的表现并不理想,工作记忆准确率仅约20%,语义回忆为65%,组合后为67%。针对这一结果,Mastra并未止步,而是积极调整和优化。

他们的重要突破之一在于采用定制化模板替代通用模板,这种做法模拟了开发者针对特定应用设计工作记忆提取策略。经过脚本自动生成针对不同问题类型的定制模板后,工作记忆性能提升至35%,组合策略达到更优的整体表现。接下来是对工作记忆更新机制的重大改进,以前简单粗暴地每次都完全替换存储内容容易导致信息丢失和混乱。新版本实现了更精细的更新API,允许追加、澄清甚至部分替换,最大限度保留相关信息。此举使工作记忆结合语义回忆准确率上涨至72%。 时序信息处理的不足也是限制准确率的一大瓶颈。

Mastra团队通过修正时间戳赋值,让模型正确识别信息的原始时间而非当前时间,同时将问题时间动态输入系统提示,大幅改善了时间推理能力,这一改进使整体准确率跃升到74%。此外,数据呈现格式同样经过重构,以便更好帮助模型理解信息间的日期和时间分布。对检索结果的信息进行分组并标明消息所属会话,在排行榜topK值调整至20时,准确率突破了80%。值得一提的是,提升准确率并未以牺牲查询延迟为代价。Mastra针对常见存储与向量数据库后端做了高效请求设计,保证响应速度与准确性的平衡。整个benchmark消耗高达八千美元,3.8亿条token的计算资源,但这也促使团队致力于降低执行成本,力求每次内存相关代码更新都可持续且经济地执行完整测试。

Mastra的研究向行业发出了强烈信号:RAG绝非被过早弃用的技术,其潜力巨大且不断可通过工程手段挖掘提升。未来,结合图检索(GraphRAG)、对话摘要乃至更加多样化的长时记忆类型将进一步完善智能体的记忆体系。所有基于严谨基准评测的优化,最终都将反馈于终端用户,带来更精准、更连贯的智能对话体验。同时Mastra也公开了基准执行框架源码,助力开发者亲自尝试和验证,培育了更开放的技术生态。 总结来看,长时间记忆作为人工智能发展的关键瓶颈之一,其解决方案的探索引领技术方向。Mastra凭借RAG技术和针对细节的系统优化,实现了LongMemEval基准测试中领先业界的80%准确率,彰显了检索增强生成技术巨大的应用潜力。

伴随技术不断迭代更新,未来AI的记忆能力必将更加丰富多样,赋能更智能的人机交互场景。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
Ask HN: Local Speech Transcription SwiftUI?
2025年10月27号 09点12分07秒 本地语音转录在SwiftUI中的实现探索与优化

深度剖析SwiftUI环境下本地语音转录的技术方案、常见挑战以及高效解决路径,助力开发者打造精准、流畅的语音识别体验。本文围绕最新的技术工具、框架对比与实践技巧展开,适合追求本地处理性能与隐私保护的iOS开发者。

Lizard: An Efficient Linearization Framework for Large Language Models
2025年10月27号 09点12分47秒 Lizard框架:突破大型语言模型效率瓶颈的创新线性化方案

探讨Lizard框架如何通过亚二次复杂度的注意力机制和自适应记忆控制,显著提升大型语言模型在长序列推理中的计算效率与性能表现。

Ask HN: What Pocket alternatives did you move in to?
2025年10月27号 09点13分37秒 Pocket 下线后的最佳替代方案全面解析

深入探讨多款适合替代 Pocket 的阅读保存工具,涵盖自托管方案、跨平台应用及功能特色,助力用户实现无缝过渡与高效内容管理。

How Go 1.24 Swiss Tables saved us hundreds of gigabytes
2025年10月27号 09点14分38秒 Go 1.24引入Swiss Tables技术,助力节省数百GB内存

深入解析Go 1.24版本中Swiss Tables新一代哈希表结构如何显著降低内存使用,提升大规模Go应用的性能和效率,并结合实际案例探讨改进带来的成本节约与运维优化策略。

Top AI Companies Have 'Unacceptable' Risk Management, Studies Say
2025年10月27号 09点16分09秒 顶尖人工智能公司面临“不可接受”的风险管理挑战,研究揭示安全隐患

近年来,人工智能技术迅猛发展,但最新研究显示,顶尖AI公司在风险管理方面存在显著不足,安全隐患引发业界广泛关注。本文深入分析了主要AI企业的风险管理现状,探讨未来AI安全的迫切需求和发展方向。

Exclusive: Crypto infrastructure giant Talos acquires Coin Metrics for more than $100 million
2025年10月27号 09点19分15秒 加密基础设施巨头Talos以超一亿美元收购Coin Metrics,推动数字资产数据服务新纪元

随着加密行业的不断发展,基础设施和数据服务的重要性日益凸显。纽约的数字资产交易基础设施开发商Talos以超过一亿美元收购区块链数据提供商Coin Metrics,标志着机构数字资产交易和管理领域的整合深入。该交易旨在为机构客户打造一站式服务,提升加密金融的技术和数据能力。

Bark receives second noncompliance warning from NYSE in less than 2 years
2025年10月27号 09点20分34秒 宠物电商巨头Bark面临纽约证券交易所连续第二次合规警告的深度解析

在线宠物产品及服务公司Bark在不到两年的时间内第二次收到纽约证券交易所(NYSE)关于股票持续上市要求不合规的警告,本文深入探讨了Bark当前面临的市场挑战、财务状况及未来可能的应对策略。