2025年,人工智能技术的进步依然备受关注,尤其是检索增强生成(Retrieval-Augmented Generation,简称RAG)技术的发展经历了一个耐人寻味的转折点。自年初DeepSeek引领起新一波热潮后,随着激动人心的新突破逐渐减少,行业内外开始意识到RAG似乎进入了一个相对停滞和渐进式演化的阶段。RAG作为连接传统信息检索与现代生成式人工智能的桥梁,近年来一直是研究和应用的热点,但2025年中期的现状却显示,尽管相关学术论文仍旧频繁发表,实质性技术突破却不多,RAG的发展正处于一个需要深刻反思和重新定位的关键节点。近年来围绕RAG的技术争论颇多,从2023年的微调模式到2024年的长上下文争议,这些辩论推动了RAG不断完善。然而进入2025年,话题焦点逐渐从RAG转向了智能代理系统(Agent),市场也开始炒作“Agent取代RAG”的论调。作为领域的从业者,我们明显看到这种说法更多是出于营销目的,甚至误导了部分非专业人士。
部分企业和研究机构也开始将RAG冠以“Agentic RAG”标签,配合一些夸大的市场预期,声称新范式将超越传统RAG技术的实力。此时,澄清概念并深入分析两者关系显得尤为必要。RAGFlow团队提供的重要视角是,将“Agent”视为工作流(Workflow)与智能代理的集合体,其当前版本中的Agent功能主要基于工作流,但尚未达到完全代理能力,而非将二者割裂处理,保持了一体化设计思路。这种思路反映了RAG与Agent的深度耦合,特别是在推理能力和记忆机制层面。推理是RAG迈向智能化的核心难点之一。RAGFlow及相关研究通过引入人工或模型驱动的反思循环(Reflective Loop),使得Agent能够克服模糊意图和长上下文理解等问题。
反思不仅是提升推理质量的关键,也是衡量智能系统进化的重要标志。知识推理框架中,过去的Self-RAG、RAPTOR和Adaptive-RAG等方法被视为预定义推理,实际上属于工作流驱动的反思实现;而以模型自主驱动反思为特点的Agentic方法,则通过提示或训练依赖的机制优化域内链式思考(CoT)和反思终止条件。这种分类帮助明确了各类技术路径的定位和潜力,同时指出并非所有新兴方法在本质上优于传统工作流驱动的RAG。记忆系统构建则是RAG价值体现的另一核心。RAG不仅承担着构建Agent长时记忆的角色,还通过丰富的索引、遗忘机制和信息整合,协助Agent实现状态追踪和上下文加速,形成完整的记忆架构。长短期记忆的紧密配合,使Agent从单步直觉推断转向多轮观察和反思,这一转变极大提升了智能水平。
虽然2025年被称为“Agent之年”,多种Agent应用层出不穷,但核心框架的创新相对有限。其成长更多依赖于大语言模型(LLM)中上下文学习能力的提升、工具生态系统的完善及多Agent系统的概念推广。Agent对RAG的依赖极高,二者密不可分,RAG成为构建记忆的基石,这在OpenAI收购Rockset后对RAG的强化投资以及其对Supabase支持Agent工具及记忆管理的投入中得以体现。记忆在Agent内被划分为上下文记忆和参数记忆两大类,前者强调通过存储元数据和上下文管理实现状态化和个性化的长期追踪,后者则涉及和LLM inference紧密相关的KV缓存机制。当前主流观点认为,没有强大RAG支持的记忆是不完整和不可持续的。技术挑战方面,RAG面临着长上下文推理、异构数据的存储膨胀以及底层基础设施性能瓶颈等问题。
查询多样性问题仍未解决,虽然诸如GraphRAG、Contextual Retrieval、RAPTOR和基于标签库自动化的RAGFlow方法已做出尝试,但复杂查询的精准跨文档、多层次理解仍有待攻克。原生结合KV缓存和数据库技术实现稀疏注意力机制的“Attention Engine”是近年来重要方向,旨在降低LLM推理成本,借助向量数据库在解码阶段快速载入相关信息以优化注意力计算,但此方案依赖深度引擎整合,主要适用于开源模型,且网络延迟、数据规模与长文档分析的限制依然存在。相比之下,传统RAG基于外部搜索的方案对大规模、长文档的精确挖掘占据优势,两者互补且不可替代。2025年,RAG在多模态数据处理上的进展未达预期。主要障碍来自于基础设施的缺乏支撑,例如向量数据库对张量(Tensor)数据本地支持有限,导致存储成本激增。实现有效的多模态RAG不仅需在数据库层面实现二进制量化、高效索引和重排序补偿,还需在模型层面优化多重表征学习和令牌合并以减少维度和向量数量。
虽然文本排序模型已有优化,综合处理多模态信息仍需大幅技术突破。综上所述,2025年上半年RAG技术虽无爆炸式革新,但与Agent技术的协同日益加强,RAG作为Agent体系中不可或缺的数据处理和记忆管理基础依旧凸显其独特价值。RAG的未来演进取决于基础设施与模型的协同进化。产业界需保持耐心,关注Attention Engine等新技术动向,同时深化对长文本推理和多模态索引的工程实践,推动技术渐进式突破。期待未来RAGFlow等领先工具持续推出结合推理、记忆、多模态支持的旗舰功能,助力智能系统迈向更高水平。