在过去三年里,检索增强生成(RAG)一度成为将大型语言模型(LLM)与海量知识库连接的事实标准。从切片化文档、生成嵌入向量、建立向量库、到混合BM25语义检索与重排器,RAG 在很多应用场景拯救了因上下文窗口受限而无法直接读取整本书或整套财报的尴尬。然而,随着上下文窗口的迅速扩展和代理式搜索(agentic search)模式的成熟,RAG 的优势正在被侵蚀,甚至面临被边缘化的风险。要理解这一变迁,需要回到RAG 最初为什么诞生以及它的结构性缺陷。RAG 的出发点是现实的折中:当模型一次只能读几千到几万标记时,必须先把文档切分成小块(chunk),对每个块做嵌入,然后在查询时检索最相关的块,把这些块拼接进上下文让模型推理。这一流程让模型能够"看见"超出其原生上下文窗口的大量信息,但也带来了若干不可忽视的问题。
首先,碎片化破坏了文档内在的结构化关系。尤其是财务报表、法律合同和科研论文等长文档,信息并非独立散落,而是通过注释、表格、交叉引用和时序关系紧密相连。粗暴切片会把关键语句与其支撑数据、注释或表格拆散,导致检索到的片段往往缺乏完整语境,从而增加生成错误或遗漏关键信息的风险。其次,嵌入向量在处理精确数值、专有术语和表格数据时表现欠佳。向量语义能捕捉概念相似性,但对"$45.2M"和"45,200,000"之类的细粒度差异敏感度不够,金融和法律场景对精确性和可追溯性的要求意味着语义近似往往不足以替代精确文本匹配。再次,RAG 常常需要复杂的混合检索与重排序器来弥补单一策略的短板。
BM25 提供了对精确关键词的保障,语义检索则捕捉同义替换。把两者结合需要精细的权重设定、归一化与融合算法(例如互惠排名融合 RRF),并常常依赖专门的重排模型对数百个候选片段重新排序。这一叠加步骤不仅增加延迟,还显著提高成本并引入更多故障点。更严重的是,RAG 的端到端可靠性在多阶段流水线中逐级衰减:任何一个阶段的小错误都会放大,最终影响回答的完整性与准确性。在工程维度,维持大规模向量数据库与搜索集群并非易事。索引重建、分片策略、缓存命中、RAM 与 I/O 调优都需要持续投入。
对于需要实时或近实时可搜索性的场景,索引延迟成为瓶颈;对于频繁变化的语料,重新嵌入与重建索引又带来了可观的运维开销。正是在这种背景下,代理式搜索逐渐走到台前。代理式搜索并非新概念,但近年来上下文窗口爆炸式增长与模型推理能力的提升,使得代理能以更人性化、更像分析师的方式"阅读"并导航海量文档,而无需依赖传统的向量检索流水线。一类典型实现来自对代码库的处理工具。与文本档案不同,代码文件结构化程度高、引用明确,传统的做法是为文件建立索引并做语义搜索。然而,工具链中流行的快速文本搜索(如 ripgrep)表现出不依赖索引的实时检索能力:基于文件系统的正则搜索能直接返回精确匹配,并能基于文件路径、修改时间等元数据筛选结果。
更重要的是,代理可以在发现线索后自动执行多步调查:从关键术语追踪到相关注释,再跳转到引用行,逐步构建事实链。这样的导航行为模仿人类分析师追查证据的过程,能在不丢失上下文的情况下完成复杂查询。将这种思路应用到长文档领域,代理式方法的优势变得更加明显。以公司年报为例:传统RAG 会把年报切成若干片段并对片段做相似度检索;代理可以直接加载整份报告或其关键章节,依照文档的层级结构智能跳转"查看注释12",随后自动打开脚注、相关历史季度报告及后续事件披露,最终把多个文档的信息整合回推理链。随着模型上下文能力扩展到几十万甚至上百万标记,这样的"整文读取+导航"变得可行且高效。上下文窗口扩展带来的另一个根本性改变是对检索策略的优先级重排序。
过去检索是通向理解的必经之路;未来理解更像是建立在全量或近全量可见语料之上的即时导航。检索不再是为模型提供有限片段的唯一手段,而成为代理的一种辅助工具:快速定位潜在相关文档,然后由模型在完整语境中做深度分析。尽管代理式搜索带来了许多优点,但也并非对所有场景都是万能钥匙。有些现场仍然需要RAG 的轻量化特性。对延迟极为敏感且语料规模巨大的场景,在当前上下文窗口尚未覆盖全部语料时,向量检索仍能提供成本与响应时间上的折衷。对于需要跨域语义召回、概念扩展或模糊查询的场景,语义嵌入的能力依然有价值。
此外,代理式方法的可靠性高度依赖于LLM 的长期稳定性与对长文本一致性的保留能力。如果大上下文环境下的模型在保持注意力和推理一致性方面尚未完全成熟,代理也可能出现遗漏或逻辑跳跃。因此,现实世界的路径更可能是混合而非单边取代。工程上可行的策略是把RAG 和代理式导航作为工具箱中的不同工具,根据任务需求灵活选用。对某些任务保留轻量的向量检索层以实现广域检索与候选筛选,同时把代理作为深入分析和跨文档推理的最终执行者。具体实践中可以考虑以下思路以平衡成本与精度。
优先把结构化表格、财务数字和关键元数据保留为独立可查询实体,避免通过语义嵌入把表格内容语义化而丢失精度。把表格和关键数值暴露给代理做精确计算与比较。构建更智能的chunk 策略,基于文档的内部语法和语义边界切分,尽量把注释、表头与表体、上下文段落保持连贯。为代理设计"探索策略"与"回溯机制",使其在遇到引用或矛盾信息时自动回溯并核实原始来源。用混合检索作为代理的初筛工具,利用BM25 处理术语精确匹配、用语义检索处理概念扩展,再由代理加载候选文档的完整上下文进行深度分析。把重排器的角色弱化为排序建议而不是最终裁决;让代理在必要时能够超越重排器的结论并直接在全文中追踪证据链。
尽管代理模式和大上下文看起来像是RAG 的"致命一击",但我们也应当认识到技术迁移并非一蹴而就。现有的RAG 基础设施、已训练的嵌入模型与向量数据库在短期内仍然具有沉没成本和实际价值。更实际的路线是渐进式迁移:先把系统改造为"RAG + 代理协同"架构,再逐步把更多分析任务交给代理,最终在模型上下文能力成熟且推理稳定时,转向以代理为核心的端到端阅读与推理平台。对组织与产品经理来说,关键的考量不是简单地废弃RAG,而是识别哪些场景适合代理优先、哪些场景继续采用向量化检索、以及如何平滑切换。技术上要关注几个指标:查询端到端延迟、检索精确度与召回率、生成结果的可验证性、以及系统运维成本。商业上要评估用户对解释性与数据可溯源性的需求,因为在合规与审计场景下,能够明确指出证据来源比表面上的自然语言流畅性更重要。
总体来看,检索增强生成并不会在一夜之间消失,但它的角色正在发生变化。从原先的中心化架构走向工具化支持,成为代理化搜索生态中的一个模块。真正的赢家将是那些能够将代理策略、结构化数据处理与现有检索技术有机结合的团队。未来的搜索与知识工作场景里,重要的不是谁拥有最大规模的向量库,而是谁能让模型像专家一样在海量文本中追踪线索、建立因果链并给出可验证的结论。对于开发者和决策者而言,现在是重新审视信息检索架构的时刻:把眼光从短期的向量性能优化转向长期的可解释性、可维护性和代理协同能力。只有这样,面对日趋复杂的文档世界与不断扩大的上下文窗口,系统才能在精度、成本与吞吐量之间找到新的平衡点。
。