随着人工智能技术的快速发展,信息检索系统在众多应用场景中扮演着核心角色。传统的软件系统评估方法通常依赖于确定性的逻辑规则,即给定固定输入,系统能够输出可预测且可重复的结果。然而,AI系统尤其是基于大规模语言模型(LLM)和嵌入式技术的检索系统产生的是概率性的、带有不确定性的结果,其评估过程往往具有强烈的上下文依赖性且带有主观色彩。因而,简单的单元测试已无法满足现代检索系统的全面衡量需求,这使得基准测试(Benchmarking)成为评价系统性能的必然选择。传统公开基准虽然为模型性能提供了统一的对比标准,但仍存在多方面瓶颈。它们通常基于经过人工润色的、过于"干净"的数据集,缺乏真实用户查询中常见的模糊性与歧义性。
此外,大多数公开基准的数据集早已被当前主流的嵌入模型在训练阶段使用过,导致模型在这些数据上的表现可能因"记忆效应"而偏高,进而不能准确反映其实际应用场景中的表现。针对这些痛点,Chroma技术团队提出了创新的生成式基准测试方法,旨在提高基准测试的代表性与真实性。该方法以用户生产环境中的真实文档数据作为基准,通过智能过滤机制筛选出高质量、具有代表性的文档,再利用定制化的大语言模型生成与真实用户查询风格高度一致的查询集。不同于传统基准依赖固定查询,生成式基准能够根据目标应用的具体文档库和使用场景产生独一无二的测试查询,显著降低了模型因见过训练集而带来的偏差问题。这一过程首先通过一个对齐的大语言模型评判器(LLM Judge)实施文档筛选,确保只有满足相关性、完整性和用户意图三大原则的文档才会进入后续的查询生成环节。随后,查询生成不仅依赖于目标文档的内容,同时辅以示例查询作为引导,促使生成的查询在语气、风格及表达方式上更贴合真实用户的提问习惯。
Chroma团队的研究中还专门针对主流公开数据集进行了实验验证,发现仅凭简单提示生成的查询往往会高度重复甚至逐字复制训练集中已有查询,体现出大语言模型的显著记忆偏差。为此,通过引入示例查询作为负样本的差异化生成策略,有效产生了与已有查询明确不同但同样具有代表性的查询文本。这些新查询在多种评分指标如召回率(Recall@k)和归一化折扣累计增益(NDCG@k)上的表现均与真实查询高度吻合,且能稳定反映不同嵌入模型间的排序差异,彰显了方法的实际价值。更为重要的是,生成式基准测试被应用于Weigths and Biases(WandB)技术支持机器人真实生产数据中,体现出与传统公开基准不可比拟的优势。在WandB案例里,经过严格的文档筛选和高级查询引导生成的合成查询不仅在抽取信息的相关性上显著优于简易生成查询,还在反映真实用户行为及需求方面表现突出。模型评估结果显示,有些在传统公开基准中表现较好的嵌入模型,在生产数据的生成式基准测试中排名有所变动,这进一步证实了公开基准与现实应用之间性能差异的存在。
该技术报告还重点指出了当前的方法限制及未来方向。例如现阶段生成式基准测试的实证数据仍较有限,主要聚焦单一行业案例,未来亟需拓展到更多行业和多样化数据类型以增强适应性。此外,部分查询在生产环境中无法完美匹配相关文档,提出了对查询无匹配场景的度量与处理机制开发需求。同时,文档质量参差不齐也带来了挑战,未来可通过自动化清洗、语境补充等途径提高语料库的整体质量。Chroma的开源代码库为开发者和研究人员提供了全面的工具支持,使得用户可以基于自身文档数据自助构建生成式基准测试,极大促进基准测试向定制化、高精准方向发展。这不仅推动了检索模型在真实场景下的可靠评测,也对AI系统的持续优化及用户体验提升产生深远影响。
综上所述,生成式基准测试代表了信息检索领域评价标准的一次重要革新。通过从根本上解决传统基准测试所面临的数据同质化、内存偏见及与实际业务脱节等瓶颈,Chroma团队的方法展现了更贴近真实用户行为和数据分布的评估能力。未来,随着更多行业数据的应用和技术迭代,生成式基准势必成为评测AI检索及生成系统的主流方案,为智能信息访问开启更具广度与深度的新时代。 。