在现代电子商务和在线交易平台中,搜索功能一直被视为连接用户与商品的核心桥梁。OLX巴西作为南美领先的二手商品交易平台,深刻理解用户输入检索词时不仅仅是在打字,而是在表达自己的真实需求和意图。传统的词汇匹配搜索引擎在处理直白、明确的查询时表现出色,但面对概念性或抽象的请求,往往难以提供精准且相关的结果。2024年初,OLX巴西开始了一段技术革新之旅,通过引入混合搜索策略,结合语义搜索与传统词汇搜索,极大地提升了用户的搜索体验和交易效率。此次变革的起点源自一次内部黑客松活动,由工程师Daniel Araújo发起,实验性地使用OpenAI提供的词嵌入接口,试图将搜索引擎的理解能力提升至概念层面。这一尝试很快展现出强大的潜力,能够根据用户查询如“欧洲足球队球衣”这类语义含义进行内容匹配,即使广告标题中并未出现完全一致的关键词,也能返回相关的商品。
然而,面对新技术的应用,团队内部也存在质疑声音。产品经理Claudia Bozza虽然保留了谨慎态度,但依然选择赌上一把,支持这项技术的发展。事实证明她的判断是正确的。首个原型解决方案在短短两周内完成,设计为当传统词汇搜索无结果返回时自动降级调用语义搜索。尽管方法简单,效果却让团队充满信心,有效降低了“无结果”查询的比例。随着技术的逐步优化,OLX巴西决定逐渐脱离对OpenAI API的依赖,原因在于响应时延过高,无法满足实时搜索需求。
团队尝试Google的Gemini同样面临类似瓶颈,最终转向本地部署句子转换器(sentence-transformers)模型,实现向量生成的自主化和高效化。通过本地化的向量计算,系统具备了更强的扩展能力,可以灵活管理计算资源,减少依赖外部接口带来的潜在延迟。为何选择混合搜索而非完全的语义搜索?经过大量的实证研究,团队发现了纯语义搜索在多样性和时效性上的劣势。单纯依赖广告标题生成的嵌入向量,面对简短且通用的关键词如“IPhone”,搜索结果往往趋于重复,导致结果多样性极低。而随着更多广告字段如描述和地理位置被加入嵌入,结果多样性有所改善,但这牺牲了部分检索精度。在时效性方面,纯向量搜索因每个数据分片必须预设返回条数的限制,难以包含最新的商品信息,尤其是在热门商品类别中尤为明显。
这一局限对用户体验产生负面影响,因为用户更期待看到最近更新或发布的商品。若想扩大返回条目数量以覆盖更新信息,则系统负载与响应时延将大幅提升。经过反复的线下实验与参数调优,混合搜索策略被定位为兼顾排名精度、结果新鲜度与多样性的平衡方案。团队专门评估了超过40次的离线测试,从新鲜度、差异性到排名相关的精度指标(R-DCG)逐步完善搜索算法。关键技术点包括确定向量检索的返回数量、选择合适广告字段构建嵌入、选择最优嵌入模型、优化词汇搜索与语义搜索结果的融合排序逻辑、以及应用时间衰减函数保证搜索结果的时效性。这些精细的调整最终带来了显著的效果提升,新鲜度增加65%,多样性提升9%,整体排名精度指标提升0.72%。
将系统推向实际生产环境时,团队面临的最大挑战是搜索响应时间的增加。词汇搜索本身响应迅速,约80毫秒,而引入混合搜索后P95响应时间曾达到300毫秒以上,这不仅影响用户体验,也让大规模推广面临巨大基础设施成本压力。为了解决这一困境,团队采取了多项性能优化措施,包括向量量化技术、增加数据分片数量、升级ElasticSearch引擎、减少HNSW算法候选节点数、合并词汇搜索的索引字段,以及在GPU上生成向量嵌入等。通过这些持续的努力,混合搜索响应时间最终降至120毫秒左右,甚至优于部分同行企业。推广运行后的实验结果显示,引入混合搜索提升了用户与商品的互动数据:回复人数上涨3.7%,回复数量和点击率均提升4.3%,更显著的是“无结果”的查询率降低了94%。这些数据印证了语义理解对促进平台商业价值的积极作用。
然而,新的问题也随之而来。相较于纯词汇匹配模型,混合搜索会返回某些语义匹配但用户感知为不相关的结果,带来低精准度的主观体验投诉。这也反映了搜索引擎在准确表达语义理解与满足用户期望之间的微妙平衡。针对这些体验反馈,团队持续优化问题查询的调优方案,并探索如何通过视觉提示等设计引导用户理解语义搜索返回结果的特殊性。混合搜索走过了从试验、验证、优化到规模化的完整研发周期,它不仅是技术上的突破,也是OLX巴西产品战略的重要转折点。值得一提的是,混合搜索的背后凝聚着一支多学科团队的协作精神,除了核心开发人员,还得益于工程经理、产品经理和GPU向量计算专家的贡献。
尽管混合搜索因基础设施成本最终在生产环境中被暂时放弃,回归以Podium为代表的纯词汇模型,但这并不代表这一技术尝试的失败。相反,它为OLX巴西积累了宝贵的技术与经验资产,也洞察了未来搜索技术发展的必然趋势。市场上越来越多的领先企业在积极推动混合搜索和深度语义理解的落地,因为这不仅能提升搜索质量,更能减少依赖传统语言规则调整带来的维护成本。此外,混合搜索在小众分类和细分市场的助力尤为显著,即使这些类别的交易量不占整体主流,却深刻影响着个体卖家的经营成果。未来随着计算能力的提升和算法的精进,基于语义的搜索方式必将成为数字市场平台的核心竞争力之一。OLX巴西混合搜索的探索历程展现了技术创新与商业价值的结合,诠释了在快速变化的互联网环境中,拥抱新技术,平衡成本与效益的重要意义。
对用户而言,这意味着更智能、更贴合需求的搜索体验;对平台则是抓住市场机遇、优化资源配置的有力手段。回望这段历程,不仅是一场技术变革,更是一段关于团队信念与坚持的故事。它告诉我们,只有持续探索与不断优化,才有可能在竞争激烈的数字经济时代赢得先机。