Airbnb作为全球领先的短租平台,承载着数百万用户寻找理想住宿的使命。面对海量房源和多样化的用户查询,如何在极短时间内快速而准确地呈现匹配度最高的住宿成为平台亟需破解的难题。近年来,Airbnb通过引入嵌入式检索(Embedding-Based Retrieval, EBR)技术,实现了搜索系统的重要升级,令用户体验和订房转化率均得到了显著提升。嵌入式检索能够将复杂的查询意图和房源属性映射为可比对的向量,从而在庞大的数据海洋中高效筛选出最合适的候选集,既满足了精准性,也兼顾了效率和规模扩展性。本文全面梳理Airbnb在EBR搜索系统构建过程中的关键环节,揭示其技术创新与工程实践。首先,训练数据的构建是系统成功的基石。
Airbnb采用对比学习方法,基于用户实际的多阶段出行行为将搜索查询与对应房源映射为数值向量。通过深度分析用户从搜索到最终订房的完整路径,平台提取出正负样本对。特别地,正样本为用户最后预订的房源,负样本则精选用户曾经浏览但未订的房源,包括用户添加到心愿单但未最终购买的选项。此种选样策略避免了简单随机负采样带来的训练困难太低问题,提升了模型区分相似但不合适房源的能力。随后,模型架构采用经典的双塔(two-tower)网络设计,一边专注于处理房源特征,包含历史互动数据、设施信息及容量等,另一边则针对搜索请求的特征进行编码,如地理位置、入住人数和停留时长等。该设计使得房源向量可以离线每日批量预计算,极大地降低了线上实时计算的延迟,将实时负载集中于查询编码部分,从架构层面保障系统的实时响应能力及规模扩展。
在线检索环节,Airbnb针对大规模快速更新的房源数据选择了近似最近邻搜索(ANN)的策略。在对比多种候选方案后,最终采用了倒排文件索引(Inverted File Index,IVF)结构,实现对房源向量的高效组织与查询。IVF通过对房源向量进行聚类处理,将查询向量快速定位到最近的聚类中心,从而缩小检索范围,提高搜索速度。同时,IVF的设计天然支持丰富的搜索过滤器,尤其是地理位置约束,使得筛选与近邻搜索完美结合,克服了其他ANN方法在处理大规模实时更新和复杂过滤条件下的性能瓶颈。值得一提的是,Airbnb的工程师们发现不同的相似度度量对聚类均衡性有深远影响。在实验中,欧氏距离较点积相似度表现出更均匀的聚类大小分布,显著提升了IVF整体的检索表现。
原因在于点积相似度主要关注向量方向,忽视了基于历史计数等特征的向量幅值信息,而欧氏距离能够更好体现特征的全面性。通过这种针对相似度度量的深入优化,系统稳定性和搜索质量得到了进一步保障。整体来看,Airbnb的EBR系统不仅在技术细节上实现了突破,更在业务层面带来了实质性的价值——A/B测试结果显示,新检索技术推动了整体预订量的显著提升,其效果堪比近几年中机器学习排序模型的最大改进之一。基于查询上下文的准确理解和多层次特征融合,系统能够在搜索初期就筛选出更符合用户需求的候选房源,降低后续排序模型的负担,同时也提升了用户满意度和转化率。展望未来,Airbnb将持续深化EBR技术的应用,结合更多动态用户信号与实时数据,打造更加智能和个性化的搜索体验。技术团队也将继续探索更高效的索引结构与增强的模型训练方法,以应对不断增长的搜索规模和多样化的客户需求。
通过开放分享这些技术积累,Airbnb不仅提升了自身的竞争力,也为全球在线住宿行业树立了创新范式。总结而言,嵌入式检索技术的引入推动了Airbnb搜索系统的质变。它突破性地融合了用户行为洞察与先进机器学习架构,有效解决了海量数据环境下的实时候选检索挑战。无论是从数据构建、模型设计还是在线服务实现,毫无疑问EBR已成为未来搜索系统的重要发展方向,为其他在线平台提供了宝贵的借鉴经验。随着技术持续演进,基于嵌入式向量的检索将进一步挖掘个性化潜力,实现从查找信息到主动推荐的转变,真正实现“让你在任何地方都有归属感”的美好愿景。